Cloudflare Jelaskan Pemadaman yang Melumpuhkan ChatGPT dan Banyak Situs

JURNAL IT - Pemadaman besar yang melumpuhkan sebagian internet pada Selasa lalu, melumpuhkan layanan seperti ChatGPT, X (sebelumnya Twitter), hingga Downdetector akhirnya dijelaskan secara resmi oleh Cloudflare.

Matthew Prince, Co-founder sekaligus CEO Cloudflare, menyebut insiden tersebut sebagai pemadaman terburuk sejak 2019 dalam sebuah postingan blog yang merinci akar masalahnya.

Berbeda dengan dugaan publik, pemadaman ini bukan hasil serangan DDoS masif atau aksi peretasan. 

Justru, penyebab utamanya adalah kesalahan konfigurasi internal dalam sistem yang dirancang untuk membatasi lalu lintas bot.

Cloudflare yang menyatakan sekitar 20% lalu lintas web dunia mengalir melalui jaringannya, memiliki modul Bot Management yang menggunakan machine learning untuk menilai apakah suatu permintaan berasal dari bot atau manusia.

Masalah bermula dari perubahan perilaku query pada database ClickHouse, yang kemudian menimbulkan efek domino.

Rangkaian kesalahan teknis yang memicu pemadaman, berikut empat faktor menjadi penyebab utama:

  1. Sistem Bot Management, Cloudflare menggunakan model ML untuk memberikan bot score terhadap setiap permintaan yang melewati jaringan.
  2. Perubahan Query ClickHouse, perubahan dalam cara query diproses menyebabkan file konfigurasi untuk model bot dipenuhi baris duplikat.
  3. Batas Memori Terlampaui, file konfigurasi membengkak sangat cepat hingga melewati batas memori yang ditetapkan, memicu kegagalan modul.
  4. Sistem Proksi Inti Tumbang, ketika modul Bot Management gagal memproses file konfigurasi yang rusak tersebut, sistem proksi inti yang mengatur aliran lalu lintas ikut terhenti.

Akibatnya, perusahaan yang mengandalkan bot score dalam aturan firewall mereka menerima false positive dan secara tidak sengaja memblokir lalu lintas sah. 

Sementara itu, pelanggan yang tidak menggunakan modul bot tetap beroperasi normal.

Dalam lingkungan dengan performa ultra-tinggi, penyimpangan milidetik saja dapat memutus rantai pemrosesan. 

Insiden kali ini membuktikan seberapa besar dampaknya ketika gangguan terjadi di titik kritis.

Sinyal Bahaya bagi Sentralisasi Internet

Pemadaman Cloudflare terjadi hanya beberapa hari setelah gangguan besar di Microsoft Azure dan Amazon Web Services (AWS). 

Rangkaian insiden ini memperlihatkan betapa terkonsentrasinya infrastruktur internet modern.

Mehdi Daoudi, CEO Catchpoint, menyebutnya sebagai panggilan peringatan bagi perusahaan digital.

Semua orang menaruh semua telur mereka dalam satu keranjang,” katanya. Ketika satu penyedia tumbang, radius ledakan pemadaman kini dapat menjangkau skala global.

Menurutnya, pemadaman serupa akan terus terjadi, dan skala dampaknya cenderung makin besar seiring meningkatnya ketergantungan industri pada segelintir perusahaan infrastruktur.

Untuk mencegah insiden serupa, Cloudflare menyampaikan rencana perbaikan yang cukup agresif:

  1. Memperkuat proses penyerapan file konfigurasi, termasuk mengaudit duplikasi dan validasi lebih ketat.
  2. Menambahkan lebih banyak global kill switch agar fitur dapat dimatikan secara instan saat terjadi anomali.
  3. Mencegah core dump membanjiri sistem, sehingga laporan kesalahan tidak menghabiskan sumber daya.
  4. Mengulas ulang seluruh mode kegagalan pada modul proksi inti untuk memastikan sistem tetap stabil meski ada kesalahan komponen.

Cloudflare menegaskan bahwa pemadaman ini bukan disebabkan faktor eksternal, melainkan kegagalan internal yang dipicu oleh perubahan kecil yang luput dari mitigasi berlapis.

Bayangkan sebuah perpustakaan raksasa dengan jutaan pengunjung setiap menit. 

Tugas penjaga pintu adalah memastikan siapa yang benar-benar pembaca dan siapa yang hanya bot berdasarkan daftar aturan yang selalu diperbarui.

Ketika terjadi kesalahan, sistem internal perpustakaan mulai mencetak salinan daftar aturan tanpa henti. 

Daftar itu membengkak begitu besar hingga tidak lagi muat di meja kerja penjaga pintu. 

Penjaga pun tidak bisa bekerja dan mulai menolak semua pengunjung baik pembaca maupun bot.

Dalam hitungan menit, seluruh perpustakaan berhenti beroperasi. Inilah kira-kira yang terjadi pada internet global beberapa waktu lalu.(*)

Posting Komentar

0 Komentar