起事件是內部變革的

Transforming Industries Through Email Forums
Post Reply
si.nf.o.2.69
Posts: 16
Joined: Sun Dec 15, 2024 8:15 am

起事件是內部變革的

Post by si.nf.o.2.69 »

該公司的 、API 和 Sora 服務從下午 1 點開始降級或不可用。至 : 下午OpenAI 在事件報告中表示,太平洋時間。報告稱,該事件是由於新的遙測服務壓垮 Kubernetes 控制平面並在公司的關鍵系統中產生級聯故障而引起的。

該公司在報告中表示,這結果,目的是在我 商業和消費者電子郵件列表 們的機隊中推出新的遙測技術,而不是由安全事件或最近的發射引起的。報告稱,OpenAI 部署了新的遙測服務來提高可靠性,因為該服務將收集詳細的 Kubernetes 控制平面指標並提高公司對其係統狀態的可見性。

Image


報告稱,遙測服務部署四分鐘後,發生了中斷,因為它導致執行資源密集型 Kubernetes API 操作,導致 Kubernetes API 伺服器不堪重負,並導致大多數 OpenAI 大型叢集中的 Kubernetes 控制平面癱瘓。根據報告,OpenAI 在幾分鐘內檢測到並識別了該問題並開始修復。
Post Reply