OpenAI spiega il motivo del down dell’11 dicembre a San Francisco con coinvolgimento di CEO e team tecnico

Il 11 dicembre, OpenAI ha affrontato un malfunzionamento dei servizi ChatGPT e Sora a causa di una configurazione errata del nuovo sistema di telemetria, causando disagi agli utenti per oltre quattro ore.
OpenAI spiega il motivo del down dell'11 dicembre a San Francisco con coinvolgimento di CEO e team tecnico - (Credit: www.punto-informatico.it)

Il 11 dicembre, a partire dalle ore 15:00 , gli utenti di ChatGPT e Sora hanno riscontrato difficoltà nell’accesso ai servizi. OpenAI ha rivelato i dettagli dell’incidente analizzando le cause che hanno portato a questo malfunzionamento. Dopo un’accurata verifica, l’azienda ha confermato che la problematicità emersa non era correlata al lancio del nuovo modello di intelligenza artificiale, bensì a un nuovo servizio di telemetria implementato nei sistemi di gestione.

L’incidente di accesso ai servizi OpenAI

Durante il pomeriggio dell’11 dicembre, OpenAI ha registrato un malfunzionamento significativo dei suoi servizi, con l’accesso a ChatGPT e Sora limitato tra le 15:16 e le 19:38. Questo lasso di tempo, superiore a quattro ore, ha causato un notevole disagio agli utenti, rendendo difficile l’utilizzo delle piattaforme, i cui servizi sono noti per la loro affidabilità e rapidità di risposta. Le difficoltà di accesso hanno sollevato subito interrogativi e preoccupazioni riguardo a possibili attacchi informatici o malfunzionamenti legati ad un eccessivo traffico, ma OpenAI ha rapidamente rassicurato gli utenti, chiarendo che nulla di tutto ciò era avvenuto.

Attraverso una comunicazione ufficiale, OpenAI ha confermato che le difficoltà non erano affatto dovute al lancio di Sora, il nuovo modello di intelligenza artificiale, il quale era stato previsto e gestito. La maggiore responsabilità è stata attribuita a una configurazione inaccurata del sistema di telemetria introdotto.

Dettagli tecnici dell’errore

La causa principale del malfunzionamento risiede nell’implementazione di un nuovo servizio di telemetria, il quale è progettato per raccogliere informazioni dettagliate sulle metriche dei cluster di Kubernetes. Kubernetes è un sistema open source fondamentale per la gestione di applicazioni in container, che facilita l’orchestrazione e la scalabilità delle risorse. Tuttavia, la configurazione non corretta di questo nuovo servizio ha provocato un uso eccessivo delle risorse del server API di Kubernetes, dando origine ad una situazione di disagio per gli utenti.

Il problema ha reso difficoltosa la gestione delle richieste; sebbene il data plane di Kubernetes funzioni in modo autonomo, esso richiede una risoluzione DNS efficace attraverso il server API per processare le richieste degli utenti. Questo malfunzionamento ha portato a un’interruzione significativa del servizio DNS, aggravando ulteriormente la situazione. Di fronte a questa complessa rete di cause, OpenAI ha avviato operazioni mirate per correggere il problema, accedendo al control plane e disabilitando il servizio di telemetria problematico.

Soluzioni e misure preventive adottate

OpenAI ha preso molto seriamente l’incidente e ha già avviato una serie di misure per garantire che situazioni simili non si ripetano in futuro. L’azienda ha annunciato che adotterà un approccio più cauto e controllato nei lanci dei servizi e nelle implementazioni dei sistemi. Tra le misure previste c’è il rollout graduale delle modifiche, accompagnato da un monitoraggio costante delle performance del sistema. Questo approccio mira a identificare in tempo reale eventuali problematiche emergenti e a ridurre l’impatto su gli utenti.

In aggiunta, OpenAI prevede di investire in ulteriori aggiornamenti e potenziamenti per i sistemi di monitoraggio già esistenti, in modo da garantire un miglioramento continuo del servizio e una maggiore stabilità delle piattaforme. Con la trasparenza mostrata durante questo processo, l’azienda punta a ristabilire la fiducia dei suoi utenti e a mantenere alta la qualità dell’offerta.

L’analisi dell’incidente e le conseguenti misure preventive rappresentano un passo importante per garantire l’affidabilità dei servizi OpenAI, continuando a lavorare per offrire una user experience senza interruzioni e per mantenere elevati standard qualitativi.