Informazioni utili e ricerca

Il lunedì nero di Comcast: come abbiamo mantenuto la produttività durante l'interruzione dei servizi di un ISP

Mappa che raffigura le interruzioni del servizio

"Se avete Comcast, passate all'hotspot del vostro smartphone", diceva il messaggio su Slack. Erano le 21:45 di lunedì 8 novembre.

All'inizio sembrava uno scherzo infantile, ma proveniva da una fonte attendibile: il nostro team IT. Eravamo nel bel mezzo di un'importante chiamata su Zoom, per perfezionare gli ultimi dettagli dell'evento di lancio del prodotto "No Interruptions", previsto per il martedì mattina. 

Il messaggio successivo riportava: "Stiamo riscontrando delle interruzioni a cascata per gli utenti di Comcast in tutta la California del Nord. Potreste essere colpiti a breve".

I disagi causati dall'interruzione del servizio e il conseguente coordinamento per portare a termine il lavoro sarebbero stati un fastidio inutile per noi. Come suggerito dall'avviso, ci siamo spostati sugli hotspot e abbiamo proseguito tranquillamente con i nostri meeting, mentre l'interruzione del servizio continuava a diffondersi nella California del Nord. 

Al giorno d'oggi, le interruzioni non pianificate e per più ore del servizio di un ISP sono insolite, ma quando si verificano, l'impatto sulla produttività è molto significativo, soprattutto se la maggior parte di noi sta lavorando da casa. 

L'interruzione del servizio di Comcast ci ha ricordato che bisogna farsi trovare pronti ad affrontare anche situazioni imprevedibili. Ma come ci si prepara alle interruzioni casuali?  

Nel mondo del monitoraggio dell'esperienza digitale (Digital Experience Monitoring, o DEM), il monitoraggio proattivo è l'approccio migliore per anticipare blocchi e interruzioni impreviste. Tuttavia, è difficile credere nella promessa della ricerca continua di campanelli d'allarme,  finché non la si vede in azione. 

L'interruzione del servizio di Comcast è stata un'opportunità importante per il team, che stava apportando gli ultimi ritocchi al lancio degli aggiornamenti per la nostra soluzione di monitoraggio, programmato per il giorno successivo. Ma come è stata sfruttata questa opportunità dal team IT? Diamo un'occhiata a come il team ha utilizzato il monitoraggio proattivo per aiutarci a preservare la produttività durante l'interruzione del servizio.

In azienda utilizziamo Zscaler Digital Experience (ZDX) per monitorare e diagnosticare le prestazioni delle app utilizzate dai dipendenti. La sera dell'8 novembre abbiamo iniziato a riscontrare un grave peggioramento delle prestazioni, che stava colpendo varie applicazioni critiche utilizzate dai nostri dipendenti. ZDX mostrava aree problematiche in tutto il Paese, ma con un cluster particolarmente significativo nella San Francisco Bay Area. Data la concentrazione dei nostri dipendenti in questa zona, abbiamo deciso di indagare. La valutazione ZDX di queste applicazioni critiche, che in genere è verde, era scesa precipitosamente alla categoria OK/scarsa, accompagnata da un forte aumento dei tempi di caricamento delle pagine. Vedi figura 1.

Figura 1: la valutazione ZDX e il tempo di caricamento delle pagine mostrano un peggioramento significativo attorno alle 21:00 PT (o 12:00 ET)

ZDX monitora l'esperienza di tutti i dipendenti Zscaler, che sono utilizzati come "occhi" e "orecchie" per individuare le problematiche relative alle prestazioni delle applicazioni. In questo caso, erano stati individuati dei comportamenti anomali provenienti da aree in cui Comcast era largamente utilizzato, diffuse in tutta la Bay Area. Nelle figure 2 e 3, possiamo vedere l'esperienza dei dipendenti di Zscaler prima e durante l'interruzione: 

Figura 2: i dipendenti di Zscaler nella Bay Area godono di buone prestazioni in condizioni normali
 

Figura 3: i dipendenti di Zscaler durante l'interruzione del servizio di Comcast la sera dell'8 novembre 2021

Dopo aver compreso che molti dipendenti stavano incontrando dei problemi in una regione specifica, il passaggio successivo è stato quello di isolarne la causa. Poiché ZDX sfrutta lo stesso agente utilizzato dalla nostra soluzione di sicurezza sul cloud, Zscaler Internet Access (ZIA), abbiamo potuto accedere a dati preziosissimi, praticamente in tempo reale, provenienti da tutta la nostra base di dipendenti. ZDX effettua una misurazione da tre diverse prospettive: l'applicazione, la rete e l'endpoint dell'utente. L'analisi rapida ha consentito di escludere l'applicazione e l'endpoint dell'utente, lasciandoci con un problema di rete da approfondire.

Abbiamo quindi esaminato i dati di ZDX CloudPath, che misura la latenza a ogni passaggio (hop by hop) e la perdita di pacchetti tra l'endpoint di un utente e l'applicazione, e capito rapidamente che si trattava di un problema causato dal provider di servizi Internet. CloudPath ci ha aiutato a escludere problemi del Wi-Fi, del cloud Zscaler e della dorsale Internet. Ci ha aiutato a capire che gli utenti colpiti erano tutti clienti di Comcast e che il peggioramento delle prestazioni si era verificato tra il gateway dell'utente e Comcast. 

La figura 4 mostra il modo in cui CloudPath indica un problema nel passaggio tra il gateway dell'utente e Comcast, con latenza e perdite eccessive (in alcuni momenti non vi era alcuna connessione). Mostra inoltre un Wi-Fi in buone condizioni (con latenza minima) ed evidenzia l'impossibilità di una connessione downstream da Comcast a Zscaler.


 

Figura 4: questo dipendente è riuscito a stabilire una connessione con Comcast, ma con latenza e perdite eccessive

La rete Internet è spesso data per scontata, soprattutto perché la maggior parte degli ISP ha sviluppato e continua a sviluppare reti molto resilienti per fornirci una connettività rapida a banda larga. Ma come succede a qualsiasi altro sistema complesso, quando si verifica un'interruzione, le prestazioni peggiorano e diventano imprevedibili. Il monitoraggio proattivo, combinato con gli effetti di rete del monitoraggio grazie all'attività di ogni utente, aiuta a fornire una misura di controllo e prevedibilità. 

Dai un'occhiata a Zscaler Digital Experience per scoprire come puoi aiutare la tua forza lavoro distribuita a rimanere produttiva.

Resta aggiornato su novità e suggerimenti nel mondo della trasformazione digitale.

Inviando il modulo, accetti la nostra informativa sulla privacy.