Desarrollador web, estudiante de ingeniería en computación, y entusiasta de la tecnología y la música.
Tomado del blog oficial de Gmail, por Ben Treynor, Ingniero VP y Czar de confiabilidad del sitio. Traducido por Luis Pulido.
La interfaz web de Gmail tuvo un apagón a nivel mundial hoy a medio día de casi dos horas (aproximadamente 100 minutos). Sabemos cuánta gente necesita de Gmail para sus comunicaciones personales y profesionales, y tomamos muy seriamente esto cuando hay un problema con el servicio. Es por esto que quisiera pedir disculpas a todos ustedes. La caída del sistema de hoy fue una situación importante, y lo estamos tratando como tal. Hemos ya investigado profundamente qué sucedio, y estamos compilando una lista de cosas que intentamos arreglar para mejorar el resultado de la investigación.
Aquí está lo que pasó: Esta mañana (tiempo del pacífico) tomamos una fracción pequeña de los servidores de Gmail y los sacamos de línea para hacerles actualizaciones de rutina. Esto no es en sí el problema - esto lo hacemos todo el tiempo, y la interfaz de Gmail sigue funcionando en diferentes lugares, así que envía el tráfico a esos lugares cuando algunos servidores están fuera de línea.
De cualquier modo, como ahora sabemos, subestimamos ligeramente la carga que algunos cambios recientes (irónicamente algunos diseñados para mejorar la disponibilidad del servicio) tuvieron en los ruteadores de solicitudes de servicio - servidores que direccionan las peticiones web al servidor apropiado de Gmail para su respuesta. Aproximadamente a las 12:30 pm (hora del pacífico), algunos de los servidores antes mencionados se vieron sobrecargados y en efecto, esto le dijo al resto del sistema: “deja de enviarnos tráfico! estamos muy lentos!”. Esto transfirió la carga a los ruteadores de peticiones que restaban, causando que unos cuantos más se sobrecargaran. Como resultado, la gente no podía accesar a Gmail mediante la página de Internet, pues sus peticiones no podían ser direccionadas a los servidores de Gmail. El acceso via IMAP y POP continuaba funcionando normalmente, ya que estas peticiones no utilizan los mismos ruteadores.
El equipo de ingeniería de Gmail fue avisado de las fallas segundos después (tomamos el monitoreo muy en serio). Después de establecer que la raíz del problema era que no había suficiente capacidad, el equipo puso MUCHOS ruteadores de peticiones en línea adicionalmente (la flexibilidad en la capacidad es una de las ventajas de la arquitectura de Google), distribuyó el tráfico a través de los ruteadores de peticiones, y la interfaz de Gmail se puso en línea de nuevo.
Lo que sigue: Hemos puesto plena atención para asegurar que este tipo de eventos no vuelvan a pasar. Algunas de las acciones son sencillas y ya estan hechas - por ejemplo, incrementar la capacidad de los ruteadores de peticiones bien y más allá de la demanda para contar con un margen. Otras acciones són más complejas - por ejemplo, hemos llegado a la conclusión que los ruteadores de peticiones no tienen suficiente aislamiento de fallas (por ejemplo, si hay un problema en un datacenter, no debería de afectar a servidores de otro datacenter) y no se degradan con gracia (por ejemplo, si muchos ruteadores de peticiones son sobrecargados simultaneamente, deberían de hacerse simplemente más lentos en vez de rechazar tráfico y cambiar su carga). Vamos a trabajar duramente las siguientes semanas implementando esas y otras mejoras para la confiabilidad de Gmail - Gmail se mantiene más del 99.9% disponible para todos los usuarios, y estamos comprometidos en mantener eventos como el de hoy notables por su rareza.