Home » ¿Cómo se apaga un incendio en un Data Center sin perder?
Tecnología

¿Cómo se apaga un incendio en un Data Center sin perder?

Hemos aprendido de la experiencia que un incendio mal manejado implica interrupciones de servicio que terminan costando más de lo que se invierte en estar preparados. No solo se pierde dinero de la inversión en infraestructura, se pierden datos, a veces irreemplazables, otras veces hasta reputación y más.

Esto fue el caso del Data Center de Samsung, del cual tomamos muchas lecciones aprendidas para implementarlas como mejores prácticas de la industria.

Las bocinas de emergencia están sonando a todo volumen y una ráfaga de actividad se está extendiendo por los terrenos del centro de datos en Biere. Uno, dos, tres, no: nada menos que cuatro camiones de bomberos se dirigen a toda velocidad hacia la puerta de seguridad del centro de datos. Parece que hay un incendio adentro, ¿y el departamento de bomberos? De pie afuera por el momento. Porque esta puerta está al menos tan bien protegida como Fort Knox. Pero en caso de incendio, todo es diferente. Y así se abren las compuertas y entra el cuerpo de bomberos. Afortunadamente, es solo para el simulacro de incendio anual. Una buena ocasión para preguntar: ¿Cómo se apaga un incendio en un centro de datos? ¿En qué se diferencia de un incendio doméstico normal?   

En Biere, cerca de Magdeburg, T-Systems opera uno de los centros de datos más potentes de Europa. El campus de TI en Bördeland, en el estado alemán de Sajonia-Anhalt, alberga alrededor de 100 000 servidores en un área de 12 000 metros cuadrados, el equivalente a unas 47 canchas de tenis. Aquí se procesan los datos de muchas empresas y también se opera la infraestructura crítica. 

Biere uno y dos, como se hace referencia a los dos grupos en la lengua vernácula magenta, no están solos. El centro de datos se basa en el concepto Twin Core y, por lo tanto, tiene un gemelo idéntico en la proximidad regional: en Magdeburg, a 20 kilómetros de distancia. Allí, los datos de Biere se reflejan y, por lo tanto, siempre se mantienen por duplicado. Por razones de seguridad, los centros de datos gemelos deben estar separados por cierta distancia, ni demasiado grandes ni demasiado pequeños. Por un lado, para que los datos se puedan duplicar de A a B a la velocidad suficiente. Por otro lado, para que haya suficiente distancia entre las ubicaciones y los posibles desastres no golpeen ambos centros de datos al mismo tiempo. Pero basta de datos aburridos. Volvamos a la alarma de incendios.  

Cómo extinguir un Centro de Datos sin borrar datos
Durante el simulacro de incendio anual en Biere, la manguera de agua solo se desempacaba en caso de incendio en el sistema de energía de emergencia. De lo contrario, el agua no es una alternativa. © Deutsche Telekom / Marc Steffen Unger
Mapas para caminar para orientación
Para ayudar a los bomberos a conocer la forma más rápida de llegar al lugar de un incendio, obtenga mapas para caminar en el centro de datos. © Deutsche Telekom / Marc Steffen Unger
Extinción del sistema de energía de emergencia.
El sistema de energía de emergencia es una de las pocas áreas en Biere que se extinguiría con agua. © Deutsche Telekom / Marc Steffen Unger
Cilindros de nitrógeno
En las salas de servidores sólo se utiliza nitrógeno para la extinción. © Deutsche Telekom / Marc Steffen Unger

    ¿Ya huele a humo?

    Es un hecho bien conocido que el agua y la TI no se llevan muy bien. Para procesar datos confidenciales de manera confiable, los servidores no solo deben enfriarse, sino también protegerse del agua, incluso en caso de incendio. Pero, ¿qué hacer si hay un incendio? En cualquier caso, apagar un incendio en medio de la tecnología con agua y espuma no es una opción.

    Lo mejor, por supuesto, es prevenir incendios. Es por eso que en Biere se utiliza un sistema de rastreo diligente. “Las salas de servidores se revisan las 24 horas del día para detectar la menor cantidad de partículas en el aire”, explica Dirk Kabelitz, director del centro de datos en Biere. “Si hay alguna partícula de humo en la habitación, salta una alarma”. Los expertos se refieren a esto como un detector de humo por aspiración. Esto registra un incendio en sus primeras etapas y activa la intervención de un técnico para desenergizar el equipo defectuoso. Si eso no es suficiente, se envía automáticamente otra alarma al centro de control de incendios. Al mismo tiempo, un sistema de extinción automático dirige nitrógeno a las salas de servidores. En cuatro segundos, las habitaciones pueden inundarse con el gas, cortando un incendio de raíz. Pero eso solo no es suficiente. 

    Mejor sin fuego 

    Proteger los datos las 24 horas del día requiere un concepto de seguridad sofisticado en el que debe involucrarse inclusive a las autoridades públicas y permitir que todos los involucrados trabajen juntos. 

    En el peor de los casos, el centro de datos también depende de toda la ayuda disponible. Después de todo, los incendios también son posibles en los edificios de oficinas asociados o en las plantas de energía de respaldo con sus enormes motores diesel de barcos. Hay 30 de ellos en Biere. Un motor de 20 cilindros suministra energía a unas 200 viviendas unifamiliares. El repostaje es suficiente para 110 horas de funcionamiento continuo. Un proveedor garantiza el reabastecimiento de combustible oportuno en caso de cuellos de botella. Grandes cantidades de energía están involucradas, razón por la cual las precauciones son tan importantes. Los bomberos suelen utilizar extintores de CO2 y, eventualmente, agua en caso de incendio abierto. “Para mantener el riesgo lo más bajo posible,  
    Además, otras medidas brindan apoyo:  

    Las salas de servidores tienen resistencia al fuego durante al menos 90 minutos.  

    • Las distancias mínimas entre ubicaciones y en el campus del edificio aumentan la seguridad. 
    • Los cables de energía y datos que se ejecutan en rutas separadas hacia las celdas de protección contra incendios garantizan la disponibilidad. 
    • Además, toda la infraestructura crítica está duplicada. 
    • El equipo actualiza sus conocimientos y realiza paradas parciales para simular incidentes mayores 

    De vuelta detrás de la puerta mejor segura de Bördeland: las alarmas de humo y las sirenas se han silenciado, las mangueras están enrolladas y el departamento de bomberos voluntarios regresa a su posición. Después del ejercicio en el sistema de energía de emergencia, el próximo ejercicio está en la agenda: esta vez dentro del centro de datos. Pero esto sucede sin mí. Por razones de seguridad, solo unas pocas personas autorizadas pueden ingresar al centro de datos y especialmente a las salas de servidores. 

    Son esas personas las que deben de estár involucradas, no importa el tamaño de su centro de datos, en los comités de Cambios, y análisis de Riesgos descritos en la documentación de ITIL v4.

    Una descripción general de las “explicaciones” de gestión de riesgos de ITIL 4 

    Lo primero a tener en cuenta es que este es ahora un enfoque general para la gestión de riesgos dentro de ITIL. Para citar la declaración de propósito de la Guía práctica: 

    “El propósito de la práctica de gestión de riesgos es garantizar que la organización comprenda y maneje los riesgos de manera efectiva. La gestión del riesgo es esencial para garantizar la sostenibilidad continua de una organización y la creación conjunta de valor para sus clientes. La gestión de riesgos es una parte integral de todas las actividades organizacionales y, por lo tanto, central para el sistema de valor del servicio (SVS) de la organización”. 

    Fuente: AXELOS, Guía práctica de gestión de riesgos ITIL 4 (2020) 

    La guía cubre las “piezas” clave de la gestión de riesgos, desde la capacidad de riesgo y el apetito de riesgo, pasando por los registros de riesgo, hasta los diversos tratamientos posibles del riesgo: 

    • Evitación de riesgos : prevenir el riesgo al no realizar la actividad riesgosa 
    • Modificación/reducción del riesgo : implementar controles para reducir la probabilidad o el impacto del riesgo. 
    • Riesgo compartido : reduzca el impacto pasando parte del riesgo a un tercero 
    • Retención/aceptación del riesgo : decida deliberadamente aceptar el riesgo porque está por debajo de un umbral aceptable (y dentro del apetito por el riesgo de la organización).  

    Las cuatro descripciones anteriores son de la Guía práctica de ITIL 4. 

    Una descripción general del alcance de la gestión de riesgos de ITIL 4 

    La Guía práctica de gestión de riesgos de ITIL 4 señala rápidamente la amplitud del alcance de la gestión de riesgos: que muchas de las prácticas de gestión descritas en ITIL 4 requieren gestión de riesgos. Por ejemplo: 

    • Mejora continua – porque la gestión de riesgos cubre oportunidades (riesgos positivos) además de riesgos negativos 
    • Gestión de la seguridad de la información: gestionar los riesgos relacionados con la confidencialidad, la integridad y la disponibilidad de la información, así como otros aspectos de la seguridad de la información. 
    • Gestión de problemas: porque la causa potencial de los incidentes es un riesgo 
    • Gestión de proyectos: gestión de los riesgos del proyecto 
    • Gestión de la continuidad del servicio: ya que este es un control utilizado para gestionar una variedad de riesgos  .
    • Gestión del nivel de servicio: relacionado con los riesgos que pueden afectar los niveles de servicio. 

    Además, hay actividades de ITSM relacionadas con la gestión de riesgos que se describen en las guías prácticas de ITIL 4 correspondientes. Por ejemplo, el: 

    • Implementación de cambios para mitigar riesgos (en múltiples guías prácticas) 
    • Control de costos, evaluación financiera de riesgos y opciones de mitigación de riesgos (gestión financiera en servicio) 
    • Definición de visión y objetivos estratégicos para la gestión de riesgos (en estrategia de gestión).  

    Una descripción general de la guía de gestión de riesgos de ITIL 4 

    La guía de gestión de riesgos de ITIL 4 cubre una variedad de áreas importantes, comenzando con lo que destaca como factores de éxito de la práctica (PSF): 

    • “Establecimiento de la gobernanza de la gestión de riesgos 
    • Fomentar una cultura de gestión de riesgos e identificar los riesgos 
    • Análisis y evaluación de riesgos 
    • Tratamiento, seguimiento y revisión de riesgos”. 

    Con métricas clave de ejemplo ofrecidas contra cada uno de estos PSF. Por ejemplo, para el último de los cuatro PSF anteriores, las métricas clave de ejemplo son: 

    • Porcentaje de riesgos en el registro de riesgos con un plan de tratamiento claramente documentado y fecha de próxima acción 
    • Porcentaje de riesgos en el registro de riesgos que han sido revisados ​​en los últimos seis meses 
    • Porcentaje de controles que han sido objeto de revisión y auditoría de control en los últimos seis meses. 

    También existen tres procesos de gestión de riesgos: 

    • Gobernanza de la gestión de riesgos 
    • Identificación, análisis y tratamiento de riesgos 
    • Seguimiento y revisión de riesgos. 

    Con orientación detallada para cada uno, junto con más orientación, como con todas las prácticas de ITIL 4, sobre organizaciones y personas, información y tecnología, y socios y proveedores. 

    ¿Deseas proteger tu infraestructura? Trabaja con ingenieros expertos de Silicio de Centro América, contacto de ventas por WhatsApp al +50241822864.

    Agregar comentario

    Haga clic aquí para publicar un comentario

    Social Media Auto Publish Powered By : XYZScripts.com