Mantenimiento y Aseguramiento de Sistemas Informáticos

Introduccion

Que es el mantenimiento de un sistema informatico

El mantenimiento de un sistema informático es el conjunto de acciones técnicas y organizativas que se realizan para garantizar que los equipos, software y servicios funcionen correctamente, de forma continua y dentro de los parámetros de calidad esperados por la organización.

No se trata únicamente de reparar lo que falla. El mantenimiento moderno implica anticiparse a los problemas antes de que ocurran, documentar cada proceso, cumplir con estándares internacionales y adoptar metodologías que han demostrado ser efectivas en la industria tecnológica.

Un sistema que no se mantiene adecuadamente tiende a degradarse con el tiempo. Las fallas se vuelven más frecuentes, los costos de reparación aumentan y la productividad de la organización se ve comprometida. Por eso, el mantenimiento no es un gasto, sino una inversión en la estabilidad operativa.

Clasificacion

Tipos de mantenimiento

El mantenimiento de sistemas informáticos no es un proceso único. Dependiendo del momento en que se aplique y del objetivo que persiga, se clasifica en distintas categorías, cada una con sus propias técnicas, herramientas y responsabilidades.

Tipo 01

Preventivo

Se realiza de forma programada y periódica para evitar que los problemas ocurran. Incluye limpieza de equipos, actualizaciones de software, revisión de logs y verificación del rendimiento del sistema.

Leer mas

Tipo 02

Correctivo

Se ejecuta cuando ya existe un fallo o anomalía en el sistema. Su objetivo es restaurar el funcionamiento normal en el menor tiempo posible, minimizando el impacto en la operación de la organización.

Leer mas

Tipo 03

Predictivo

Utiliza datos en tiempo real, métricas de rendimiento y herramientas de monitoreo para anticipar cuándo podría fallar un componente, permitiendo actuar antes de que el problema se materialice.

Ver planes

Tipo 01

Mantenimiento preventivo

El mantenimiento preventivo parte de una premisa simple: es mejor invertir tiempo y recursos en revisar el sistema regularmente que esperar a que algo falle. A diferencia del mantenimiento correctivo, este no responde a un problema, sino que trabaja para que ese problema nunca llegue a ocurrir.

En la práctica, esto significa programar revisiones periódicas, establecer calendarios de actualización, monitorear el uso de recursos del sistema y documentar cada actividad realizada. Todo queda registrado para poder analizar tendencias y tomar decisiones con información concreta.

Una organización que aplica mantenimiento preventivo de forma disciplinada reduce significativamente los tiempos de inactividad no planificados, extiende la vida útil de sus equipos y mantiene un ambiente de trabajo más estable para sus usuarios.

Actividades tipicas

✓ Limpieza fisica de equipos y perifericos
✓ Actualizacion de sistema operativo y aplicaciones
✓ Revision y limpieza de archivos temporales y logs
✓ Verificacion del estado del disco duro (SMART)
✓ Comprobacion de copias de seguridad (backups)
✓ Analisis de rendimiento de la red y servidores
✓ Revision de licencias y vigencia de software
✓ Documentacion de todas las actividades realizadas

Frecuencia recomendada de actividades

Actividad	Frecuencia	Responsable
Limpieza fisica de equipos	Cada 3 meses	Tecnico de soporte
Actualizaciones de seguridad	Mensual	Administrador de sistemas
Verificacion de backups	Semanal	Administrador de sistemas
Revision de logs del sistema	Diaria	Equipo de operaciones
Auditoria completa del sistema	Anual	Equipo de TI + Auditores

Tipo 02

Mantenimiento correctivo

Por más riguroso que sea el mantenimiento preventivo, los fallos no siempre se pueden evitar. El mantenimiento correctivo es el proceso que entra en acción cuando el sistema ya presenta una falla, y su efectividad depende directamente de qué tan bien preparado esté el equipo técnico para responder.

01

Deteccion del fallo

El primer paso es identificar con precisión qué componente, servicio o proceso ha fallado. Esto puede suceder por reportes de usuarios, alertas del sistema de monitoreo o durante una revision rutinaria.

02

Diagnostico

Una vez detectado el fallo, el técnico analiza los logs, revisa el estado de los servicios y determina la causa raíz del problema. Un buen diagnóstico evita aplicar soluciones temporales que no resuelven el problema de fondo.

03

Solucion y restauracion

Con la causa identificada, se aplica la corrección correspondiente: puede ser un reinicio de servicio, reemplazo de hardware, restauración desde backup, reinstalación de software o ajuste de configuraciones.

04

Verificacion y documentacion

Después de aplicar la solución, se verifica que el sistema funcione correctamente. Todo el proceso debe quedar documentado: qué falló, cuándo, cómo se resolvió y qué tiempo tomó la recuperación.

Planificacion

Planes operativos y de contingencia

Un plan de contingencia es un documento formal que describe qué debe hacer la organización cuando ocurre una falla grave que afecta la continuidad del servicio. No se improvisa en el momento del problema: se prepara con anticipación, se prueba y se actualiza periódicamente.

El plan operativo, por su parte, establece las rutinas diarias del equipo de TI: quién es responsable de qué, cuáles son los procedimientos estándar, cómo se escala un problema y cuáles son los tiempos de respuesta esperados para cada tipo de incidente.

Juntos, estos dos documentos forman la base de una operación estable. Una organización que cuenta con ellos puede responder a crisis de forma ordenada, sin depender de la memoria o el criterio individual de una sola persona.

          Elementos de un plan de contingencia

          Identificacion de riesgos y amenazas criticas
Definicion de escenarios de fallo posibles
Roles y responsabilidades del equipo de respuesta
Procedimientos paso a paso para cada escenario
Plan de comunicacion interna y externa
Estrategia de recuperacion de datos (RTO y RPO)
Cronograma de pruebas y simulacros
Historial de actualizaciones del documento


        

RTO

Recovery Time Objective

Es el tiempo máximo aceptable que un sistema puede estar fuera de servicio después de una falla. Definir el RTO permite priorizar los recursos durante una crisis y establece expectativas claras para la organización.

RPO

Recovery Point Objective

Es la cantidad máxima de datos que la organización está dispuesta a perder en caso de falla. Determina con qué frecuencia deben realizarse los respaldos y qué tan reciente debe ser la última copia de seguridad disponible.

Estandares internacionales

Normas ISO aplicadas a sistemas informaticos

Las normas ISO son estándares reconocidos a nivel mundial que establecen criterios mínimos de calidad, seguridad y eficiencia para distintos procesos organizacionales. En el ámbito de los sistemas informáticos, varias de estas normas son especialmente relevantes para garantizar una operación confiable.

ISO 9001

Sistemas de Gestion de Calidad

Establece los requisitos para implementar un sistema de gestión de calidad dentro de una organización. Aplicada a TI, asegura que los procesos de soporte, mantenimiento y entrega de servicios tecnológicos se realicen de forma consistente y orientada a la mejora continua.

ISO 27001

Seguridad de la Informacion

Define los requisitos para establecer, implementar y mantener un Sistema de Gestión de Seguridad de la Información (SGSI). Cubre la protección de datos frente a accesos no autorizados, pérdidas, alteraciones y cualquier amenaza que comprometa la confidencialidad del sistema.

ISO 20000

Gestion de Servicios de TI

Es el estándar internacional específico para la gestión de servicios de tecnología de información. Define buenas prácticas para la planificación, entrega, control y mejora de los servicios de TI, y está directamente alineado con los principios de ITIL.

ISO 22301

Continuidad del Negocio

Se centra en los planes de continuidad de negocio. Establece cómo las organizaciones deben prepararse para hacer frente a interrupciones graves en sus operaciones, incluyendo fallos tecnológicos mayores, desastres naturales o incidentes de seguridad críticos.

Buenas practicas

ITIL v3: Gestion de servicios de TI

ITIL (Information Technology Infrastructure Library) es un conjunto de buenas prácticas para la gestión de servicios de tecnología de información. Su versión 3, publicada en 2007 y actualizada en 2011, organiza la gestión de TI en torno a un ciclo de vida del servicio compuesto por cinco fases claramente definidas.

A diferencia de una norma obligatoria, ITIL es un marco de referencia: las organizaciones lo adoptan de forma voluntaria y lo adaptan a su contexto particular. Su valor radica en que no fue diseñado en un laboratorio académico, sino que surge de la experiencia acumulada de miles de organizaciones en todo el mundo.

Aplicar ITIL implica definir procesos claros para la gestión de incidentes, problemas, cambios, niveles de servicio y capacidad. Cada proceso tiene roles definidos, entradas, salidas y métricas de desempeño que permiten evaluar si el servicio se está entregando correctamente.

          Las 5 fases del ciclo de vida ITIL v3

              Estrategia del Servicio: Define qué servicios ofrecer, a quién y con qué modelo de negocio.
            
              Diseño del Servicio: Establece cómo se diseñan los servicios, incluyendo seguridad, disponibilidad y capacidad.
            
              Transicion del Servicio: Gestiona el paso de un servicio del desarrollo a produccion, incluyendo la gestion de cambios.
            
              Operacion del Servicio: Administra los servicios en funcionamiento: incidentes, problemas, accesos y eventos.
            
              Mejora Continua del Servicio: Evalua el desempeno y aplica mejoras basadas en metricas reales.

Calidad y sostenibilidad

Aseguramiento de la calidad del sistema

El aseguramiento de la calidad en sistemas informáticos no es solo ejecutar pruebas antes de lanzar una aplicación. Es un proceso continuo que abarca todo el ciclo de vida del sistema: desde su diseño hasta su retiro, pasando por cada actualización, cambio de configuración y mejora que se realice durante su operación.

Practica 01

Monitoreo continuo

Implementar herramientas de monitoreo en tiempo real permite detectar anomalías antes de que se conviertan en fallos. Se monitorea el uso de CPU, memoria, red, almacenamiento y los tiempos de respuesta de los servicios críticos.

Practica 02

Gestion de cambios

Todo cambio en el sistema debe evaluarse, aprobarse y documentarse antes de aplicarse. Un cambio no controlado puede introducir nuevos fallos. La gestión de cambios reduce ese riesgo sin frenar la evolución del sistema.

Practica 03

Metricas y KPIs

Medir es la base de la mejora. Indicadores como la disponibilidad del sistema (uptime), el tiempo medio entre fallos (MTBF) y el tiempo medio de reparación (MTTR) permiten evaluar objetivamente el desempeño del servicio.

Indicadores clave de desempeno (KPIs) en sistemas informaticos

Indicador	Sigla	Descripcion	Meta tipica
Disponibilidad del sistema	Uptime	Porcentaje del tiempo que el sistema esta operativo	99.9% o mas
Tiempo medio entre fallos	MTBF	Tiempo promedio que transcurre entre un fallo y el siguiente	Lo mas alto posible
Tiempo medio de reparacion	MTTR	Tiempo promedio que toma restaurar el sistema tras un fallo	Lo mas bajo posible
Tasa de incidentes resueltos	FCR	Porcentaje de incidentes resueltos en el primer contacto	Mayor al 70%

Cierre del modulo

Conclusion

El mantenimiento y aseguramiento de la operación de un sistema informático es una disciplina que exige planificación, disciplina técnica y una cultura organizacional comprometida con la calidad. No basta con tener buenos equipos o un software actualizado si no existe un proceso formal que garantice su correcta operación a lo largo del tiempo.

A lo largo de este módulo se ha visto que el mantenimiento preventivo evita problemas antes de que ocurran, el correctivo los resuelve cuando ya existen, y los planes de contingencia aseguran que la organización sepa exactamente qué hacer cuando la situación se sale del control ordinario.

Las normas ISO ofrecen un marco de referencia reconocido internacionalmente para estructurar estos procesos, mientras que ITIL v3 proporciona las buenas prácticas concretas para operarlos día a día. Juntas, estas herramientas forman una base sólida sobre la que cualquier organización puede construir una operación tecnológica confiable, eficiente y sostenible.

"Un sistema bien mantenido no es el que nunca falla, sino el que cuando falla, sabe exactamente cómo recuperarse."