Por favor, actualiza tu navegador para tener una mejor experiencia, prueba con Chrome, Internet explorer.
Gracias por haberte postulado a la oferta de empleo Senior site reliability engineer (sre), en Talent speakers colombia sas.
?? Objetivo del cargo: Garantizar la confiabilidad, resiliencia y excelencia operativa del ecosistema de productos cloud-native de SafeFleet, mediante la implementación de prácticas avanzadas de Site Reliability Engineering (SRE). El rol está orientado a reducir fallas recurrentes, fortalecer la observabilidad, liderar la gestión de incidentes críticos y asegurar el cumplimiento continuo de los SLOs, impactando directamente la estabilidad del negocio y la confianza de los clientes.
?? Funciones y Responsabilidades
?? Observabilidad y Monitoreo
*Diseñar, construir y mantener sistemas de observabilidad end-to-end (métricas, logs, trazas, alertas y dashboards).
*Liderar la estandarización de dashboards en Grafana, métricas en Prometheus y pipelines de logs.
*Impulsar iniciativas de APM, monitoreo sintético y monitoreo de flujos de trabajo.
? Confiabilidad, SLOs y Mejora Continua
*Definir y mantener SLIs, SLOs y Presupuestos de Error para productos críticos.
*Liderar la adopción del Modelo de Madurez SRE, incluyendo métricas, scoring de confiabilidad y roadmaps de mejora.
*Colaborar con equipos de desarrollo para identificar riesgos y proponer mejoras arquitectónicas.
?? Gestión de Incidentes y RCA
*Liderar la respuesta a incidentes críticos, coordinando comunicación, escalamiento y resolución.
*Facilitar análisis formales de Causa Raíz (RCA) y asegurar el cierre de remediaciones.
*Garantizar el cierre definitivo de alertas e incidentes tras despliegues en producción.
?? Alertas y Operaciones
*Administrar y evolucionar el sistema de alertas (TTL, ownership, etiquetado, workflows y runbooks).
*Coordinar turnos L3 y validar rutas de escalamiento.
*Administrar herramientas de gestión de incidentes como OpsGenie.
?? Planificación y Soporte Operativo
*Liderar ejercicios de capacity planning (3 a 12 meses).
*Apoyar equipos de Managed Services Operations mediante SOPs, onboarding y flujos de escalamiento.
*Elaborar reportes mensuales de disponibilidad, observabilidad y confiabilidad.
?? Conocimientos y Experiencia
*Experiencia sólida en observabilidad (logs, métricas, trazas, alertas y dashboards).
*Dominio de SLOs, SLIs y Presupuestos de Error en sistemas distribuidos.
*Experiencia en Azure (Commercial y Government) y Kubernetes (AKS).
*Experiencia comprobada en gestión de incidentes, escalamiento y RCA.
*Conocimiento avanzado de Grafana, Prometheus, Elasticsearch, Azure Monitor y APMs.
*Manejo de OpsGenie u otras plataformas de incident management.
*Scripting avanzado en Python, Bash y/o PowerShell.
*Experiencia en planificación de capacidad y optimización de rendimiento.
*Inglés avanzado para comunicación técnica y ejecutiva.
*Alta capacidad de liderazgo transversal e influencia técnica.
Cuéntales a las empresas lo nuevo: actualiza tu hoja de vida en elempleo.com