TALENT SPEAKERS COLOMBIA SAS

Otros

Industria

Otros

Sector

Crear alerta de empleo

Recibir ofertas en tu correo.

Oportunidades para ti

Senior site reliability engineer (sre)

Trabaja en Talent speakers colombia sas

$15 a $18 millones

Publicado 9 Ene 2026

Senior site reliability engineer (sre)

Trabaja en Talent speakers colombia sas

$15 a $18 millones

Publicado 9 Ene 2026

Senior site reliability engineer (sre)

Trabaja en Talent speakers colombia sas

$15 a $18 millones

Publicado 9 Ene 2026

Ver todas las ofertas

Con el envío de tus datos personales autorizas al potencial empleador, el tratamiento de tus datos personales para la oferta de empleo, de acuerdo con la política de tratamiento de datos de Leadersearch S.A.S. (Elempleo).

Podrás participar gratuitamente en los procesos de selección; no debes pagar sumas de dinero por ningún concepto. Dirígete al potencial empleador ante cualquier consulta o reclamo.

Para ofertas confidenciales contáctanos a: info@elempleo.com

Descripción del cargo

?? Objetivo del cargo: Garantizar la confiabilidad, resiliencia y excelencia operativa del ecosistema de productos cloud-native de SafeFleet, mediante la implementación de prácticas avanzadas de Site Reliability Engineering (SRE). El rol está orientado a reducir fallas recurrentes, fortalecer la observabilidad, liderar la gestión de incidentes críticos y asegurar el cumplimiento continuo de los SLOs, impactando directamente la estabilidad del negocio y la confianza de los clientes.

?? Funciones y Responsabilidades
?? Observabilidad y Monitoreo
*Diseñar, construir y mantener sistemas de observabilidad end-to-end (métricas, logs, trazas, alertas y dashboards).
*Liderar la estandarización de dashboards en Grafana, métricas en Prometheus y pipelines de logs.
*Impulsar iniciativas de APM, monitoreo sintético y monitoreo de flujos de trabajo.
? Confiabilidad, SLOs y Mejora Continua
*Definir y mantener SLIs, SLOs y Presupuestos de Error para productos críticos.
*Liderar la adopción del Modelo de Madurez SRE, incluyendo métricas, scoring de confiabilidad y roadmaps de mejora.
*Colaborar con equipos de desarrollo para identificar riesgos y proponer mejoras arquitectónicas.
?? Gestión de Incidentes y RCA
*Liderar la respuesta a incidentes críticos, coordinando comunicación, escalamiento y resolución.
*Facilitar análisis formales de Causa Raíz (RCA) y asegurar el cierre de remediaciones.
*Garantizar el cierre definitivo de alertas e incidentes tras despliegues en producción.
?? Alertas y Operaciones
*Administrar y evolucionar el sistema de alertas (TTL, ownership, etiquetado, workflows y runbooks).
*Coordinar turnos L3 y validar rutas de escalamiento.
*Administrar herramientas de gestión de incidentes como OpsGenie.
?? Planificación y Soporte Operativo
*Liderar ejercicios de capacity planning (3 a 12 meses).
*Apoyar equipos de Managed Services Operations mediante SOPs, onboarding y flujos de escalamiento.
*Elaborar reportes mensuales de disponibilidad, observabilidad y confiabilidad.

?? Conocimientos y Experiencia
*Experiencia sólida en observabilidad (logs, métricas, trazas, alertas y dashboards).
*Dominio de SLOs, SLIs y Presupuestos de Error en sistemas distribuidos.
*Experiencia en Azure (Commercial y Government) y Kubernetes (AKS).
*Experiencia comprobada en gestión de incidentes, escalamiento y RCA.
*Conocimiento avanzado de Grafana, Prometheus, Elasticsearch, Azure Monitor y APMs.
*Manejo de OpsGenie u otras plataformas de incident management.
*Scripting avanzado en Python, Bash y/o PowerShell.
*Experiencia en planificación de capacidad y optimización de rendimiento.
*Inglés avanzado para comunicación técnica y ejecutiva.
*Alta capacidad de liderazgo transversal e influencia técnica.

Ingeniería de sistemas Computación / Otras Profesión

Especialización Nivel educativo

1 Vacante Número de vacantes

¡Tu experiencia vale mucho!

Cuéntales a las empresas lo nuevo: actualiza tu hoja de vida en elempleo.com

Actualizar mi hoja de vida