Tabla de Contenidos
Hace un mes estábamos metidos de lleno en problemas de servidor que causaron problemas de datos esporádicos, interrupciones y problemas de rendimiento para casi todos nuestros clientes durante el transcurso de una semana completa. Fue intensamente frustrante para nuestro equipo no solo porque era un problema muy difícil de resolver, sino lo que es más importante, porque significaba que nuestros clientes no estaban recibiendo el servicio que merecían.
Manejar este tipo de problemas puede ser delicado, especialmente cuando los problemas no necesariamente afectan a todos los clientes.
¿Muestras un aviso a todos los clientes, incluso si solo un 50% aleatorio tiene problemas? ¿Compartes todo lo que está sucediendo? ¿O solo cuando hay un progreso significativo? ¿Cuál debería ser el tono? ¿Deberías ofrecer reembolsos?
Obviamente hay una multitud de variables que podrían entrar en juego, aquí está cómo generalmente manejamos las interrupciones del servicio y las interrupciones del servidor y cómo nos gusta comunicarnos con nuestros clientes durante esos momentos.
Procedimiento de escalada
Idealmente tienes algún tipo de sistema de monitoreo en lugar. En un nivel básico, eso se puede hacer con un ping simple para asegurar que una URL determinada sea accesible. En un nivel más profundo, monitorear cosas como carga de base de datos, errores de aplicación y tiempos de respuesta puede ayudar mucho a detectar cosas antes antes de que sean un problema notable para tus clientes.
Además del monitoreo del sistema, si tienes más de un ingeniero, tener un cronograma de guardia vale la pena. Hacer ping a cada ingeniero cada vez que hay un problema es estresante y no es un gran uso del tiempo de nadie.
La combinación de esas dos cosas te permite establecer un procedimiento de escalada sólido.
Paso 1: Notificación de chat general
Cuando un posible problema entra por la puerta, ya sea a través del monitoreo del sistema o del servicio al cliente, primero se reporta a nuestro canal #backend en Slack, mencionando con @ a todos los ingenieros. Como nuestros ingenieros se distribuyen en múltiples zonas horarias en varias partes del mundo, la mayoría de las horas del día alguien está en línea.
Es preferible que alguien que esté realmente despierto maneje un problema en lugar de tener que despertar a alguien.
Si un ingeniero está en línea, puede confirmar si es un problema o no y mantener el proceso en movimiento.
Paso 2: Mensaje de texto
Si no hay un ingeniero en línea y el problema parece ser crítico, el monitoreo del sistema funcionará la mayoría de las veces y enviará un mensaje de texto al ingeniero de guardia que, despierto o no, se conectará y comenzará a trabajar en el problema.
Paso 3: Llamada
En el escenario en el que el monitoreo del sistema no detectó el problema o un mensaje de texto claramente no funcionó, entonces quienquiera que notó el problema (generalmente alguien en Servicio al Cliente) llamará al ingeniero de guardia.
Por lo general después de todo esto, alguien se ha hecho consciente del problema y está trabajando en una solución.
Comunicar el problema
Una vez que hayas verificado que de hecho hay un problema, publica un mensaje de estado. Nuestro enfoque preferido es que todos vean el mensaje de estado lo antes posible en lugar de esperar e intentar notificar solo a un grupo más pequeño de personas.
La razón de eso es que generalmente es demasiado difícil determinar el alcance de un problema al principio. Preferiríamos decirle a todos que podría haber un problema, incluso si no lo están experimentando, que dejar a un cliente preguntándose si algo está sucediendo. Nuestra regla personal es ser abierto y honesto desde el principio.
Encontramos que no puedes sobrecomunicar estas cosas en exceso.
Comenzamos publicando en nuestro página de estado, que también publica en nuestra cuenta de Twitter y crea un mensaje dentro del panel de Baremetrics.
Soporte Durante una interrupción
Cuando hay una interrupción o falla del servicio, nuestro objetivo principal es comunicarnos y responder a los clientes lo más rápido posible. Eso significa que nuestro equipo de soporte da mayor prioridad a tweets, correos electrónicos y tickets relacionados con la interrupción.
Cuanto menos tiempo nuestros clientes tengan que pasar preguntándose si algo está mal y cuándo será reparado, mejor.
En nuestra interrupción hace un mes, después de haber tenido casi una semana de altibajos esporádicos, decidimos que responder a las consultas entrantes sobre la interrupción no era suficiente. De hecho, envié una "Carta del CEO" a todos nuestros clientes. Suficientes personas habían experimentado problemas que actualizar en bloque a todos y explicar qué había sucedido y cómo lo estábamos solucionando parecía necesario. Una vez más, la comunicación es la clave para mantener la confianza de tus clientes y, por lo tanto, su negocio.
Como probablemente hayas notado, durante la semana pasada ha habido una serie de problemas con tu panel. Probablemente has visto caídas en ciertas métricas (lo que causaría picos en otras). Generalmente las notarías en las mañanas.
Primero que nada, lo siento. En serio. Pocas cosas elevan mi nivel de estrés más que nuestros clientes no vean los datos que esperan y merecen.
En última instancia, estos problemas se han reducido a que nuestros servidores se quedan atrás en los cálculos ya que casi hemos duplicado la cantidad de puntos de datos que procesamos en las últimas semanas.
Hay una secuencia de eventos que ocurren para importar, procesar y calcular cualquier métrica dada y cuando algo se queda atrás, a veces puede causar un efecto dominó que hace que otros números se queden atrás.
En segundo lugar, hemos estado trabajando día y noche para abordar esto y mejorar las velocidades de procesamiento, así como poner nuevos servidores en línea para ayudar con el atraso.
En realidad, hemos estado trabajando los últimos meses en una infraestructura completamente nueva que se escala órdenes de magnitud más eficientemente que nuestra configuración actual y comenzaremos a implementarla en las próximas dos semanas (más información sobre eso próximamente).
Al final del día, nos confías tus datos comerciales para ayudarte a tomar decisiones comerciales precisas y cuando no cumplimos esas expectativas simplemente no está bien.
Nuestra esperanza es estar completamente al día en el procesamiento en las próximas 24 horas.
Si tienes alguna pregunta, solo responde a esta nota. Estoy feliz de responder o escuchar cualquier pregunta y preocupación.
Después de la tormenta
Una vez que hayas superado la interrupción, redacta una revisión post mortem. Incluye una descripción general de qué sucedió, cuándo sucedió, cómo sucedió y qué estás haciendo para evitar que vuelva a suceder.
La realidad es que la mayoría de los clientes no leerán esto. Simplemente no están tan interesados en los detalles detallados. Sin embargo, para los clientes que haces les importa…les realmente importa y ayudará mucho a restablecer la confianza en tu producto.
¿Qué hay sobre reembolsos por el tiempo de inactividad?
No hacemos reembolsos automáticos por tiempo de inactividad. La única vez que deberías emitir reembolsos preventivos a todos es si tienes un acuerdo de nivel de servicio (SLA) que garantice un cierto nivel de desempeño o disponibilidad.
Dicho esto, tampoco deberías ser tacaño. Si alguien está claramente molesto por el tiempo de inactividad, ofrécele un reembolso completo del mes anterior. Definitivamente vale la pena.
Soportando el peso de la frustración del cliente
Usualmente tú y tu equipo se preocupan mucho más por una interrupción que tus clientes. Sí, los molestará y frustará, pero el estrés que tú sientes es esencialmente el peso de todos las frustraciones de tus clientes. Puede ser bastante intenso.
Resiste el impulso de microgestionar. Mantente enfocado en mantener a tus clientes informados y deja que tu equipo de ingeniería haga su trabajo.
Hemos encontrado que la gran mayoría de los clientes comprenden los problemas del servidor. Esa "Carta del CEO" que envié a casi 800 personas resultó en exactamente dos personas que estaban frustradas. El resto de las respuestas fueron increíblemente solidarias y dieron un buen levantamiento de ánimo a mí y al equipo.

Herramientas
Aquí hay algunas de las herramientas que usamos o hemos usado a lo largo de los años para ayudar a administrar cada parte de este proceso:
- StatusPage — Potencia nuestra página de estado y notificaciones en la aplicación
- Honeybadger — Monitoreo de errores y disponibilidad y notificaciones
- PagerDuty — Programación de guardia y procedimientos de escalada
- Datadog — Monitoreo de infraestructura y alertas
- Intercom — Correo electrónico, chat y soporte general durante interrupciones
Preguntas Frecuentes
-
¿Cómo debe comunicarse una empresa SaaS con los clientes durante una interrupción importante del servicio?
Comunica temprano, comunica a menudo y por defecto comunica a todos incluso si solo un subconjunto de clientes se ve afectado.
Intentar identificar exactamente quién se ve afectado antes de publicar una actualización de estado desperdicia tiempo y deja a los clientes preguntándose qué está sucediendo. Publica en tu página de estado en el momento en que hayas confirmado que algo está mal, luego sigue actualizando a medida que la situación se desarrolla. Algunas prácticas específicas que funcionan bien en la práctica:- Publica un mensaje de estado inmediatamente, incluso si la causa raíz aún se desconoce
- Envía notificaciones a través de cada canal que tus clientes ya monitorean: página de estado, banners en la aplicación, Twitter y correo electrónico directo
- Escala a una nota directa del CEO para interrupciones que se extiendan más allá de 24 horas o que afecten una porción significativa de tu base de suscriptores
- Responde a tickets de soporte y tweets sobre la interrupción más rápido que tu SLA habitual
-
¿Cuál es la diferencia entre una interrupción del servicio y degradación del servicio para un producto SaaS?
Una interrupción del servicio significa que tu producto no está disponible en absoluto, mientras que la degradación del servicio significa que es accesible pero con un desempeño por debajo de lo esperado, como tiempos de respuesta lentos, retrasos en cálculos o errores parciales de datos.
Para negocios de suscripción, la distinción práctica importa porque la degradación a menudo es más difícil de detectar y más difícil de comunicar claramente. Los clientes pueden ver métricas inconsistentes o anomalías en el panel sin entender por qué, lo que socava silenciosamente la confianza en tus datos. Ambos estados justifican una actualización de estado pública y soporte activo al cliente. Las herramientas de monitoreo que rastrean la carga de la base de datos, errores de aplicación y tiempos de respuesta, no solo pings simples de disponibilidad, son lo que detecta degradación antes de que se convierta en una interrupción completa que impulse frustración involuntaria del cliente e incremente el riesgo de rotación. -
¿Qué herramientas utilizan las empresas SaaS para detectar y administrar interrupciones del servicio?
La pila de detección de interrupciones y administración de incidentes más confiable para una empresa SaaS típicamente combina monitoreo de disponibilidad, seguimiento de errores, observabilidad de infraestructura y herramientas de programación de guardia.
Las herramientas comúnmente utilizadas incluyen:- Honeybadger para seguimiento de errores y monitoreo de disponibilidad
- Datadog para monitoreo de infraestructura y alertas en tiempo real sobre carga de base de datos y tiempos de respuesta
- PagerDuty para programación de guardia y procedimientos de escalada para que el ingeniero correcto reciba una alerta a cualquier hora
- StatusPage para publicar actualizaciones de estado orientadas al cliente y activar notificaciones en la aplicación automáticamente
- Intercom para administrar el volumen de soporte durante un incidente activo
-
¿Deberían las empresas SaaS ofrecer reembolsos después de una interrupción del servicio o tiempo de inactividad prolongado?
Los reembolsos automáticos solo son necesarios si tienes un acuerdo de nivel de servicio que garantice contractualmente un porcentaje de disponibilidad específico, pero nunca debes ser tacaño con clientes individuales que claramente estén frustrados.
Para la mayoría de empresas de suscripción en etapa temprana y de crecimiento sin SLA formales, un enfoque práctico de reembolso se ve así:- No emitas reembolsos proactivos generales por tiempo de inactividad rutinario
- Ofrece un reembolso de un mes completo, sin dudarlo, a cualquier cliente que se comunique contigo visiblemente molesto por la interrupción
- Trata el reembolso como una inversión en retención, no como una pérdida, ya que el LTV de un cliente retenido supera con creces un mes de MRR
-
¿Cómo afectan las interrupciones del servicio la tasa de cancelación de SaaS y qué puedes hacer para reducir el impacto?
Las interrupciones del servicio aumentan la cancelación involuntaria y voluntaria al erosionar la confianza del cliente, particularmente para productos SaaS B2B donde los usuarios dependen de datos precisos en tiempo real para tomar decisiones comerciales.
El riesgo de cancelación se agrava cuando los clientes experimentan una interrupción y no reciben ninguna comunicación al respecto, porque el silencio señala falta de confiabilidad más que el propio tiempo de inactividad. Los pasos que demostrablemente reducen el impacto de cancelación durante una interrupción del servicio incluyen:- Publicar una actualización de estado dentro de minutos de confirmar un problema, antes de que los clientes comiencen a enviar correos electrónicos
- Enviar un correo electrónico directo del CEO o fundador para interrupciones que duren más de 24 horas
- Publicar un análisis posterior que explique la causa raíz y qué cambios realizaste para prevenir que vuelva a ocurrir