
Cloudflare ha compartido detalles sobre un reciente incidente de fuga de rutas del Protocolo de Puerta de Enlace Fronteriza (BGP) que afectó el tráfico IPv6 durante 25 minutos. El incidente provocó una congestión considerable, pérdida de paquetes y la caída de aproximadamente 12 Gbps de tráfico, afectando a redes externas más allá de los clientes directos de Cloudflare.
¿Qué es una fuga de rutas BGP?
El sistema BGP es fundamental para enrutar datos a través de diferentes redes interconectadas conocidas como sistemas autónomos (AS). Una fuga de rutas BGP ocurre cuando un Sistema Autónomo viola las políticas de enrutamiento al anunciar incorrectamente rutas aprendidas de un par o proveedor a otro par o proveedor.
Según Cloudflare, este incidente se clasificó como una mezcla de fugas de rutas Tipo 3 y Tipo 4, de acuerdo con las definiciones del RFC7908. Estas fugas violan las reglas de “valley-free routing” que dictan cómo deben propagarse las rutas basadas en las relaciones comerciales entre redes. La violación de estas reglas puede causar que el tráfico sea atraído por rutas inestables o no intencionadas, lo que a menudo resulta en congestión, rendimiento subóptimo o, como en este caso, descarte completo del tráfico cuando los filtros de firewall lo rechazan.
Causa del Incidente y Consecuencias
La raíz del problema fue una “misconfiguration” (configuración errónea accidental) en un router. La causa específica fue un cambio de política que buscaba evitar que Cloudflare anunciara prefijos IPv6 de Bogotá. Sin embargo, al eliminar listas de prefijos específicas, la política de exportación se volvió excesivamente permisiva. Esto permitió que una coincidencia de tipo de ruta interna aceptara todas las rutas IPv6 internas (iBGP) y las exportara externamente a todos los vecinos BGP de Cloudflare en Miami.
Aunque el principal impacto de tales incidentes es la pérdida de confiabilidad, también tienen una dimensión de seguridad, ya que pueden facilitar ataques de secuestro de BGP (BGP hijacking), permitiendo a partes no autorizadas interceptar y analizar el tráfico.
Detección y Mitigación
Cloudflare detectó el problema poco después de su aparición. Los ingenieros de la compañía revirtieron manualmente la configuración y pausaron la automatización, deteniendo el impacto en 25 minutos. El cambio de código que desencadenó el incidente fue posteriormente revertido.
Lecciones Aprendidas y Medidas de Prevención
Cloudflare señaló que el incidente es similar a otro ocurrido en julio de 2020 y ha propuesto medidas para prevenir futuras ocurrencias:
- Salvaguardas de exportación más estrictas: Implementación de salvaguardas basadas en comunidades para controlar la propagación de rutas.
- Controles en CI/CD: Integrar verificaciones automatizadas para detectar errores de política de enrutamiento en el pipeline de Integración Continua/Despliegue Continuo (CI/CD).
- Detección temprana mejorada: Optimizar los sistemas de monitoreo para identificar rápidamente anomalías en el enrutamiento.
- Validación de RPKI ASPA: Promover y validar la adopción de la Autorización de Origen de Ruta (RPKI) y la Autorización de Ruta de Sistema Autónomo (ASPA) como mejores prácticas para el enrutamiento BGP.
Referencias
- https://www.bleepingcomputer.com/news/security/cloudflare-details-25-minute-bgp-route-leak-incident/
- RFC7908 - Definitions of Route Leak Types
- RFC 9234 - BGP Role-Based Secure Routing
Conclusión
El incidente de fuga de rutas BGP de Cloudflare subraya la complejidad y la importancia de la gestión de la configuración de red en infraestructuras a gran escala. La rápida detección y respuesta permitieron mitigar el impacto en solo 25 minutos, pero la causa raíz resalta la necesidad de implementar controles de seguridad más robustos en los procesos de CI/CD y automatización de la configuración para prevenir errores humanos que pueden tener consecuencias de amplio alcance en la red global.