Todos los casos de éxito

Automatización de flujos de trabajo globales con Azure y Databricks

Tiempo de lectura: 1 minuto

Automatización de flujos de trabajo globales con Azure y Databricks

Automatización de flujos de trabajo globales con Azure y Databricks

Desafío

La empresa estaba en transición desde una plataforma de datos heterogénea en AWS (SageMaker, Lambda, Redshift) hacia una arquitectura unificada en Azure centrada en Databricks. Mientras el equipo de cloud provisionaba los recursos base de Azure y los workspaces, la configuración de Databricks debía soportar un modelo de despliegue multi-región y multi-entorno — con entornos separados de dev, staging y producción por cada región geográfica.

Necesitaban una forma robusta y repetible de automatizar la creación y configuración de cada workspace, con controles de acceso, estructuras de datos y secretos consistentes — a lo largo de docenas de entornos aislados.

Solución

Nubosas diseñó e implementó una capa de automatización basada en GitOps que aprovisionaba y configuraba entornos de Databricks desde cero, incluyendo:

  • Configuración de workspaces para todas las combinaciones de región y entorno (por ejemplo, EU-prod, US-sandbox)
  • Creación de grupos de usuarios y configuración de roles de acceso para cada entorno
  • Creación de catálogos y esquemas alineados con el modelo de Arquitectura Medallion (Bronze, Silver, Gold)
  • Plantillas de permisos basadas en roles para equipos de data engineering, analítica y operaciones
  • Gestión segura de secretos mediante Azure Key Vault y secret scopes de Databricks
  • Puntos de conexión de Azure Storage para ingesta vía SFTP
  • Pipelines de Azure Data Factory para ingesta programada de datos desde sistemas corporativos
  • Pipelines de ADO para gestionar despliegues, repositorios Git y operaciones CI/CD de infraestructura
  • Estado de Terraform dividido por unidad de Databricks (account, metastore y workspace)

Todas las configuraciones quedaron gestionadas bajo control de versiones y desplegables a través de pipelines, garantizando consistencia y auditabilidad.

Resultados

  • Una configuración totalmente reproducible y escalable que soporta múltiples regiones y entornos
  • Fuerte separación de responsabilidades y límites claros entre entornos
  • Incorporación más rápida de equipos internos y aceleración de la migración desde AWS
  • Mejora de la seguridad y cumplimiento mediante la gestión centralizada de secretos
  • Intervención manual mínima durante el aprovisionamiento o actualizaciones

Tecnologías

Azure, Databricks, Azure Key Vault, Azure DevOps (ADO), Azure Storage, Azure Data Factory, Terraform