Jamba: Un Modelo de Lenguaje Híbrido Transformer-MambaJamba: A Hybrid Transformer-Mamba Language Model
Presentamos Jamba, un nuevo modelo base de lenguaje grande basado en una novedosa arquitectura híbrida Transformer-Mamba de mezcla de expertos (MoE). Específicamente, Jamba intercala bloques de capas Transformer y Mamba, aprovechando los beneficios de ambas familias de modelos. Se añade MoE en algunas de estas capas para aumentar la capacidad del modelo mientras se mantiene un uso manejable de parámetros activos. Esta arquitectura flexible permite configuraciones específicas según los recursos y objetivos. En la configuración particular que hemos implementado, obtenemos un modelo potente que cabe en una única GPU de 80GB. Construido a gran escala, Jamba ofrece un alto rendimiento y una pequeña huella de memoria en comparación con los Transformers convencionales, al mismo tiempo que logra un rendimiento de vanguardia en evaluaciones estándar de modelos de lenguaje y en contextos largos. Notablemente, el modelo presenta resultados sólidos para longitudes de contexto de hasta 256K tokens. Estudiamos varias decisiones arquitectónicas, como cómo combinar capas Transformer y Mamba, y cómo mezclar expertos, y demostramos que algunas de ellas son cruciales en el modelado a gran escala. También describimos varias propiedades interesantes de estas arquitecturas que han sido reveladas durante el entrenamiento y evaluación de Jamba, y planeamos publicar puntos de control de varias ejecuciones de ablación, para fomentar una mayor exploración de esta novedosa arquitectura. Hacemos públicos los pesos de nuestra implementación de Jamba bajo una licencia permisiva.