NeoBabel: Una Torre Abierta Multilingüe para Generación Visual
NeoBabel: A Multilingual Open Tower for Visual Generation
July 8, 2025
Autores: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI
Resumen
Los avances en la generación de texto a imagen han sido predominantemente centrados en el inglés, creando barreras para los hablantes no angloparlantes y perpetuando inequidades digitales. Aunque los sistemas existentes dependen de pipelines de traducción, estos introducen desviación semántica, sobrecarga computacional y desalineación cultural. Presentamos NeoBabel, un novedoso marco de generación de imágenes multilingüe que establece una nueva frontera de Pareto en rendimiento, eficiencia e inclusividad, soportando seis idiomas: inglés, chino, neerlandés, francés, hindi y persa. El modelo se entrena utilizando una combinación de preentrenamiento multilingüe a gran escala y ajuste fino de alta resolución. Para evaluar sus capacidades, ampliamos dos benchmarks exclusivos en inglés a sus equivalentes multilingües: m-GenEval y m-DPG. NeoBabel logra un rendimiento multilingüe de vanguardia mientras mantiene una sólida capacidad en inglés, obteniendo 0.75 en m-GenEval y 0.68 en m-DPG. Destaca que iguala a los modelos líderes en tareas en inglés mientras los supera en +0.11 y +0.09 en benchmarks multilingües, a pesar de que estos modelos están construidos sobre LLMs base multilingües. Esto demuestra la efectividad de nuestro entrenamiento de alineación específica para preservar y extender la generalización translingüística. Además, introducimos dos nuevas métricas para evaluar rigurosamente la alineación multilingüe y la robustez ante prompts con mezcla de códigos. Notablemente, NeoBabel iguala o supera a los modelos exclusivos en inglés mientras es 2-4 veces más pequeño. Publicamos un kit de herramientas abierto, que incluye todo el código, puntos de control del modelo, un conjunto de datos curado de 124M pares de texto-imagen multilingües y protocolos de evaluación multilingüe estandarizados, para impulsar la investigación en IA inclusiva. Nuestro trabajo demuestra que la capacidad multilingüe no es una compensación, sino un catalizador para mejorar la robustez, eficiencia y fidelidad cultural en la IA generativa.
English
Text-to-image generation advancements have been predominantly
English-centric, creating barriers for non-English speakers and perpetuating
digital inequities. While existing systems rely on translation pipelines, these
introduce semantic drift, computational overhead, and cultural misalignment. We
introduce NeoBabel, a novel multilingual image generation framework that sets a
new Pareto frontier in performance, efficiency and inclusivity, supporting six
languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is
trained using a combination of large-scale multilingual pretraining and
high-resolution instruction tuning. To evaluate its capabilities, we expand two
English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG.
NeoBabel achieves state-of-the-art multilingual performance while retaining
strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG.
Notably, it performs on par with leading models on English tasks while
outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though
these models are built on multilingual base LLMs. This demonstrates the
effectiveness of our targeted alignment training for preserving and extending
crosslingual generalization. We further introduce two new metrics to rigorously
assess multilingual alignment and robustness to code-mixed prompts. Notably,
NeoBabel matches or exceeds English-only models while being 2-4x smaller. We
release an open toolkit, including all code, model checkpoints, a curated
dataset of 124M multilingual text-image pairs, and standardized multilingual
evaluation protocols, to advance inclusive AI research. Our work demonstrates
that multilingual capability is not a trade-off but a catalyst for improved
robustness, efficiency, and cultural fidelity in generative AI.