NeoBabel: Una Torre Abierta Multilingüe para Generación Visual

Resumen

Los avances en la generación de texto a imagen han sido predominantemente centrados en el inglés, creando barreras para los hablantes no angloparlantes y perpetuando inequidades digitales. Aunque los sistemas existentes dependen de pipelines de traducción, estos introducen desviación semántica, sobrecarga computacional y desalineación cultural. Presentamos NeoBabel, un novedoso marco de generación de imágenes multilingüe que establece una nueva frontera de Pareto en rendimiento, eficiencia e inclusividad, soportando seis idiomas: inglés, chino, neerlandés, francés, hindi y persa. El modelo se entrena utilizando una combinación de preentrenamiento multilingüe a gran escala y ajuste fino de alta resolución. Para evaluar sus capacidades, ampliamos dos benchmarks exclusivos en inglés a sus equivalentes multilingües: m-GenEval y m-DPG. NeoBabel logra un rendimiento multilingüe de vanguardia mientras mantiene una sólida capacidad en inglés, obteniendo 0.75 en m-GenEval y 0.68 en m-DPG. Destaca que iguala a los modelos líderes en tareas en inglés mientras los supera en +0.11 y +0.09 en benchmarks multilingües, a pesar de que estos modelos están construidos sobre LLMs base multilingües. Esto demuestra la efectividad de nuestro entrenamiento de alineación específica para preservar y extender la generalización translingüística. Además, introducimos dos nuevas métricas para evaluar rigurosamente la alineación multilingüe y la robustez ante prompts con mezcla de códigos. Notablemente, NeoBabel iguala o supera a los modelos exclusivos en inglés mientras es 2-4 veces más pequeño. Publicamos un kit de herramientas abierto, que incluye todo el código, puntos de control del modelo, un conjunto de datos curado de 124M pares de texto-imagen multilingües y protocolos de evaluación multilingüe estandarizados, para impulsar la investigación en IA inclusiva. Nuestro trabajo demuestra que la capacidad multilingüe no es una compensación, sino un catalizador para mejorar la robustez, eficiencia y fidelidad cultural en la IA generativa.

English

Text-to-image generation advancements have been predominantly English-centric, creating barriers for non-English speakers and perpetuating digital inequities. While existing systems rely on translation pipelines, these introduce semantic drift, computational overhead, and cultural misalignment. We introduce NeoBabel, a novel multilingual image generation framework that sets a new Pareto frontier in performance, efficiency and inclusivity, supporting six languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is trained using a combination of large-scale multilingual pretraining and high-resolution instruction tuning. To evaluate its capabilities, we expand two English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG. NeoBabel achieves state-of-the-art multilingual performance while retaining strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG. Notably, it performs on par with leading models on English tasks while outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though these models are built on multilingual base LLMs. This demonstrates the effectiveness of our targeted alignment training for preserving and extending crosslingual generalization. We further introduce two new metrics to rigorously assess multilingual alignment and robustness to code-mixed prompts. Notably, NeoBabel matches or exceeds English-only models while being 2-4x smaller. We release an open toolkit, including all code, model checkpoints, a curated dataset of 124M multilingual text-image pairs, and standardized multilingual evaluation protocols, to advance inclusive AI research. Our work demonstrates that multilingual capability is not a trade-off but a catalyst for improved robustness, efficiency, and cultural fidelity in generative AI.

NeoBabel: Una Torre Abierta Multilingüe para Generación Visual

NeoBabel: A Multilingual Open Tower for Visual Generation

Resumen

Support