NeoBabel: Uma Torre Aberta Multilíngue para Geração Visual
NeoBabel: A Multilingual Open Tower for Visual Generation
July 8, 2025
Autores: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI
Resumo
Os avanços na geração de imagens a partir de texto têm sido predominantemente centrados no inglês, criando barreiras para falantes de outros idiomas e perpetuando desigualdades digitais. Embora os sistemas existentes dependam de pipelines de tradução, esses introduzem desvios semânticos, sobrecarga computacional e desalinhamento cultural. Apresentamos o NeoBabel, uma nova estrutura de geração de imagens multilíngue que estabelece uma nova fronteira de Pareto em desempenho, eficiência e inclusão, suportando seis idiomas: inglês, chinês, holandês, francês, hindi e persa. O modelo é treinado usando uma combinação de pré-treinamento multilíngue em larga escala e ajuste fino de instruções em alta resolução. Para avaliar suas capacidades, expandimos dois benchmarks exclusivos em inglês para equivalentes multilíngues: m-GenEval e m-DPG. O NeoBabel alcança desempenho multilíngue de ponta enquanto mantém uma forte capacidade em inglês, pontuando 0,75 no m-GenEval e 0,68 no m-DPG. Notavelmente, ele se equipara aos principais modelos em tarefas em inglês enquanto os supera em +0,11 e +0,09 nos benchmarks multilíngues, mesmo que esses modelos sejam construídos sobre LLMs base multilíngues. Isso demonstra a eficácia do nosso treinamento de alinhamento direcionado para preservar e estender a generalização translinguística. Introduzimos ainda duas novas métricas para avaliar rigorosamente o alinhamento multilíngue e a robustez a prompts de código misto. Notavelmente, o NeoBabel iguala ou supera modelos exclusivos em inglês enquanto é 2-4x menor. Lançamos um kit de ferramentas aberto, incluindo todo o código, checkpoints do modelo, um conjunto de dados curado de 124M pares de texto-imagem multilíngues e protocolos de avaliação multilíngue padronizados, para avançar a pesquisa em IA inclusiva. Nosso trabalho demonstra que a capacidade multilíngue não é uma troca, mas um catalisador para melhorar a robustez, eficiência e fidelidade cultural na IA generativa.
English
Text-to-image generation advancements have been predominantly
English-centric, creating barriers for non-English speakers and perpetuating
digital inequities. While existing systems rely on translation pipelines, these
introduce semantic drift, computational overhead, and cultural misalignment. We
introduce NeoBabel, a novel multilingual image generation framework that sets a
new Pareto frontier in performance, efficiency and inclusivity, supporting six
languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is
trained using a combination of large-scale multilingual pretraining and
high-resolution instruction tuning. To evaluate its capabilities, we expand two
English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG.
NeoBabel achieves state-of-the-art multilingual performance while retaining
strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG.
Notably, it performs on par with leading models on English tasks while
outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though
these models are built on multilingual base LLMs. This demonstrates the
effectiveness of our targeted alignment training for preserving and extending
crosslingual generalization. We further introduce two new metrics to rigorously
assess multilingual alignment and robustness to code-mixed prompts. Notably,
NeoBabel matches or exceeds English-only models while being 2-4x smaller. We
release an open toolkit, including all code, model checkpoints, a curated
dataset of 124M multilingual text-image pairs, and standardized multilingual
evaluation protocols, to advance inclusive AI research. Our work demonstrates
that multilingual capability is not a trade-off but a catalyst for improved
robustness, efficiency, and cultural fidelity in generative AI.