NeoBabel: Una Torre Aperta Multilingue per la Generazione Visiva
NeoBabel: A Multilingual Open Tower for Visual Generation
July 8, 2025
Autori: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI
Abstract
I progressi nella generazione di immagini da testo sono stati prevalentemente centrati sull'inglese, creando barriere per i parlanti non anglofoni e perpetuando disuguaglianze digitali. Sebbene i sistemi esistenti si basino su pipeline di traduzione, queste introducono deriva semantica, sovraccarico computazionale e disallineamento culturale. Presentiamo NeoBabel, un innovativo framework multilingue per la generazione di immagini che stabilisce una nuova frontiera di Pareto in termini di prestazioni, efficienza e inclusività, supportando sei lingue: inglese, cinese, olandese, francese, hindi e persiano. Il modello è addestrato utilizzando una combinazione di pre-addestramento multilingue su larga scala e messa a punto ad alta risoluzione basata su istruzioni. Per valutarne le capacità, espandiamo due benchmark esclusivamente in inglese alle loro equivalenti versioni multilingue: m-GenEval e m-DPG. NeoBabel raggiunge prestazioni multilingue all'avanguardia mantenendo una forte capacità in inglese, ottenendo un punteggio di 0,75 su m-GenEval e 0,68 su m-DPG. In particolare, si comporta alla pari con i modelli leader nei compiti in inglese, superandoli di +0,11 e +0,09 nei benchmark multilingue, nonostante questi modelli siano costruiti su LLM di base multilingue. Ciò dimostra l'efficacia del nostro addestramento mirato all'allineamento per preservare ed estendere la generalizzazione cross-linguistica. Introduciamo inoltre due nuove metriche per valutare rigorosamente l'allineamento multilingue e la robustezza rispetto a prompt con codice misto. In particolare, NeoBabel eguaglia o supera i modelli esclusivamente in inglese pur essendo 2-4 volte più piccolo. Rilasciamo un toolkit open, che include tutto il codice, i checkpoint del modello, un dataset curato di 124 milioni di coppie testo-immagine multilingue e protocolli di valutazione multilingue standardizzati, per promuovere la ricerca inclusiva nell'IA. Il nostro lavoro dimostra che la capacità multilingue non è un compromesso, ma un catalizzatore per una maggiore robustezza, efficienza e fedeltà culturale nell'IA generativa.
English
Text-to-image generation advancements have been predominantly
English-centric, creating barriers for non-English speakers and perpetuating
digital inequities. While existing systems rely on translation pipelines, these
introduce semantic drift, computational overhead, and cultural misalignment. We
introduce NeoBabel, a novel multilingual image generation framework that sets a
new Pareto frontier in performance, efficiency and inclusivity, supporting six
languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is
trained using a combination of large-scale multilingual pretraining and
high-resolution instruction tuning. To evaluate its capabilities, we expand two
English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG.
NeoBabel achieves state-of-the-art multilingual performance while retaining
strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG.
Notably, it performs on par with leading models on English tasks while
outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though
these models are built on multilingual base LLMs. This demonstrates the
effectiveness of our targeted alignment training for preserving and extending
crosslingual generalization. We further introduce two new metrics to rigorously
assess multilingual alignment and robustness to code-mixed prompts. Notably,
NeoBabel matches or exceeds English-only models while being 2-4x smaller. We
release an open toolkit, including all code, model checkpoints, a curated
dataset of 124M multilingual text-image pairs, and standardized multilingual
evaluation protocols, to advance inclusive AI research. Our work demonstrates
that multilingual capability is not a trade-off but a catalyst for improved
robustness, efficiency, and cultural fidelity in generative AI.