NeoBabel: Una Torre Aperta Multilingue per la Generazione Visiva

Abstract

I progressi nella generazione di immagini da testo sono stati prevalentemente centrati sull'inglese, creando barriere per i parlanti non anglofoni e perpetuando disuguaglianze digitali. Sebbene i sistemi esistenti si basino su pipeline di traduzione, queste introducono deriva semantica, sovraccarico computazionale e disallineamento culturale. Presentiamo NeoBabel, un innovativo framework multilingue per la generazione di immagini che stabilisce una nuova frontiera di Pareto in termini di prestazioni, efficienza e inclusività, supportando sei lingue: inglese, cinese, olandese, francese, hindi e persiano. Il modello è addestrato utilizzando una combinazione di pre-addestramento multilingue su larga scala e messa a punto ad alta risoluzione basata su istruzioni. Per valutarne le capacità, espandiamo due benchmark esclusivamente in inglese alle loro equivalenti versioni multilingue: m-GenEval e m-DPG. NeoBabel raggiunge prestazioni multilingue all'avanguardia mantenendo una forte capacità in inglese, ottenendo un punteggio di 0,75 su m-GenEval e 0,68 su m-DPG. In particolare, si comporta alla pari con i modelli leader nei compiti in inglese, superandoli di +0,11 e +0,09 nei benchmark multilingue, nonostante questi modelli siano costruiti su LLM di base multilingue. Ciò dimostra l'efficacia del nostro addestramento mirato all'allineamento per preservare ed estendere la generalizzazione cross-linguistica. Introduciamo inoltre due nuove metriche per valutare rigorosamente l'allineamento multilingue e la robustezza rispetto a prompt con codice misto. In particolare, NeoBabel eguaglia o supera i modelli esclusivamente in inglese pur essendo 2-4 volte più piccolo. Rilasciamo un toolkit open, che include tutto il codice, i checkpoint del modello, un dataset curato di 124 milioni di coppie testo-immagine multilingue e protocolli di valutazione multilingue standardizzati, per promuovere la ricerca inclusiva nell'IA. Il nostro lavoro dimostra che la capacità multilingue non è un compromesso, ma un catalizzatore per una maggiore robustezza, efficienza e fedeltà culturale nell'IA generativa.

English

Text-to-image generation advancements have been predominantly English-centric, creating barriers for non-English speakers and perpetuating digital inequities. While existing systems rely on translation pipelines, these introduce semantic drift, computational overhead, and cultural misalignment. We introduce NeoBabel, a novel multilingual image generation framework that sets a new Pareto frontier in performance, efficiency and inclusivity, supporting six languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is trained using a combination of large-scale multilingual pretraining and high-resolution instruction tuning. To evaluate its capabilities, we expand two English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG. NeoBabel achieves state-of-the-art multilingual performance while retaining strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG. Notably, it performs on par with leading models on English tasks while outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though these models are built on multilingual base LLMs. This demonstrates the effectiveness of our targeted alignment training for preserving and extending crosslingual generalization. We further introduce two new metrics to rigorously assess multilingual alignment and robustness to code-mixed prompts. Notably, NeoBabel matches or exceeds English-only models while being 2-4x smaller. We release an open toolkit, including all code, model checkpoints, a curated dataset of 124M multilingual text-image pairs, and standardized multilingual evaluation protocols, to advance inclusive AI research. Our work demonstrates that multilingual capability is not a trade-off but a catalyst for improved robustness, efficiency, and cultural fidelity in generative AI.

NeoBabel: Una Torre Aperta Multilingue per la Generazione Visiva

NeoBabel: A Multilingual Open Tower for Visual Generation

Abstract

Support