NeoBabel: Een meertalige open toren voor visuele generatie
NeoBabel: A Multilingual Open Tower for Visual Generation
July 8, 2025
Auteurs: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI
Samenvatting
Vooruitgang in tekst-naar-beeldgeneratie is voornamelijk Engelstalig geweest, wat barrières creëert voor niet-Engelssprekenden en digitale ongelijkheden in stand houdt. Hoewel bestaande systemen vertaalpipelines gebruiken, introduceren deze semantische verschuiving, rekenkundige overhead en culturele misalignering. Wij introduceren NeoBabel, een innovatief meertalig beeldgeneratieframework dat een nieuwe Pareto-grens stelt op het gebied van prestaties, efficiëntie en inclusiviteit, met ondersteuning voor zes talen: Engels, Chinees, Nederlands, Frans, Hindi en Perzisch. Het model wordt getraind met een combinatie van grootschalige meertalige voorafgaande training en hoogwaardige instructieafstemming. Om de mogelijkheden te evalueren, breiden we twee Engelstalige benchmarks uit naar meertalige equivalenten: m-GenEval en m-DPG. NeoBabel behaalt state-of-the-art meertalige prestaties terwijl het sterke Engelse capaciteiten behoudt, met scores van 0,75 op m-GenEval en 0,68 op m-DPG. Opvallend is dat het gelijke tred houdt met toonaangevende modellen op Engelstalige taken, terwijl het hen overtreft met +0,11 en +0,09 op meertalige benchmarks, zelfs al zijn deze modellen gebouwd op meertalige basis-LLM's. Dit toont de effectiviteit aan van onze gerichte afstemmingstraining voor het behoud en de uitbreiding van crosslinguale generalisatie. We introduceren verder twee nieuwe metrieken om meertalige afstemming en robuustheid tegen code-gemengde prompts rigoureus te beoordelen. Opvallend is dat NeoBabel gelijke tred houdt met of Engelstalige modellen overtreft, terwijl het 2-4x kleiner is. We geven een open toolkit vrij, inclusief alle code, modelcheckpoints, een gecureerde dataset van 124M meertalige tekst-beeldparen en gestandaardiseerde meertalige evaluatieprotocollen, om inclusief AI-onderzoek te bevorderen. Ons werk toont aan dat meertalige capaciteit geen compromis is, maar een katalysator voor verbeterde robuustheid, efficiëntie en culturele trouw in generatieve AI.
English
Text-to-image generation advancements have been predominantly
English-centric, creating barriers for non-English speakers and perpetuating
digital inequities. While existing systems rely on translation pipelines, these
introduce semantic drift, computational overhead, and cultural misalignment. We
introduce NeoBabel, a novel multilingual image generation framework that sets a
new Pareto frontier in performance, efficiency and inclusivity, supporting six
languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is
trained using a combination of large-scale multilingual pretraining and
high-resolution instruction tuning. To evaluate its capabilities, we expand two
English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG.
NeoBabel achieves state-of-the-art multilingual performance while retaining
strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG.
Notably, it performs on par with leading models on English tasks while
outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though
these models are built on multilingual base LLMs. This demonstrates the
effectiveness of our targeted alignment training for preserving and extending
crosslingual generalization. We further introduce two new metrics to rigorously
assess multilingual alignment and robustness to code-mixed prompts. Notably,
NeoBabel matches or exceeds English-only models while being 2-4x smaller. We
release an open toolkit, including all code, model checkpoints, a curated
dataset of 124M multilingual text-image pairs, and standardized multilingual
evaluation protocols, to advance inclusive AI research. Our work demonstrates
that multilingual capability is not a trade-off but a catalyst for improved
robustness, efficiency, and cultural fidelity in generative AI.