NeoBabel: Een meertalige open toren voor visuele generatie

Samenvatting

Vooruitgang in tekst-naar-beeldgeneratie is voornamelijk Engelstalig geweest, wat barrières creëert voor niet-Engelssprekenden en digitale ongelijkheden in stand houdt. Hoewel bestaande systemen vertaalpipelines gebruiken, introduceren deze semantische verschuiving, rekenkundige overhead en culturele misalignering. Wij introduceren NeoBabel, een innovatief meertalig beeldgeneratieframework dat een nieuwe Pareto-grens stelt op het gebied van prestaties, efficiëntie en inclusiviteit, met ondersteuning voor zes talen: Engels, Chinees, Nederlands, Frans, Hindi en Perzisch. Het model wordt getraind met een combinatie van grootschalige meertalige voorafgaande training en hoogwaardige instructieafstemming. Om de mogelijkheden te evalueren, breiden we twee Engelstalige benchmarks uit naar meertalige equivalenten: m-GenEval en m-DPG. NeoBabel behaalt state-of-the-art meertalige prestaties terwijl het sterke Engelse capaciteiten behoudt, met scores van 0,75 op m-GenEval en 0,68 op m-DPG. Opvallend is dat het gelijke tred houdt met toonaangevende modellen op Engelstalige taken, terwijl het hen overtreft met +0,11 en +0,09 op meertalige benchmarks, zelfs al zijn deze modellen gebouwd op meertalige basis-LLM's. Dit toont de effectiviteit aan van onze gerichte afstemmingstraining voor het behoud en de uitbreiding van crosslinguale generalisatie. We introduceren verder twee nieuwe metrieken om meertalige afstemming en robuustheid tegen code-gemengde prompts rigoureus te beoordelen. Opvallend is dat NeoBabel gelijke tred houdt met of Engelstalige modellen overtreft, terwijl het 2-4x kleiner is. We geven een open toolkit vrij, inclusief alle code, modelcheckpoints, een gecureerde dataset van 124M meertalige tekst-beeldparen en gestandaardiseerde meertalige evaluatieprotocollen, om inclusief AI-onderzoek te bevorderen. Ons werk toont aan dat meertalige capaciteit geen compromis is, maar een katalysator voor verbeterde robuustheid, efficiëntie en culturele trouw in generatieve AI.

English

Text-to-image generation advancements have been predominantly English-centric, creating barriers for non-English speakers and perpetuating digital inequities. While existing systems rely on translation pipelines, these introduce semantic drift, computational overhead, and cultural misalignment. We introduce NeoBabel, a novel multilingual image generation framework that sets a new Pareto frontier in performance, efficiency and inclusivity, supporting six languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is trained using a combination of large-scale multilingual pretraining and high-resolution instruction tuning. To evaluate its capabilities, we expand two English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG. NeoBabel achieves state-of-the-art multilingual performance while retaining strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG. Notably, it performs on par with leading models on English tasks while outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though these models are built on multilingual base LLMs. This demonstrates the effectiveness of our targeted alignment training for preserving and extending crosslingual generalization. We further introduce two new metrics to rigorously assess multilingual alignment and robustness to code-mixed prompts. Notably, NeoBabel matches or exceeds English-only models while being 2-4x smaller. We release an open toolkit, including all code, model checkpoints, a curated dataset of 124M multilingual text-image pairs, and standardized multilingual evaluation protocols, to advance inclusive AI research. Our work demonstrates that multilingual capability is not a trade-off but a catalyst for improved robustness, efficiency, and cultural fidelity in generative AI.

NeoBabel: Een meertalige open toren voor visuele generatie

NeoBabel: A Multilingual Open Tower for Visual Generation

Samenvatting

Support