ChatPaper.aiChatPaper

NeoBabel: Ein mehrsprachiger offener Turm für visuelle Generierung

NeoBabel: A Multilingual Open Tower for Visual Generation

July 8, 2025
papers.authors: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI

papers.abstract

Fortschritte in der Text-zu-Bild-Generierung waren bisher überwiegend englischzentriert, was Barrieren für Nicht-Englischsprachige schafft und digitale Ungleichheiten verstärkt. Während bestehende Systeme auf Übersetzungspipelines angewiesen sind, führen diese zu semantischer Abweichung, zusätzlichem Rechenaufwand und kultureller Fehlausrichtung. Wir stellen NeoBabel vor, ein neuartiges mehrsprachiges Bildgenerierungsframework, das eine neue Pareto-Grenze in Bezug auf Leistung, Effizienz und Inklusivität setzt und sechs Sprachen unterstützt: Englisch, Chinesisch, Niederländisch, Französisch, Hindi und Persisch. Das Modell wird durch eine Kombination aus groß angelegtem mehrsprachigem Pretraining und hochauflösendem Instruction Tuning trainiert. Um seine Fähigkeiten zu bewerten, erweitern wir zwei englischsprachige Benchmarks auf mehrsprachige Äquivalente: m-GenEval und m-DPG. NeoBabel erreicht state-of-the-art Leistung in mehrsprachigen Anwendungen bei gleichzeitig starker englischer Kompetenz, mit Bewertungen von 0,75 auf m-GenEval und 0,68 auf m-DPG. Bemerkenswerterweise schneidet es bei englischsprachigen Aufgaben gleichauf mit führenden Modellen ab und übertrifft diese auf mehrsprachigen Benchmarks um +0,11 bzw. +0,09, obwohl diese Modelle auf mehrsprachigen Basis-LLMs aufbauen. Dies zeigt die Effektivität unseres gezielten Alignment-Trainings zur Bewahrung und Erweiterung der crosslingualen Generalisierung. Wir führen außerdem zwei neue Metriken ein, um mehrsprachige Ausrichtung und Robustheit gegenüber Code-Mixed-Prompts rigoros zu bewerten. NeoBabel erreicht oder übertrifft dabei englischsprachige Modelle, ist jedoch 2-4x kleiner. Wir veröffentlichen ein Open-Source-Toolkit, das den gesamten Code, Modell-Checkpoints, einen kuratierten Datensatz mit 124M mehrsprachigen Text-Bild-Paaren und standardisierte mehrsprachige Evaluierungsprotokolle umfasst, um die inklusive KI-Forschung voranzutreiben. Unsere Arbeit zeigt, dass mehrsprachige Fähigkeit kein Kompromiss, sondern ein Katalysator für verbesserte Robustheit, Effizienz und kulturelle Treue in der generativen KI ist.
English
Text-to-image generation advancements have been predominantly English-centric, creating barriers for non-English speakers and perpetuating digital inequities. While existing systems rely on translation pipelines, these introduce semantic drift, computational overhead, and cultural misalignment. We introduce NeoBabel, a novel multilingual image generation framework that sets a new Pareto frontier in performance, efficiency and inclusivity, supporting six languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is trained using a combination of large-scale multilingual pretraining and high-resolution instruction tuning. To evaluate its capabilities, we expand two English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG. NeoBabel achieves state-of-the-art multilingual performance while retaining strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG. Notably, it performs on par with leading models on English tasks while outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though these models are built on multilingual base LLMs. This demonstrates the effectiveness of our targeted alignment training for preserving and extending crosslingual generalization. We further introduce two new metrics to rigorously assess multilingual alignment and robustness to code-mixed prompts. Notably, NeoBabel matches or exceeds English-only models while being 2-4x smaller. We release an open toolkit, including all code, model checkpoints, a curated dataset of 124M multilingual text-image pairs, and standardized multilingual evaluation protocols, to advance inclusive AI research. Our work demonstrates that multilingual capability is not a trade-off but a catalyst for improved robustness, efficiency, and cultural fidelity in generative AI.
PDF11July 9, 2025