ChatPaper.aiChatPaper

NeoBabel : Une Tour Ouverte Multilingue pour la Génération Visuelle

NeoBabel: A Multilingual Open Tower for Visual Generation

July 8, 2025
papers.authors: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI

papers.abstract

Les avancées en génération d'images à partir de texte ont été principalement centrées sur l'anglais, créant des barrières pour les locuteurs non anglophones et perpétuant les inégalités numériques. Bien que les systèmes existants reposent sur des pipelines de traduction, ceux-ci introduisent une dérive sémantique, une surcharge computationnelle et un décalage culturel. Nous présentons NeoBabel, un nouveau cadre de génération d'images multilingue qui établit une nouvelle frontière de Pareto en termes de performance, d'efficacité et d'inclusivité, prenant en charge six langues : l'anglais, le chinois, le néerlandais, le français, l'hindi et le persan. Le modèle est entraîné en combinant un prétraitement multilingue à grande échelle et un réglage d'instructions à haute résolution. Pour évaluer ses capacités, nous étendons deux benchmarks exclusivement en anglais à leurs équivalents multilingues : m-GenEval et m-DPG. NeoBabel atteint des performances multilingues de pointe tout en conservant une forte capacité en anglais, obtenant un score de 0,75 sur m-GenEval et de 0,68 sur m-DPG. Il se montre notamment à égalité avec les modèles leaders sur les tâches en anglais tout en les surpassant de +0,11 et +0,09 sur les benchmarks multilingues, bien que ces modèles soient construits sur des LLM de base multilingues. Cela démontre l'efficacité de notre entraînement d'alignement ciblé pour préserver et étendre la généralisation translinguistique. Nous introduisons en outre deux nouvelles métriques pour évaluer rigoureusement l'alignement multilingue et la robustesse aux invites en code-mixage. NeoBabel correspond ou dépasse les modèles exclusivement en anglais tout en étant 2 à 4 fois plus petit. Nous publions une boîte à outils ouverte, incluant tout le code, les points de contrôle du modèle, un ensemble de données soigneusement sélectionné de 124 millions de paires texte-image multilingues, et des protocoles d'évaluation multilingues standardisés, pour faire progresser la recherche en IA inclusive. Notre travail démontre que la capacité multilingue n'est pas un compromis mais un catalyseur pour une robustesse, une efficacité et une fidélité culturelle améliorées dans l'IA générative.
English
Text-to-image generation advancements have been predominantly English-centric, creating barriers for non-English speakers and perpetuating digital inequities. While existing systems rely on translation pipelines, these introduce semantic drift, computational overhead, and cultural misalignment. We introduce NeoBabel, a novel multilingual image generation framework that sets a new Pareto frontier in performance, efficiency and inclusivity, supporting six languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is trained using a combination of large-scale multilingual pretraining and high-resolution instruction tuning. To evaluate its capabilities, we expand two English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG. NeoBabel achieves state-of-the-art multilingual performance while retaining strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG. Notably, it performs on par with leading models on English tasks while outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though these models are built on multilingual base LLMs. This demonstrates the effectiveness of our targeted alignment training for preserving and extending crosslingual generalization. We further introduce two new metrics to rigorously assess multilingual alignment and robustness to code-mixed prompts. Notably, NeoBabel matches or exceeds English-only models while being 2-4x smaller. We release an open toolkit, including all code, model checkpoints, a curated dataset of 124M multilingual text-image pairs, and standardized multilingual evaluation protocols, to advance inclusive AI research. Our work demonstrates that multilingual capability is not a trade-off but a catalyst for improved robustness, efficiency, and cultural fidelity in generative AI.
PDF11July 9, 2025