ChatPaper.aiChatPaper

NeoBabel: Многоязычная открытая башня для визуальной генерации

NeoBabel: A Multilingual Open Tower for Visual Generation

July 8, 2025
Авторы: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI

Аннотация

Достижения в области генерации изображений по тексту были преимущественно ориентированы на английский язык, создавая барьеры для носителей других языков и усугубляя цифровое неравенство. Хотя существующие системы полагаются на цепочки перевода, это приводит к семантическим искажениям, вычислительным издержкам и культурным несоответствиям. Мы представляем NeoBabel — новую многоязычную платформу для генерации изображений, которая устанавливает новый парето-оптимум в производительности, эффективности и инклюзивности, поддерживая шесть языков: английский, китайский, голландский, французский, хинди и персидский. Модель обучается с использованием комбинации крупномасштабного многоязычного предобучения и тонкой настройки на высококачественных инструкциях. Для оценки её возможностей мы расширяем два англоязычных бенчмарка до их многоязычных аналогов: m-GenEval и m-DPG. NeoBabel достигает передовых результатов в многоязычных задачах, сохраняя при этом высокую производительность на английском языке, с показателями 0.75 на m-GenEval и 0.68 на m-DPG. Примечательно, что она работает на уровне ведущих моделей в англоязычных задачах, превосходя их на +0.11 и +0.09 в многоязычных бенчмарках, даже несмотря на то, что эти модели основаны на многоязычных базовых LLM. Это демонстрирует эффективность нашего целевого обучения для сохранения и расширения кросс-лингвистической обобщаемости. Мы также вводим две новые метрики для строгой оценки многоязычного соответствия и устойчивости к смешанным запросам. NeoBabel соответствует или превосходит англоязычные модели, будучи при этом в 2-4 раза компактнее. Мы публикуем открытый инструментарий, включающий весь код, контрольные точки модели, курированный набор данных из 124 миллионов многоязычных текстово-изобразительных пар и стандартизированные протоколы многоязычной оценки, чтобы способствовать развитию инклюзивных исследований в области ИИ. Наша работа демонстрирует, что многоязычная поддержка не является компромиссом, а служит катализатором для повышения устойчивости, эффективности и культурной точности в генеративном ИИ.
English
Text-to-image generation advancements have been predominantly English-centric, creating barriers for non-English speakers and perpetuating digital inequities. While existing systems rely on translation pipelines, these introduce semantic drift, computational overhead, and cultural misalignment. We introduce NeoBabel, a novel multilingual image generation framework that sets a new Pareto frontier in performance, efficiency and inclusivity, supporting six languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is trained using a combination of large-scale multilingual pretraining and high-resolution instruction tuning. To evaluate its capabilities, we expand two English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG. NeoBabel achieves state-of-the-art multilingual performance while retaining strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG. Notably, it performs on par with leading models on English tasks while outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though these models are built on multilingual base LLMs. This demonstrates the effectiveness of our targeted alignment training for preserving and extending crosslingual generalization. We further introduce two new metrics to rigorously assess multilingual alignment and robustness to code-mixed prompts. Notably, NeoBabel matches or exceeds English-only models while being 2-4x smaller. We release an open toolkit, including all code, model checkpoints, a curated dataset of 124M multilingual text-image pairs, and standardized multilingual evaluation protocols, to advance inclusive AI research. Our work demonstrates that multilingual capability is not a trade-off but a catalyst for improved robustness, efficiency, and cultural fidelity in generative AI.
PDF11July 9, 2025