NeoBabel: 視覚生成のための多言語オープンタワー
NeoBabel: A Multilingual Open Tower for Visual Generation
July 8, 2025
著者: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek
cs.AI
要旨
テキストから画像を生成する技術の進歩は、主に英語中心に進められており、非英語話者にとって障壁となり、デジタル格差を永続させてきました。既存のシステムは翻訳パイプラインに依存していますが、これらは意味のずれ、計算上のオーバーヘッド、文化的な不一致を引き起こします。私たちは、NeoBabelという新しい多言語画像生成フレームワークを導入し、性能、効率、包括性において新たなパレートフロンティアを確立しました。このモデルは、英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシャ語の6言語をサポートしています。モデルは、大規模な多言語事前学習と高解像度の指示チューニングを組み合わせて訓練されています。その能力を評価するために、2つの英語のみのベンチマークを多言語版に拡張しました:m-GenEvalとm-DPGです。NeoBabelは、強力な英語能力を維持しながら、多言語性能において最先端を達成し、m-GenEvalで0.75、m-DPGで0.68のスコアを記録しました。特に、英語タスクでは主要モデルと同等の性能を発揮しつつ、多言語ベンチマークでは+0.11と+0.09の差をつけて優れています。これは、多言語ベースの大規模言語モデル(LLM)を基に構築されたモデルであっても、私たちのターゲットを絞ったアライメント訓練が、言語間の一般化を維持・拡張する上で有効であることを示しています。さらに、多言語アライメントとコード混合プロンプトに対する堅牢性を厳密に評価するために、2つの新しい指標を導入しました。注目すべきは、NeoBabelが英語のみのモデルと同等またはそれ以上の性能を発揮しながら、2~4倍小さいことです。私たちは、包括的なAI研究を推進するために、すべてのコード、モデルチェックポイント、124Mの多言語テキスト-画像ペアのキュレーションデータセット、標準化された多言語評価プロトコルを含むオープンツールキットを公開します。私たちの研究は、多言語能力がトレードオフではなく、生成AIの堅牢性、効率性、文化的忠実性を向上させる触媒であることを示しています。
English
Text-to-image generation advancements have been predominantly
English-centric, creating barriers for non-English speakers and perpetuating
digital inequities. While existing systems rely on translation pipelines, these
introduce semantic drift, computational overhead, and cultural misalignment. We
introduce NeoBabel, a novel multilingual image generation framework that sets a
new Pareto frontier in performance, efficiency and inclusivity, supporting six
languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is
trained using a combination of large-scale multilingual pretraining and
high-resolution instruction tuning. To evaluate its capabilities, we expand two
English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG.
NeoBabel achieves state-of-the-art multilingual performance while retaining
strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG.
Notably, it performs on par with leading models on English tasks while
outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though
these models are built on multilingual base LLMs. This demonstrates the
effectiveness of our targeted alignment training for preserving and extending
crosslingual generalization. We further introduce two new metrics to rigorously
assess multilingual alignment and robustness to code-mixed prompts. Notably,
NeoBabel matches or exceeds English-only models while being 2-4x smaller. We
release an open toolkit, including all code, model checkpoints, a curated
dataset of 124M multilingual text-image pairs, and standardized multilingual
evaluation protocols, to advance inclusive AI research. Our work demonstrates
that multilingual capability is not a trade-off but a catalyst for improved
robustness, efficiency, and cultural fidelity in generative AI.