ユークリッド:合成された高精細ビジュアル記述でマルチモーダルLLMを強化
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions
December 11, 2024
著者: Jiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger
cs.AI
要旨
最近、多モーダル大規模言語モデル(MLLMs)は急速な進歩を遂げていますが、低レベル視覚知覚(LLVP)には依然として苦労しており、特に画像の幾何学的詳細を正確に記述する能力に関してです。この能力は、ロボティクス、医用画像解析、製造などの領域での応用において重要です。本論文では、まず、MMLMの画像から2D幾何情報を正確に転記する能力を評価するために設計されたベンチマークであるGeoperceptionを紹介します。このベンチマークを使用して、主要なMLLMの制限を示し、その後、幾何タスクの性能向上のための戦略を探る包括的な実証研究を行います。我々の調査結果は、特定のモデルアーキテクチャ、トレーニング技術、およびデータ戦略、例えば高品質の合成データやデータカリキュラムを使用することの利点を示しています。特に、データカリキュラムを活用することで、モデルがゼロから学習できない難しい幾何理解タスクを学習できることがわかりました。これらの知見を活用して、低レベル幾何学的知覚を強化するために特に最適化されたモデルファミリーであるEuclidを開発しました。純粋に合成多モーダルデータでトレーニングされたにもかかわらず、Euclidは新しい幾何形状に対して強力な汎化能力を示します。例えば、Euclidは、特定のGeoperceptionベンチマークタスクにおいて、最高のクローズドソースモデルであるGemini-1.5-Proよりも最大で58.56%、すべてのタスク平均で10.65%まで性能を向上させています。
English
Multimodal large language models (MLLMs) have made rapid progress in recent
years, yet continue to struggle with low-level visual perception (LLVP) --
particularly the ability to accurately describe the geometric details of an
image. This capability is crucial for applications in areas such as robotics,
medical image analysis, and manufacturing. In this paper, we first introduce
Geoperception, a benchmark designed to evaluate an MLLM's ability to accurately
transcribe 2D geometric information from an image. Using this benchmark, we
demonstrate the limitations of leading MLLMs, and then conduct a comprehensive
empirical study to explore strategies for improving their performance on
geometric tasks. Our findings highlight the benefits of certain model
architectures, training techniques, and data strategies, including the use of
high-fidelity synthetic data and multi-stage training with a data curriculum.
Notably, we find that a data curriculum enables models to learn challenging
geometry understanding tasks which they fail to learn from scratch. Leveraging
these insights, we develop Euclid, a family of models specifically optimized
for strong low-level geometric perception. Although purely trained on synthetic
multimodal data, Euclid shows strong generalization ability to novel geometry
shapes. For instance, Euclid outperforms the best closed-source model,
Gemini-1.5-Pro, by up to 58.56% on certain Geoperception benchmark tasks and
10.65% on average across all tasks.Summary
AI-Generated Summary