ChatPaper.aiChatPaper

言葉が視覚を凌駕するとき:人間中心の意思決定のためのテキストのみのトレーニングによりVLMは自己改善できる

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

March 21, 2025
著者: Zhe Hu, Jing Li, Yu Yin
cs.AI

要旨

実世界環境で動作するAIエージェントにとって、身体化された意思決定は基本的な要素である。視覚言語モデル(VLM)はこの能力を進化させてきたが、特に人間のニーズや価値観に関する深い推論を必要とする人間中心の状況における複雑な意思決定には依然として苦戦している。本研究では、マルチモーダルな人間中心の意思決定タスクにおいて、オープンソースのVLMを体系的に評価する。その結果、テキスト記述のみを受け取る大規模言語モデル(LLM)が、実際の画像を処理する同規模のVLMを予想外に上回ることが判明し、視覚的アラインメントがVLMの能力を阻害している可能性が示唆された。この課題に対処するため、合成されたテキストデータを用いた新しいテキストのみのトレーニング手法を提案する。この方法はVLMの言語コンポーネントを強化し、学習した能力をマルチモーダル推論に転移させ、高価な画像-テキストペアデータの必要性を排除する。さらに、VLMはGPT-4のような大規模な教師モデルに依存するのではなく、LLMが生成したトレーニングデータを使用することで、自己改善を通じて大幅な性能向上を達成できることを示す。我々の知見は、VLMの人間中心の意思決定能力を強化するためのより効率的でスケーラブルなアプローチを確立し、自己改善メカニズムを通じてVLMを最適化する新たな道を開くものである。
English
Embodied decision-making is fundamental for AI agents operating in real-world environments. While Visual Language Models (VLMs) have advanced this capability, they still struggle with complex decisions, particularly in human-centered situations that require deep reasoning about human needs and values. In this study, we systematically evaluate open-sourced VLMs on multimodal human-centered decision-making tasks. We find that LLMs receiving only textual descriptions unexpectedly outperform their VLM counterparts of similar scale that process actual images, suggesting that visual alignment may hinder VLM abilities. To address this challenge, we propose a novel text-only training approach with synthesized textual data. This method strengthens VLMs' language components and transfers the learned abilities to multimodal inference, eliminating the need for expensive image-text paired data. Furthermore, we show that VLMs can achieve substantial performance gains through self-improvement, using training data generated by their LLM counterparts rather than relying on larger teacher models like GPT-4. Our findings establish a more efficient and scalable approach to enhancing VLMs' human-centered decision-making capabilities, opening new avenues for optimizing VLMs through self-improvement mechanisms.

Summary

AI-Generated Summary

PDF42March 26, 2025