ChatPaper.aiChatPaper

次世代基盤型マルチモーダル大規模言語モデルのための 自己改善型システマティック認知に向けて

Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs

March 16, 2025
著者: Xiaoying Zhang, Da Peng, Yipeng Zhang, Zonghao Guo, Chengyue Wu, Chi Chen, Wei Ke, Helen Meng, Maosong Sun
cs.AI

要旨

その印象的な能力にもかかわらず、マルチモーダル大規模言語モデル(MLLMs)は、細粒度の知覚と複雑な推論において課題に直面しています。一般的なマルチモーダル事前学習アプローチは、高品質な画像キャプションを用いた学習を通じて知覚を強化することに焦点を当てています。これは、推論能力を向上させるための連鎖的思考(CoT)推論データの収集コストが非常に高いためです。先進的なMLLMsを活用したキャプション生成はスケーラビリティを高めますが、その出力はしばしば包括性と正確性に欠けています。本論文では、自己生成データを用いたマルチモーダル事前学習を通じて、体系的認知能力を強化することで次世代基盤MLLMsを構築する自己学習フレームワーク「Self-Improving cognition(SIcog)」を紹介します。具体的には、段階的な視覚理解を可能にする「Chain-of-Description」アプローチを提案し、MLLMsの体系的知覚を向上させ、より包括的かつ正確な理解を保証します。さらに、構造化されたCoT推論技術を採用し、MLLMsが深いマルチモーダル推論を統合できるようにします。自己改善された認知能力を持つ次世代基盤MLLMを構築するために、SIcogはまず、最小限の外部注釈を用いてMLLMに体系的知覚と推論能力を装備します。強化されたモデルは、詳細なキャプションとCoT推論データを生成し、それらは自己一貫性を通じてさらに精選されます。この精選されたデータは、最終的にマルチモーダル事前学習に使用され、次世代基盤モデルを開発します。多様なベンチマークにおける低解像度および高解像度MLLMsを用いた広範な実験により、わずか213Kの自己生成事前学習サンプルで、SIcogが次世代基盤MLLMsを生成し、その認知能力が大幅に向上し、一般的な事前学習アプローチと比較してベンチマークでリーダーとなる性能を達成することが示されました。
English
Despite their impressive capabilities, Multimodal Large Language Models (MLLMs) face challenges with fine-grained perception and complex reasoning. Prevalent multimodal pre-training approaches focus on enhancing perception by training on high-quality image captions due to the extremely high cost of collecting chain-of-thought (CoT) reasoning data for improving reasoning. While leveraging advanced MLLMs for caption generation enhances scalability, the outputs often lack comprehensiveness and accuracy. In this paper, we introduce Self-Improving cognition (SIcog), a self-learning framework designed to construct next-generation foundation MLLMs by enhancing their systematic cognitive capabilities through multimodal pre-training with self-generated data. Specifically, we propose Chain-of-Description, an approach that improves an MLLM's systematic perception by enabling step-by-step visual understanding, ensuring greater comprehensiveness and accuracy. Additionally, we adopt a structured CoT reasoning technique to enable MLLMs to integrate in-depth multimodal reasoning. To construct a next-generation foundation MLLM with self-improved cognition, SIcog first equips an MLLM with systematic perception and reasoning abilities using minimal external annotations. The enhanced models then generate detailed captions and CoT reasoning data, which are further curated through self-consistency. This curated data is ultimately used for multimodal pre-training to develop next-generation foundation models. Extensive experiments on both low- and high-resolution MLLMs across diverse benchmarks demonstrate that, with merely 213K self-generated pre-training samples, SIcog produces next-generation foundation MLLMs with significantly improved cognition, achieving benchmark-leading performance compared to prevalent pre-training approaches.

Summary

AI-Generated Summary

PDF73March 19, 2025