ChatPaper.aiChatPaper

マルチモーダル長文連鎖思考推論のための視覚的コンディショニングによる視覚的忘却の軽減

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

March 17, 2025
著者: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI

要旨

大規模言語モデル(LLMs)の最近の進展は、推論能力の向上を示しており、Chain-of-Thought(CoT)プロンプティングから、OpenAI o1のような高度で製品指向のソリューションへと進化しています。このモデルの再実装中に、視覚入力を必要とするマルチモーダルタスク(例えば、幾何学問題)において、マルチモーダルLLMs(MLLMs)が視覚情報に集中し続けることが困難であることに気づきました。言い換えると、MLLMsは推論が進むにつれて視覚情報への注意が徐々に低下し、テキストに過度に依存した出力を生成する傾向があります。これを調査するため、長い連鎖推論中に画像入力を除去しました。具体的には、推論プロセスを途中で切り詰め、その後、入力画像を除去して推論プロセスを再完了させました。その結果、MathVistaのtest-hardサブセットにおいて、精度の低下はわずか約2%であり、モデルのテキスト出力がその後の推論プロセスを支配していることが明らかになりました。この知見に基づき、Take-along Visual Conditioning(TVC)を提案します。これは、画像入力を重要な推論段階にシフトし、動的プルーニングを通じて冗長な視覚トークンを圧縮する戦略です。この方法論により、モデルは推論全体を通じて視覚要素に注意を保つことができます。我々のアプローチは、5つの数学的推論ベンチマークにおいて平均的に最先端の性能を達成し(従来のsota比+3.4%)、TVCがマルチモーダル推論システムを強化する効果を実証しました。
English
Recent advancements in Large Language Models (LLMs) have demonstrated enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting to advanced, product-oriented solutions like OpenAI o1. During our re-implementation of this model, we noticed that in multimodal tasks requiring visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to maintain focus on the visual information, in other words, MLLMs suffer from a gradual decline in attention to visual information as reasoning progresses, causing text-over-relied outputs. To investigate this, we ablate image inputs during long-chain reasoning. Concretely, we truncate the reasoning process midway, then re-complete the reasoning process with the input image removed. We observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the model's textual outputs dominate the following reasoning process. Motivated by this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts image input to critical reasoning stages and compresses redundant visual tokens via dynamic pruning. This methodology helps the model retain attention to the visual components throughout the reasoning. Our approach achieves state-of-the-art performance on average across five mathematical reasoning benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in enhancing multimodal reasoning systems.

Summary

AI-Generated Summary

PDF62March 20, 2025