Het verminderen van visueel vergeten via meeneembare visuele conditionering voor multimodale lange CoT-redenering
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
March 17, 2025
Auteurs: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI
Samenvatting
Recente ontwikkelingen in Large Language Models (LLMs) hebben verbeterde redeneervaardigheden aangetoond, waarbij de evolutie is gegaan van Chain-of-Thought (CoT) prompting naar geavanceerde, productgerichte oplossingen zoals OpenAI o1. Tijdens onze herimplementatie van dit model merkten we op dat bij multimodale taken die visuele invoer vereisen (bijvoorbeeld geometrieproblemen), Multimodale LLMs (MLLMs) moeite hebben om de focus op de visuele informatie te behouden. Met andere woorden, MLLMs vertonen een geleidelijke afname in aandacht voor visuele informatie naarmate het redeneren vordert, wat leidt tot tekstgedomineerde uitvoer. Om dit te onderzoeken, hebben we de beeldinvoer tijdens langere redeneerprocessen geablateerd. Concreet hebben we het redeneerproces halverwege afgebroken en vervolgens het redeneerproces opnieuw voltooid zonder de invoerafbeelding. We observeren slechts een nauwelijks merkbare daling van ~2% in nauwkeurigheid op de test-hard subset van MathVista, wat aantoont dat de tekstuele uitvoer van het model het verdere redeneerproces domineert. Gemotiveerd door deze bevinding stellen we Take-along Visual Conditioning (TVC) voor, een strategie die de beeldinvoer naar kritieke redeneerfasen verplaatst en overbodige visuele tokens comprimeert via dynamisch snoeien. Deze methodologie helpt het model om aandacht te blijven besteden aan de visuele componenten gedurende het hele redeneerproces. Onze aanpak behaalt state-of-the-art prestaties gemiddeld over vijf wiskundige redeneerbenchmarks (+3,4% ten opzichte van de vorige sota), wat de effectiviteit van TVC aantoont in het verbeteren van multimodale redeneersystemen.
English
Recent advancements in Large Language Models (LLMs) have demonstrated
enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting
to advanced, product-oriented solutions like OpenAI o1. During our
re-implementation of this model, we noticed that in multimodal tasks requiring
visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to
maintain focus on the visual information, in other words, MLLMs suffer from a
gradual decline in attention to visual information as reasoning progresses,
causing text-over-relied outputs. To investigate this, we ablate image inputs
during long-chain reasoning. Concretely, we truncate the reasoning process
midway, then re-complete the reasoning process with the input image removed. We
observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the
model's textual outputs dominate the following reasoning process. Motivated by
this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts
image input to critical reasoning stages and compresses redundant visual tokens
via dynamic pruning. This methodology helps the model retain attention to the
visual components throughout the reasoning. Our approach achieves
state-of-the-art performance on average across five mathematical reasoning
benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in
enhancing multimodal reasoning systems.Summary
AI-Generated Summary