ChatPaper.aiChatPaper

Atténuer l'oubli visuel via un conditionnement visuel portable pour un raisonnement multimodal à long terme en chaîne de pensée

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

March 17, 2025
Auteurs: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI

Résumé

Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont démontré des capacités de raisonnement améliorées, évoluant des techniques de chaîne de pensée (Chain-of-Thought, CoT) vers des solutions avancées et orientées produit comme OpenAI o1. Lors de notre réimplémentation de ce modèle, nous avons remarqué que dans les tâches multimodales nécessitant une entrée visuelle (par exemple, des problèmes de géométrie), les LLMs multimodaux (MLLMs) peinent à maintenir leur attention sur l'information visuelle. En d'autres termes, les MLLMs subissent une diminution progressive de l'attention portée à l'information visuelle au fur et à mesure que le raisonnement progresse, ce qui entraîne une surdépendance aux sorties textuelles. Pour étudier ce phénomène, nous avons supprimé les entrées d'images lors de raisonnements à chaîne longue. Concrètement, nous avons interrompu le processus de raisonnement à mi-parcours, puis avons repris ce processus en supprimant l'image d'entrée. Nous avons observé une baisse de précision d'environ 2 % sur le sous-ensemble test-hard de MathVista, révélant que les sorties textuelles du modèle dominent le processus de raisonnement ultérieur. Motivés par cette observation, nous proposons le conditionnement visuel "Take-along" (TVC), une stratégie qui déplace l'entrée d'image vers les étapes critiques du raisonnement et compresse les tokens visuels redondants via un élagage dynamique. Cette méthodologie aide le modèle à maintenir son attention sur les composants visuels tout au long du raisonnement. Notre approche atteint des performances de pointe en moyenne sur cinq benchmarks de raisonnement mathématique (+3,4 % par rapport au précédent état de l'art), démontrant l'efficacité du TVC pour améliorer les systèmes de raisonnement multimodal.
English
Recent advancements in Large Language Models (LLMs) have demonstrated enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting to advanced, product-oriented solutions like OpenAI o1. During our re-implementation of this model, we noticed that in multimodal tasks requiring visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to maintain focus on the visual information, in other words, MLLMs suffer from a gradual decline in attention to visual information as reasoning progresses, causing text-over-relied outputs. To investigate this, we ablate image inputs during long-chain reasoning. Concretely, we truncate the reasoning process midway, then re-complete the reasoning process with the input image removed. We observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the model's textual outputs dominate the following reasoning process. Motivated by this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts image input to critical reasoning stages and compresses redundant visual tokens via dynamic pruning. This methodology helps the model retain attention to the visual components throughout the reasoning. Our approach achieves state-of-the-art performance on average across five mathematical reasoning benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in enhancing multimodal reasoning systems.

Summary

AI-Generated Summary

PDF62March 20, 2025