Mitigare l'oblio visivo attraverso il condizionamento visivo portatile per il ragionamento multimodale a lungo termine con Catena di Pensiero (CoT)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
March 17, 2025
Autori: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLMs) hanno dimostrato capacità di ragionamento migliorate, evolvendosi dal prompting a Catena di Pensiero (CoT) a soluzioni avanzate e orientate al prodotto come OpenAI o1. Durante la nostra re-implementazione di questo modello, abbiamo osservato che nei compiti multimodali che richiedono input visivi (ad esempio, problemi di geometria), i Modelli Linguistici Multimodali (MLLMs) faticano a mantenere l'attenzione sulle informazioni visive; in altre parole, gli MLLMs soffrono di un declino graduale dell'attenzione verso le informazioni visive man mano che il ragionamento procede, producendo output eccessivamente dipendenti dal testo. Per investigare questo fenomeno, abbiamo rimosso gli input di immagini durante il ragionamento a catena lunga. Nello specifico, abbiamo interrotto il processo di ragionamento a metà, per poi completarlo nuovamente rimuovendo l'immagine di input. Abbiamo osservato un calo di precisione di solo ~2% sul sottoinsieme test-hard di MathVista, rivelando che gli output testuali del modello dominano il processo di ragionamento successivo. Motivati da ciò, proponiamo il Condizionamento Visivo Portatile (TVC), una strategia che sposta l'input dell'immagine alle fasi critiche del ragionamento e comprime i token visivi ridondanti attraverso una potatura dinamica. Questa metodologia aiuta il modello a mantenere l'attenzione sui componenti visivi durante tutto il ragionamento. Il nostro approccio raggiunge prestazioni all'avanguardia in media su cinque benchmark di ragionamento matematico (+3,4% rispetto al precedente sota), dimostrando l'efficacia del TVC nel migliorare i sistemi di ragionamento multimodale.
English
Recent advancements in Large Language Models (LLMs) have demonstrated
enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting
to advanced, product-oriented solutions like OpenAI o1. During our
re-implementation of this model, we noticed that in multimodal tasks requiring
visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to
maintain focus on the visual information, in other words, MLLMs suffer from a
gradual decline in attention to visual information as reasoning progresses,
causing text-over-relied outputs. To investigate this, we ablate image inputs
during long-chain reasoning. Concretely, we truncate the reasoning process
midway, then re-complete the reasoning process with the input image removed. We
observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the
model's textual outputs dominate the following reasoning process. Motivated by
this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts
image input to critical reasoning stages and compresses redundant visual tokens
via dynamic pruning. This methodology helps the model retain attention to the
visual components throughout the reasoning. Our approach achieves
state-of-the-art performance on average across five mathematical reasoning
benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in
enhancing multimodal reasoning systems.Summary
AI-Generated Summary