Mitigare l'oblio visivo attraverso il condizionamento visivo portatile per il ragionamento multimodale a lungo termine con Catena di Pensiero (CoT)

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensione (LLMs) hanno dimostrato capacità di ragionamento migliorate, evolvendosi dal prompting a Catena di Pensiero (CoT) a soluzioni avanzate e orientate al prodotto come OpenAI o1. Durante la nostra re-implementazione di questo modello, abbiamo osservato che nei compiti multimodali che richiedono input visivi (ad esempio, problemi di geometria), i Modelli Linguistici Multimodali (MLLMs) faticano a mantenere l'attenzione sulle informazioni visive; in altre parole, gli MLLMs soffrono di un declino graduale dell'attenzione verso le informazioni visive man mano che il ragionamento procede, producendo output eccessivamente dipendenti dal testo. Per investigare questo fenomeno, abbiamo rimosso gli input di immagini durante il ragionamento a catena lunga. Nello specifico, abbiamo interrotto il processo di ragionamento a metà, per poi completarlo nuovamente rimuovendo l'immagine di input. Abbiamo osservato un calo di precisione di solo ~2% sul sottoinsieme test-hard di MathVista, rivelando che gli output testuali del modello dominano il processo di ragionamento successivo. Motivati da ciò, proponiamo il Condizionamento Visivo Portatile (TVC), una strategia che sposta l'input dell'immagine alle fasi critiche del ragionamento e comprime i token visivi ridondanti attraverso una potatura dinamica. Questa metodologia aiuta il modello a mantenere l'attenzione sui componenti visivi durante tutto il ragionamento. Il nostro approccio raggiunge prestazioni all'avanguardia in media su cinque benchmark di ragionamento matematico (+3,4% rispetto al precedente sota), dimostrando l'efficacia del TVC nel migliorare i sistemi di ragionamento multimodale.

English

Recent advancements in Large Language Models (LLMs) have demonstrated enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting to advanced, product-oriented solutions like OpenAI o1. During our re-implementation of this model, we noticed that in multimodal tasks requiring visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to maintain focus on the visual information, in other words, MLLMs suffer from a gradual decline in attention to visual information as reasoning progresses, causing text-over-relied outputs. To investigate this, we ablate image inputs during long-chain reasoning. Concretely, we truncate the reasoning process midway, then re-complete the reasoning process with the input image removed. We observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the model's textual outputs dominate the following reasoning process. Motivated by this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts image input to critical reasoning stages and compresses redundant visual tokens via dynamic pruning. This methodology helps the model retain attention to the visual components throughout the reasoning. Our approach achieves state-of-the-art performance on average across five mathematical reasoning benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in enhancing multimodal reasoning systems.

Mitigare l'oblio visivo attraverso il condizionamento visivo portatile per il ragionamento multimodale a lungo termine con Catena di Pensiero (CoT)

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

Abstract

Summary

Support

Support