Mitigando o Esquecimento Visual por meio de Condicionamento Visual Portátil para Raciocínio de Cadeia de Pensamento Multimodal de Longo Prazo
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
March 17, 2025
Autores: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI
Resumo
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades aprimoradas de raciocínio, evoluindo de técnicas como o Chain-of-Thought (CoT) para soluções avançadas e orientadas a produtos, como o OpenAI o1. Durante nossa reimplementação desse modelo, observamos que, em tarefas multimodais que exigem entrada visual (por exemplo, problemas de geometria), os Modelos Multimodais de Linguagem de Grande Escala (MLLMs) têm dificuldade em manter o foco nas informações visuais. Em outras palavras, os MLLMs sofrem um declínio gradual na atenção às informações visuais à medida que o raciocínio progride, resultando em saídas excessivamente dependentes de texto. Para investigar isso, realizamos a ablação de entradas de imagem durante raciocínios de cadeia longa. Especificamente, truncamos o processo de raciocínio no meio e, em seguida, completamos o raciocínio novamente com a imagem de entrada removida. Observamos uma queda de apenas ~2% na precisão no subconjunto test-hard do MathVista, revelando que as saídas textuais do modelo dominam o processo de raciocínio subsequente. Motivados por isso, propomos o Take-along Visual Conditioning (TVC), uma estratégia que desloca a entrada de imagem para estágios críticos do raciocínio e comprime tokens visuais redundantes por meio de poda dinâmica. Essa metodologia ajuda o modelo a manter a atenção aos componentes visuais ao longo do raciocínio. Nossa abordagem alcança desempenho de ponta em média em cinco benchmarks de raciocínio matemático (+3,4% em relação ao estado da arte anterior), demonstrando a eficácia do TVC na melhoria de sistemas de raciocínio multimodal.
English
Recent advancements in Large Language Models (LLMs) have demonstrated
enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting
to advanced, product-oriented solutions like OpenAI o1. During our
re-implementation of this model, we noticed that in multimodal tasks requiring
visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to
maintain focus on the visual information, in other words, MLLMs suffer from a
gradual decline in attention to visual information as reasoning progresses,
causing text-over-relied outputs. To investigate this, we ablate image inputs
during long-chain reasoning. Concretely, we truncate the reasoning process
midway, then re-complete the reasoning process with the input image removed. We
observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the
model's textual outputs dominate the following reasoning process. Motivated by
this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts
image input to critical reasoning stages and compresses redundant visual tokens
via dynamic pruning. This methodology helps the model retain attention to the
visual components throughout the reasoning. Our approach achieves
state-of-the-art performance on average across five mathematical reasoning
benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in
enhancing multimodal reasoning systems.Summary
AI-Generated Summary