Mitigando el olvido visual mediante el condicionamiento visual portátil para el razonamiento multimodal de cadena de pensamiento a largo plazo
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
March 17, 2025
Autores: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento mejoradas, evolucionando desde el enfoque de Cadena de Pensamiento (CoT, Chain-of-Thought) hacia soluciones avanzadas y orientadas a productos, como OpenAI o1. Durante nuestra reimplementación de este modelo, observamos que en tareas multimodales que requieren entrada visual (por ejemplo, problemas de geometría), los Modelos de Lenguaje Multimodales (MLLMs, Multimodal LLMs) tienen dificultades para mantener el enfoque en la información visual. En otras palabras, los MLLMs experimentan una disminución gradual en la atención a la información visual a medida que avanza el razonamiento, lo que resulta en salidas que dependen excesivamente del texto. Para investigar esto, eliminamos las entradas de imágenes durante el razonamiento de cadena larga. Concretamente, truncamos el proceso de razonamiento a la mitad y luego lo completamos nuevamente sin la imagen de entrada. Observamos solo una caída de ~2% en la precisión en el subconjunto test-hard de MathVista, lo que revela que las salidas textuales del modelo dominan el proceso de razonamiento subsiguiente. Motivados por esto, proponemos el Acondicionamiento Visual de Acompañamiento (TVC, Take-along Visual Conditioning), una estrategia que traslada la entrada de imágenes a etapas críticas del razonamiento y comprime los tokens visuales redundantes mediante poda dinámica. Esta metodología ayuda al modelo a mantener la atención en los componentes visuales durante todo el razonamiento. Nuestro enfoque logra un rendimiento de vanguardia en promedio en cinco benchmarks de razonamiento matemático (+3.4% frente al anterior estado del arte), demostrando la efectividad del TVC en la mejora de los sistemas de razonamiento multimodal.
English
Recent advancements in Large Language Models (LLMs) have demonstrated
enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting
to advanced, product-oriented solutions like OpenAI o1. During our
re-implementation of this model, we noticed that in multimodal tasks requiring
visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to
maintain focus on the visual information, in other words, MLLMs suffer from a
gradual decline in attention to visual information as reasoning progresses,
causing text-over-relied outputs. To investigate this, we ablate image inputs
during long-chain reasoning. Concretely, we truncate the reasoning process
midway, then re-complete the reasoning process with the input image removed. We
observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the
model's textual outputs dominate the following reasoning process. Motivated by
this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts
image input to critical reasoning stages and compresses redundant visual tokens
via dynamic pruning. This methodology helps the model retain attention to the
visual components throughout the reasoning. Our approach achieves
state-of-the-art performance on average across five mathematical reasoning
benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in
enhancing multimodal reasoning systems.Summary
AI-Generated Summary