Смягчение визуального забывания с помощью визуального кондиционирования "Take-along" для многомодального длинного рассуждения с цепочкой мыслей (CoT)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning
March 17, 2025
Авторы: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) продемонстрировали улучшенные способности к рассуждению, эволюционировав от метода Chain-of-Thought (CoT) до более продвинутых, ориентированных на продукт решений, таких как OpenAI o1. В ходе нашей повторной реализации этой модели мы заметили, что в многомодальных задачах, требующих визуального ввода (например, задачи по геометрии), многомодальные LLM (MLLM) испытывают трудности с сохранением внимания к визуальной информации. Другими словами, MLLM страдают от постепенного снижения внимания к визуальной информации по мере развития рассуждений, что приводит к чрезмерной зависимости от текстовых выводов. Чтобы исследовать это, мы исключаем визуальные входные данные в процессе длинных цепочек рассуждений. Конкретно, мы прерываем процесс рассуждения на середине, а затем завершаем его без исходного изображения. Мы наблюдаем снижение точности всего на ~2% на тестовом подмножестве MathVista test-hard, что указывает на доминирование текстовых выводов модели в последующем процессе рассуждений. Вдохновленные этим, мы предлагаем стратегию Take-along Visual Conditioning (TVC), которая переносит визуальный ввод на ключевые этапы рассуждений и сжимает избыточные визуальные токены с помощью динамического прореживания. Этот подход помогает модели сохранять внимание к визуальным компонентам на протяжении всего процесса рассуждений. Наш метод демонстрирует наилучшие результаты в среднем на пяти бенчмарках математических рассуждений (+3,4% по сравнению с предыдущим SOTA), подтверждая эффективность TVC в улучшении многомодальных систем рассуждений.
English
Recent advancements in Large Language Models (LLMs) have demonstrated
enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting
to advanced, product-oriented solutions like OpenAI o1. During our
re-implementation of this model, we noticed that in multimodal tasks requiring
visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to
maintain focus on the visual information, in other words, MLLMs suffer from a
gradual decline in attention to visual information as reasoning progresses,
causing text-over-relied outputs. To investigate this, we ablate image inputs
during long-chain reasoning. Concretely, we truncate the reasoning process
midway, then re-complete the reasoning process with the input image removed. We
observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the
model's textual outputs dominate the following reasoning process. Motivated by
this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts
image input to critical reasoning stages and compresses redundant visual tokens
via dynamic pruning. This methodology helps the model retain attention to the
visual components throughout the reasoning. Our approach achieves
state-of-the-art performance on average across five mathematical reasoning
benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in
enhancing multimodal reasoning systems.Summary
AI-Generated Summary