Смягчение визуального забывания с помощью визуального кондиционирования "Take-along" для многомодального длинного рассуждения с цепочкой мыслей (CoT)

Аннотация

Последние достижения в области больших языковых моделей (LLM) продемонстрировали улучшенные способности к рассуждению, эволюционировав от метода Chain-of-Thought (CoT) до более продвинутых, ориентированных на продукт решений, таких как OpenAI o1. В ходе нашей повторной реализации этой модели мы заметили, что в многомодальных задачах, требующих визуального ввода (например, задачи по геометрии), многомодальные LLM (MLLM) испытывают трудности с сохранением внимания к визуальной информации. Другими словами, MLLM страдают от постепенного снижения внимания к визуальной информации по мере развития рассуждений, что приводит к чрезмерной зависимости от текстовых выводов. Чтобы исследовать это, мы исключаем визуальные входные данные в процессе длинных цепочек рассуждений. Конкретно, мы прерываем процесс рассуждения на середине, а затем завершаем его без исходного изображения. Мы наблюдаем снижение точности всего на ~2% на тестовом подмножестве MathVista test-hard, что указывает на доминирование текстовых выводов модели в последующем процессе рассуждений. Вдохновленные этим, мы предлагаем стратегию Take-along Visual Conditioning (TVC), которая переносит визуальный ввод на ключевые этапы рассуждений и сжимает избыточные визуальные токены с помощью динамического прореживания. Этот подход помогает модели сохранять внимание к визуальным компонентам на протяжении всего процесса рассуждений. Наш метод демонстрирует наилучшие результаты в среднем на пяти бенчмарках математических рассуждений (+3,4% по сравнению с предыдущим SOTA), подтверждая эффективность TVC в улучшении многомодальных систем рассуждений.

English

Recent advancements in Large Language Models (LLMs) have demonstrated enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting to advanced, product-oriented solutions like OpenAI o1. During our re-implementation of this model, we noticed that in multimodal tasks requiring visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to maintain focus on the visual information, in other words, MLLMs suffer from a gradual decline in attention to visual information as reasoning progresses, causing text-over-relied outputs. To investigate this, we ablate image inputs during long-chain reasoning. Concretely, we truncate the reasoning process midway, then re-complete the reasoning process with the input image removed. We observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the model's textual outputs dominate the following reasoning process. Motivated by this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts image input to critical reasoning stages and compresses redundant visual tokens via dynamic pruning. This methodology helps the model retain attention to the visual components throughout the reasoning. Our approach achieves state-of-the-art performance on average across five mathematical reasoning benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in enhancing multimodal reasoning systems.

Смягчение визуального забывания с помощью визуального кондиционирования "Take-along" для многомодального длинного рассуждения с цепочкой мыслей (CoT)

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

Аннотация

Support