ChatPaper.aiChatPaper

다중 모달 장기 사고 연쇄 추론을 위한 Take-along 시각적 조건화를 통한 시각적 망각 완화

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

March 17, 2025
저자: Hai-Long Sun, Zhun Sun, Houwen Peng, Han-Jia Ye
cs.AI

초록

대규모 언어 모델(LLMs)의 최근 발전은 사고의 연쇄(Chain-of-Thought, CoT) 프롬프팅에서 OpenAI o1과 같은 고급 제품 지향 솔루션으로 진화하며 향상된 추론 능력을 보여주고 있습니다. 이 모델을 재구현하는 과정에서, 우리는 시각적 입력이 필요한 다중모드 작업(예: 기하학 문제)에서 다중모드 LLMs(MLLMs)가 시각 정보에 대한 집중력을 유지하는 데 어려움을 겪는다는 것을 발견했습니다. 즉, MLLMs는 추론이 진행됨에 따라 시각 정보에 대한 주의가 점차 감소하여 텍스트에 과도하게 의존하는 출력을 생성합니다. 이를 조사하기 위해, 우리는 장기 추론 과정에서 이미지 입력을 제거하는 실험을 수행했습니다. 구체적으로, 추론 과정을 중간에 중단한 후 입력 이미지를 제거한 상태에서 추론 과정을 다시 완료했습니다. MathVista의 test-hard 하위 집합에서 약 2%의 정확도 하락만 관찰되었으며, 이는 모델의 텍스트 출력이 이후 추론 과정을 지배한다는 것을 보여줍니다. 이를 바탕으로, 우리는 Take-along Visual Conditioning(TVC)을 제안합니다. 이 전략은 이미지 입력을 중요한 추론 단계로 이동시키고 동적 가지치기를 통해 중복된 시각 토큰을 압축합니다. 이 방법론은 모델이 추론 전반에 걸쳐 시각적 요소에 주의를 유지하도록 돕습니다. 우리의 접근 방식은 다섯 가지 수학적 추론 벤치마크에서 평균적으로 최첨단 성능을 달성하며(+3.4% vs 이전 sota), TVC가 다중모드 추론 시스템을 강화하는 데 효과적임을 입증했습니다.
English
Recent advancements in Large Language Models (LLMs) have demonstrated enhanced reasoning capabilities, evolving from Chain-of-Thought (CoT) prompting to advanced, product-oriented solutions like OpenAI o1. During our re-implementation of this model, we noticed that in multimodal tasks requiring visual input (e.g., geometry problems), Multimodal LLMs (MLLMs) struggle to maintain focus on the visual information, in other words, MLLMs suffer from a gradual decline in attention to visual information as reasoning progresses, causing text-over-relied outputs. To investigate this, we ablate image inputs during long-chain reasoning. Concretely, we truncate the reasoning process midway, then re-complete the reasoning process with the input image removed. We observe only a ~2% accuracy drop on MathVista's test-hard subset, revealing the model's textual outputs dominate the following reasoning process. Motivated by this, we propose Take-along Visual Conditioning (TVC), a strategy that shifts image input to critical reasoning stages and compresses redundant visual tokens via dynamic pruning. This methodology helps the model retain attention to the visual components throughout the reasoning. Our approach achieves state-of-the-art performance on average across five mathematical reasoning benchmarks (+3.4% vs previous sota), demonstrating the effectiveness of TVC in enhancing multimodal reasoning systems.

Summary

AI-Generated Summary

PDF62March 20, 2025