확장 가능한 다중 모달 추론을 위한 지각적 디커플링: 보최적 캡션화를 통한 접근
Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning
June 5, 2025
저자: Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Xin Jin, Zhenguo Li, James T. Kwok, Yu Zhang
cs.AI
초록
최근 느린 사고 언어 모델(예: OpenAI-o1 및 DeepSeek-R1)의 발전은 인간과 유사한 반성적 인지를 모방함으로써 복잡한 추론 과제에서 놀라운 능력을 보여주었다. 그러나 이러한 능력을 다중 모달 대형 언어 모델(MLLMs)로 확장하는 것은 기본 추론자 LLMs를 업그레이드할 때 시각-언어 정렬을 재훈련하는 데 드는 높은 비용으로 인해 여전히 어려운 과제로 남아 있다. 간단한 해결책은 인지와 추론을 분리하는 것, 즉 시각적 입력을 언어 표현(예: 캡션)으로 변환한 후 이를 강력한 텍스트 전용 추론기에 전달하는 것이다. 그러나 이러한 분리는 중요한 문제를 야기한다: 시각 추출기는 이미지에 충실하면서도 정확한 하위 추론을 지원할 만큼 충분히 정보를 제공하는 설명을 생성해야 한다. 이를 해결하기 위해, 우리는 캡션 보상 최적화를 통한 추론-정렬된 인지 분리(Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization, RACRO)를 제안한다. 이는 추출기의 캡션 생성 행동을 추론 목표와 정렬시키는 추론-지도 강화 학습 전략이다. 보상 기반 최적화를 통해 인지-추론 루프를 닫음으로써, RACRO는 시각적 근거를 크게 강화하고 추론 최적화된 표현을 추출한다. 다중 모달 수학 및 과학 벤치마크에서의 실험은 제안된 RACRO 방법이 최첨단 평균 성능을 달성하면서도 더 진보된 추론 LLMs에 대한 우수한 확장성과 플러그 앤 플레이 적응을 가능하게 하며, 비용이 많이 드는 다중 모달 재정렬의 필요성을 없앰을 보여준다.
English
Recent advances in slow-thinking language models (e.g., OpenAI-o1 and
DeepSeek-R1) have demonstrated remarkable abilities in complex reasoning tasks
by emulating human-like reflective cognition. However, extending such
capabilities to multi-modal large language models (MLLMs) remains challenging
due to the high cost of retraining vision-language alignments when upgrading
the underlying reasoner LLMs. A straightforward solution is to decouple
perception from reasoning, i.e., converting visual inputs into language
representations (e.g., captions) that are then passed to a powerful text-only
reasoner. However, this decoupling introduces a critical challenge: the visual
extractor must generate descriptions that are both faithful to the image and
informative enough to support accurate downstream reasoning. To address this,
we propose Reasoning-Aligned Perceptual Decoupling via Caption Reward
Optimization (RACRO) - a reasoning-guided reinforcement learning strategy that
aligns the extractor's captioning behavior with the reasoning objective. By
closing the perception-reasoning loop via reward-based optimization, RACRO
significantly enhances visual grounding and extracts reasoning-optimized
representations. Experiments on multi-modal math and science benchmarks show
that the proposed RACRO method achieves state-of-the-art average performance
while enabling superior scalability and plug-and-play adaptation to more
advanced reasoning LLMs without the necessity for costly multi-modal
re-alignment.