ChatPaper.aiChatPaper

Visionary-R1: 강화 학습을 통한 시각적 추론에서의 단순화 경향 완화

Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning

May 20, 2025
저자: Jiaer Xia, Yuhang Zang, Peng Gao, Yixuan Li, Kaiyang Zhou
cs.AI

초록

범용 추론 능력을 학습하는 것은 오랫동안 AI 분야에서 어려운 문제로 여겨져 왔습니다. 최근 DeepSeek-R1과 같은 대규모 언어 모델(LLM) 연구에서 GRPO와 같은 강화 학습 기법을 통해 사전 학습된 LLM이 간단한 질문-답변 쌍을 사용하여 추론 능력을 개발할 수 있음이 입증되었습니다. 본 논문에서는 명시적인 사고 연쇄(CoT) 지도 없이 강화 학습과 시각적 질문-답변 쌍을 통해 시각 언어 모델(VLM)이 이미지 데이터에 대한 추론을 수행하도록 학습시키는 것을 목표로 합니다. 우리의 연구 결과에 따르면, VLM에 강화 학습을 단순히 적용하는 것만으로는 -- 모델이 답변을 제공하기 전에 추론 연쇄를 생성하도록 유도하는 방식 -- 모델이 쉬운 질문에서 단축 경로를 개발하게 되어, 보이지 않는 데이터 분포에 대한 일반화 능력이 감소할 수 있음을 보여줍니다. 우리는 단축 학습을 완화하는 핵심이 모델이 추론하기 전에 이미지를 해석하도록 유도하는 것이라고 주장합니다. 따라서 우리는 모델이 캡션-추론-답변 출력 형식을 따르도록 학습시킵니다: 먼저 이미지에 대한 상세한 캡션을 생성한 다음, 광범위한 추론 연쇄를 구성합니다. 273K개의 CoT가 없는 시각적 질문-답변 쌍에 대해 강화 학습만을 사용하여 학습한 우리의 모델, Visionary-R1은 GPT-4o, Claude3.5-Sonnet, Gemini-1.5-Pro와 같은 강력한 다중 모달 모델을 여러 시각적 추론 벤치마크에서 능가하는 성능을 보여줍니다.
English
Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent research in large language models (LLMs), such as DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can enable pre-trained LLMs to develop reasoning capabilities using simple question-answer pairs. In this paper, we aim to train visual language models (VLMs) to perform reasoning on image data through reinforcement learning and visual question-answer pairs, without any explicit chain-of-thought (CoT) supervision. Our findings indicate that simply applying reinforcement learning to a VLM -- by prompting the model to produce a reasoning chain before providing an answer -- can lead the model to develop shortcuts from easy questions, thereby reducing its ability to generalize across unseen data distributions. We argue that the key to mitigating shortcut learning is to encourage the model to interpret images prior to reasoning. Therefore, we train the model to adhere to a caption-reason-answer output format: initially generating a detailed caption for an image, followed by constructing an extensive reasoning chain. When trained on 273K CoT-free visual question-answer pairs and using only reinforcement learning, our model, named Visionary-R1, outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and Gemini-1.5-Pro, on multiple visual reasoning benchmarks.

Summary

AI-Generated Summary

PDF111May 21, 2025