GRIT: 이미지를 통해 MLLM이 사고하도록 가르치기
GRIT: Teaching MLLMs to Think with Images
May 21, 2025
저자: Yue Fan, Xuehai He, Diji Yang, Kaizhi Zheng, Ching-Chen Kuo, Yuting Zheng, Sravana Jyothi Narayanaraju, Xinze Guan, Xin Eric Wang
cs.AI
초록
최근 연구들은 최종 답변을 생성하기 전에 사고의 연쇄를 명확히 표현하는 추론 모델을 구축하는 데 강화 학습(Reinforcement Learning, RL)을 사용하는 것의 효용성을 입증했습니다. 그러나 비전-언어 작업을 위한 추론 능력을 향상시키려는 지속적인 발전에도 불구하고, 기존의 오픈소스 시각적 추론 모델들은 일반적으로 순수 자연어로 추론 내용을 생성하며, 시각적 정보를 명시적으로 통합하지 못하고 있습니다. 이는 명확하게 표현되고 시각적으로 근거가 있는 추론 연쇄를 생성하는 데 한계를 초래합니다. 이를 해결하기 위해, 우리는 이미지와 텍스트를 활용한 근거 기반 추론(Grounded Reasoning with Images and Texts, GRIT)이라는 새로운 방법을 제안합니다. GRIT은 모델이 추론 과정에서 참조하는 입력 이미지의 영역을 가리키는 명시적인 바운딩 박스 좌표와 자연어를 교차하여 추론 연쇄를 생성하는 근거 기반 추론 패러다임을 도입합니다. 또한, GRIT은 GRPO 알고리즘을 기반으로 한 강화 학습 접근법인 GRPO-GR을 갖추고 있습니다. GRPO-GR은 최종 답변의 정확성과 근거 기반 추론 출력의 형식에 초점을 맞춘 강력한 보상을 사용하여, 추론 연쇄 주석이나 명시적인 바운딩 박스 레이블이 있는 데이터의 필요성을 제거합니다. 그 결과, GRIT은 기존 데이터셋에서 단 20개의 이미지-질문-답변 삼중항만으로도 탁월한 데이터 효율성을 달성합니다. 포괄적인 평가를 통해 GRIT은 다중 모달 언어 모델(MLLM)이 일관적이고 시각적으로 근거가 있는 추론 연쇄를 생성하도록 효과적으로 훈련시키며, 추론과 근거 기반 능력을 성공적으로 통합함을 보여줍니다.
English
Recent studies have demonstrated the efficacy of using Reinforcement Learning
(RL) in building reasoning models that articulate chains of thoughts prior to
producing final answers. However, despite ongoing advances that aim at enabling
reasoning for vision-language tasks, existing open-source visual reasoning
models typically generate reasoning content with pure natural language, lacking
explicit integration of visual information. This limits their ability to
produce clearly articulated and visually grounded reasoning chains. To this
end, we propose Grounded Reasoning with Images and Texts (GRIT), a novel method
for training MLLMs to think with images. GRIT introduces a grounded reasoning
paradigm, in which models generate reasoning chains that interleave natural
language and explicit bounding box coordinates. These coordinates point to
regions of the input image that the model consults during its reasoning
process. Additionally, GRIT is equipped with a reinforcement learning approach,
GRPO-GR, built upon the GRPO algorithm. GRPO-GR employs robust rewards focused
on the final answer accuracy and format of the grounded reasoning output, which
eliminates the need for data with reasoning chain annotations or explicit
bounding box labels. As a result, GRIT achieves exceptional data efficiency,
requiring as few as 20 image-question-answer triplets from existing datasets.
Comprehensive evaluations demonstrate that GRIT effectively trains MLLMs to
produce coherent and visually grounded reasoning chains, showing a successful
unification of reasoning and grounding abilities.Summary
AI-Generated Summary