R1-Zero와 유사한 훈련을 통한 시각-공간 추론 능력 향상
Improved Visual-Spatial Reasoning via R1-Zero-Like Training
April 1, 2025
저자: Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng
cs.AI
초록
다중 모달 대형 언어 모델(MLLMs)의 추론 능력 향상에 대한 관심이 점차 증가하고 있다. 물리적 영역에서 기능하는 AI 에이전트의 초석으로서, 비디오 기반 시각-공간 지능(VSI)은 MLLMs의 가장 중요한 추론 능력 중 하나로 부상하고 있다. 본 연구는 R1-Zero와 유사한 훈련을 통해 MLLMs의 시각-공간 추론 능력을 향상시키는 첫 번째 심층 연구를 수행한다. 기술적으로, 우리는 먼저 소형 및 중형 크기의 Qwen2-VL 모델의 시각-공간 추론 능력이 Chain of Thought (CoT) 프롬프트를 통해 활성화되지 않음을 확인했다. 그런 다음, DeepSeek-R1-Zero를 따라 신중하게 선별된 VSI-100k 데이터셋을 사용하여 GRPO 훈련을 통합하여 시각-공간 추론을 개선했다. 조사 과정에서, 우리는 GRPO에서 KL 패널티(작은 값이라도)를 유지할 필요성을 확인했다. 단 120 GPU 시간만으로, Qwen2-VL-2B에서 미세 조정된 vsGRPO-2B 모델은 기본 모델을 12.1% 능가하며 GPT-4o를 뛰어넘었다. 또한, Qwen2-VL-7B에서 미세 조정된 vsGRPO-7B 모델은 최고의 오픈소스 모델인 LLaVA-NeXT-Video-72B와 비슷한 성능을 달성했다. 추가적으로, 우리는 vsGRPO를 지도 미세 조정 및 직접 선호 최적화 기준선과 비교했을 때 강력한 성능 우위를 관찰했다. 코드와 데이터셋은 곧 공개될 예정이다.
English
Increasing attention has been placed on improving the reasoning capacities of
multi-modal large language models (MLLMs). As the cornerstone for AI agents
that function in the physical realm, video-based visual-spatial intelligence
(VSI) emerges as one of the most pivotal reasoning capabilities of MLLMs. This
work conducts a first, in-depth study on improving the visual-spatial reasoning
of MLLMs via R1-Zero-like training. Technically, we first identify that the
visual-spatial reasoning capacities of small- to medium-sized Qwen2-VL models
cannot be activated via Chain of Thought (CoT) prompts. We then incorporate
GRPO training for improved visual-spatial reasoning, using the carefully
curated VSI-100k dataset, following DeepSeek-R1-Zero. During the investigation,
we identify the necessity to keep the KL penalty (even with a small value) in
GRPO. With just 120 GPU hours, our vsGRPO-2B model, fine-tuned from
Qwen2-VL-2B, can outperform the base model by 12.1% and surpass GPT-4o.
Moreover, our vsGRPO-7B model, fine-tuned from Qwen2-VL-7B, achieves
performance comparable to that of the best open-source model
LLaVA-NeXT-Video-72B. Additionally, we compare vsGRPO to supervised fine-tuning
and direct preference optimization baselines and observe strong performance
superiority. The code and dataset will be available soon.Summary
AI-Generated Summary