ChatPaper.aiChatPaper

비전 언어 모델을 위한 RL 스케일링 재고: 투명하고 처음부터 시작하는 프레임워크와 포괄적인 평가 체계

Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

April 3, 2025
저자: Yan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu
cs.AI

초록

강화 학습(Reinforcement Learning, RL)은 최근 대규모 언어 모델의 추론 능력을 향상시키는 데 있어 강력한 잠재력을 보여주었으며, 현재 시각-언어 모델(Vision-Language Models, VLMs)로도 적극적으로 확장되고 있습니다. 그러나 기존의 VLM에서의 RL 적용은 종종 복잡하게 설계된 프레임워크에 의존하여 재현성과 접근성을 저해하며, 표준화된 평가 프로토콜이 부족해 결과를 비교하거나 학습 동역학을 해석하기 어렵습니다. 본 연구는 VLM에서의 RL을 위한 투명하고 처음부터 설계된 프레임워크를 소개하며, 여러 모델과 데이터셋에서 검증된 최소한의 기능적 4단계 파이프라인을 제공합니다. 또한, 학습 동역학과 반영적 행동을 평가하기 위한 표준화된 평가 체계를 제안합니다. 시각적 추론 작업에 대한 광범위한 실험을 통해 주요 경험적 발견을 도출했습니다: 응답 길이는 무작위 시드에 민감하며, 반영은 출력 길이와 상관관계가 있고, RL은 고품질 데이터가 있는 경우에도 지도 미세 조정(Supervised Fine-Tuning, SFT)보다 일반화에서 꾸준히 우수한 성능을 보입니다. 이러한 발견과 함께 제안된 프레임워크는 재현 가능한 기준선을 확립하고 RL 기반 VLM 연구에 대한 더 넓은 참여를 지원하는 것을 목표로 합니다.
English
Reinforcement learning (RL) has recently shown strong potential in improving the reasoning capabilities of large language models and is now being actively extended to vision-language models (VLMs). However, existing RL applications in VLMs often rely on heavily engineered frameworks that hinder reproducibility and accessibility, while lacking standardized evaluation protocols, making it difficult to compare results or interpret training dynamics. This work introduces a transparent, from-scratch framework for RL in VLMs, offering a minimal yet functional four-step pipeline validated across multiple models and datasets. In addition, a standardized evaluation scheme is proposed to assess training dynamics and reflective behaviors. Extensive experiments on visual reasoning tasks uncover key empirical findings: response length is sensitive to random seeds, reflection correlates with output length, and RL consistently outperforms supervised fine-tuning (SFT) in generalization, even with high-quality data. These findings, together with the proposed framework, aim to establish a reproducible baseline and support broader engagement in RL-based VLM research.

Summary

AI-Generated Summary

PDF303April 4, 2025