Vision-R1: 시각-언어 대형 모델에서 비인간적 정렬의 진화 시각-지도 강화 학습을 통한 접근
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
March 23, 2025
저자: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
초록
대규모 시각-언어 모델(LVLMs)은 일반적으로 사전 학습과 지도 미세 조정이라는 두 단계의 훈련 패러다임을 따릅니다. 최근에는 언어 도메인에서 유래한 선호도 최적화가 LVLMs의 능력을 향상시키는 효과적인 사후 훈련 강화 전략으로 부상했습니다. 그러나 고품질의 인간 주석 선호도 데이터를 구축하고 이러한 선호도를 모방할 강력한 보상 모델을 개발하는 것은 비용이 많이 들고 어려운 작업입니다. 이러한 관찰에 동기를 받아, 우리는 결정적인 시각 피드백으로 모델을 보상하는 새로운 시각-안내 R1 유사 강화 학습 알고리즘인 Vision-R1을 제안합니다. 이 방법은 특별한 보상 모델과 수작업으로 만든 선호도 데이터셋이 필요 없이, 선별된 지시 데이터만을 활용합니다. 우리는 시각 작업 논리에 기반하여 모델 완성물을 종합적으로 평가하기 위해 다차원 피드백을 통합하는 기준 기반 보상 함수를 도입했습니다. 더 나아가, 훈련 중에 보상 기준을 동적으로 조정하는 점진적 규칙 정제 전략을 도입하여 지속적인 모델 개선과 보상 해킹 완화를 가능하게 했습니다. 인-디스트리뷰션과 아웃-오브-디스트리뷰션 벤치마크에서의 광범위한 실험을 통해, Vision-R1으로 7B LVLMs를 미세 조정했을 때 일관된 성능 향상을 달성했으며, 최대 50%의 개선과 함께 10배 크기의 최첨단 모델을 능가하는 결과를 보였습니다.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training
paradigm-pretraining and supervised fine-tuning. Recently, preference
optimization, derived from the language domain, has emerged as an effective
post-training reinforcement strategy to enhance capabilities of LVLMs. However,
constructing high-quality human-annotated preference data and developing robust
reward models to mimic these preferences are both costly and challenging.
Motivated by this observation, we propose Vision-R1, a novel vision-guided
R1-like reinforcement learning algorithm for LVLMs that rewards models with
definitive vision feedback. It only leverages curated instruction data,
eliminating the need for specialized reward models and handcrafted preference
datasets. We incorporate a criterion-driven reward function that further
integrates multi-dimensional feedback to evaluate model completions
comprehensively based on the vision task logic. Furthermore, we introduce a
progressive rule refinement strategy that dynamically adjusts the reward
criteria during training, enabling continuous model improvement and mitigating
reward hacking. Extensive experiments on both in-distribution and
out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with
Vision-R1 achieves consistent performance gains, with even up to 50%
improvement and surpassing the state-of-the-art 10x size model.Summary
AI-Generated Summary