Vision-R1: Evolutie van Mensvrije Afstemming in Grote Visie-Taalmodellen via Visie-Gestuurde Reinforcement Learning
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
March 23, 2025
Auteurs: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Samenvatting
Grote Vision-Taalmodellen (LVLMs) volgen doorgaans een tweefasen trainingsparadigma: voorafgaande training en gesuperviseerde fijnafstemming. Onlangs is voorkeursoptimalisatie, afkomstig uit het taalgebied, naar voren gekomen als een effectieve post-trainingsversterkingsstrategie om de capaciteiten van LVLMs te verbeteren. Het construeren van hoogwaardige, door mensen geannoteerde voorkeursdata en het ontwikkelen van robuuste beloningsmodellen om deze voorkeuren na te bootsen, zijn echter zowel kostbaar als uitdagend. Gemotiveerd door deze observatie stellen we Vision-R1 voor, een nieuw visie-gestuurd R1-achtig versterkend leeralgoritme voor LVLMs dat modellen beloont met definitieve visuele feedback. Het maakt alleen gebruik van gecureerde instructiedata, waardoor de behoefte aan gespecialiseerde beloningsmodellen en handmatig samengestelde voorkeursdatasets wordt geëlimineerd. We integreren een criterium-gestuurde beloningsfunctie die multidimensionale feedback verder integreert om modelvoltooiingen uitgebreid te evalueren op basis van de logica van de visietaak. Bovendien introduceren we een progressieve regelverfijningsstrategie die de beloningscriteria tijdens de training dynamisch aanpast, waardoor continue modelverbetering wordt mogelijk gemaakt en beloningsmanipulatie wordt gemitigeerd. Uitgebreide experimenten op zowel in-distributie als out-of-distributie benchmarks tonen aan dat het fijnafstemmen van de 7B LVLMs met Vision-R1 consistente prestatieverbeteringen oplevert, met zelfs tot 50% verbetering en het overtreffen van het state-of-the-art model van 10x de grootte.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training
paradigm-pretraining and supervised fine-tuning. Recently, preference
optimization, derived from the language domain, has emerged as an effective
post-training reinforcement strategy to enhance capabilities of LVLMs. However,
constructing high-quality human-annotated preference data and developing robust
reward models to mimic these preferences are both costly and challenging.
Motivated by this observation, we propose Vision-R1, a novel vision-guided
R1-like reinforcement learning algorithm for LVLMs that rewards models with
definitive vision feedback. It only leverages curated instruction data,
eliminating the need for specialized reward models and handcrafted preference
datasets. We incorporate a criterion-driven reward function that further
integrates multi-dimensional feedback to evaluate model completions
comprehensively based on the vision task logic. Furthermore, we introduce a
progressive rule refinement strategy that dynamically adjusts the reward
criteria during training, enabling continuous model improvement and mitigating
reward hacking. Extensive experiments on both in-distribution and
out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with
Vision-R1 achieves consistent performance gains, with even up to 50%
improvement and surpassing the state-of-the-art 10x size model.Summary
AI-Generated Summary