Vision-R1: Evolutie van Mensvrije Afstemming in Grote Visie-Taalmodellen via Visie-Gestuurde Reinforcement Learning

Samenvatting

Grote Vision-Taalmodellen (LVLMs) volgen doorgaans een tweefasen trainingsparadigma: voorafgaande training en gesuperviseerde fijnafstemming. Onlangs is voorkeursoptimalisatie, afkomstig uit het taalgebied, naar voren gekomen als een effectieve post-trainingsversterkingsstrategie om de capaciteiten van LVLMs te verbeteren. Het construeren van hoogwaardige, door mensen geannoteerde voorkeursdata en het ontwikkelen van robuuste beloningsmodellen om deze voorkeuren na te bootsen, zijn echter zowel kostbaar als uitdagend. Gemotiveerd door deze observatie stellen we Vision-R1 voor, een nieuw visie-gestuurd R1-achtig versterkend leeralgoritme voor LVLMs dat modellen beloont met definitieve visuele feedback. Het maakt alleen gebruik van gecureerde instructiedata, waardoor de behoefte aan gespecialiseerde beloningsmodellen en handmatig samengestelde voorkeursdatasets wordt geëlimineerd. We integreren een criterium-gestuurde beloningsfunctie die multidimensionale feedback verder integreert om modelvoltooiingen uitgebreid te evalueren op basis van de logica van de visietaak. Bovendien introduceren we een progressieve regelverfijningsstrategie die de beloningscriteria tijdens de training dynamisch aanpast, waardoor continue modelverbetering wordt mogelijk gemaakt en beloningsmanipulatie wordt gemitigeerd. Uitgebreide experimenten op zowel in-distributie als out-of-distributie benchmarks tonen aan dat het fijnafstemmen van de 7B LVLMs met Vision-R1 consistente prestatieverbeteringen oplevert, met zelfs tot 50% verbetering en het overtreffen van het state-of-the-art model van 10x de grootte.

English

Large Vision-Language Models (LVLMs) typically follow a two-stage training paradigm-pretraining and supervised fine-tuning. Recently, preference optimization, derived from the language domain, has emerged as an effective post-training reinforcement strategy to enhance capabilities of LVLMs. However, constructing high-quality human-annotated preference data and developing robust reward models to mimic these preferences are both costly and challenging. Motivated by this observation, we propose Vision-R1, a novel vision-guided R1-like reinforcement learning algorithm for LVLMs that rewards models with definitive vision feedback. It only leverages curated instruction data, eliminating the need for specialized reward models and handcrafted preference datasets. We incorporate a criterion-driven reward function that further integrates multi-dimensional feedback to evaluate model completions comprehensively based on the vision task logic. Furthermore, we introduce a progressive rule refinement strategy that dynamically adjusts the reward criteria during training, enabling continuous model improvement and mitigating reward hacking. Extensive experiments on both in-distribution and out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with Vision-R1 achieves consistent performance gains, with even up to 50% improvement and surpassing the state-of-the-art 10x size model.

Vision-R1: Evolutie van Mensvrije Afstemming in Grote Visie-Taalmodellen via Visie-Gestuurde Reinforcement Learning

Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

Samenvatting

Support