Vision-R1 : Évolution de l'alignement sans intervention humaine dans les grands modèles vision-langage via l'apprentissage par renforcement guidé par la vision
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
March 23, 2025
Auteurs: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Résumé
Les grands modèles vision-langage (LVLMs) suivent généralement un paradigme d'entraînement en deux étapes : pré-entraînement et affinage supervisé. Récemment, l'optimisation des préférences, issue du domaine du langage, est apparue comme une stratégie de renforcement post-entraînement efficace pour améliorer les capacités des LVLMs. Cependant, la construction de données de préférences annotées par des humains de haute qualité et le développement de modèles de récompense robustes pour imiter ces préférences sont à la fois coûteux et complexes. Motivés par cette observation, nous proposons Vision-R1, un nouvel algorithme de renforcement de type R1 guidé par la vision pour les LVLMs qui récompense les modèles avec un retour visuel définitif. Il exploite uniquement des données d'instruction sélectionnées, éliminant ainsi le besoin de modèles de récompense spécialisés et de jeux de données de préférences élaborés manuellement. Nous intégrons une fonction de récompense basée sur des critères qui intègre en outre un retour multidimensionnel pour évaluer de manière exhaustive les complétions du modèle en fonction de la logique de la tâche visuelle. De plus, nous introduisons une stratégie de raffinement progressif des règles qui ajuste dynamiquement les critères de récompense pendant l'entraînement, permettant une amélioration continue du modèle et atténuant le piratage des récompenses. Des expériences approfondies sur des benchmarks intra-distribution et hors-distribution démontrent que l'affinage des LVLMs de 7B avec Vision-R1 permet d'obtenir des gains de performance constants, avec des améliorations allant jusqu'à 50 %, surpassant même le modèle de pointe 10 fois plus grand.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training
paradigm-pretraining and supervised fine-tuning. Recently, preference
optimization, derived from the language domain, has emerged as an effective
post-training reinforcement strategy to enhance capabilities of LVLMs. However,
constructing high-quality human-annotated preference data and developing robust
reward models to mimic these preferences are both costly and challenging.
Motivated by this observation, we propose Vision-R1, a novel vision-guided
R1-like reinforcement learning algorithm for LVLMs that rewards models with
definitive vision feedback. It only leverages curated instruction data,
eliminating the need for specialized reward models and handcrafted preference
datasets. We incorporate a criterion-driven reward function that further
integrates multi-dimensional feedback to evaluate model completions
comprehensively based on the vision task logic. Furthermore, we introduce a
progressive rule refinement strategy that dynamically adjusts the reward
criteria during training, enabling continuous model improvement and mitigating
reward hacking. Extensive experiments on both in-distribution and
out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with
Vision-R1 achieves consistent performance gains, with even up to 50%
improvement and surpassing the state-of-the-art 10x size model.Summary
AI-Generated Summary