Visión-R1: Evolución de la Alineación sin Intervención Humana en Modelos de Visión y Lenguaje a Gran Escala mediante Aprendizaje por Refuerzo Guiado por Visión
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
March 23, 2025
Autores: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Resumen
Los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) suelen seguir un paradigma de entrenamiento en dos etapas: preentrenamiento y ajuste fino supervisado. Recientemente, la optimización de preferencias, derivada del dominio del lenguaje, ha surgido como una estrategia efectiva de refuerzo post-entrenamiento para mejorar las capacidades de los LVLMs. Sin embargo, la construcción de datos de preferencias anotados por humanos de alta calidad y el desarrollo de modelos de recompensa robustos para imitar estas preferencias son tareas costosas y desafiantes. Motivados por esta observación, proponemos Vision-R1, un novedoso algoritmo de aprendizaje por refuerzo similar a R1 guiado por visión para LVLMs que recompensa a los modelos con retroalimentación visual definitiva. Este enfoque solo utiliza datos de instrucciones curados, eliminando la necesidad de modelos de recompensa especializados y conjuntos de datos de preferencias elaborados manualmente. Incorporamos una función de recompensa basada en criterios que integra retroalimentación multidimensional para evaluar de manera integral las respuestas del modelo según la lógica de la tarea visual. Además, introducimos una estrategia de refinamiento progresivo de reglas que ajusta dinámicamente los criterios de recompensa durante el entrenamiento, permitiendo una mejora continua del modelo y mitigando el "hacking de recompensas". Experimentos exhaustivos en benchmarks tanto dentro como fuera de la distribución demuestran que el ajuste fino de los LVLMs de 7B con Vision-R1 logra mejoras consistentes en el rendimiento, con incrementos de hasta el 50% y superando incluso al modelo de última generación 10 veces más grande.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training
paradigm-pretraining and supervised fine-tuning. Recently, preference
optimization, derived from the language domain, has emerged as an effective
post-training reinforcement strategy to enhance capabilities of LVLMs. However,
constructing high-quality human-annotated preference data and developing robust
reward models to mimic these preferences are both costly and challenging.
Motivated by this observation, we propose Vision-R1, a novel vision-guided
R1-like reinforcement learning algorithm for LVLMs that rewards models with
definitive vision feedback. It only leverages curated instruction data,
eliminating the need for specialized reward models and handcrafted preference
datasets. We incorporate a criterion-driven reward function that further
integrates multi-dimensional feedback to evaluate model completions
comprehensively based on the vision task logic. Furthermore, we introduce a
progressive rule refinement strategy that dynamically adjusts the reward
criteria during training, enabling continuous model improvement and mitigating
reward hacking. Extensive experiments on both in-distribution and
out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with
Vision-R1 achieves consistent performance gains, with even up to 50%
improvement and surpassing the state-of-the-art 10x size model.Summary
AI-Generated Summary