Vision-R1: Evolução do Alinhamento Livre de Intervenção Humana em Grandes Modelos de Visão e Linguagem por meio de Aprendizado por Reforço Guiado por Visão
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
March 23, 2025
Autores: Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang
cs.AI
Resumo
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) geralmente seguem um paradigma de treinamento em duas etapas: pré-treinamento e ajuste fino supervisionado. Recentemente, a otimização de preferências, derivada do domínio da linguagem, surgiu como uma estratégia eficaz de reforço pós-treinamento para aprimorar as capacidades dos LVLMs. No entanto, a construção de dados de preferência anotados manualmente de alta qualidade e o desenvolvimento de modelos de recompensa robustos para imitar essas preferências são processos caros e desafiadores. Motivados por essa observação, propomos o Vision-R1, um novo algoritmo de aprendizado por reforço semelhante ao R1, guiado por visão, para LVLMs que recompensa os modelos com feedback visual definitivo. Ele utiliza apenas dados de instrução curados, eliminando a necessidade de modelos de recompensa especializados e conjuntos de dados de preferência elaborados manualmente. Incorporamos uma função de recompensa baseada em critérios que integra ainda mais feedback multidimensional para avaliar as conclusões do modelo de forma abrangente com base na lógica da tarefa visual. Além disso, introduzimos uma estratégia de refinamento progressivo de regras que ajusta dinamicamente os critérios de recompensa durante o treinamento, permitindo a melhoria contínua do modelo e mitigando o "hacking de recompensa". Experimentos extensivos em benchmarks de distribuição interna e externa demonstram que o ajuste fino de LVLMs de 7B com o Vision-R1 alcança ganhos consistentes de desempenho, com melhorias de até 50%, superando até mesmo o modelo de última geração com 10 vezes o tamanho.
English
Large Vision-Language Models (LVLMs) typically follow a two-stage training
paradigm-pretraining and supervised fine-tuning. Recently, preference
optimization, derived from the language domain, has emerged as an effective
post-training reinforcement strategy to enhance capabilities of LVLMs. However,
constructing high-quality human-annotated preference data and developing robust
reward models to mimic these preferences are both costly and challenging.
Motivated by this observation, we propose Vision-R1, a novel vision-guided
R1-like reinforcement learning algorithm for LVLMs that rewards models with
definitive vision feedback. It only leverages curated instruction data,
eliminating the need for specialized reward models and handcrafted preference
datasets. We incorporate a criterion-driven reward function that further
integrates multi-dimensional feedback to evaluate model completions
comprehensively based on the vision task logic. Furthermore, we introduce a
progressive rule refinement strategy that dynamically adjusts the reward
criteria during training, enabling continuous model improvement and mitigating
reward hacking. Extensive experiments on both in-distribution and
out-of-distribution benchmarks demonstrate that fine-tuning the 7B LVLMs with
Vision-R1 achieves consistent performance gains, with even up to 50%
improvement and surpassing the state-of-the-art 10x size model.Summary
AI-Generated Summary