Visual-RFT: Ajuste Fino por Refuerzo Visual
Visual-RFT: Visual Reinforcement Fine-Tuning
March 3, 2025
Autores: Ziyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
El Ajuste Fino por Refuerzo (Reinforcement Fine-Tuning, RFT) en modelos de razonamiento a gran escala como OpenAI o1 aprende a partir de retroalimentación sobre sus respuestas, lo que resulta especialmente útil en aplicaciones donde los datos para ajuste fino son escasos. Trabajos recientes de código abierto, como DeepSeek-R1, demuestran que el aprendizaje por refuerzo con recompensas verificables es una dirección clave para reproducir o1. Aunque el modelo de estilo R1 ha demostrado éxito en modelos de lenguaje, su aplicación en dominios multimodales sigue siendo poco explorada. Este trabajo introduce el Ajuste Fino por Refuerzo Visual (Visual-RFT), que amplía las áreas de aplicación del RFT en tareas visuales. Específicamente, Visual-RFT primero utiliza Modelos Grandes de Visión y Lenguaje (Large Vision-Language Models, LVLMs) para generar múltiples respuestas que contienen tokens de razonamiento y respuestas finales para cada entrada, y luego emplea nuestras funciones de recompensa verificable de percepción visual propuestas para actualizar el modelo mediante algoritmos de optimización de políticas, como la Optimización de Política Relativa en Grupo (Group Relative Policy Optimization, GRPO). Diseñamos diferentes funciones de recompensa verificable para diversas tareas de percepción, como la recompensa de Intersección sobre Unión (Intersection over Union, IoU) para la detección de objetos. Los resultados experimentales en clasificación de imágenes de grano fino, detección de objetos con pocos ejemplos, razonamiento fundamentado y detección de objetos con vocabulario abierto muestran el rendimiento competitivo y la capacidad avanzada de generalización de Visual-RFT en comparación con el Ajuste Fino Supervisado (Supervised Fine-tuning, SFT). Por ejemplo, Visual-RFT mejora la precisión en un 24.3% sobre la línea base en clasificación de imágenes de grano fino con un solo ejemplo y alrededor de 100 muestras. En detección de objetos con pocos ejemplos, Visual-RFT también supera a la línea base en 21.9 en la configuración de dos ejemplos de COCO y en 15.4 en LVIS. Nuestro Visual-RFT representa un cambio de paradigma en el ajuste fino de LVLMs, ofreciendo un enfoque eficiente en datos y guiado por recompensas que mejora el razonamiento y la adaptabilidad para tareas específicas de dominio.
English
Reinforcement Fine-Tuning (RFT) in Large Reasoning Models like OpenAI o1
learns from feedback on its answers, which is especially useful in applications
when fine-tuning data is scarce. Recent open-source work like DeepSeek-R1
demonstrates that reinforcement learning with verifiable reward is one key
direction in reproducing o1. While the R1-style model has demonstrated success
in language models, its application in multi-modal domains remains
under-explored. This work introduces Visual Reinforcement Fine-Tuning
(Visual-RFT), which further extends the application areas of RFT on visual
tasks. Specifically, Visual-RFT first uses Large Vision-Language Models (LVLMs)
to generate multiple responses containing reasoning tokens and final answers
for each input, and then uses our proposed visual perception verifiable reward
functions to update the model via the policy optimization algorithm such as
Group Relative Policy Optimization (GRPO). We design different verifiable
reward functions for different perception tasks, such as the Intersection over
Union (IoU) reward for object detection. Experimental results on fine-grained
image classification, few-shot object detection, reasoning grounding, as well
as open-vocabulary object detection benchmarks show the competitive performance
and advanced generalization ability of Visual-RFT compared with Supervised
Fine-tuning (SFT). For example, Visual-RFT improves accuracy by 24.3% over
the baseline in one-shot fine-grained image classification with around 100
samples. In few-shot object detection, Visual-RFT also exceeds the baseline by
21.9 on COCO's two-shot setting and 15.4 on LVIS. Our Visual-RFT represents
a paradigm shift in fine-tuning LVLMs, offering a data-efficient, reward-driven
approach that enhances reasoning and adaptability for domain-specific tasks.Summary
AI-Generated Summary