Visual-RFT: Ajuste Fino por Reforço Visual
Visual-RFT: Visual Reinforcement Fine-Tuning
March 3, 2025
Autores: Ziyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
O Ajuste Fino por Reforço (Reinforcement Fine-Tuning, RFT) em modelos de raciocínio de grande escala, como o OpenAI o1, aprende com o feedback sobre suas respostas, o que é especialmente útil em aplicações onde os dados para ajuste fino são escassos. Trabalhos recentes de código aberto, como o DeepSeek-R1, demonstram que o aprendizado por reforço com recompensas verificáveis é uma direção fundamental para reproduzir o o1. Embora o modelo no estilo R1 tenha demonstrado sucesso em modelos de linguagem, sua aplicação em domínios multimodais ainda é pouco explorada. Este trabalho introduz o Ajuste Fino por Reforço Visual (Visual-RFT), que amplia as áreas de aplicação do RFT em tarefas visuais. Especificamente, o Visual-RFT primeiro utiliza Modelos de Linguagem e Visão de Grande Escala (Large Vision-Language Models, LVLMs) para gerar múltiplas respostas contendo tokens de raciocínio e respostas finais para cada entrada, e então usa nossas funções de recompensa verificável de percepção visual propostas para atualizar o modelo por meio de algoritmos de otimização de políticas, como o Group Relative Policy Optimization (GRPO). Projetamos diferentes funções de recompensa verificável para diferentes tarefas de percepção, como a recompensa de Intersecção sobre União (Intersection over Union, IoU) para detecção de objetos. Resultados experimentais em classificação de imagens de alta granularidade, detecção de objetos com poucos exemplos, fundamentação de raciocínio e benchmarks de detecção de objetos com vocabulário aberto mostram o desempenho competitivo e a capacidade avançada de generalização do Visual-RFT em comparação com o Ajuste Fino Supervisionado (Supervised Fine-tuning, SFT). Por exemplo, o Visual-RFT melhora a precisão em 24,3% em relação à linha de base na classificação de imagens de alta granularidade com um único exemplo, utilizando cerca de 100 amostras. Na detecção de objetos com poucos exemplos, o Visual-RFT também supera a linha de base em 21,9 no cenário de dois exemplos do COCO e em 15,4 no LVIS. Nosso Visual-RFT representa uma mudança de paradigma no ajuste fino de LVLMs, oferecendo uma abordagem eficiente em termos de dados e orientada por recompensas que aprimora o raciocínio e a adaptabilidade para tarefas específicas de domínio.
English
Reinforcement Fine-Tuning (RFT) in Large Reasoning Models like OpenAI o1
learns from feedback on its answers, which is especially useful in applications
when fine-tuning data is scarce. Recent open-source work like DeepSeek-R1
demonstrates that reinforcement learning with verifiable reward is one key
direction in reproducing o1. While the R1-style model has demonstrated success
in language models, its application in multi-modal domains remains
under-explored. This work introduces Visual Reinforcement Fine-Tuning
(Visual-RFT), which further extends the application areas of RFT on visual
tasks. Specifically, Visual-RFT first uses Large Vision-Language Models (LVLMs)
to generate multiple responses containing reasoning tokens and final answers
for each input, and then uses our proposed visual perception verifiable reward
functions to update the model via the policy optimization algorithm such as
Group Relative Policy Optimization (GRPO). We design different verifiable
reward functions for different perception tasks, such as the Intersection over
Union (IoU) reward for object detection. Experimental results on fine-grained
image classification, few-shot object detection, reasoning grounding, as well
as open-vocabulary object detection benchmarks show the competitive performance
and advanced generalization ability of Visual-RFT compared with Supervised
Fine-tuning (SFT). For example, Visual-RFT improves accuracy by 24.3% over
the baseline in one-shot fine-grained image classification with around 100
samples. In few-shot object detection, Visual-RFT also exceeds the baseline by
21.9 on COCO's two-shot setting and 15.4 on LVIS. Our Visual-RFT represents
a paradigm shift in fine-tuning LVLMs, offering a data-efficient, reward-driven
approach that enhances reasoning and adaptability for domain-specific tasks.Summary
AI-Generated Summary