ChatPaper.aiChatPaper

VRAG-RL: Potencializando o RAG Baseado em Percepção Visual para a Compreensão de Informações Visualmente Ricas por meio de Raciocínio Iterativo com Aprendizado por Reforço

VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

May 28, 2025
Autores: Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao
cs.AI

Resumo

Recuperar, raciocinar e compreender efetivamente informações visualmente ricas continua sendo um desafio para os métodos RAG (Retrieval-Augmented Generation). Métodos tradicionais baseados em texto não conseguem lidar com informações relacionadas a elementos visuais. Por outro lado, as abordagens atuais de RAG baseadas em visão frequentemente são limitadas por pipelines fixos e enfrentam dificuldades para raciocinar de forma eficaz devido à ativação insuficiente das capacidades fundamentais dos modelos. Como o RL (Reinforcement Learning) tem se mostrado benéfico para o raciocínio de modelos, introduzimos o VRAG-RL, uma nova estrutura de RL projetada para raciocínio complexo em informações visualmente ricas. Com essa estrutura, modelos de linguagem visual (VLMs) interagem com mecanismos de busca, amostrando de forma autônoma trajetórias de raciocínio de única ou múltiplas etapas com o auxílio de tokens de percepção visual e passando por otimização contínua com base nessas amostras. Nossa abordagem destaca limitações-chave do RL em domínios RAG: (i) Abordagens anteriores de RAG multimodal tendem a apenas incorporar imagens no contexto, levando a uma alocação insuficiente de tokens de raciocínio e negligenciando a percepção específica de elementos visuais; e (ii) Quando os modelos interagem com mecanismos de busca, suas consultas frequentemente falham em recuperar informações relevantes devido à incapacidade de articular requisitos, resultando em desempenho subótimo. Para enfrentar esses desafios, definimos um espaço de ação adaptado para entradas visualmente ricas, com ações como recorte e escalonamento, permitindo que o modelo colete informações de uma perspectiva de grosseira para refinada. Além disso, para reduzir a lacuna entre as consultas originais dos usuários e o recuperador, empregamos uma recompensa simples, porém eficaz, que integra a reformulação de consultas e o desempenho de recuperação com uma recompensa baseada no modelo. Nosso VRAG-RL otimiza VLMs para tarefas RAG usando estratégias de RL especialmente projetadas, alinhando o modelo com aplicações do mundo real. O código está disponível em https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
English
Effectively retrieving, reasoning and understanding visually rich information remains a challenge for RAG methods. Traditional text-based methods cannot handle visual-related information. On the other hand, current vision-based RAG approaches are often limited by fixed pipelines and frequently struggle to reason effectively due to the insufficient activation of the fundamental capabilities of models. As RL has been proven to be beneficial for model reasoning, we introduce VRAG-RL, a novel RL framework tailored for complex reasoning across visually rich information. With this framework, VLMs interact with search engines, autonomously sampling single-turn or multi-turn reasoning trajectories with the help of visual perception tokens and undergoing continual optimization based on these samples. Our approach highlights key limitations of RL in RAG domains: (i) Prior Multi-modal RAG approaches tend to merely incorporate images into the context, leading to insufficient reasoning token allocation and neglecting visual-specific perception; and (ii) When models interact with search engines, their queries often fail to retrieve relevant information due to the inability to articulate requirements, thereby leading to suboptimal performance. To address these challenges, we define an action space tailored for visually rich inputs, with actions including cropping and scaling, allowing the model to gather information from a coarse-to-fine perspective. Furthermore, to bridge the gap between users' original inquiries and the retriever, we employ a simple yet effective reward that integrates query rewriting and retrieval performance with a model-based reward. Our VRAG-RL optimizes VLMs for RAG tasks using specially designed RL strategies, aligning the model with real-world applications. The code is available at https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
PDF113May 29, 2025