ChatPaper.aiChatPaper

VRAG-RL : Renforcer la RAG basée sur la perception visuelle pour la compréhension d'informations visuellement riches via un raisonnement itératif avec apprentissage par renforcement

VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

May 28, 2025
Auteurs: Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao
cs.AI

Résumé

La récupération, le raisonnement et la compréhension efficaces d'informations visuellement riches restent un défi pour les méthodes RAG (Retrieval-Augmented Generation). Les méthodes traditionnelles basées sur le texte ne peuvent pas gérer les informations liées au visuel. D'autre part, les approches RAG actuelles basées sur la vision sont souvent limitées par des pipelines fixes et peinent à raisonner efficacement en raison de l'activation insuffisante des capacités fondamentales des modèles. Comme l'apprentissage par renforcement (RL) s'est avéré bénéfique pour le raisonnement des modèles, nous introduisons VRAG-RL, un nouveau cadre RL conçu pour le raisonnement complexe sur des informations visuellement riches. Avec ce cadre, les modèles de langage visuel (VLMs) interagissent avec les moteurs de recherche, échantillonnant de manière autonome des trajectoires de raisonnement en un ou plusieurs tours à l'aide de tokens de perception visuelle et subissant une optimisation continue basée sur ces échantillons. Notre approche met en lumière les limites clés du RL dans les domaines RAG : (i) Les approches RAG multi-modales antérieures tendent à simplement incorporer des images dans le contexte, conduisant à une allocation insuffisante de tokens de raisonnement et négligeant la perception spécifique au visuel ; et (ii) Lorsque les modèles interagissent avec les moteurs de recherche, leurs requêtes échouent souvent à récupérer des informations pertinentes en raison de l'incapacité à articuler les besoins, ce qui entraîne des performances sous-optimales. Pour relever ces défis, nous définissons un espace d'actions adapté aux entrées visuellement riches, incluant des actions telles que le recadrage et la mise à l'échelle, permettant au modèle de collecter des informations d'une perspective grossière à fine. De plus, pour combler l'écart entre les requêtes originales des utilisateurs et le récupérateur, nous utilisons une récompense simple mais efficace qui intègre la réécriture de requêtes et la performance de récupération avec une récompense basée sur le modèle. Notre VRAG-RL optimise les VLMs pour les tâches RAG en utilisant des stratégies RL spécialement conçues, alignant le modèle avec les applications réelles. Le code est disponible à l'adresse https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
English
Effectively retrieving, reasoning and understanding visually rich information remains a challenge for RAG methods. Traditional text-based methods cannot handle visual-related information. On the other hand, current vision-based RAG approaches are often limited by fixed pipelines and frequently struggle to reason effectively due to the insufficient activation of the fundamental capabilities of models. As RL has been proven to be beneficial for model reasoning, we introduce VRAG-RL, a novel RL framework tailored for complex reasoning across visually rich information. With this framework, VLMs interact with search engines, autonomously sampling single-turn or multi-turn reasoning trajectories with the help of visual perception tokens and undergoing continual optimization based on these samples. Our approach highlights key limitations of RL in RAG domains: (i) Prior Multi-modal RAG approaches tend to merely incorporate images into the context, leading to insufficient reasoning token allocation and neglecting visual-specific perception; and (ii) When models interact with search engines, their queries often fail to retrieve relevant information due to the inability to articulate requirements, thereby leading to suboptimal performance. To address these challenges, we define an action space tailored for visually rich inputs, with actions including cropping and scaling, allowing the model to gather information from a coarse-to-fine perspective. Furthermore, to bridge the gap between users' original inquiries and the retriever, we employ a simple yet effective reward that integrates query rewriting and retrieval performance with a model-based reward. Our VRAG-RL optimizes VLMs for RAG tasks using specially designed RL strategies, aligning the model with real-world applications. The code is available at https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.

Summary

AI-Generated Summary

PDF103May 29, 2025