VRAG-RL : Renforcer la RAG basée sur la perception visuelle pour la compréhension d'informations visuellement riches via un raisonnement itératif avec apprentissage par renforcement
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning
May 28, 2025
Auteurs: Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao
cs.AI
Résumé
La récupération, le raisonnement et la compréhension efficaces d'informations visuellement riches restent un défi pour les méthodes RAG (Retrieval-Augmented Generation). Les méthodes traditionnelles basées sur le texte ne peuvent pas gérer les informations liées au visuel. D'autre part, les approches RAG actuelles basées sur la vision sont souvent limitées par des pipelines fixes et peinent à raisonner efficacement en raison de l'activation insuffisante des capacités fondamentales des modèles. Comme l'apprentissage par renforcement (RL) s'est avéré bénéfique pour le raisonnement des modèles, nous introduisons VRAG-RL, un nouveau cadre RL conçu pour le raisonnement complexe sur des informations visuellement riches. Avec ce cadre, les modèles de langage visuel (VLMs) interagissent avec les moteurs de recherche, échantillonnant de manière autonome des trajectoires de raisonnement en un ou plusieurs tours à l'aide de tokens de perception visuelle et subissant une optimisation continue basée sur ces échantillons. Notre approche met en lumière les limites clés du RL dans les domaines RAG : (i) Les approches RAG multi-modales antérieures tendent à simplement incorporer des images dans le contexte, conduisant à une allocation insuffisante de tokens de raisonnement et négligeant la perception spécifique au visuel ; et (ii) Lorsque les modèles interagissent avec les moteurs de recherche, leurs requêtes échouent souvent à récupérer des informations pertinentes en raison de l'incapacité à articuler les besoins, ce qui entraîne des performances sous-optimales. Pour relever ces défis, nous définissons un espace d'actions adapté aux entrées visuellement riches, incluant des actions telles que le recadrage et la mise à l'échelle, permettant au modèle de collecter des informations d'une perspective grossière à fine. De plus, pour combler l'écart entre les requêtes originales des utilisateurs et le récupérateur, nous utilisons une récompense simple mais efficace qui intègre la réécriture de requêtes et la performance de récupération avec une récompense basée sur le modèle. Notre VRAG-RL optimise les VLMs pour les tâches RAG en utilisant des stratégies RL spécialement conçues, alignant le modèle avec les applications réelles. Le code est disponible à l'adresse https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
English
Effectively retrieving, reasoning and understanding visually rich information
remains a challenge for RAG methods. Traditional text-based methods cannot
handle visual-related information. On the other hand, current vision-based RAG
approaches are often limited by fixed pipelines and frequently struggle to
reason effectively due to the insufficient activation of the fundamental
capabilities of models. As RL has been proven to be beneficial for model
reasoning, we introduce VRAG-RL, a novel RL framework tailored for complex
reasoning across visually rich information. With this framework, VLMs interact
with search engines, autonomously sampling single-turn or multi-turn reasoning
trajectories with the help of visual perception tokens and undergoing continual
optimization based on these samples. Our approach highlights key limitations of
RL in RAG domains: (i) Prior Multi-modal RAG approaches tend to merely
incorporate images into the context, leading to insufficient reasoning token
allocation and neglecting visual-specific perception; and (ii) When models
interact with search engines, their queries often fail to retrieve relevant
information due to the inability to articulate requirements, thereby leading to
suboptimal performance. To address these challenges, we define an action space
tailored for visually rich inputs, with actions including cropping and scaling,
allowing the model to gather information from a coarse-to-fine perspective.
Furthermore, to bridge the gap between users' original inquiries and the
retriever, we employ a simple yet effective reward that integrates query
rewriting and retrieval performance with a model-based reward. Our VRAG-RL
optimizes VLMs for RAG tasks using specially designed RL strategies, aligning
the model with real-world applications. The code is available at
https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.Summary
AI-Generated Summary