ChatPaper.aiChatPaper

VRAG-RL: Versterk Vision-Perception-Based RAG voor het Begrijpen van Visueel Rijke Informatie via Iteratief Redeneren met Reinforcement Learning

VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

May 28, 2025
Auteurs: Qiuchen Wang, Ruixue Ding, Yu Zeng, Zehui Chen, Lin Chen, Shihang Wang, Pengjun Xie, Fei Huang, Feng Zhao
cs.AI

Samenvatting

Het effectief ophalen, redeneren en begrijpen van visueel rijke informatie blijft een uitdaging voor RAG-methoden. Traditionele tekstgebaseerde methoden kunnen geen visueel gerelateerde informatie verwerken. Aan de andere kant worden huidige visiegebaseerde RAG-benaderingen vaak beperkt door vaste pijplijnen en worstelen ze vaak met effectief redeneren vanwege onvoldoende activering van de fundamentele capaciteiten van modellen. Aangezien RL bewezen nuttig te zijn voor modelredenering, introduceren we VRAG-RL, een nieuw RL-framework ontworpen voor complex redeneren over visueel rijke informatie. Met dit framework interageren VLMs met zoekmachines, waarbij ze autonoom enkelvoudige of meervoudige redeneertrajecten bemonsteren met behulp van visuele perceptietokens en voortdurende optimalisatie ondergaan op basis van deze monsters. Onze aanpak belicht belangrijke beperkingen van RL in RAG-domeinen: (i) Eerdere multi-modale RAG-benaderingen neigen ertoe om afbeeldingen slechts in de context op te nemen, wat leidt tot onvoldoende toewijzing van redeneertokens en het negeren van visueelspecifieke perceptie; en (ii) Wanneer modellen interageren met zoekmachines, slagen hun queries er vaak niet in om relevante informatie op te halen vanwege het onvermogen om vereisten te articuleren, wat resulteert in suboptimale prestaties. Om deze uitdagingen aan te pakken, definiëren we een actieruimte die is afgestemd op visueel rijke invoer, met acties zoals bijsnijden en schalen, waardoor het model informatie kan verzamelen vanuit een grof-naar-fijn perspectief. Bovendien gebruiken we een eenvoudige maar effectieve beloning die queryherformulering en ophaalprestaties integreert met een modelgebaseerde beloning om de kloof tussen de oorspronkelijke vragen van gebruikers en de ophaalfunctie te overbruggen. Onze VRAG-RL optimaliseert VLMs voor RAG-taken met speciaal ontworpen RL-strategieën, waardoor het model wordt afgestemd op real-world toepassingen. De code is beschikbaar op https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
English
Effectively retrieving, reasoning and understanding visually rich information remains a challenge for RAG methods. Traditional text-based methods cannot handle visual-related information. On the other hand, current vision-based RAG approaches are often limited by fixed pipelines and frequently struggle to reason effectively due to the insufficient activation of the fundamental capabilities of models. As RL has been proven to be beneficial for model reasoning, we introduce VRAG-RL, a novel RL framework tailored for complex reasoning across visually rich information. With this framework, VLMs interact with search engines, autonomously sampling single-turn or multi-turn reasoning trajectories with the help of visual perception tokens and undergoing continual optimization based on these samples. Our approach highlights key limitations of RL in RAG domains: (i) Prior Multi-modal RAG approaches tend to merely incorporate images into the context, leading to insufficient reasoning token allocation and neglecting visual-specific perception; and (ii) When models interact with search engines, their queries often fail to retrieve relevant information due to the inability to articulate requirements, thereby leading to suboptimal performance. To address these challenges, we define an action space tailored for visually rich inputs, with actions including cropping and scaling, allowing the model to gather information from a coarse-to-fine perspective. Furthermore, to bridge the gap between users' original inquiries and the retriever, we employ a simple yet effective reward that integrates query rewriting and retrieval performance with a model-based reward. Our VRAG-RL optimizes VLMs for RAG tasks using specially designed RL strategies, aligning the model with real-world applications. The code is available at https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
PDF113May 29, 2025