ChatPaper.aiChatPaper

UniDoc-RL: Visueel RAG van Grof naar Fijn met Hiërarchische Acties en Dichte Beloningen

UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

April 16, 2026
Auteurs: Jun Wang, Shuo Tan, Zelong Sun, Tiancheng Gu, Yongle Zhao, Ziyong Feng, Kaicheng Yang, Cewu Lu
cs.AI

Samenvatting

Retrieval-Augmented Generation (RAG) breidt Large Vision-Language Models (LVLMs) uit met externe visuele kennis. Bestaande visuele RAG-systemen vertrouwen echter doorgaans op generieke retrievalsignalen die de fijnmazige visuele semantiek negeren die essentieel is voor complex redeneren. Om deze beperking aan te pakken, stellen we UniDoc-RL voor, een unified reinforcement learning-framework waarin een LVLM-agent gezamenlijk retrieval, reranking, actieve visuele perceptie en redeneren uitvoert. UniDoc-RL formuleert de verwerving van visuele informatie als een sequentieel besluitvormingsprobleem met een hiërarchische actieruimte. Specifiek verfijnt het progressief visueel bewijs, van grofkorrelige documentretrieval tot fijnkorrelige beeldselectie en actief region cropping, waardoor het model irrelevante inhoud kan onderdrukken en zich kan richten op informatie-dichte regio's. Voor effectieve end-to-end training introduceren we een dense multi-reward-schema dat task-aware supervisie biedt voor elke actie. Gebaseerd op Group Relative Policy Optimization (GRPO) stemt UniDoc-RL agentgedrag af op meerdere doelstellingen zonder afhankelijk te zijn van een apart waardenetwerk. Om dit trainingsparadigma te ondersteunen, hebben we een uitgebreide dataset samengesteld met hoogwaardige redeneertrajecten en fijnmazige actieannotaties. Experimenten op drie benchmarks tonen aan dat UniDoc-RL consistent state-of-the-art-baselines overtreft, met winsten tot 17,7% ten opzichte van eerdere RL-gebaseerde methoden.
English
Retrieval-Augmented Generation (RAG) extends Large Vision-Language Models (LVLMs) with external visual knowledge. However, existing visual RAG systems typically rely on generic retrieval signals that overlook the fine-grained visual semantics essential for complex reasoning. To address this limitation, we propose UniDoc-RL, a unified reinforcement learning framework in which an LVLM agent jointly performs retrieval, reranking, active visual perception, and reasoning. UniDoc-RL formulates visual information acquisition as a sequential decision-making problem with a hierarchical action space. Specifically, it progressively refines visual evidence from coarse-grained document retrieval to fine-grained image selection and active region cropping, allowing the model to suppress irrelevant content and attend to information-dense regions. For effective end-to-end training, we introduce a dense multi-reward scheme that provides task-aware supervision for each action. Based on Group Relative Policy Optimization (GRPO), UniDoc-RL aligns agent behavior with multiple objectives without relying on a separate value network. To support this training paradigm, we curate a comprehensive dataset of high-quality reasoning trajectories with fine-grained action annotations. Experiments on three benchmarks demonstrate that UniDoc-RL consistently surpasses state-of-the-art baselines, yielding up to 17.7% gains over prior RL-based methods.
PDF82April 18, 2026