UniDoc-RL: Визуальный RAG с детализацией от общего к частному, использующий иерархические действия и плотные вознаграждения

Аннотация

Метод генерации с расширением выборки (RAG) расширяет возможности больших визуально-языковых моделей (LVLM) за счет привлечения внешних визуальных знаний. Однако существующие визуальные RAG-системы обычно полагаются на общие сигналы поиска, игнорируя тонкую визуальную семантику, необходимую для сложных рассуждений. Чтобы устранить этот недостаток, мы предлагаем UniDoc-RL — унифицированную структуру обучения с подкреплением, в которой агент LVLM совместно выполняет поиск, переранжирование, активное визуальное восприятие и логический вывод. UniDoc-RL формулирует процесс получения визуальной информации как задачу последовательного принятия решений с иерархическим пространством действий. В частности, система поэтапно уточняет визуальные доказательства — от крупнозернистого поиска документов до детального выбора изображений и активного кадрирования областей, что позволяет модели подавлять нерелевантный контент и фокусироваться на информационно-насыщенных участках. Для эффективного сквозного обучения мы вводим схему плотного множественного вознаграждения, обеспечивающую задачно-ориентированный контроль для каждого действия. На основе оптимизации групповой относительной политики (GRPO) UniDoc-RL согласует поведение агента с множеством целей без использования отдельной ценностной сети. Для поддержки данной парадигмы обучения мы подготовили комплексный набор данных высококачественных траекторий рассуждений с детальными аннотациями действий. Эксперименты на трех тестовых наборах показывают, что UniDoc-RL стабильно превосходит современные базовые методы, демонстрируя до 17.7% улучшения по сравнению с предыдущими подходами на основе обучения с подкреплением.

English

Retrieval-Augmented Generation (RAG) extends Large Vision-Language Models (LVLMs) with external visual knowledge. However, existing visual RAG systems typically rely on generic retrieval signals that overlook the fine-grained visual semantics essential for complex reasoning. To address this limitation, we propose UniDoc-RL, a unified reinforcement learning framework in which an LVLM agent jointly performs retrieval, reranking, active visual perception, and reasoning. UniDoc-RL formulates visual information acquisition as a sequential decision-making problem with a hierarchical action space. Specifically, it progressively refines visual evidence from coarse-grained document retrieval to fine-grained image selection and active region cropping, allowing the model to suppress irrelevant content and attend to information-dense regions. For effective end-to-end training, we introduce a dense multi-reward scheme that provides task-aware supervision for each action. Based on Group Relative Policy Optimization (GRPO), UniDoc-RL aligns agent behavior with multiple objectives without relying on a separate value network. To support this training paradigm, we curate a comprehensive dataset of high-quality reasoning trajectories with fine-grained action annotations. Experiments on three benchmarks demonstrate that UniDoc-RL consistently surpasses state-of-the-art baselines, yielding up to 17.7% gains over prior RL-based methods.

UniDoc-RL: Визуальный RAG с детализацией от общего к частному, использующий иерархические действия и плотные вознаграждения

UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards

Аннотация

Support