UniDoc-RL: 계층적 행동과 조밀한 보상을 통한 Coarse-to-Fine 시각적 RAG
UniDoc-RL: Coarse-to-Fine Visual RAG with Hierarchical Actions and Dense Rewards
April 16, 2026
저자: Jun Wang, Shuo Tan, Zelong Sun, Tiancheng Gu, Yongle Zhao, Ziyong Feng, Kaicheng Yang, Cewu Lu
cs.AI
초록
검색 증강 생성(RAG)은 대규모 시각-언어 모델(LVLM)에 외부 시각 지식을 확장하여 적용합니다. 그러나 기존 시각 RAG 시스템은 일반적으로 복잡한 추론에 필수적인 세밀한 시각 의미를 간과하는 일반적인 검색 신호에 의존합니다. 이러한 한계를 해결하기 위해 우리는 LVLM 에이전트가 검색, 재순위 지정, 능동적 시각 인식 및 추론을 함께 수행하는 통합 강화 학습 프레임워크인 UniDoc-RL을 제안합니다. UniDoc-RL은 시각 정보 획득을 계층적 행동 공간을 가진 순차적 의사 결정 문제로 공식화합니다. 구체적으로, 거친 수준의 문서 검색에서 세밀한 수준의 이미지 선택 및 능동적 영역 크롭핑에 이르기까지 시각적 증거를 점진적으로 정제하여 모델이 관련 없는 내용을 억제하고 정보 밀도가 높은 영역에 주의를 기울일 수 있도록 합니다. 효과적인 종단간 학습을 위해 우리는 각 행동에 대해 작업 인식 감독을 제공하는 밀집 다중 보상 체계를 도입했습니다. 그룹 상대 정책 최적화(GRPO)를 기반으로 하는 UniDoc-RL은 별도의 가치 네트워크에 의존하지 않고 에이전트 행동을 다중 목표와 정렬합니다. 이 학습 패러다임을 지원하기 위해 우리는 세밀한 행동 주석이 포함된 고품질 추론 궤적의 포괄적인 데이터 세트를 정리했습니다. 3개의 벤치마크에 대한 실험 결과, UniDoc-RL이 최신 기준선을 지속적으로 능가하며 기존 RL 기반 방법 대비 최대 17.7%의 성능 향상을 보여줍니다.
English
Retrieval-Augmented Generation (RAG) extends Large Vision-Language Models (LVLMs) with external visual knowledge. However, existing visual RAG systems typically rely on generic retrieval signals that overlook the fine-grained visual semantics essential for complex reasoning. To address this limitation, we propose UniDoc-RL, a unified reinforcement learning framework in which an LVLM agent jointly performs retrieval, reranking, active visual perception, and reasoning. UniDoc-RL formulates visual information acquisition as a sequential decision-making problem with a hierarchical action space. Specifically, it progressively refines visual evidence from coarse-grained document retrieval to fine-grained image selection and active region cropping, allowing the model to suppress irrelevant content and attend to information-dense regions. For effective end-to-end training, we introduce a dense multi-reward scheme that provides task-aware supervision for each action. Based on Group Relative Policy Optimization (GRPO), UniDoc-RL aligns agent behavior with multiple objectives without relying on a separate value network. To support this training paradigm, we curate a comprehensive dataset of high-quality reasoning trajectories with fine-grained action annotations. Experiments on three benchmarks demonstrate that UniDoc-RL consistently surpasses state-of-the-art baselines, yielding up to 17.7% gains over prior RL-based methods.