SeeNav-Agent: 시각적 프롬프트와 단계별 정책 최적화를 통한 비전-언어 내비게이션 향상
SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization
December 2, 2025
저자: Zhengcheng Wang, Zichuan Lin, Yijun Yang, Haobo Fu, Deheng Ye
cs.AI
초록
기존 대형 시각-언어 모델(LVLM) 기반 시각-언어 항법(VLN) 에이전트는 지각 오류, 추론 오류 및 계획 오류로 인해 항법 성능이 크게 저하되는 경우가 많습니다. 이러한 한계를 해결하기 위해 본 연구에서는 SeeNav-Agent라는 새로운 VLN 에이전트 프레임워크를 제안합니다. 먼저, VLN 에이전트의 시각 모듈에서 발생하는 지각 허류현상을 줄이기 위해 입력 공간에 이중 시각 얼럿(VP) 기술을 도입하여 에이전트의 현재 공간 상태 이해도를 향상시킵니다. 이후 VLN 에이전트의 사후 학습을 위해 새로운 단계별 강화 미세 조정(RFT) 방법인 SRGPO(Step Reward Group Policy Optimization)를 설계합니다. SRGPO에서는 먼저 항법 작업에 대해 검증 가능한 과정 보상을 정의한 후, 서로 다른 항법 단계를 무작위로 그룹화하여 효율적인 단계별 이점 추정을 수행합니다. SRGPO는 VLN 에이전트의 강화 학습 과정에 밀집된 보상 신호를 제공하고 그 계획 능력을 향상시킵니다. EmbodiedBench Navigation 벤치마크에서의 실험 결과에 따르면, 제로샷 VP 모듈을 도입함으로써 GPT-4.1은 86.7%의 항법 성공률을 달성하여 현재 최고의 LVLM보다 약 20% 포인트(pp) 높은 성능을 보였습니다. SRGPO 기반 사후 학습을 통해 Qwen2.5-VL-3B 모델은 72.3%의 항법 성공률에 도달하여 기존 최고 LVLM 모델보다 5.6pp 우수한 성능을 나타냈습니다. 또한 GRPO, GiGPO와 같은 RFT 알고리즘과 비교했을 때, 제안된 SRGPO는 훈련 안정성, 수렴 효율성 및 일반화 능력에서 상당한 향상을 보였습니다.
English
Existing Vision-Language Navigation (VLN) agents based on Large Vision-Language Models (LVLMs) often suffer from perception errors, reasoning errors, and planning errors, which significantly hinder their navigation performance. To address these limitations, a novel VLN agent framework, named SeeNav-Agent, is proposed in this work. First, to reduce perception hallucinations of the visual module of the VLN agent, a dual-view Visual Prompt (VP) technique is introduced in the input space, which can also improve the agent's understanding of current spatial states. Subsequently, a novel step-level Reinforcement Fine-Tuning (RFT) method, Step Reward Group Policy Optimization (SRGPO), is designed for the post-training of VLN agents. In SRGPO, we first define verifiable process rewards for the navigation task, and then perform efficient step-level advantage estimation by randomly grouping different navigation steps. SRGPO provides dense reward signals for the reinforcement learning process of the VLN agent and enhances its planning capability. Experimental results on the EmbodiedBench Navigation benchmark indicate that by introducing the zero-shot VP module, the GPT-4.1 achieves a navigation success rate of 86.7%, surpassing the current best LVLM by approximately 20 percentage points (pp). Through post-training based on SRGPO, the Qwen2.5-VL-3B model reaches a navigation success rate of 72.3%, outperforming the best existing LVLM model by 5.6 pp. Moreover, compared to RFT algorithms such as GRPO and GiGPO, the proposed SRGPO demonstrates significant improvements in training stability, convergence efficiency, and generalization capability.