ChatPaper.aiChatPaper

SeeNav-Agente: Mejora de la Navegación Visión-Lenguaje mediante Prompt Visual y Optimización de Políticas a Nivel de Paso

SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

December 2, 2025
Autores: Zhengcheng Wang, Zichuan Lin, Yijun Yang, Haobo Fu, Deheng Ye
cs.AI

Resumen

Los agentes de Navegación Visión-Lenguaje (VLN) existentes basados en Modelos Grandes de Visión y Lenguaje (LVLM) suelen sufrir errores de percepción, razonamiento y planificación, lo que limita significativamente su rendimiento en navegación. Para abordar estas limitaciones, en este trabajo se propone un nuevo marco de agente VLN denominado SeeNav-Agent. En primer lugar, para reducir las alucinaciones perceptivas del módulo visual del agente VLN, se introduce una técnica de Prompt Visual (VP) de vista dual en el espacio de entrada, que también mejora la comprensión del agente sobre los estados espaciales actuales. Posteriormente, se diseña un novedoso método de Ajuste Fino por Refuerzo (RFT) a nivel de paso, denominado Optimización de Políticas por Grupos de Recompensa por Paso (SRGPO), para el entrenamiento posterior de agentes VLN. En SRGPO, primero definimos recompensas de proceso verificables para la tarea de navegación, y luego realizamos una estimación eficiente de ventajas a nivel de paso agrupando aleatoriamente diferentes pasos de navegación. SRGPO proporciona señales de recompensa densas para el proceso de aprendizaje por refuerzo del agente VLN y mejora su capacidad de planificación. Los resultados experimentales en el benchmark de Navegación EmbodiedBench indican que, al introducir el módulo VP de cero disparos, el GPT-4.1 alcanza una tasa de éxito en navegación del 86.7%, superando al mejor LVLM actual en aproximadamente 20 puntos porcentuales (pp). Mediante el entrenamiento posterior basado en SRGPO, el modelo Qwen2.5-VL-3B alcanza una tasa de éxito del 72.3%, superando al mejor modelo LVLM existente en 5.6 pp. Además, en comparación con algoritmos RFT como GRPO y GiGPO, el SRGPO propuesto demuestra mejoras significativas en estabilidad del entrenamiento, eficiencia de convergencia y capacidad de generalización.
English
Existing Vision-Language Navigation (VLN) agents based on Large Vision-Language Models (LVLMs) often suffer from perception errors, reasoning errors, and planning errors, which significantly hinder their navigation performance. To address these limitations, a novel VLN agent framework, named SeeNav-Agent, is proposed in this work. First, to reduce perception hallucinations of the visual module of the VLN agent, a dual-view Visual Prompt (VP) technique is introduced in the input space, which can also improve the agent's understanding of current spatial states. Subsequently, a novel step-level Reinforcement Fine-Tuning (RFT) method, Step Reward Group Policy Optimization (SRGPO), is designed for the post-training of VLN agents. In SRGPO, we first define verifiable process rewards for the navigation task, and then perform efficient step-level advantage estimation by randomly grouping different navigation steps. SRGPO provides dense reward signals for the reinforcement learning process of the VLN agent and enhances its planning capability. Experimental results on the EmbodiedBench Navigation benchmark indicate that by introducing the zero-shot VP module, the GPT-4.1 achieves a navigation success rate of 86.7%, surpassing the current best LVLM by approximately 20 percentage points (pp). Through post-training based on SRGPO, the Qwen2.5-VL-3B model reaches a navigation success rate of 72.3%, outperforming the best existing LVLM model by 5.6 pp. Moreover, compared to RFT algorithms such as GRPO and GiGPO, the proposed SRGPO demonstrates significant improvements in training stability, convergence efficiency, and generalization capability.
PDF61December 6, 2025