Rumo à Visão Ambulatória: Aprendizado de Seleção Ativa de Visão com Base Visual
Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection
December 15, 2025
Autores: Juil Koo, Daehyeon Choi, Sangwoo Youn, Phillip Y. Lee, Minhyuk Sung
cs.AI
Resumo
Os Modelos de Linguagem Visual (VLMs) destacam-se na resposta a perguntas visuais (VQA), mas permanecem limitados à visão instantânea, raciocinando a partir de imagens estáticas. Em contraste, os agentes incorporados requerem visão ambulatorial, movendo-se ativamente para obter perspetivas mais informativas. Apresentamos a Seleção Ativa de Vista com Base Visual (VG-AVS), uma tarefa que seleciona o ponto de vista seguinte mais informativo usando apenas a informação visual na imagem atual, sem depender de memória de cena ou conhecimento externo. Para suportar esta tarefa, construímos um conjunto de dados sintético com pares de vistas de consulta-alvo e prompts de pergunta-resposta gerados automaticamente. Propomos também um framework que ajusta VLMs pré-treinados através de ajuste fino supervisionado (SFT) seguido de otimização de política baseada em RL. A nossa abordagem alcança um forte desempenho na resposta a perguntas com base na seleção do ponto de vista e generaliza robustamente para cenas sintéticas e reais não vistas. Além disso, a incorporação do nosso framework VG-AVS aprendido em sistemas existentes de EQA baseados na exploração de cenas melhora a precisão da resposta a perguntas subsequentes.
English
Vision Language Models (VLMs) excel at visual question answering (VQA) but remain limited to snapshot vision, reasoning from static images. In contrast, embodied agents require ambulatory vision, actively moving to obtain more informative views. We introduce Visually Grounded Active View Selection (VG-AVS), a task that selects the most informative next viewpoint using only the visual information in the current image, without relying on scene memory or external knowledge. To support this task, we construct a synthetic dataset with automatically generated paired query-target views and question-answer prompts. We also propose a framework that fine-tunes pretrained VLMs through supervised fine-tuning (SFT) followed by RL-based policy optimization. Our approach achieves strong question answering performance based on viewpoint selection and generalizes robustly to unseen synthetic and real scenes. Furthermore, incorporating our learned VG-AVS framework into existing scene-exploration-based EQA systems improves downstream question-answering accuracy.