歩行的視覚へ:視覚に基づく能動的視点選択の学習
Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection
December 15, 2025
著者: Juil Koo, Daehyeon Choi, Sangwoo Youn, Phillip Y. Lee, Minhyuk Sung
cs.AI
要旨
視覚言語モデル(VLM)は視覚質問応答(VQA)において優れた性能を発揮するが、静的な画像から推論を行うスナップショット視覚に限定されている。一方、具身化エージェントは歩行視覚を必要とし、情報量の多い視点を獲得するために能動的に移動する。本論文では、現在の画像中の視覚情報のみを利用し、シーンの記憶や外部知識に依存せずに、最も情報量の多い次の視点を選択する視覚的接地による能動的視点選択(VG-AVS)タスクを提案する。このタスクを支援するため、自動生成されたクエリ・ターゲット視点ペアと質問応答プロンプトから構成される合成データセットを構築した。さらに、事前学習済みVLMを教師ありファインチューニング(SFT)で調整後、強化学習に基づく方策最適化を行うフレームワークを提案する。本手法は、視点選択に基づく強力な質問応答性能を達成し、未経験の合成シーンおよび実シーンに対しても頑健に一般化する。さらに、学習済みVG-AVSフレームワークを既存のシーン探索型EQAシステムに組み込むことで、下流の質問応答精度が向上する。
English
Vision Language Models (VLMs) excel at visual question answering (VQA) but remain limited to snapshot vision, reasoning from static images. In contrast, embodied agents require ambulatory vision, actively moving to obtain more informative views. We introduce Visually Grounded Active View Selection (VG-AVS), a task that selects the most informative next viewpoint using only the visual information in the current image, without relying on scene memory or external knowledge. To support this task, we construct a synthetic dataset with automatically generated paired query-target views and question-answer prompts. We also propose a framework that fine-tunes pretrained VLMs through supervised fine-tuning (SFT) followed by RL-based policy optimization. Our approach achieves strong question answering performance based on viewpoint selection and generalizes robustly to unseen synthetic and real scenes. Furthermore, incorporating our learned VG-AVS framework into existing scene-exploration-based EQA systems improves downstream question-answering accuracy.