ChatPaper.aiChatPaper

이동 중 시각 능력 향상: 시각 기반 능동적 시점 선택 학습

Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection

December 15, 2025
저자: Juil Koo, Daehyeon Choi, Sangwoo Youn, Phillip Y. Lee, Minhyuk Sung
cs.AI

초록

비전 언어 모델(VLM)은 시각 질의응답(VQA)에서 뛰어난 성능을 보이지만 정적 이미지 기반의 추론에 국한된 '스냅샷 시각' 방식의 한계를 지닙니다. 이에 반해 구체화 에이전트는 보다 유익한 시각적 정보를 얻기 위해 능동적으로 움직이는 '이동 시각'이 요구됩니다. 본 연구에서는 장면 메모리나 외부 지식에 의존하지 않고 현재 이미지의 시각 정보만을 활용해 가장 유익한 다음 시점의 시점을 선택하는 '시각 기반 능동 시점 선택(VG-AVS)' 과제를 소개합니다. 해당 과제를 지원하기 위해 자동 생성된 쿼리-대상 시점 쌍과 질문-응답 프롬프트로 구성된 합성 데이터셋을 구축하였습니다. 또한 사전 학습된 VLM을 지도 미세 조정(SFT)과 강화 학습 기반 정책 최적화를 통해 조정하는 프레임워크를 제안합니다. 우리의 접근법은 시점 선택 기반 질의응답에서 강력한 성능을 달성하며, 보이지 않는 합성 및 실제 장면에 대해 견고하게 일반화됩니다. 나아가 학습된 VG-AVS 프레임워크를 기존 장면 탐색 기반 EQA 시스템에 통합하면 하위 작업의 질의응답 정확도가 향상됩니다.
English
Vision Language Models (VLMs) excel at visual question answering (VQA) but remain limited to snapshot vision, reasoning from static images. In contrast, embodied agents require ambulatory vision, actively moving to obtain more informative views. We introduce Visually Grounded Active View Selection (VG-AVS), a task that selects the most informative next viewpoint using only the visual information in the current image, without relying on scene memory or external knowledge. To support this task, we construct a synthetic dataset with automatically generated paired query-target views and question-answer prompts. We also propose a framework that fine-tunes pretrained VLMs through supervised fine-tuning (SFT) followed by RL-based policy optimization. Our approach achieves strong question answering performance based on viewpoint selection and generalizes robustly to unseen synthetic and real scenes. Furthermore, incorporating our learned VG-AVS framework into existing scene-exploration-based EQA systems improves downstream question-answering accuracy.
PDF82December 17, 2025