지속적이고 의미론적으로 일관된 객체 캡션 생성을 위한 메모리 증강 비전-언어 에이전트
Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning
March 30, 2026
저자: Tommaso Galliena, Stefano Rosa, Tommaso Apicella, Pietro Morerio, Alessio Del Bue, Lorenzo Natale
cs.AI
초록
비전-언어 모델(VLM)은 동일한 객체에 대해 시점 간 일관되지 않은 설명을 생성하는 경우가 많아, 구현 에이전트가 시간에 걸쳐 일관된 의미론적 표현을 구축하는 능력을 저해합니다. 기존 방법들은 오프라인 다중 시점 집계 또는 탐색, 데이터 연관, 캡션 학습을 분리하는 다단계 파이프라인을 통해 불일치를 해결했으나, 이전에 관찰된 객체에 대한 추론 능력이 제한적이었습니다. 본 논문에서는 단일 자기회귀 프레임워크 내에서 데이터 연관, 객체 캡션 생성, 탐색 정책을 동시에 처리하는 통합 메모리 증강 비전-언어 에이전트를 소개합니다. 이 모델은 현재 RGB 관측값, 탐색된 탑다운 맵, 그리고 객체 수준 에피소딕 메모리를 객체 수준 토큰으로 직렬화하여 처리함으로써 장기간 시퀀스에서 지속적인 객체 식별자와 의미론적 일관성을 보장합니다. 모델을 자가 지도 방식으로 훈련시키기 위해, 불일치 기반 정책과 다중 시점 캡션 기록 간 일관성을 강제하는 의사 캡션 생성 모델을 사용하여 사실적인 3D 환경에서 데이터셋을 수집합니다. 수동으로 주석이 달린 객체 수준 테스트 세트에 대한 포괄적 평가 결과, 기준 모델 대비 표준 캡션 점수에서 최대 +11.86%, 캡션 자기 유사도에서 +7.39% 향상되었음을 확인하였으며, 간결한 장면 표현을 통해 확장 가능한 성능을 가능하게 합니다. 코드, 모델 가중치 및 데이터는 https://hsp-iit.github.io/epos-vlm/에서 이용할 수 있습니다.
English
Vision-Language Models (VLMs) often yield inconsistent descriptions of the same object across viewpoints, hindering the ability of embodied agents to construct consistent semantic representations over time. Previous methods resolved inconsistencies using offline multi-view aggregation or multi-stage pipelines that decouple exploration, data association, and caption learning, with limited capacity to reason over previously observed objects. In this paper, we introduce a unified, memory-augmented Vision-Language agent that simultaneously handles data association, object captioning, and exploration policy within a single autoregressive framework. The model processes the current RGB observation, a top-down explored map, and an object-level episodic memory serialized into object-level tokens, ensuring persistent object identity and semantic consistency across extended sequences. To train the model in a self-supervised manner, we collect a dataset in photorealistic 3D environments using a disagreement-based policy and a pseudo-captioning model that enforces consistency across multi-view caption histories. Extensive evaluation on a manually annotated object-level test set, demonstrate improvements of up to +11.86% in standard captioning scores and +7.39% in caption self-similarity over baseline models, while enabling scalable performance through a compact scene representation. Code, model weights, and data are available at https://hsp-iit.github.io/epos-vlm/.