Geheugen-versterkte Visueel-Taal Agents voor Persistente en Semantisch Consistente Objectbeschrijving
Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning
March 30, 2026
Auteurs: Tommaso Galliena, Stefano Rosa, Tommaso Apicella, Pietro Morerio, Alessio Del Bue, Lorenzo Natale
cs.AI
Samenvatting
Vision-Language Models (VLMs) produceren vaak inconsistente beschrijvingen van hetzelfde object vanuit verschillende gezichtspunten, wat het vermogen van belichaamde agents belemmert om consistente semantische representaties in de tijd op te bouwen. Eerdere methoden losten inconsistenties op door offline multi-view aggregatie of meerfasige pijplijnen die verkenning, data-associatie en caption-learning ontkoppelen, maar met een beperkt vermogen om te redeneren over eerder waargenomen objecten. In dit artikel introduceren we een uniforme, met geheugen versterkte Vision-Language agent die gelijktijdig data-associatie, objectbeschrijving en verkenning-beleid aanpakt binnen een enkel autoregressief raamwerk. Het model verwerkt de huidige RGB-waarneming, een verkende top-down kaart en een episodisch geheugen op objectniveau dat geserialiseerd is in tokens op objectniveau, waardoor persistente objectidentiteit en semantische consistentie over langere sequenties worden gewaarborgd. Om het model op een zelfgesuperviseerde manier te trainen, verzamelen we een dataset in fotorealistische 3D-omgevingen met behulp van een op onenigheid gebaseerd beleid en een pseudo-captioning model dat consistentie afdwingt over multi-view caption-geschiedenissen. Uitgebreide evaluatie op een handmatig geannoteerde testset op objectniveau toont verbeteringen aan van tot +11,86% in standaard captioning-scores en +7,39% in caption-zelfsimilariteit ten opzichte van baseline-modellen, terwijl schaalbare prestaties mogelijk worden gemaakt door een compacte scène-representatie. Code, modelgewichten en data zijn beschikbaar op https://hsp-iit.github.io/epos-vlm/.
English
Vision-Language Models (VLMs) often yield inconsistent descriptions of the same object across viewpoints, hindering the ability of embodied agents to construct consistent semantic representations over time. Previous methods resolved inconsistencies using offline multi-view aggregation or multi-stage pipelines that decouple exploration, data association, and caption learning, with limited capacity to reason over previously observed objects. In this paper, we introduce a unified, memory-augmented Vision-Language agent that simultaneously handles data association, object captioning, and exploration policy within a single autoregressive framework. The model processes the current RGB observation, a top-down explored map, and an object-level episodic memory serialized into object-level tokens, ensuring persistent object identity and semantic consistency across extended sequences. To train the model in a self-supervised manner, we collect a dataset in photorealistic 3D environments using a disagreement-based policy and a pseudo-captioning model that enforces consistency across multi-view caption histories. Extensive evaluation on a manually annotated object-level test set, demonstrate improvements of up to +11.86% in standard captioning scores and +7.39% in caption self-similarity over baseline models, while enabling scalable performance through a compact scene representation. Code, model weights, and data are available at https://hsp-iit.github.io/epos-vlm/.