AtlasVA: 교사 없는 VLM 에이전트를 위한 자기 진화적 시각 기술 메모리
AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents
May 18, 2026
저자: Pan Wang, Yihao Hu, Xiujin Liu, Jingchu Yang, Hang Wang, Zhihao Wen
cs.AI
초록
비전-언어 모델(VLM) 에이전트는 장기 과제에서 경험을 재사용하기 위해 점점 메모리 증강 강화 학습에 의존하고 있지만, 대부분의 기존 프레임워크는 메모리를 텍스트로 저장하고 이를 요약하거나 정제하기 위해 독점적인 교사 모델에 의존한다. 이러한 설계는 공간적 의사 결정에 부적합하다. 기하학적 사전 지식이 손실이 큰 언어로 압축되고, 희소한 상호작용은 조밀한 시각적 신호가 아닌 지연된 텍스트 피드백을 통해 종종 감독되기 때문이다. 우리는 VLM 에이전트의 재사용 가능한 경험이 시각적으로 기반을 두어야 한다고 주장한다. 이 통찰을 바탕으로, 우리는 교사 없는 시각적 스킬 메모리 프레임워크인 AtlasVA를 제안한다. AtlasVA는 메모리를 세 가지 보완적인 계층, 즉 공간 히트맵, 시각적 예시, 기호 텍스트 스킬로 구성한다. 또한 AtlasVA는 궤적 통계와 경량 격자 휴리스틱으로부터 직접 위험 및 친화도 아틀라스를 진화시키고, 이러한 자기 진화형 아틀라스를 강화 학습을 위한 잠재 기반 형성 보상으로 재사용한다. 이는 외부 LLM 감독 없이 지각, 메모리, 최적화를 통합한다. Sokoban, FrozenLake, 3D 체화된 탐색, 3D 로봇 조작 벤치마크 실험 결과, AtlasVA가 텍스트 중심 메모리 기준선 및 경쟁력 있는 VLM 에이전트보다 일관되게 우수한 성능을 보였으며, 특히 공간 집약적 과제에서 큰 향상을 나타냈다. 홈페이지: https://wangpan-ustc.github.io/AtlasvaWeb
English
Vision-language model (VLM) agents increasingly rely on memory-augmented reinforcement learning to reuse experience across long-horizon tasks, yet most existing frameworks store memory as text and depend on proprietary teacher models to summarize or refine it. This design is poorly matched to spatial decision making: geometric priors are compressed into lossy language, and sparse interaction is often supervised through delayed textual feedback rather than dense visually grounded signals. We argue that reusable experience for VLM agents should remain visually grounded. Based on this insight, we propose AtlasVA, a teacher-free visual skill memory framework that organizes memory into three complementary layers: spatial heatmaps, visual exemplars, and symbolic text skills. AtlasVA further evolves danger and affinity atlases directly from trajectory statistics and lightweight grid heuristics, and reuses these self-evolving atlases as potential-based shaping rewards for reinforcement learning. This unifies perception, memory, and optimization without external LLM supervision. Experiments on Sokoban, FrozenLake, 3D embodied navigation, and 3D robotic manipulation benchmarks show that AtlasVA consistently outperforms text-centric memory baselines and competitive VLM agents, with especially strong gains on spatially intensive tasks. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb