AtlasVA: Memória de Habilidades Visuais Auto-Evolutiva para Agentes VLM Sem Professor

Resumo

Agentes de modelo visão-linguagem (VLM) dependem cada vez mais de aprendizado por reforço aumentado por memória para reutilizar experiência em tarefas de longo horizonte, porém a maioria das estruturas existentes armazena memória como texto e depende de modelos professores proprietários para resumir ou refiná-la. Esse design é mal adaptado para tomada de decisão espacial: priores geométricos são comprimidos em linguagem com perdas, e a interação esparsa é frequentemente supervisionada através de feedback textual atrasado, em vez de sinais densos fundamentados visualmente. Argumentamos que a experiência reutilizável para agentes VLM deve permanecer fundamentada visualmente. Com base nessa percepção, propomos o AtlasVA, uma estrutura de memória de habilidades visuais sem professor que organiza a memória em três camadas complementares: mapas de calor espaciais, exemplares visuais e habilidades de texto simbólico. O AtlasVA ainda evolui atlas de perigo e afinidade diretamente de estatísticas de trajetória e heurísticas leves de grade, e reutiliza esses atlas auto evolutivos como recompensas de modelagem baseadas em potencial para aprendizado por reforço. Isso unifica percepção, memória e otimização sem supervisão externa de LLM. Experimentos em benchmarks de Sokoban, FrozenLake, navegação corporificada 3D e manipulação robótica 3D mostram que o AtlasVA supera consistentemente as linhas de base de memória centrada em texto e agentes VLM competitivos, com ganhos especialmente fortes em tarefas espacialmente intensivas. Página inicial: https://wangpan-ustc.github.io/AtlasvaWeb

English

Vision-language model (VLM) agents increasingly rely on memory-augmented reinforcement learning to reuse experience across long-horizon tasks, yet most existing frameworks store memory as text and depend on proprietary teacher models to summarize or refine it. This design is poorly matched to spatial decision making: geometric priors are compressed into lossy language, and sparse interaction is often supervised through delayed textual feedback rather than dense visually grounded signals. We argue that reusable experience for VLM agents should remain visually grounded. Based on this insight, we propose AtlasVA, a teacher-free visual skill memory framework that organizes memory into three complementary layers: spatial heatmaps, visual exemplars, and symbolic text skills. AtlasVA further evolves danger and affinity atlases directly from trajectory statistics and lightweight grid heuristics, and reuses these self-evolving atlases as potential-based shaping rewards for reinforcement learning. This unifies perception, memory, and optimization without external LLM supervision. Experiments on Sokoban, FrozenLake, 3D embodied navigation, and 3D robotic manipulation benchmarks show that AtlasVA consistently outperforms text-centric memory baselines and competitive VLM agents, with especially strong gains on spatially intensive tasks. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb