AtlasVA: саморазвивающаяся визуальная память навыков для агентов VLM без учителя

Аннотация

Агенты на основе моделей "зрение-язык" (VLM) всё чаще используют обучение с подкреплением с дополненной памятью для повторного использования опыта в долгосрочных задачах, однако большинство существующих фреймворков хранят память в виде текста и полагаются на проприетарные модели-учителя для её обобщения или уточнения. Такая архитектура плохо подходит для пространственного принятия решений: геометрические априорные данные сжимаются в неточный язык, а разреженное взаимодействие часто управляется через отсроченную текстовую обратную связь, а не через плотные визуально обоснованные сигналы. Мы утверждаем, что повторно используемый опыт для VLM-агентов должен оставаться визуально обоснованным. Исходя из этого, мы предлагаем AtlasVA — фреймворк визуальной памяти навыков без учителя, который организует память в три взаимодополняющих слоя: пространственные тепловые карты, визуальные примеры и символьные текстовые навыки. AtlasVA дополнительно формирует атласы опасности и сродства непосредственно на основе статистики траекторий и легковесных эвристик на сетке, а затем использует эти самообучающиеся атласы в качестве потенциал-основанных формирующих вознаграждений для обучения с подкреплением. Это объединяет восприятие, память и оптимизацию без внешнего управления со стороны LLM. Эксперименты на бенчмарках Sokoban, FrozenLake, 3D-воплощённой навигации и 3D-роботизированного манипулирования показывают, что AtlasVA последовательно превосходит текстоцентричные базы памяти и конкурентоспособные VLM-агенты, особенно сильно выигрывая в пространственно интенсивных задачах. Домашняя страница: https://wangpan-ustc.github.io/AtlasvaWeb

English

Vision-language model (VLM) agents increasingly rely on memory-augmented reinforcement learning to reuse experience across long-horizon tasks, yet most existing frameworks store memory as text and depend on proprietary teacher models to summarize or refine it. This design is poorly matched to spatial decision making: geometric priors are compressed into lossy language, and sparse interaction is often supervised through delayed textual feedback rather than dense visually grounded signals. We argue that reusable experience for VLM agents should remain visually grounded. Based on this insight, we propose AtlasVA, a teacher-free visual skill memory framework that organizes memory into three complementary layers: spatial heatmaps, visual exemplars, and symbolic text skills. AtlasVA further evolves danger and affinity atlases directly from trajectory statistics and lightweight grid heuristics, and reuses these self-evolving atlases as potential-based shaping rewards for reinforcement learning. This unifies perception, memory, and optimization without external LLM supervision. Experiments on Sokoban, FrozenLake, 3D embodied navigation, and 3D robotic manipulation benchmarks show that AtlasVA consistently outperforms text-centric memory baselines and competitive VLM agents, with especially strong gains on spatially intensive tasks. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb