AtlasVA: Memoria de Habilidades Visuales Autoevolutiva para Agentes VLM Sin Profesor

Resumen

Los agentes basados en modelos de visión-lenguaje (VLM) dependen cada vez más del aprendizaje por refuerzo aumentado con memoria para reutilizar la experiencia en tareas de largo horizonte; sin embargo, la mayoría de los marcos existentes almacenan la memoria como texto y requieren modelos docentes propietarios para resumirla o refinarla. Este diseño se adapta mal a la toma de decisiones espaciales: las prioridades geométricas se comprimen en un lenguaje con pérdidas, y la interacción dispersa a menudo se supervisa mediante retroalimentación textual retardada en lugar de señales densas visualmente fundamentadas. Sostenemos que la experiencia reutilizable para los agentes VLM debe permanecer visualmente fundamentada. Con base en esta idea, proponemos AtlasVA, un marco de memoria de habilidades visuales sin maestro que organiza la memoria en tres capas complementarias: mapas de calor espaciales, ejemplares visuales y habilidades textuales simbólicas. AtlasVA además evoluciona atlas de peligro y afinidad directamente a partir de estadísticas de trayectorias y heurísticas ligeras basadas en cuadrículas, y reutiliza estos atlas auto-evolutivos como recompensas de modelado basadas en potencial para el aprendizaje por refuerzo. Esto unifica percepción, memoria y optimización sin supervisión externa de LLM. Los experimentos en los puntos de referencia de Sokoban, FrozenLake, navegación encarnada en 3D y manipulación robótica en 3D muestran que AtlasVA supera consistentemente a las líneas base de memoria centradas en texto y a agentes VLM competitivos, con mejoras especialmente notables en tareas espacialmente intensivas. Página web: https://wangpan-ustc.github.io/AtlasvaWeb

English

Vision-language model (VLM) agents increasingly rely on memory-augmented reinforcement learning to reuse experience across long-horizon tasks, yet most existing frameworks store memory as text and depend on proprietary teacher models to summarize or refine it. This design is poorly matched to spatial decision making: geometric priors are compressed into lossy language, and sparse interaction is often supervised through delayed textual feedback rather than dense visually grounded signals. We argue that reusable experience for VLM agents should remain visually grounded. Based on this insight, we propose AtlasVA, a teacher-free visual skill memory framework that organizes memory into three complementary layers: spatial heatmaps, visual exemplars, and symbolic text skills. AtlasVA further evolves danger and affinity atlases directly from trajectory statistics and lightweight grid heuristics, and reuses these self-evolving atlases as potential-based shaping rewards for reinforcement learning. This unifies perception, memory, and optimization without external LLM supervision. Experiments on Sokoban, FrozenLake, 3D embodied navigation, and 3D robotic manipulation benchmarks show that AtlasVA consistently outperforms text-centric memory baselines and competitive VLM agents, with especially strong gains on spatially intensive tasks. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb