AtlasVA: Selbstentwickelndes visuelles Fähigkeitengedächtnis für lehrerfreie VLM-Agenten

Zusammenfassung

Visuell-sprachliche Modelle (VLM) als Agenten setzen zunehmend auf gedächtnisgestütztes bestärkendes Lernen, um Erfahrungen über langfristige Aufgaben hinweg wiederzuverwenden. Dennoch speichern die meisten bestehenden Frameworks Erinnerungen als Text und sind auf proprietäre Lehrermodelle angewiesen, um diese zusammenzufassen oder zu verfeinern. Dieses Design ist für räumliche Entscheidungsprozesse ungeeignet: Geometrische Annahmen werden in verlustbehaftete Sprache komprimiert, und seltene Interaktionen werden oft durch verzögertes textuelles Feedback statt durch dichte visuell verankerte Signale gesteuert. Wir argumentieren, dass wiederverwendbare Erfahrungen für VLM-Agenten visuell verankert bleiben sollten. Auf dieser Erkenntnis basierend schlagen wir AtlasVA vor, ein lehrerfreies Framework für visuelle Fähigkeitserinnerungen, das Erinnerungen in drei komplementäre Schichten organisiert: räumliche Heatmaps, visuelle Beispiele und symbolische Textfähigkeiten. AtlasVA entwickelt darüber hinaus Gefahren- und Affinitätsatlanten direkt aus Trajektorienstatistiken und leichten Gitterheuristiken weiter und nutzt diese sich selbst weiterentwickelnden Atlanten als potenzialbasierte Formungsbelohnungen für das bestärkende Lernen. Dies vereinheitlicht Wahrnehmung, Gedächtnis und Optimierung ohne externe LLM-Überwachung. Experimente auf den Benchmarks Sokoban, FrozenLake, 3D-verkörperter Navigation und 3D-Roboter-Manipulation zeigen, dass AtlasVA durchgängig bessere Leistungen erbringt als textzentrierte Gedächtnis-Baselines und konkurrierende VLM-Agenten, mit besonders starken Zugewinnen bei räumlich intensiven Aufgaben. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb

English

Vision-language model (VLM) agents increasingly rely on memory-augmented reinforcement learning to reuse experience across long-horizon tasks, yet most existing frameworks store memory as text and depend on proprietary teacher models to summarize or refine it. This design is poorly matched to spatial decision making: geometric priors are compressed into lossy language, and sparse interaction is often supervised through delayed textual feedback rather than dense visually grounded signals. We argue that reusable experience for VLM agents should remain visually grounded. Based on this insight, we propose AtlasVA, a teacher-free visual skill memory framework that organizes memory into three complementary layers: spatial heatmaps, visual exemplars, and symbolic text skills. AtlasVA further evolves danger and affinity atlases directly from trajectory statistics and lightweight grid heuristics, and reuses these self-evolving atlases as potential-based shaping rewards for reinforcement learning. This unifies perception, memory, and optimization without external LLM supervision. Experiments on Sokoban, FrozenLake, 3D embodied navigation, and 3D robotic manipulation benchmarks show that AtlasVA consistently outperforms text-centric memory baselines and competitive VLM agents, with especially strong gains on spatially intensive tasks. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb