Agent-Fähigkeiten sollten über Text hinausgehen: Das Plädoyer für visuelle Fähigkeiten

Zusammenfassung

Wiederverwendbare Fähigkeiten sind ein zentraler Mechanismus zur Erweiterung der Agentenfähigkeiten, da sie es Agenten ermöglichen, Erfahrungen zu sammeln und zunehmend komplexe Aufgaben zu lösen. Dennoch speichern die meisten bestehenden Methoden zum Erlernen von Fähigkeiten wiederverwendbare Erfahrungen als reine Text-Assets, wie Anweisungen, Argumentationsspuren oder zusammengefasste Trajektorien. Wir argumentieren, dass dieses rein textbasierte Paradigma einen fundamentalen Engpass für visuell-zentrierte Aufgaben darstellt, bei denen wiederverwendbares Wissen oft von räumlicher Anordnung, visueller Verankerung, feinkörnigem Erscheinungsbild und lokalisierten Zustandsänderungen abhängt. Um diese Einschränkung zu adressieren, schlagen wir \NAME vor, ein multimodales Fähigkeitsparadigma, das deklarative textuelle Logik mit expliziter visueller Unterstützung kombiniert. Wir unterscheiden drei wiederverwendbare Formen: statische Priors für stabile räumliche Konventionen, dynamische Priors für situatives visuelles Arbeitsgedächtnis und verschränkte visuelle Fähigkeiten, die geordnete Textschritte mit den Quellframes, Screenshots oder Seitenbereichen verknüpfen, die sie rechtfertigen. Visuelle Fähigkeiten beschreiben nicht nur, was zu tun ist, sondern kodieren auch, wo hinzusehen ist, wie zu inspizieren ist und wie visuelle Ergebnisse zu überprüfen sind. Um die Konstruktion visueller Fähigkeiten zu skalieren, führen wir \SYSTEM ein, ein automatisches System, das Agentenerfahrungen in wiederverwendbare multimodale Fähigkeiten umwandelt, indem es textuelle Argumentation, räumliche Referenzen, visuelle Grenzen und Interaktionsmuster aus Aufgaben-Trajektorien bewahrt. Experimente mit GUI und anderen visuell-zentrierten Aufgaben zeigen, dass visuelle Fähigkeiten durchgängig besser abschneiden als rein textbasierte Fähigkeiten, insbesondere wenn der Erfolg räumliche Korrespondenz, visuelle Evidenz und zustandsbewusste Interaktion erfordert. Diese Ergebnisse stützen unsere zentrale These: Wiederverwendbare Agentenfähigkeiten sollten über Text hinausgehen und zu multimodalen Assets für zukünftige multimodale Agenten werden.

English

Reusable skills are a key mechanism for extending agent capabilities, allowing agents to accumulate experience and solve increasingly complex tasks. Yet most existing skill-learning methods store reusable experience as text-only assets, such as instructions, reasoning traces, or summarized trajectories. We argue that this text-only paradigm creates a fundamental bottleneck for visual-centric tasks, where reusable knowledge often depends on spatial layout, visual grounding, fine-grained appearance, and localized state changes. To address this limitation, we propose \NAME, a multimodal skill paradigm that combines declarative textual logic with explicit visual support. We distinguish three reusable forms: static priors for stable spatial conventions, dynamic priors for in-situ visual working memory, and interleaved visual skills that bind ordered text steps to the source frames, screenshots, or page regions that justify them. Rather than only describing what to do, visual skills also encode where to look, how to inspect, and how to verify visual outcomes. To scale visual-skill construction, we introduce \SYSTEM, an automatic system that converts agent experience into reusable multimodal skills by preserving textual reasoning, spatial references, visual boundaries, and interaction patterns from task trajectories. Experiments on GUI and other visual-centric tasks show that visual skills consistently outperform text-only skills, particularly when success requires spatial correspondence, visual evidence, and state-aware interaction. These results support our central position: reusable agent skills should go beyond text and become multimodal assets for future multimodal agents.