Agentvaardigheden zouden verder moeten gaan dan tekst: het pleidooi voor visuele vaardigheden

Samenvatting

Herbruikbare vaardigheden zijn een belangrijk mechanisme voor het uitbreiden van agentmogelijkheden, waardoor agenten ervaring kunnen opbouwen en steeds complexere taken kunnen oplossen. Toch slaan de meeste bestaande vaardigheidsleermethoden herbruikbare ervaring op als alleen-tekst-bronnen, zoals instructies, redeneersporen of samengevatte trajecten. Wij stellen dat dit alleen-tekst-paradigma een fundamentele bottleneck creëert voor visueel-gecentreerde taken, waarbij herbruikbare kennis vaak afhangt van ruimtelijke lay-out, visuele verankering, fijnmazig uiterlijk en gelokaliseerde toestandsveranderingen. Om deze beperking aan te pakken, stellen wij \NAME voor, een multimodaal vaardigheidsparadigma dat declaratieve tekstuele logica combineert met expliciete visuele ondersteuning. We onderscheiden drie herbruikbare vormen: statische priori voor stabiele ruimtelijke conventies, dynamische priori voor ter plaatse visueel werkgeheugen, en interleaved visuele vaardigheden die geordende tekststappen binden aan de bronframes, schermafbeeldingen of paginaregio's die deze rechtvaardigen. In plaats van alleen te beschrijven wat te doen, coderen visuele vaardigheden ook waar te kijken, hoe te inspecteren en hoe visuele resultaten te verifiëren. Om de constructie van visuele vaardigheden te schalen, introduceren we \SYSTEM, een automatisch systeem dat agentervaring omzet in herbruikbare multimodale vaardigheden door tekstuele redenering, ruimtelijke verwijzingen, visuele grenzen en interactiepatronen uit taaktrajecten te behouden. Experimenten op GUI en andere visueel-gecentreerde taken tonen aan dat visuele vaardigheden consequent beter presteren dan alleen-tekst-vaardigheden, vooral wanneer succes ruimtelijke overeenkomst, visueel bewijs en toestandsbewuste interactie vereist. Deze resultaten ondersteunen ons centrale standpunt: herbruikbare agentvaardigheden moeten verder gaan dan tekst en multimodale bronnen worden voor toekomstige multimodale agenten.

English

Reusable skills are a key mechanism for extending agent capabilities, allowing agents to accumulate experience and solve increasingly complex tasks. Yet most existing skill-learning methods store reusable experience as text-only assets, such as instructions, reasoning traces, or summarized trajectories. We argue that this text-only paradigm creates a fundamental bottleneck for visual-centric tasks, where reusable knowledge often depends on spatial layout, visual grounding, fine-grained appearance, and localized state changes. To address this limitation, we propose \NAME, a multimodal skill paradigm that combines declarative textual logic with explicit visual support. We distinguish three reusable forms: static priors for stable spatial conventions, dynamic priors for in-situ visual working memory, and interleaved visual skills that bind ordered text steps to the source frames, screenshots, or page regions that justify them. Rather than only describing what to do, visual skills also encode where to look, how to inspect, and how to verify visual outcomes. To scale visual-skill construction, we introduce \SYSTEM, an automatic system that converts agent experience into reusable multimodal skills by preserving textual reasoning, spatial references, visual boundaries, and interaction patterns from task trajectories. Experiments on GUI and other visual-centric tasks show that visual skills consistently outperform text-only skills, particularly when success requires spatial correspondence, visual evidence, and state-aware interaction. These results support our central position: reusable agent skills should go beyond text and become multimodal assets for future multimodal agents.