Les compétences des agents doivent aller au-delà du texte : plaidoyer pour les compétences visuelles

Résumé

Les compétences réutilisables sont un mécanisme clé pour étendre les capacités des agents, leur permettant d'accumuler de l'expérience et de résoudre des tâches de plus en plus complexes. Pourtant, la plupart des méthodes d'apprentissage de compétences existantes stockent l'expérience réutilisable sous forme d'actifs purement textuels, tels que des instructions, des traces de raisonnement ou des trajectoires résumées. Nous soutenons que ce paradigme uniquement textuel crée un goulot d'étranglement fondamental pour les tâches centrées sur le visuel, où les connaissances réutilisables dépendent souvent de la disposition spatiale, de l'ancrage visuel, de l'apparence fine et des changements d'état localisés. Pour remédier à cette limitation, nous proposons \NAME, un paradigme de compétences multimodales qui combine une logique textuelle déclarative avec un support visuel explicite. Nous distinguons trois formes réutilisables : les a priori statiques pour les conventions spatiales stables, les a priori dynamiques pour la mémoire de travail visuelle in situ, et les compétences visuelles entrelacées qui lient des étapes textuelles ordonnées aux images sources, captures d'écran ou régions de page qui les justifient. Plutôt que de seulement décrire quoi faire, les compétences visuelles encodent également où regarder, comment inspecter et comment vérifier les résultats visuels. Pour passer à l'échelle la construction de compétences visuelles, nous introduisons \SYSTEM, un système automatique qui convertit l'expérience des agents en compétences multimodales réutilisables en préservant le raisonnement textuel, les références spatiales, les limites visuelles et les schémas d'interaction issus des trajectoires de tâches. Des expériences sur des tâches d'interface graphique et d'autres tâches centrées sur le visuel montrent que les compétences visuelles surpassent systématiquement les compétences purement textuelles, en particulier lorsque le succès nécessite une correspondance spatiale, des preuves visuelles et une interaction sensible à l'état. Ces résultats appuient notre position centrale : les compétences réutilisables des agents devraient dépasser le texte et devenir des actifs multimodaux pour les futurs agents multimodaux.

English

Reusable skills are a key mechanism for extending agent capabilities, allowing agents to accumulate experience and solve increasingly complex tasks. Yet most existing skill-learning methods store reusable experience as text-only assets, such as instructions, reasoning traces, or summarized trajectories. We argue that this text-only paradigm creates a fundamental bottleneck for visual-centric tasks, where reusable knowledge often depends on spatial layout, visual grounding, fine-grained appearance, and localized state changes. To address this limitation, we propose \NAME, a multimodal skill paradigm that combines declarative textual logic with explicit visual support. We distinguish three reusable forms: static priors for stable spatial conventions, dynamic priors for in-situ visual working memory, and interleaved visual skills that bind ordered text steps to the source frames, screenshots, or page regions that justify them. Rather than only describing what to do, visual skills also encode where to look, how to inspect, and how to verify visual outcomes. To scale visual-skill construction, we introduce \SYSTEM, an automatic system that converts agent experience into reusable multimodal skills by preserving textual reasoning, spatial references, visual boundaries, and interaction patterns from task trajectories. Experiments on GUI and other visual-centric tasks show that visual skills consistently outperform text-only skills, particularly when success requires spatial correspondence, visual evidence, and state-aware interaction. These results support our central position: reusable agent skills should go beyond text and become multimodal assets for future multimodal agents.