Las habilidades de los agentes deben ir más allá del texto: la argumentación a favor de las habilidades visuales

Resumen

Las habilidades reutilizables son un mecanismo clave para ampliar las capacidades de los agentes, permitiéndoles acumular experiencia y resolver tareas cada vez más complejas. Sin embargo, la mayoría de los métodos existentes de aprendizaje de habilidades almacenan la experiencia reutilizable como activos exclusivamente textuales, como instrucciones, trazas de razonamiento o trayectorias resumidas. Sostenemos que este paradigma puramente textual crea un cuello de botella fundamental para las tareas centradas en lo visual, donde el conocimiento reutilizable a menudo depende de la disposición espacial, el anclaje visual, la apariencia detallada y los cambios de estado localizados. Para abordar esta limitación, proponemos \NAME, un paradigma de habilidad multimodal que combina lógica textual declarativa con soporte visual explícito. Distinguimos tres formas reutilizables: prioridades estáticas para convenciones espaciales estables, prioridades dinámicas para la memoria de trabajo visual in situ, y habilidades visuales entrelazadas que vinculan pasos de texto ordenados con los fotogramas fuente, capturas de pantalla o regiones de página que los justifican. En lugar de solo describir qué hacer, las habilidades visuales también codifican dónde mirar, cómo inspeccionar y cómo verificar los resultados visuales. Para escalar la construcción de habilidades visuales, introducimos \SYSTEM, un sistema automático que convierte la experiencia del agente en habilidades multimodales reutilizables, preservando el razonamiento textual, las referencias espaciales, los límites visuales y los patrones de interacción de las trayectorias de las tareas. Los experimentos en tareas de interfaz gráfica de usuario (GUI) y otras centradas en lo visual muestran que las habilidades visuales superan consistentemente a las habilidades puramente textuales, particularmente cuando el éxito requiere correspondencia espacial, evidencia visual e interacción consciente del estado. Estos resultados respaldan nuestra posición central: las habilidades reutilizables de los agentes deberían ir más allá del texto y convertirse en activos multimodales para futuros agentes multimodales.

English

Reusable skills are a key mechanism for extending agent capabilities, allowing agents to accumulate experience and solve increasingly complex tasks. Yet most existing skill-learning methods store reusable experience as text-only assets, such as instructions, reasoning traces, or summarized trajectories. We argue that this text-only paradigm creates a fundamental bottleneck for visual-centric tasks, where reusable knowledge often depends on spatial layout, visual grounding, fine-grained appearance, and localized state changes. To address this limitation, we propose \NAME, a multimodal skill paradigm that combines declarative textual logic with explicit visual support. We distinguish three reusable forms: static priors for stable spatial conventions, dynamic priors for in-situ visual working memory, and interleaved visual skills that bind ordered text steps to the source frames, screenshots, or page regions that justify them. Rather than only describing what to do, visual skills also encode where to look, how to inspect, and how to verify visual outcomes. To scale visual-skill construction, we introduce \SYSTEM, an automatic system that converts agent experience into reusable multimodal skills by preserving textual reasoning, spatial references, visual boundaries, and interaction patterns from task trajectories. Experiments on GUI and other visual-centric tasks show that visual skills consistently outperform text-only skills, particularly when success requires spatial correspondence, visual evidence, and state-aware interaction. These results support our central position: reusable agent skills should go beyond text and become multimodal assets for future multimodal agents.