Habilidades de agente devem ir além do texto: o caso das habilidades visuais

Resumo

Habilidades reutilizáveis são um mecanismo chave para expandir as capacidades de agentes, permitindo-lhes acumular experiência e resolver tarefas cada vez mais complexas. No entanto, a maioria dos métodos existentes de aprendizado de habilidades armazena experiência reutilizável exclusivamente como ativos textuais, como instruções, traços de raciocínio ou trajetórias resumidas. Argumentamos que esse paradigma exclusivamente textual cria um gargalo fundamental para tarefas centradas em visão, onde o conhecimento reutilizável frequentemente depende de layout espacial, ancoramento visual, aparência refinada e mudanças de estado localizadas. Para superar essa limitação, propomos \NAME, um paradigma de habilidade multimodal que combina lógica textual declarativa com suporte visual explícito. Distinguimos três formas reutilizáveis: priores estáticos para convenções espaciais estáveis, priores dinâmicos para memória de trabalho visual in situ, e habilidades visuais intercaladas que vinculam etapas textuais ordenadas aos quadros de origem, capturas de tela ou regiões de página que as justificam. Em vez de apenas descrever o que fazer, as habilidades visuais também codificam onde olhar, como inspecionar e como verificar resultados visuais. Para escalar a construção de habilidades visuais, introduzimos \SYSTEM, um sistema automático que converte experiência do agente em habilidades multimodais reutilizáveis, preservando raciocínio textual, referências espaciais, limites visuais e padrões de interação das trajetórias das tarefas. Experimentos em GUI e outras tarefas centradas em visão mostram que habilidades visuais superam consistentemente habilidades exclusivamente textuais, particularmente quando o sucesso requer correspondência espacial, evidência visual e interação ciente do estado. Esses resultados sustentam nossa posição central: habilidades reutilizáveis de agentes devem ir além do texto e se tornar ativos multimodais para futuros agentes multimodais.

English

Reusable skills are a key mechanism for extending agent capabilities, allowing agents to accumulate experience and solve increasingly complex tasks. Yet most existing skill-learning methods store reusable experience as text-only assets, such as instructions, reasoning traces, or summarized trajectories. We argue that this text-only paradigm creates a fundamental bottleneck for visual-centric tasks, where reusable knowledge often depends on spatial layout, visual grounding, fine-grained appearance, and localized state changes. To address this limitation, we propose \NAME, a multimodal skill paradigm that combines declarative textual logic with explicit visual support. We distinguish three reusable forms: static priors for stable spatial conventions, dynamic priors for in-situ visual working memory, and interleaved visual skills that bind ordered text steps to the source frames, screenshots, or page regions that justify them. Rather than only describing what to do, visual skills also encode where to look, how to inspect, and how to verify visual outcomes. To scale visual-skill construction, we introduce \SYSTEM, an automatic system that converts agent experience into reusable multimodal skills by preserving textual reasoning, spatial references, visual boundaries, and interaction patterns from task trajectories. Experiments on GUI and other visual-centric tasks show that visual skills consistently outperform text-only skills, particularly when success requires spatial correspondence, visual evidence, and state-aware interaction. These results support our central position: reusable agent skills should go beyond text and become multimodal assets for future multimodal agents.