Навыки агентов не должны ограничиваться текстом: в пользу визуальных навыков

Аннотация

Многоразовые навыки представляют собой ключевой механизм расширения возможностей агентов, позволяя им накапливать опыт и решать всё более сложные задачи. Однако большинство существующих методов обучения навыкам хранят многоразовый опыт в виде исключительно текстовых ресурсов, таких как инструкции, цепочки рассуждений или обобщённые траектории. Мы утверждаем, что эта парадигма, основанная только на тексте, создаёт фундаментальное узкое место для задач, ориентированных на визуальное восприятие, где многоразовые знания часто зависят от пространственного расположения, визуальной привязки, детализированного внешнего вида и локальных изменений состояния. Для преодоления этого ограничения мы предлагаем \NAME — мультимодальную парадигму навыков, объединяющую декларативную текстовую логику с явной визуальной поддержкой. Мы выделяем три формы многоразового использования: статические априорные знания для устойчивых пространственных конвенций, динамические априорные знания для оперативной визуальной рабочей памяти, а также встроенные визуальные навыки, связывающие упорядоченные текстовые шаги с исходными кадрами, снимками экрана или областями страницы, которые их обосновывают. Визуальные навыки не просто описывают, что делать, но и кодируют, куда смотреть, как исследовать и как проверять визуальные результаты. Для масштабирования построения визуальных навыков мы представляем \SYSTEM — автоматическую систему, преобразующую опыт агента в многоразовые мультимодальные навыки путём сохранения текстовых рассуждений, пространственных ссылок, визуальных границ и паттернов взаимодействия из траекторий выполнения задач. Эксперименты на задачах с графическим интерфейсом и других визуально-ориентированных задачах показывают, что визуальные навыки последовательно превосходят навыки, основанные только на тексте, особенно когда успех требует пространственного соответствия, визуальных доказательств и взаимодействия с учётом состояния. Эти результаты подтверждают нашу ключевую позицию: многоразовые навыки агентов должны выходить за рамки текста и становиться мультимодальными ресурсами для будущих мультимодальных агентов.

English

Reusable skills are a key mechanism for extending agent capabilities, allowing agents to accumulate experience and solve increasingly complex tasks. Yet most existing skill-learning methods store reusable experience as text-only assets, such as instructions, reasoning traces, or summarized trajectories. We argue that this text-only paradigm creates a fundamental bottleneck for visual-centric tasks, where reusable knowledge often depends on spatial layout, visual grounding, fine-grained appearance, and localized state changes. To address this limitation, we propose \NAME, a multimodal skill paradigm that combines declarative textual logic with explicit visual support. We distinguish three reusable forms: static priors for stable spatial conventions, dynamic priors for in-situ visual working memory, and interleaved visual skills that bind ordered text steps to the source frames, screenshots, or page regions that justify them. Rather than only describing what to do, visual skills also encode where to look, how to inspect, and how to verify visual outcomes. To scale visual-skill construction, we introduce \SYSTEM, an automatic system that converts agent experience into reusable multimodal skills by preserving textual reasoning, spatial references, visual boundaries, and interaction patterns from task trajectories. Experiments on GUI and other visual-centric tasks show that visual skills consistently outperform text-only skills, particularly when success requires spatial correspondence, visual evidence, and state-aware interaction. These results support our central position: reusable agent skills should go beyond text and become multimodal assets for future multimodal agents.