MMSkills: К мультимодальным навыкам для общих визуальных агентов

Аннотация

Повторно используемые навыки стали ключевым базовым элементом для повышения возможностей агентов, однако большинство существующих наборов навыков кодируют повторно используемое поведение преимущественно в виде текстовых подсказок, исполняемого кода или заученных процедур. Для визуальных агентов, однако, процедурные знания по своей сути мультимодальны: повторное использование зависит не только от того, какую операцию выполнять, но и от распознавания релевантного состояния, интерпретации визуальных свидетельств прогресса или неудачи, а также от принятия решения о дальнейших действиях. Мы формализуем это требование как мультимодальные процедурные знания и решаем три практические задачи: (I) что должен содержать набор мультимодальных навыков; (II) откуда такие наборы можно извлечь из общедоступного опыта взаимодействия; и (III) как агенты могут обращаться к мультимодальным свидетельствам во время инференса без чрезмерного объема контекста изображений или излишней привязки к эталонным скриншотам. Мы представляем MMSkills — фреймворк для представления, генерации и использования повторно используемых мультимодальных процедур для визуального принятия решений в реальном времени. Каждый MMSkill представляет собой компактный, обусловленный состоянием пакет, который связывает текстовую процедуру с картами состояния времени выполнения и многовидовыми ключевыми кадрами. Для построения таких пакетов мы разрабатываем генератор траекторий агента в навыки (агентский генератор траектория→навык), который преобразует общедоступные неоценочные траектории в повторно используемые мультимодальные навыки с помощью группировки рабочих процессов, индукции процедур, визуального заземления и аудита на основе мета-навыков. Для их использования мы вводим агента мультимодальных навыков с загрузкой ответвлений: выбранные карты состояния и ключевые кадры изучаются во временной ветке, согласовываются с динамической средой и дистиллируются в структурированные инструкции для основного агента. Эксперименты на эталонных тестах визуальных агентов на основе GUI и игр показывают, что MMSkills последовательно улучшают как передовые, так и менее мощные мультимодальные агенты, что предполагает, что внешние мультимодальные процедурные знания дополняют внутренние априорные знания модели.

English

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.