MMSkills: Auf dem Weg zu multimodalen Fähigkeiten für allgemeine visuelle Agenten

Zusammenfassung

Wiederverwendbare Fähigkeiten sind zu einer grundlegenden Grundlage für die Verbesserung der Agentenfähigkeiten geworden, dennoch kodieren die meisten bestehenden Fähigkeitspakete wiederverwendbares Verhalten hauptsächlich als textuelle Prompts, ausführbaren Code oder erlernte Routinen. Für visuelle Agenten ist prozedurales Wissen jedoch von Natur aus multimodal: Die Wiederverwendung hängt nicht nur davon ab, welche Operation auszuführen ist, sondern auch davon, den relevanten Zustand zu erkennen, visuelle Hinweise auf Fortschritt oder Misserfolg zu interpretieren und zu entscheiden, was als Nächstes zu tun ist. Wir formalisieren diese Anforderung als multimodales prozedurales Wissen und adressieren drei praktische Herausforderungen: (I) was ein multimodales Fähigkeitspaket enthalten sollte; (II) wo solche Pakete aus öffentlichen Interaktionserfahrungen abgeleitet werden können; und (III) wie Agenten zur Inferenzzeit multimodale Evidenz konsultieren können, ohne übermäßigen Bildkontext oder eine übermäßige Verankerung an Referenzbildschirmfotos. Wir stellen MMSkills vor, ein Framework zur Repräsentation, Generierung und Nutzung wiederverwendbarer multimodal-prozeduraler Verfahren für die visuelle Entscheidungsfindung zur Laufzeit. Jedes MMSkill ist ein kompaktes, zustandsabhängiges Paket, das eine textuelle Prozedur mit Laufzeit-Statuskarten und Multi-Ansichts-Schlüsselbildern koppelt. Zur Konstruktion dieser Pakete entwickeln wir einen agentischen Trajektorien-zu-Fähigkeiten-Generator, der öffentliche Nicht-Evaluierungstrajektorien durch Arbeitsablaufgruppierung, Prozedureninduktion, visuelle Verankerung und Meta-Fähigkeiten-gesteuerte Prüfung in wiederverwendbare multimodale Fähigkeiten umwandelt. Zur Nutzung führen wir einen Branch-geladenen multimodalen Fähigkeitsagenten ein: Ausgewählte Statuskarten und Schlüsselbilder werden in einem temporären Zweig überprüft, mit der Live-Umgebung abgeglichen und in strukturierte Anleitungen für den Hauptagenten destilliert. Experimente mit GUI- und spielbasierten visuellen Agenten-Benchmarks zeigen, dass MMSkills sowohl führende als auch kleinere multimodale Agenten konsequent verbessern, was darauf hindeutet, dass externes multimodales prozedurales Wissen modellinterne Vorwissen ergänzt.

English

Reusable skills have become a core substrate for improving agent capabilities, yet most existing skill packages encode reusable behavior primarily as textual prompts, executable code, or learned routines. For visual agents, however, procedural knowledge is inherently multimodal: reuse depends not only on what operation to perform, but also on recognizing the relevant state, interpreting visual evidence of progress or failure, and deciding what to do next. We formalize this requirement as multimodal procedural knowledge and address three practical challenges: (I) what a multimodal skill package should contain; (II) where such packages can be derived from public interaction experience; and (III) how agents can consult multimodal evidence at inference time without excessive image context or over-anchoring to reference screenshots. We introduce MMSkills, a framework for representing, generating, and using reusable multimodal procedures for runtime visual decision making. Each MMSkill is a compact, state-conditioned package that couples a textual procedure with runtime state cards and multi-view keyframes. To construct these packages, we develop an agentic trajectory-to-skill Generator that transforms public non-evaluation trajectories into reusable multimodal skills through workflow grouping, procedure induction, visual grounding, and meta-skill-guided auditing. To use them, we introduce a branch-loaded multimodal skill agent: selected state cards and keyframes are inspected in a temporary branch, aligned with the live environment, and distilled into structured guidance for the main agent. Experiments across GUI and game-based visual-agent benchmarks show that MMSkills consistently improve both frontier and smaller multimodal agents, suggesting that external multimodal procedural knowledge complements model-internal priors.