MMG2Skill: Kunnen agenten gidsen uit de praktijk distilleren tot zelf-evoluerende vaardigheden?

Samenvatting

Overvloedige procedurele kennis op het web biedt een groot potentieel voor het helpen van agenten bij het oplossen van langetermijntaken. Dergelijke kennis is echter vaak multimodaal, heterogeen, ruizig en veronderstelt impliciet menselijke uitvoerders, waardoor het moeilijk rechtstreeks te gebruiken is als de vaardigheden die agenten nodig hebben. Om de kloof te overbruggen tussen mensgerichte handleidingen en door agenten uitvoerbare vaardigheden, formaliseren we dit probleem als gids-naar-vaardigheid-leren: het omzetten van wildvreemde handleidingen in uitvoerbare vaardigheden en deze continu verbeteren op basis van waarneembare trajecten voor de agent. Om het vermogen van bestaande agenten voor deze taak te evalueren, introduceren we MMG2Skill-Bench, de eerste benchmark ontworpen voor dit probleem. Verder stellen we MMG2Skill voor, een gesloten-lus raamwerk dat handleidingen compileert tot bewerkbare vaardigheden, een vast visie-taalmodel (VTM) agent conditioneert op deze vaardigheden tijdens de uitvoering, en de vaardigheden herziet op basis van traject-niveau oorzaak-gevolg feedback zonder gebruik te maken van benchmarkscores. Over GUI-besturing, open einde gameplay en strategisch kaartspel met zes VTM-backbones heen, presteert MMG2Skill consequent beter dan gewone basisagenten in elke model-domein instelling, met macro-gemiddelde winsten van +12,8 tot +25,3 procentpunten over backbones. Ablatiestudies tonen aan dat het rechtstreeks aansturen van agenten met ruwe handleidingen de prestaties kan verslechteren, terwijl zowel gestructureerde vaardigheidsconstructie als traject-gedreven herziening noodzakelijk zijn voor de waargenomen verbeteringen. Bij succes-inferabele taken voorkomt analysator-gebaseerd vroegtijdig stoppen bovendien late prestatiedalingen en bespaart het 25% tot 53% van de pogingen wanneer het successignaal goed gekalibreerd is.

English

Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. However, such knowledge is often multimodal, heterogeneous, noisy, and implicitly assumes human executors, making it difficult to use directly as the skills required by agents. To bridge the gap between human-oriented guides and agent-executable skills, we formalize this problem as guide-to-skill learning: converting in-the-wild guides into executable skills and continuously improving them from trajectories observable to the agent. To evaluate the capability of existing agents on this task, we introduce MMG2Skill-Bench, the first benchmark designed for this problem. We further propose MMG2Skill, a closed-loop framework that compiles guides into editable skills, conditions a fixed vision-language model (VLM) agent on these skills during execution, and revises the skills from trajectory-level root-cause feedback without using benchmark scores. Across GUI control, open-ended gameplay, and strategic card play with six VLM backbones, MMG2Skill consistently outperforms vanilla baseline agents in every model-domain setting, achieving macro-average gains of +12.8 to +25.3 percentage points across backbones. Ablation studies show that directly prompting agents with raw guides can degrade performance, while both structured skill construction and trajectory-driven revision are necessary for the observed improvements. On success-inferable tasks, analyzer-based early stopping further prevents late-stage performance regressions and saves 25%-53% of attempts when the success signal is properly calibrated.