MMG2Skill: Podem os Agentes Destilar Guias do Mundo Real em Habilidades Auto-Evolutivas?

Resumo

O abundante conhecimento processual disponível na Web possui grande potencial para ajudar agentes a resolver tarefas de longo horizonte. No entanto, esse conhecimento frequentemente é multimodal, heterogêneo, ruidoso e pressupõe implicitamente executores humanos, dificultando seu uso direto como as habilidades necessárias para os agentes. Para preencher a lacuna entre guias orientados a humanos e habilidades executáveis por agentes, formalizamos esse problema como aprendizado de guia para habilidade: converter guias da Web em habilidades executáveis e aprimorá-los continuamente a partir de trajetórias observáveis pelo agente. Para avaliar a capacidade dos agentes existentes nessa tarefa, apresentamos o MMG2Skill-Bench, o primeiro benchmark projetado para esse problema. Propomos ainda o MMG2Skill, um framework de ciclo fechado que compila guias em habilidades editáveis, condiciona um agente de modelo de visão-linguagem (VLM) fixo a essas habilidades durante a execução e revisa as habilidades a partir de feedback de causa raiz em nível de trajetória, sem usar pontuações de benchmark. Em controle de GUI, jogabilidade aberta e jogo de cartas estratégico com seis backbones de VLM, o MMG2Skill supera consistentemente os agentes baseline vanilla em todas as configurações de modelo-domínio, alcançando ganhos médios macro de +12,8 a +25,3 pontos percentuais entre os backbones. Estudos de ablação mostram que instruir diretamente os agentes com guias brutos pode degradar o desempenho, enquanto tanto a construção estruturada de habilidades quanto a revisão orientada por trajetórias são necessárias para as melhorias observadas. Em tarefas com sucesso inferível, a parada antecipada baseada em analisador previne ainda regressões de desempenho em estágio tardio e economiza de 25% a 53% das tentativas quando o sinal de sucesso está devidamente calibrado.

English

Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. However, such knowledge is often multimodal, heterogeneous, noisy, and implicitly assumes human executors, making it difficult to use directly as the skills required by agents. To bridge the gap between human-oriented guides and agent-executable skills, we formalize this problem as guide-to-skill learning: converting in-the-wild guides into executable skills and continuously improving them from trajectories observable to the agent. To evaluate the capability of existing agents on this task, we introduce MMG2Skill-Bench, the first benchmark designed for this problem. We further propose MMG2Skill, a closed-loop framework that compiles guides into editable skills, conditions a fixed vision-language model (VLM) agent on these skills during execution, and revises the skills from trajectory-level root-cause feedback without using benchmark scores. Across GUI control, open-ended gameplay, and strategic card play with six VLM backbones, MMG2Skill consistently outperforms vanilla baseline agents in every model-domain setting, achieving macro-average gains of +12.8 to +25.3 percentage points across backbones. Ablation studies show that directly prompting agents with raw guides can degrade performance, while both structured skill construction and trajectory-driven revision are necessary for the observed improvements. On success-inferable tasks, analyzer-based early stopping further prevents late-stage performance regressions and saves 25%-53% of attempts when the success signal is properly calibrated.