Steve-Evolving: Auto-evolução Corporificada em Mundo Aberto via Diagnóstico de Granulação Fina e Destilação Dual de Conhecimento
Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation
March 13, 2026
Autores: Zhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang
cs.AI
Resumo
Os agentes incorporados em mundos abertos devem resolver tarefas de longo horizonte, onde o principal gargalo não é a qualidade do planeamento passo a passo, mas sim a forma como a experiência de interação é organizada e evolui. Para tal, apresentamos o Steve-Evolving, uma estrutura não paramétrica de auto-evolução que acopla estreitamente o diagnóstico de execução granular com a destilação dual de conhecimento num ciclo fechado. O método segue três fases: Ancoragem da Experiência, Destilação da Experiência e Controlo de Ciclo Fechado Orientado por Conhecimento. Em detalhe, a Ancoragem da Experiência solidifica cada tentativa de subobjetivo num tuplo de experiência estruturado com um esquema fixo (pré-estado, ação, diagnóstico-resultado e pós-estado) e organiza-o num espaço de experiência de três níveis com índices multidimensionais (por exemplo, assinaturas de condição, hashing espacial e etiquetas semânticas) mais sumarização contínua para uma recuperação eficiente e auditável. Para garantir densidade de informação suficiente para atribuição, a camada de execução fornece sinais de diagnóstico composicionais para além de resultados binários, incluindo resumos de diferenças de estado, causas de falha enumeradas, indicadores contínuos e deteção de estagnação/ciclo. Além disso, trajetórias bem-sucedidas da Destilação da Experiência são generalizadas em competências reutilizáveis com pré-condições explícitas e critérios de verificação, enquanto os fracassos são destilados em guardrails executáveis que capturam causas-raiz e proíbem operações de risco tanto a nível de subobjetivo como de tarefa. Adicionalmente, no Controlo de Ciclo Fechado Orientado por Conhecimento, as competências e guardrails recuperados são injetados num planeador baseado em LLM, e o replaneamento local acionado por diagnóstico atualiza as restrições ativas online, formando um processo de evolução contínua sem qualquer atualização de parâmetros do modelo. Experiências na suíte de longo horizonte do Minecraft MCU demonstram melhorias consistentes face a linhas de base de recuperação estática.
English
Open-world embodied agents must solve long-horizon tasks where the main bottleneck is not single-step planning quality but how interaction experience is organized and evolved. To this end, we present Steve-Evolving, a non-parametric self-evolving framework that tightly couples fine-grained execution diagnosis with dual-track knowledge distillation in a closed loop. The method follows three phases: Experience Anchoring, Experience Distillation, and Knowledge-Driven Closed-Loop Control. In detail, Experience Anchoring solidifies each subgoal attempt into a structured experience tuple with a fixed schema (pre-state, action, diagnosis-result, and post-state) and organizes it in a three-tier experience space with multi-dimensional indices (e.g., condition signatures, spatial hashing, and semantic tags) plus rolling summarization for efficient and auditable recall. To ensure sufficient information density for attribution, the execution layer provides compositional diagnosis signals beyond binary outcomes, including state-difference summaries, enumerated failure causes, continuous indicators, and stagnation/loop detection. Moreover, successful trajectories of Experience Distillation are generalized into reusable skills with explicit preconditions and verification criteria, while failures are distilled into executable guardrails that capture root causes and forbid risky operations at both subgoal and task granularities. Besides, Knowledge-Driven Closed-Loop Control retrieved skills and guardrails are injected into an LLM planner, and diagnosis-triggered local replanning updates the active constraints online, forming a continual evolution process without any model parameter updates. Experiments on the long-horizon suite of Minecraft MCU demonstrate consistent improvements over static-retrieval baselines.