ChatPaper.aiChatPaper

Steve-Evolving : Auto-évolution incarnée en monde ouvert via un diagnostic granulaire et une distillation de connaissances à double voie

Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

March 13, 2026
Auteurs: Zhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang
cs.AI

Résumé

Les agents incarnés en monde ouvert doivent résoudre des tâches à long horizon où le principal goulot d'étranglement n'est pas la qualité de la planification étape par étape, mais l'organisation et l'évolution de l'expérience interactionnelle. Pour cela, nous présentons Steve-Evolving, un cadre auto-évolutif non paramétrique qui couple étroitement le diagnostic d'exécution granulaire avec une distillation de connaissances à double voie dans une boucle fermée. La méthode suit trois phases : l'Ancrage Expérientiel, la Distillation Expérientielle et le Contrôle en Boucle Fermée Piloté par la Connaissance. En détail, l'Ancrage Expérientiel solidifie chaque tentative de sous-objectif en un tuple d'expérience structuré avec un schéma fixe (état initial, action, résultat-diagnostic et état final) et l'organise dans un espace expérientiel à trois niveaux avec des index multidimensionnels (par exemple, signatures de condition, hachage spatial et balises sémantiques) plus une synthèse glissante pour un rappel efficace et vérifiable. Pour garantir une densité d'information suffisante pour l'attribution, la couche d'exécution fournit des signaux de diagnostic compositionnels au-delà des résultats binaires, incluant des résumés des différences d'état, des causes d'échec énumérées, des indicateurs continus et une détection de stagnation/boucle. De plus, les trajectoires réussies de la Distillation Expérientielle sont généralisées en compétences réutilisables avec des préconditions explicites et des critères de vérification, tandis que les échecs sont distillés en garde-fous exécutables qui capturent les causes racines et interdisent les opérations risquées aux granularités de sous-objectif et de tâche. Par ailleurs, dans le Contrôle en Boucle Fermée Piloté par la Connaissance, les compétences et garde-fous récupérés sont injectés dans un planificateur LLM, et une replanification locale déclenchée par le diagnostic met à jour les contraintes actives en ligne, formant un processus d'évolution continue sans aucune mise à jour des paramètres du modèle. Les expériences sur la suite de tâches à long horizon Minecraft MCU démontrent des améliorations constantes par rapport aux lignes de base à récupération statique.
English
Open-world embodied agents must solve long-horizon tasks where the main bottleneck is not single-step planning quality but how interaction experience is organized and evolved. To this end, we present Steve-Evolving, a non-parametric self-evolving framework that tightly couples fine-grained execution diagnosis with dual-track knowledge distillation in a closed loop. The method follows three phases: Experience Anchoring, Experience Distillation, and Knowledge-Driven Closed-Loop Control. In detail, Experience Anchoring solidifies each subgoal attempt into a structured experience tuple with a fixed schema (pre-state, action, diagnosis-result, and post-state) and organizes it in a three-tier experience space with multi-dimensional indices (e.g., condition signatures, spatial hashing, and semantic tags) plus rolling summarization for efficient and auditable recall. To ensure sufficient information density for attribution, the execution layer provides compositional diagnosis signals beyond binary outcomes, including state-difference summaries, enumerated failure causes, continuous indicators, and stagnation/loop detection. Moreover, successful trajectories of Experience Distillation are generalized into reusable skills with explicit preconditions and verification criteria, while failures are distilled into executable guardrails that capture root causes and forbid risky operations at both subgoal and task granularities. Besides, Knowledge-Driven Closed-Loop Control retrieved skills and guardrails are injected into an LLM planner, and diagnosis-triggered local replanning updates the active constraints online, forming a continual evolution process without any model parameter updates. Experiments on the long-horizon suite of Minecraft MCU demonstrate consistent improvements over static-retrieval baselines.
PDF62March 30, 2026