Alineación de Modelos Mundiales Agénticos mediante Aprendizaje por Experiencia Basado en Conocimiento
Aligning Agentic World Models via Knowledgeable Experience Learning
January 19, 2026
Autores: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLM) actuales exhiben una desconexión modal crítica: poseen un vasto conocimiento semántico pero carecen de una base procedimental para respetar las leyes inmutables del mundo físico. En consecuencia, aunque estos agentes funcionan implícitamente como modelos del mundo, sus simulaciones a menudo sufren de alucinaciones físicas, generando planes que son lógicamente sólidos pero físicamente inejecutables. Las estrategias de alineación existentes se basan predominantemente en entrenamiento o ajuste fino intensivos en recursos, que intentan comprimir reglas ambientales dinámicas en parámetros de modelo estáticos. Sin embargo, dicha encapsulación paramétrica es inherentemente rígida, luchando por adaptarse a la variabilidad abierta de las dinámicas físicas sin un costoso reentrenamiento continuo. Para cerrar esta brecha, presentamos WorldMind, un marco que construye autónomamente un Repositorio de Conocimiento Mundial simbólico mediante la síntesis de retroalimentación ambiental. Específicamente, unifica la Experiencia de Procesos para hacer cumplir la viabilidad física a través de errores de predicción y la Experiencia de Objetivos para guiar la optimalidad de la tarea mediante trayectorias exitosas. Los experimentos en EB-ALFRED y EB-Habitat demuestran que WorldMind logra un rendimiento superior en comparación con los modelos de referencia, con una notable transferibilidad entre modelos y entornos.
English
Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.