Согласование агентных моделей мира посредством обучения на основе информированного опыта
Aligning Agentic World Models via Knowledgeable Experience Learning
January 19, 2026
Авторы: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen
cs.AI
Аннотация
Современные крупные языковые модели (LLM) демонстрируют критический модальный разрыв: они обладают обширными семантическими знаниями, но лишены процедурной заземленности для соблюдения незыблемых законов физического мира. Как следствие, хотя эти агенты неявно функционируют как модели мира, их симуляции часто страдают от физических галлюцинаций — генерации планов, которые логически состоятельны, но физически невыполнимы. Существующие стратегии согласования в основном опираются на ресурсоемкое обучение или дообучение, пытаясь сжать динамические правила среды в статические параметры модели. Однако такая параметрическая инкапсуляция по своей природе ригидна и с трудом адаптируется к открытой вариативности физической динамики без непрерывного дорогостоящего переобучения. Для преодоления этого разрыва мы представляем WorldMind — фреймворк, который автономно строит символический Репозиторий знаний о мире, синтезируя обратную связь от среды. В частности, он унифицирует Процессуальный опыт для обеспечения физической осуществимости через ошибки предсказания и Целевой опыт для руководства оптимальностью задач через успешные траектории. Эксперименты на EB-ALFRED и EB-Habitat демонстрируют, что WorldMind достигает превосходной производительности по сравнению с базовыми методами, обладая при этом замечательной межмодельной и межсредовой переносимостью.
English
Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.