Alinhamento de Modelos de Mundo Agênticos por meio de Aprendizado por Experiência Conhecida

Resumo

Os atuais Modelos de Linguagem de Grande Porte (LLMs) exibem uma desconexão modal crítica: possuem vasto conhecimento semântico, mas carecem de uma fundamentação procedural para respeitar as leis imutáveis do mundo físico. Consequentemente, embora esses agentes funcionem implicitamente como modelos de mundo, suas simulações frequentemente sofrem de alucinações físicas - gerando planos que são logicamente sólidos, mas fisicamente inexequíveis. As estratégias de alinhamento existentes dependem predominantemente de treinamento ou ajuste fino intensivo em recursos, que tentam comprimir regras ambientais dinâmicas em parâmetros de modelo estáticos. No entanto, tal encapsulamento paramétrico é inerentemente rígido, lutando para se adaptar à variabilidade aberta da dinâmica física sem um retreinamento contínuo e custoso. Para preencher essa lacuna, introduzimos o WorldMind, uma estrutura que constrói autonomamente um Repositório de Conhecimento Mundial simbólico sintetizando feedback ambiental. Especificamente, ele unifica a **Experiência de Processo** para impor viabilidade física via erros de previsão e a **Experiência de Objetivo** para guiar a otimalidade da tarefa por meio de trajetórias bem-sucedidas. Experimentos no EB-ALFRED e no EB-Habitat demonstram que o WorldMind alcança desempenho superior em comparação com as linhas de base, com notável transferibilidade entre modelos e ambientes.

English

Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.

Alinhamento de Modelos de Mundo Agênticos por meio de Aprendizado por Experiência Conhecida

Aligning Agentic World Models via Knowledgeable Experience Learning

Resumo

Support