Do Mundo das Palavras ao Mundo Real: Os Grandes Modelos de Linguagem Podem Ser Modelos de Mundo Implícitos Baseados em Texto?

Resumo

O aprendizado por reforço agentístico depende cada vez mais de escalonamento orientado por experiência, mas os ambientes do mundo real permanecem não adaptativos, limitados em cobertura e difíceis de escalar. Os modelos de mundo oferecem uma forma potencial de melhorar a eficiência de aprendizado por meio de experiência simulada, mas ainda não está claro se os modelos de linguagem de grande escala podem desempenhar esse papel de forma confiável e sob quais condições eles beneficiam significativamente os agentes. Estudamos essas questões em ambientes baseados em texto, que fornecem um ambiente controlado para reinterpretar a modelagem de linguagem como previsão de próximo estado sob interação. Introduzimos uma estrutura de três níveis para avaliar modelos de mundo baseados em LLM: (i) fidelidade e consistência, (ii) escalabilidade e robustez, e (iii) utilidade para o agente. Em cinco ambientes representativos, descobrimos que modelos de mundo suficientemente treinados mantêm estado latente coerente, escalam de forma previsível com dados e tamanho do modelo, e melhoram o desempenho do agente por meio de verificação de ação, geração de trajetória sintética e inicialização antecipada do aprendizado por reforço. Entretanto, esses ganhos dependem criticamente da cobertura comportamental e da complexidade do ambiente, delimitando um limite claro sobre quando a modelagem de mundo apoia efetivamente o aprendizado do agente.

English

Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.

Do Mundo das Palavras ao Mundo Real: Os Grandes Modelos de Linguagem Podem Ser Modelos de Mundo Implícitos Baseados em Texto?

From Word to World: Can Large Language Models be Implicit Text-based World Models?

Resumo

Support