FluidWorld: Dinâmica de Reação-Difusão como Substrato Preditivo para Modelos de Mundo

Resumo

Os modelos de mundo aprendem a prever estados futuros de um ambiente, permitindo planeamento e simulação mental. As abordagens atuais recorrem por padrão a preditores baseados em Transformers que operam em espaços latentes aprendidos. Isto tem um custo: computação O(N²) e nenhum viés indutivo espacial explícito. Este artigo coloca uma questão fundamental: a auto-atenção é necessária para a modelação preditiva de mundo, ou podem substratos computacionais alternativos alcançar resultados comparáveis ou superiores? Apresento o FluidWorld, um modelo de mundo de prova de conceito cuja dinâmica preditiva é governada por equações diferenciais parciais (EDPs) do tipo reação-difusão. Em vez de usar um preditor de rede neural separado, a própria integração da EDP produz a previsão do estado futuro. Numa ablação tripla com parâmetros estritamente equivalentes para previsão incondicional de vídeo UCF-101 (64x64, ~800K parâmetros, codificador, descodificador, funções de perda e dados idênticos), o FluidWorld é comparado com uma linha de base Transformer (auto-atenção) e uma linha de base ConvLSTM (recorrência convolucional). Embora os três modelos convirjam para uma função de perda de previsão de um passo comparável, o FluidWorld alcança um erro de reconstrução 2x menor, produz representações com preservação da estrutura espacial 10-15% superior e dimensionalidade efetiva 18-25% maior e, criticamente, mantém rollouts multi-passo coerentes, enquanto ambas as linhas de base se degradam rapidamente. Todas as experiências foram conduzidas num único computador pessoal de consumo (Intel Core i5, NVIDIA RTX 4070 Ti), sem qualquer computação em larga escala. Estes resultados estabelecem que as dinâmicas baseadas em EDPs, que fornecem nativamente complexidade espacial O(N), computação adaptativa e coerência espacial global através da difusão, são uma alternativa viável e parametricamente eficiente tanto à atenção quanto à recorrência convolucional para a modelação de mundo.

English

World models learn to predict future states of an environment, enabling planning and mental simulation. Current approaches default to Transformer-based predictors operating in learned latent spaces. This comes at a cost: O(N^2) computation and no explicit spatial inductive bias. This paper asks a foundational question: is self-attention necessary for predictive world modeling, or can alternative computational substrates achieve comparable or superior results? I introduce FluidWorld, a proof-of-concept world model whose predictive dynamics are governed by partial differential equations (PDEs) of reaction-diffusion type. Instead of using a separate neural network predictor, the PDE integration itself produces the future state prediction. In a strictly parameter-matched three-way ablation on unconditional UCF-101 video prediction (64x64, ~800K parameters, identical encoder, decoder, losses, and data), FluidWorld is compared against both a Transformer baseline (self-attention) and a ConvLSTM baseline (convolutional recurrence). While all three models converge to comparable single-step prediction loss, FluidWorld achieves 2x lower reconstruction error, produces representations with 10-15% higher spatial structure preservation and 18-25% more effective dimensionality, and critically maintains coherent multi-step rollouts where both baselines degrade rapidly. All experiments were conducted on a single consumer-grade PC (Intel Core i5, NVIDIA RTX 4070 Ti), without any large-scale compute. These results establish that PDE-based dynamics, which natively provide O(N) spatial complexity, adaptive computation, and global spatial coherence through diffusion, are a viable and parameter-efficient alternative to both attention and convolutional recurrence for world modeling.

FluidWorld: Dinâmica de Reação-Difusão como Substrato Preditivo para Modelos de Mundo

FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

Resumo

Support