FluidWorld: Dinamiche di Reazione-Diffusione come Substrato Predittivo per Modelli del Mondo

Abstract

I modelli world apprendono a prevedere gli stati futuri di un ambiente, abilitando la pianificazione e la simulazione mentale. Gli approcci attuali adottano per default predittori basati su Transformer che operano in spazi latenti appresi. Ciò comporta un costo: computazione O(N^2) e assenza di un bias induttivo spaziale esplicito. Questo articolo solleva una questione fondamentale: l'auto-attenzione è necessaria per la modellazione world predittiva, oppure substrati computazionali alternativi possono ottenere risultati comparabili o superiori? Introduco FluidWorld, un modello world proof-of-concept le cui dinamiche predittive sono governate da equazioni alle derivate parziali (PDE) di tipo reazione-diffusione. Invece di utilizzare un predittore a rete neurale separato, è l'integrazione delle PDE stesse a produrre la previsione dello stato futuro. In un'ablazione a tre vie rigorosamente equiparata per parametri sulla previsione video incondizionata UCF-101 (64x64, ~800K parametri, encoder, decoder, loss e dati identici), FluidWorld viene confrontato sia con una baseline Transformer (auto-attenzione) che con una baseline ConvLSTM (ricorrenza convoluzionale). Sebbene tutti e tre i modelli convergano verso una loss predittiva a singolo passo comparabile, FluidWorld raggiunge un errore di ricostruzione 2 volte inferiore, produce rappresentazioni con una preservazione della struttura spaziale del 10-15% superiore e una dimensionalità effettiva del 18-25% maggiore, e, aspetto cruciale, mantiene rollout multi-passo coerenti laddove entrambe le baseline si degradano rapidamente. Tutti gli esperimenti sono stati condotti su un singolo PC consumer (Intel Core i5, NVIDIA RTX 4070 Ti), senza alcun calcolo su larga scala. Questi risultati stabiliscono che le dinamiche basate su PDE, che forniscono nativamente complessità spaziale O(N), computazione adattiva e coerenza spaziale globale attraverso la diffusione, sono un'alternativa valida ed efficiente in parametri sia all'attenzione che alla ricorrenza convoluzionale per la modellazione world.

English

World models learn to predict future states of an environment, enabling planning and mental simulation. Current approaches default to Transformer-based predictors operating in learned latent spaces. This comes at a cost: O(N^2) computation and no explicit spatial inductive bias. This paper asks a foundational question: is self-attention necessary for predictive world modeling, or can alternative computational substrates achieve comparable or superior results? I introduce FluidWorld, a proof-of-concept world model whose predictive dynamics are governed by partial differential equations (PDEs) of reaction-diffusion type. Instead of using a separate neural network predictor, the PDE integration itself produces the future state prediction. In a strictly parameter-matched three-way ablation on unconditional UCF-101 video prediction (64x64, ~800K parameters, identical encoder, decoder, losses, and data), FluidWorld is compared against both a Transformer baseline (self-attention) and a ConvLSTM baseline (convolutional recurrence). While all three models converge to comparable single-step prediction loss, FluidWorld achieves 2x lower reconstruction error, produces representations with 10-15% higher spatial structure preservation and 18-25% more effective dimensionality, and critically maintains coherent multi-step rollouts where both baselines degrade rapidly. All experiments were conducted on a single consumer-grade PC (Intel Core i5, NVIDIA RTX 4070 Ti), without any large-scale compute. These results establish that PDE-based dynamics, which natively provide O(N) spatial complexity, adaptive computation, and global spatial coherence through diffusion, are a viable and parameter-efficient alternative to both attention and convolutional recurrence for world modeling.

FluidWorld: Dinamiche di Reazione-Diffusione come Substrato Predittivo per Modelli del Mondo

FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

Abstract

Support