FluidWorld: Reaktions-Diffusions-Dynamik als prädiktives Substrat für Weltmodelle
FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models
March 22, 2026
Autoren: Fabien Polly
cs.AI
Zusammenfassung
Weltmodelle lernen, zukünftige Zustände einer Umgebung vorherzusagen, was Planung und mentale Simulation ermöglicht. Aktuelle Ansätze setzen standardmäßig auf Transformer-basierte Prädiktoren, die in gelernten latenten Räumen operieren. Dies hat seinen Preis: O(N²)-Berechnung und keine explizite räumliche Induktionsverzerrung. Diese Arbeit stellt eine grundlegende Frage: Ist Self-Attention für prädiktive Weltmodellierung notwendig, oder können alternative Berechnungsgrundlagen vergleichbare oder überlegene Ergebnisse erzielen? Ich stelle FluidWorld vor, ein Proof-of-Concept-Weltmodell, dessen prädiktive Dynamik durch partielle Differentialgleichungen (PDEs) vom Reaktions-Diffusions-Typ gesteuert wird. Anstatt einen separaten neuronalen Netzwerk-Prädiktor zu verwenden, erzeugt die PDE-Integration selbst die Vorhersage des zukünftigen Zustands. In einer streng parameterangepassten Drei-Wege-Ablation für unkonditionelle UCF-101-Videovorhersage (64x64, ~800K Parameter, identischer Encoder, Decoder, Loss-Funktionen und Daten) wird FluidWorld sowohl mit einer Transformer-Baseline (Self-Attention) als auch mit einer ConvLSTM-Baseline (faltende Rekurrenz) verglichen. Während alle drei Modelle einen vergleichbaren Einzelschritt-Vorhersageverlust erreichen, erzielt FluidWorld einen 2x niedrigeren Rekonstruktionsfehler, produziert Repräsentationen mit 10-15 % höherer Erhaltung der räumlichen Struktur und 18-25 % effektiverer Dimensionalität und erhält entscheidenderweise kohärente Mehrschritt-Rollouts, bei denen beide Baselines rapide abfallen. Alle Experimente wurden auf einem einzigen Consumer-PC (Intel Core i5, NVIDIA RTX 4070 Ti) ohne jeglichen Large-Scale-Compute durchgeführt. Diese Ergebnisse belegen, dass PDE-basierte Dynamiken, die von Haus aus O(N)-räumliche Komplexität, adaptive Berechnung und globale räumliche Kohärenz durch Diffusion bieten, eine praktikable und parameter-effiziente Alternative sowohl zu Attention als auch zu faltender Rekurrenz für die Weltmodellierung darstellen.
English
World models learn to predict future states of an environment, enabling planning and mental simulation. Current approaches default to Transformer-based predictors operating in learned latent spaces. This comes at a cost: O(N^2) computation and no explicit spatial inductive bias. This paper asks a foundational question: is self-attention necessary for predictive world modeling, or can alternative computational substrates achieve comparable or superior results? I introduce FluidWorld, a proof-of-concept world model whose predictive dynamics are governed by partial differential equations (PDEs) of reaction-diffusion type. Instead of using a separate neural network predictor, the PDE integration itself produces the future state prediction. In a strictly parameter-matched three-way ablation on unconditional UCF-101 video prediction (64x64, ~800K parameters, identical encoder, decoder, losses, and data), FluidWorld is compared against both a Transformer baseline (self-attention) and a ConvLSTM baseline (convolutional recurrence). While all three models converge to comparable single-step prediction loss, FluidWorld achieves 2x lower reconstruction error, produces representations with 10-15% higher spatial structure preservation and 18-25% more effective dimensionality, and critically maintains coherent multi-step rollouts where both baselines degrade rapidly. All experiments were conducted on a single consumer-grade PC (Intel Core i5, NVIDIA RTX 4070 Ti), without any large-scale compute. These results establish that PDE-based dynamics, which natively provide O(N) spatial complexity, adaptive computation, and global spatial coherence through diffusion, are a viable and parameter-efficient alternative to both attention and convolutional recurrence for world modeling.