FluidWorld : la dynamique de réaction-diffusion comme substrat prédictif pour les modèles du monde

Résumé

Les modèles du monde apprennent à prédire les états futurs d'un environnement, permettant la planification et la simulation mentale. Les approches actuelles utilisent par défaut des prédicteurs basés sur des Transformers opérant dans des espaces latents appris. Cela a un coût : une complexité computationnelle en O(N²) et l'absence de biais inductif spatial explicite. Cet article pose une question fondamentale : l'auto-attention est-elle nécessaire pour la modélisation prédictive du monde, ou d'autres substrats computationnels peuvent-ils obtenir des résultats comparables ou supérieurs ? Je présente FluidWorld, un modèle du monde de preuve de concept dont la dynamique prédictive est régie par des équations aux dérivées partielles (EDP) de type réaction-diffusion. Au lieu d'utiliser un prédicteur par réseau de neurones séparé, l'intégration des EDP produit elle-même la prédiction de l'état futur. Dans une ablation stricte à trois voies avec paramètres appariés, sur la prédiction vidéo inconditionnelle UCF-101 (64x64, ~800K paramètres, encodeur, décodeur, fonctions de perte et données identiques), FluidWorld est comparé à une baseline Transformer (auto-attention) et à une baseline ConvLSTM (récurrence convolutionnelle). Bien que les trois modèles convergent vers une perte de prédiction à un pas comparable, FluidWorld atteint une erreur de reconstruction 2 fois plus faible, produit des représentations avec une préservation de la structure spatiale 10 à 15 % supérieure et une dimensionalité effective 18 à 25 % plus élevée, et surtout, maintient des déploiements multi-étapes cohérents là où les deux baselines se dégradent rapidement. Toutes les expériences ont été menées sur un seul PC de gamme grand public (Intel Core i5, NVIDIA RTX 4070 Ti), sans aucune utilisation de calcul à grande échelle. Ces résultats établissent que les dynamiques basées sur les EDP, qui offrent nativement une complexité spatiale O(N), un calcul adaptatif et une cohérence spatiale globale via la diffusion, constituent une alternative viable et efficace en paramètres à la fois à l'attention et à la récurrence convolutionnelle pour la modélisation du monde.

English

World models learn to predict future states of an environment, enabling planning and mental simulation. Current approaches default to Transformer-based predictors operating in learned latent spaces. This comes at a cost: O(N^2) computation and no explicit spatial inductive bias. This paper asks a foundational question: is self-attention necessary for predictive world modeling, or can alternative computational substrates achieve comparable or superior results? I introduce FluidWorld, a proof-of-concept world model whose predictive dynamics are governed by partial differential equations (PDEs) of reaction-diffusion type. Instead of using a separate neural network predictor, the PDE integration itself produces the future state prediction. In a strictly parameter-matched three-way ablation on unconditional UCF-101 video prediction (64x64, ~800K parameters, identical encoder, decoder, losses, and data), FluidWorld is compared against both a Transformer baseline (self-attention) and a ConvLSTM baseline (convolutional recurrence). While all three models converge to comparable single-step prediction loss, FluidWorld achieves 2x lower reconstruction error, produces representations with 10-15% higher spatial structure preservation and 18-25% more effective dimensionality, and critically maintains coherent multi-step rollouts where both baselines degrade rapidly. All experiments were conducted on a single consumer-grade PC (Intel Core i5, NVIDIA RTX 4070 Ti), without any large-scale compute. These results establish that PDE-based dynamics, which natively provide O(N) spatial complexity, adaptive computation, and global spatial coherence through diffusion, are a viable and parameter-efficient alternative to both attention and convolutional recurrence for world modeling.

FluidWorld : la dynamique de réaction-diffusion comme substrat prédictif pour les modèles du monde

FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

Résumé

Support