FluidWorld: Dinámicas de Reacción-Difusión como Sustrato Predictivo para Modelos del Mundo
FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models
March 22, 2026
Autores: Fabien Polly
cs.AI
Resumen
Los modelos de mundo aprenden a predecir estados futuros de un entorno, permitiendo la planificación y la simulación mental. Los enfoques actuales recurren por defecto a predictores basados en Transformadores que operan en espacios latentes aprendidos. Esto tiene un costo: computación O(N²) y la ausencia de un sesgo inductivo espacial explícito. Este artículo plantea una pregunta fundamental: ¿es la autoatención necesaria para el modelado predictivo de mundo, o pueden otros sustratos computacionales lograr resultados comparables o superiores? Presento FluidWorld, un modelo de mundo de prueba de concepto cuyas dinámicas predictivas se rigen por ecuaciones diferenciales parciales (EDP) de tipo reacción-difusión. En lugar de utilizar un predictor de red neuronal separado, la integración de la EDP en sí produce la predicción del estado futuro. En una ablación triple estrictamente equiparada en parámetros para la predicción incondicional de video UCF-101 (64x64, ~800K parámetros, codificador, decodificador, pérdidas y datos idénticos), FluidWorld se compara con una línea de base de Transformer (autoatención) y una línea de base de ConvLSTM (recurrencia convolucional). Si bien los tres modelos convergen a una pérdida de predicción de un paso comparable, FluidWorld logra un error de reconstrucción 2 veces menor, produce representaciones con una preservación de la estructura espacial entre un 10 y un 15% mayor y una dimensionalidad efectiva entre un 18 y un 25% superior, y, críticamente, mantiene desenrollos multi-paso coherentes donde ambas líneas de base se degradan rápidamente. Todos los experimentos se realizaron en un único PC de consumo (Intel Core i5, NVIDIA RTX 4070 Ti), sin ningún tipo de computación a gran escala. Estos resultados establecen que las dinámicas basadas en EDP, que proporcionan de forma nativa una complejidad espacial O(N), computación adaptativa y coherencia espacial global mediante difusión, son una alternativa viable y eficiente en parámetros tanto a la atención como a la recurrencia convolucional para el modelado de mundo.
English
World models learn to predict future states of an environment, enabling planning and mental simulation. Current approaches default to Transformer-based predictors operating in learned latent spaces. This comes at a cost: O(N^2) computation and no explicit spatial inductive bias. This paper asks a foundational question: is self-attention necessary for predictive world modeling, or can alternative computational substrates achieve comparable or superior results? I introduce FluidWorld, a proof-of-concept world model whose predictive dynamics are governed by partial differential equations (PDEs) of reaction-diffusion type. Instead of using a separate neural network predictor, the PDE integration itself produces the future state prediction. In a strictly parameter-matched three-way ablation on unconditional UCF-101 video prediction (64x64, ~800K parameters, identical encoder, decoder, losses, and data), FluidWorld is compared against both a Transformer baseline (self-attention) and a ConvLSTM baseline (convolutional recurrence). While all three models converge to comparable single-step prediction loss, FluidWorld achieves 2x lower reconstruction error, produces representations with 10-15% higher spatial structure preservation and 18-25% more effective dimensionality, and critically maintains coherent multi-step rollouts where both baselines degrade rapidly. All experiments were conducted on a single consumer-grade PC (Intel Core i5, NVIDIA RTX 4070 Ti), without any large-scale compute. These results establish that PDE-based dynamics, which natively provide O(N) spatial complexity, adaptive computation, and global spatial coherence through diffusion, are a viable and parameter-efficient alternative to both attention and convolutional recurrence for world modeling.