FluidWorld: Динамика реакций-диффузии как прогностический субстрат для моделей мира

Аннотация

Модели мира обучаются предсказывать будущие состояния среды, что позволяет осуществлять планирование и мысленное моделирование. Современные подходы по умолчанию используют предикторы на основе трансформеров, работающие в обученных латентных пространствах. Это имеет свою цену: вычислительная сложность O(N^2) и отсутствие явного пространственного индуктивного смещения. В данной статье ставится фундаментальный вопрос: необходимо ли самовнимание для предиктивного моделирования мира, или альтернативные вычислительные субстраты могут достичь сопоставимых или превосходящих результатов? Я представляю FluidWorld, концептуальную модель мира, чья предиктивная динамика управляется уравнениями в частных производных (УЧП) типа реакция-диффузия. Вместо использования отдельного нейросетевого предиктора, само интегрирование УЧП порождает прогноз будущего состояния. В строгом трехстороннем сравнительном анализе с равным количеством параметров для безусловного предсказания видео UCF-101 (64x64, ~800K параметров, идентичные энкодер, декодер, функции потерь и данные), FluidWorld сравнивается с базовым трансформером (самовнимание) и базовой моделью ConvLSTM (сверточная рекуррентность). В то время как все три модели сходятся к сопоставимой ошибке одношагового предсказания, FluidWorld демонстрирует в 2 раза меньшую ошибку реконструкции, порождает представления с сохранением пространственной структуры на 10-15% выше и эффективной размерностью на 18-25% больше, а что критически важно — поддерживает согласованные многошаговые прогнозы, в то время как обе базовые модели быстро деградируют. Все эксперименты были проведены на одном потребительском ПК (Intel Core i5, NVIDIA RTX 4070 Ti) без использования крупномасштабных вычислений. Эти результаты доказывают, что динамика на основе УЧП, которая изначально обеспечивает пространственную сложность O(N), адаптивные вычисления и глобальную пространственную согласованность благодаря диффузии, является жизнеспособной и параметрически эффективной альтернативой как механизму внимания, так и сверточной рекуррентности для моделирования мира.

English

World models learn to predict future states of an environment, enabling planning and mental simulation. Current approaches default to Transformer-based predictors operating in learned latent spaces. This comes at a cost: O(N^2) computation and no explicit spatial inductive bias. This paper asks a foundational question: is self-attention necessary for predictive world modeling, or can alternative computational substrates achieve comparable or superior results? I introduce FluidWorld, a proof-of-concept world model whose predictive dynamics are governed by partial differential equations (PDEs) of reaction-diffusion type. Instead of using a separate neural network predictor, the PDE integration itself produces the future state prediction. In a strictly parameter-matched three-way ablation on unconditional UCF-101 video prediction (64x64, ~800K parameters, identical encoder, decoder, losses, and data), FluidWorld is compared against both a Transformer baseline (self-attention) and a ConvLSTM baseline (convolutional recurrence). While all three models converge to comparable single-step prediction loss, FluidWorld achieves 2x lower reconstruction error, produces representations with 10-15% higher spatial structure preservation and 18-25% more effective dimensionality, and critically maintains coherent multi-step rollouts where both baselines degrade rapidly. All experiments were conducted on a single consumer-grade PC (Intel Core i5, NVIDIA RTX 4070 Ti), without any large-scale compute. These results establish that PDE-based dynamics, which natively provide O(N) spatial complexity, adaptive computation, and global spatial coherence through diffusion, are a viable and parameter-efficient alternative to both attention and convolutional recurrence for world modeling.

FluidWorld: Динамика реакций-диффузии как прогностический субстрат для моделей мира

FluidWorld: Reaction-Diffusion Dynamics as a Predictive Substrate for World Models

Аннотация

Support