¿Aprenden los modelos de video generativos principios físicos al ver videos?
Do generative video models learn physical principles from watching videos?
January 14, 2025
Autores: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI
Resumen
La generación de video mediante IA está experimentando una revolución, con la calidad y realismo avanzando rápidamente. Estos avances han dado lugar a un apasionado debate científico: ¿Aprenden los modelos de video "modelos del mundo" que descubren leyes de la física, o, por el contrario, son simplemente sofisticados predictores de píxeles que logran realismo visual sin comprender los principios físicos de la realidad? Abordamos esta cuestión desarrollando Physics-IQ, un conjunto de datos de referencia exhaustivo que solo puede resolverse adquiriendo un profundo entendimiento de varios principios físicos, como la dinámica de fluidos, óptica, mecánica de sólidos, magnetismo y termodinámica. Descubrimos que, en una variedad de modelos actuales (Sora, Runway, Pika, Lumiere, Stable Video Diffusion y VideoPoet), la comprensión física es severamente limitada y no está relacionada con el realismo visual. Al mismo tiempo, algunos casos de prueba ya pueden resolverse con éxito. Esto indica que adquirir ciertos principios físicos solo a través de la observación puede ser posible, pero persisten desafíos significativos. Aunque esperamos avances rápidos en el futuro, nuestro trabajo demuestra que el realismo visual no implica comprensión física. Nuestra página del proyecto se encuentra en https://physics-iq.github.io; el código en https://github.com/google-deepmind/physics-IQ-benchmark.
English
AI video generation is undergoing a revolution, with quality and realism
advancing rapidly. These advances have led to a passionate scientific debate:
Do video models learn ``world models'' that discover laws of physics -- or,
alternatively, are they merely sophisticated pixel predictors that achieve
visual realism without understanding the physical principles of reality? We
address this question by developing Physics-IQ, a comprehensive benchmark
dataset that can only be solved by acquiring a deep understanding of various
physical principles, like fluid dynamics, optics, solid mechanics, magnetism
and thermodynamics. We find that across a range of current models (Sora,
Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical
understanding is severely limited, and unrelated to visual realism. At the same
time, some test cases can already be successfully solved. This indicates that
acquiring certain physical principles from observation alone may be possible,
but significant challenges remain. While we expect rapid advances ahead, our
work demonstrates that visual realism does not imply physical understanding.
Our project page is at https://physics-iq.github.io; code at
https://github.com/google-deepmind/physics-IQ-benchmark.Summary
AI-Generated Summary