Les modèles vidéo génératifs apprennent-ils des principes physiques en regardant des vidéos ?
Do generative video models learn physical principles from watching videos?
January 14, 2025
Auteurs: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos
cs.AI
Résumé
La génération de vidéos par l'IA est en train de vivre une révolution, avec une qualité et un réalisme en constante progression. Ces avancées ont donné lieu à un débat scientifique passionné : les modèles vidéo apprennent-ils des "modèles du monde" qui découvrent les lois de la physique, ou sont-ils simplement des prédicteurs sophistiqués de pixels qui parviennent à un réalisme visuel sans comprendre les principes physiques de la réalité ? Nous abordons cette question en développant Physics-IQ, un ensemble de données de référence complet qui ne peut être résolu qu'en acquérant une compréhension approfondie de divers principes physiques, tels que la dynamique des fluides, l'optique, la mécanique des solides, le magnétisme et la thermodynamique. Nous constatons que, sur une gamme de modèles actuels (Sora, Runway, Pika, Lumiere, Stable Video Diffusion et VideoPoet), la compréhension physique est sévèrement limitée et sans lien avec le réalisme visuel. Dans le même temps, certains cas de test peuvent déjà être résolus avec succès. Cela indique que l'acquisition de certains principes physiques uniquement par l'observation pourrait être possible, mais d'importants défis subsistent. Bien que nous nous attendions à des avancées rapides à l'avenir, notre travail démontre que le réalisme visuel n'implique pas une compréhension physique. Notre page de projet se trouve à l'adresse https://physics-iq.github.io ; le code source est disponible sur https://github.com/google-deepmind/physics-IQ-benchmark.
English
AI video generation is undergoing a revolution, with quality and realism
advancing rapidly. These advances have led to a passionate scientific debate:
Do video models learn ``world models'' that discover laws of physics -- or,
alternatively, are they merely sophisticated pixel predictors that achieve
visual realism without understanding the physical principles of reality? We
address this question by developing Physics-IQ, a comprehensive benchmark
dataset that can only be solved by acquiring a deep understanding of various
physical principles, like fluid dynamics, optics, solid mechanics, magnetism
and thermodynamics. We find that across a range of current models (Sora,
Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical
understanding is severely limited, and unrelated to visual realism. At the same
time, some test cases can already be successfully solved. This indicates that
acquiring certain physical principles from observation alone may be possible,
but significant challenges remain. While we expect rapid advances ahead, our
work demonstrates that visual realism does not imply physical understanding.
Our project page is at https://physics-iq.github.io; code at
https://github.com/google-deepmind/physics-IQ-benchmark.Summary
AI-Generated Summary