TRAVL : Une recette pour améliorer les modèles vidéo-langage en tant qu'évaluateurs de l'implausibilité physique
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
October 8, 2025
papers.authors: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI
papers.abstract
Malgré une fidélité visuelle impressionnante, les modèles génératifs vidéo modernes produisent fréquemment des séquences qui violent les lois physiques intuitives, comme des objets flottant, se téléportant ou se transformant de manière à défier la causalité. Bien que les humains puissent facilement détecter de telles invraisemblances, il n'existe toujours pas de méthode robuste pour évaluer quantitativement le réalisme physique dans les vidéos. Dans ce travail, nous explorons si les modèles vidéo-langage (VLMs) peuvent être entraînés pour servir de juges fiables de la plausibilité physique. Nous constatons que les VLMs existants peinent à identifier les violations de la physique, révélant des limitations fondamentales dans leur raisonnement temporel et causal. Pour remédier à cela, nous introduisons TRAVL, une méthode de fine-tuning qui combine un ensemble de données d'entraînement équilibré avec un module d'attention conscient des trajectoires pour améliorer l'encodage et la discrimination du mouvement dans les VLMs. Pour évaluer le raisonnement physique de manière plus rigoureuse, nous proposons ImplausiBench, un benchmark de 300 vidéos (150 réelles, 150 générées) qui élimine les biais linguistiques et isole la compréhension visuo-temporelle. Les performances sont rapportées à la fois avec des jugements humains de référence et des métriques plus strictes utilisant un LLM comme juge. Ensemble, TRAVL et ImplausiBench offrent un cadre unifié pour explorer et améliorer la plausibilité physique dans les modèles multimodaux, éclairant un aspect difficile et peu exploré de la compréhension visuo-temporelle.
English
Despite impressive visual fidelity, modern video generative models frequently
produce sequences that violate intuitive physical laws, such as objects
floating, teleporting, or morphing in ways that defy causality. While humans
can easily detect such implausibilities, there remains no robust method for
quantitatively assessing physical realism in video. In this work, we explore
whether Video-Language Models (VLMs) can be trained to serve as reliable judges
of physical plausibility. We find that existing VLMs struggle to identify
physics violations, exposing fundamental limitations in their temporal and
causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe
that combines a balanced training dataset with a trajectory-aware attention
module to improve motion encoding and discrimination in VLMs. To evaluate
physical reasoning more rigorously, we propose ImplausiBench, a benchmark of
300 videos (150 real, 150 generated) that removes linguistic biases and
isolates visual-temporal understanding. Performance is reported both with
gold-standard human judgments and stricter LLM-as-judge metrics. Together,
TRAVL and ImplausiBench offer a unified framework for probing and improving
physical plausibility in multimodal models, shedding light on a challenging and
underexplored aspect of visual-temporal understanding.