TRAVL : Une recette pour améliorer les modèles vidéo-langage en tant qu'évaluateurs de l'implausibilité physique

papers.abstract

Malgré une fidélité visuelle impressionnante, les modèles génératifs vidéo modernes produisent fréquemment des séquences qui violent les lois physiques intuitives, comme des objets flottant, se téléportant ou se transformant de manière à défier la causalité. Bien que les humains puissent facilement détecter de telles invraisemblances, il n'existe toujours pas de méthode robuste pour évaluer quantitativement le réalisme physique dans les vidéos. Dans ce travail, nous explorons si les modèles vidéo-langage (VLMs) peuvent être entraînés pour servir de juges fiables de la plausibilité physique. Nous constatons que les VLMs existants peinent à identifier les violations de la physique, révélant des limitations fondamentales dans leur raisonnement temporel et causal. Pour remédier à cela, nous introduisons TRAVL, une méthode de fine-tuning qui combine un ensemble de données d'entraînement équilibré avec un module d'attention conscient des trajectoires pour améliorer l'encodage et la discrimination du mouvement dans les VLMs. Pour évaluer le raisonnement physique de manière plus rigoureuse, nous proposons ImplausiBench, un benchmark de 300 vidéos (150 réelles, 150 générées) qui élimine les biais linguistiques et isole la compréhension visuo-temporelle. Les performances sont rapportées à la fois avec des jugements humains de référence et des métriques plus strictes utilisant un LLM comme juge. Ensemble, TRAVL et ImplausiBench offrent un cadre unifié pour explorer et améliorer la plausibilité physique dans les modèles multimodaux, éclairant un aspect difficile et peu exploré de la compréhension visuo-temporelle.

English

Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.

TRAVL : Une recette pour améliorer les modèles vidéo-langage en tant qu'évaluateurs de l'implausibilité physique

TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

papers.abstract

Support