TRAVL: Een recept om video-taalmodellen betere beoordelaars te maken van fysische onwaarschijnlijkheid
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
October 8, 2025
Auteurs: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI
Samenvatting
Ondanks indrukwekkende visuele kwaliteit produceren moderne videogeneratieve modellen vaak sequenties die intuïtieve natuurwetten schenden, zoals objecten die zweven, teleporteren of vervormen op manieren die causaliteit tarten. Hoewel mensen dergelijke onwaarschijnlijkheden gemakkelijk kunnen detecteren, bestaat er nog geen robuuste methode om fysieke realisme in video's kwantitatief te beoordelen. In dit werk onderzoeken we of Video-Language Models (VLMs) kunnen worden getraind om betrouwbare beoordelaars van fysieke plausibiliteit te worden. We constateren dat bestaande VLMs moeite hebben om schendingen van de fysica te identificeren, wat fundamentele beperkingen in hun temporele en causale redenering blootlegt. Om dit aan te pakken, introduceren we TRAVL, een fine-tuning methode die een uitgebalanceerde trainingsdataset combineert met een trajectbewuste aandachtmodule om de codering en discriminatie van beweging in VLMs te verbeteren. Om fysieke redenering rigoureuzer te evalueren, stellen we ImplausiBench voor, een benchmark van 300 video's (150 echt, 150 gegenereerd) die linguïstische vooroordelen verwijdert en visueel-temporeel begrip isoleert. De prestaties worden gerapporteerd met zowel gouden standaard menselijke beoordelingen als strengere LLM-as-judge metrieken. Samen bieden TRAVL en ImplausiBench een uniform raamwerk voor het onderzoeken en verbeteren van fysieke plausibiliteit in multimodale modellen, wat licht werpt op een uitdagend en onderbelicht aspect van visueel-temporeel begrip.
English
Despite impressive visual fidelity, modern video generative models frequently
produce sequences that violate intuitive physical laws, such as objects
floating, teleporting, or morphing in ways that defy causality. While humans
can easily detect such implausibilities, there remains no robust method for
quantitatively assessing physical realism in video. In this work, we explore
whether Video-Language Models (VLMs) can be trained to serve as reliable judges
of physical plausibility. We find that existing VLMs struggle to identify
physics violations, exposing fundamental limitations in their temporal and
causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe
that combines a balanced training dataset with a trajectory-aware attention
module to improve motion encoding and discrimination in VLMs. To evaluate
physical reasoning more rigorously, we propose ImplausiBench, a benchmark of
300 videos (150 real, 150 generated) that removes linguistic biases and
isolates visual-temporal understanding. Performance is reported both with
gold-standard human judgments and stricter LLM-as-judge metrics. Together,
TRAVL and ImplausiBench offer a unified framework for probing and improving
physical plausibility in multimodal models, shedding light on a challenging and
underexplored aspect of visual-temporal understanding.