ChatPaper.aiChatPaper

TRAVL: Een recept om video-taalmodellen betere beoordelaars te maken van fysische onwaarschijnlijkheid

TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

October 8, 2025
Auteurs: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI

Samenvatting

Ondanks indrukwekkende visuele kwaliteit produceren moderne videogeneratieve modellen vaak sequenties die intuïtieve natuurwetten schenden, zoals objecten die zweven, teleporteren of vervormen op manieren die causaliteit tarten. Hoewel mensen dergelijke onwaarschijnlijkheden gemakkelijk kunnen detecteren, bestaat er nog geen robuuste methode om fysieke realisme in video's kwantitatief te beoordelen. In dit werk onderzoeken we of Video-Language Models (VLMs) kunnen worden getraind om betrouwbare beoordelaars van fysieke plausibiliteit te worden. We constateren dat bestaande VLMs moeite hebben om schendingen van de fysica te identificeren, wat fundamentele beperkingen in hun temporele en causale redenering blootlegt. Om dit aan te pakken, introduceren we TRAVL, een fine-tuning methode die een uitgebalanceerde trainingsdataset combineert met een trajectbewuste aandachtmodule om de codering en discriminatie van beweging in VLMs te verbeteren. Om fysieke redenering rigoureuzer te evalueren, stellen we ImplausiBench voor, een benchmark van 300 video's (150 echt, 150 gegenereerd) die linguïstische vooroordelen verwijdert en visueel-temporeel begrip isoleert. De prestaties worden gerapporteerd met zowel gouden standaard menselijke beoordelingen als strengere LLM-as-judge metrieken. Samen bieden TRAVL en ImplausiBench een uniform raamwerk voor het onderzoeken en verbeteren van fysieke plausibiliteit in multimodale modellen, wat licht werpt op een uitdagend en onderbelicht aspect van visueel-temporeel begrip.
English
Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.
PDF22October 10, 2025