TRAVL: Ein Rezept zur Verbesserung von Video-Sprach-Modellen als Bewerter physikalischer Unplausibilität
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
October 8, 2025
papers.authors: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI
papers.abstract
Trotz beeindruckender visueller Qualität erzeugen moderne generative Videomodelle häufig Sequenzen, die intuitiven physikalischen Gesetzen widersprechen, wie beispielsweise schwebende, teleportierende oder sich kausalitätswidrig verformende Objekte. Während Menschen solche Unplausibilitäten leicht erkennen können, gibt es bisher keine robuste Methode zur quantitativen Bewertung der physikalischen Realität in Videos. In dieser Arbeit untersuchen wir, ob Video-Sprachmodelle (VLMs) so trainiert werden können, dass sie als zuverlässige Richter für physikalische Plausibilität dienen. Wir stellen fest, dass bestehende VLMs Schwierigkeiten haben, physikalische Verstöße zu identifizieren, was grundlegende Einschränkungen in ihrer zeitlichen und kausalen Argumentation offenbart. Um dies zu beheben, führen wir TRAVL ein, eine Feinabstimmungsmethode, die einen ausgewogenen Trainingsdatensatz mit einem trajektorienbewussten Aufmerksamkeitsmodul kombiniert, um die Bewegungskodierung und -diskriminierung in VLMs zu verbessern. Um physikalisches Denken strenger zu bewerten, schlagen wir ImplausiBench vor, einen Benchmark mit 300 Videos (150 echte, 150 generierte), der sprachliche Verzerrungen entfernt und das visuell-zeitliche Verständnis isoliert. Die Leistung wird sowohl mit Goldstandard-Urteilen von Menschen als auch mit strengeren LLM-als-Richter-Metriken bewertet. Zusammen bieten TRAVL und ImplausiBench einen einheitlichen Rahmen zur Untersuchung und Verbesserung der physikalischen Plausibilität in multimodalen Modellen und beleuchten damit einen herausfordernden und bisher wenig erforschten Aspekt des visuell-zeitlichen Verständnisses.
English
Despite impressive visual fidelity, modern video generative models frequently
produce sequences that violate intuitive physical laws, such as objects
floating, teleporting, or morphing in ways that defy causality. While humans
can easily detect such implausibilities, there remains no robust method for
quantitatively assessing physical realism in video. In this work, we explore
whether Video-Language Models (VLMs) can be trained to serve as reliable judges
of physical plausibility. We find that existing VLMs struggle to identify
physics violations, exposing fundamental limitations in their temporal and
causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe
that combines a balanced training dataset with a trajectory-aware attention
module to improve motion encoding and discrimination in VLMs. To evaluate
physical reasoning more rigorously, we propose ImplausiBench, a benchmark of
300 videos (150 real, 150 generated) that removes linguistic biases and
isolates visual-temporal understanding. Performance is reported both with
gold-standard human judgments and stricter LLM-as-judge metrics. Together,
TRAVL and ImplausiBench offer a unified framework for probing and improving
physical plausibility in multimodal models, shedding light on a challenging and
underexplored aspect of visual-temporal understanding.