ChatPaper.aiChatPaper

TRAVL: Ein Rezept zur Verbesserung von Video-Sprach-Modellen als Bewerter physikalischer Unplausibilität

TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

October 8, 2025
papers.authors: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI

papers.abstract

Trotz beeindruckender visueller Qualität erzeugen moderne generative Videomodelle häufig Sequenzen, die intuitiven physikalischen Gesetzen widersprechen, wie beispielsweise schwebende, teleportierende oder sich kausalitätswidrig verformende Objekte. Während Menschen solche Unplausibilitäten leicht erkennen können, gibt es bisher keine robuste Methode zur quantitativen Bewertung der physikalischen Realität in Videos. In dieser Arbeit untersuchen wir, ob Video-Sprachmodelle (VLMs) so trainiert werden können, dass sie als zuverlässige Richter für physikalische Plausibilität dienen. Wir stellen fest, dass bestehende VLMs Schwierigkeiten haben, physikalische Verstöße zu identifizieren, was grundlegende Einschränkungen in ihrer zeitlichen und kausalen Argumentation offenbart. Um dies zu beheben, führen wir TRAVL ein, eine Feinabstimmungsmethode, die einen ausgewogenen Trainingsdatensatz mit einem trajektorienbewussten Aufmerksamkeitsmodul kombiniert, um die Bewegungskodierung und -diskriminierung in VLMs zu verbessern. Um physikalisches Denken strenger zu bewerten, schlagen wir ImplausiBench vor, einen Benchmark mit 300 Videos (150 echte, 150 generierte), der sprachliche Verzerrungen entfernt und das visuell-zeitliche Verständnis isoliert. Die Leistung wird sowohl mit Goldstandard-Urteilen von Menschen als auch mit strengeren LLM-als-Richter-Metriken bewertet. Zusammen bieten TRAVL und ImplausiBench einen einheitlichen Rahmen zur Untersuchung und Verbesserung der physikalischen Plausibilität in multimodalen Modellen und beleuchten damit einen herausfordernden und bisher wenig erforschten Aspekt des visuell-zeitlichen Verständnisses.
English
Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.
PDF12October 10, 2025