ChatPaper.aiChatPaper

TRAVL: 映像言語モデルの物理的不可能性判断能力を向上させるためのレシピ

TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

October 8, 2025
著者: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI

要旨

視覚的な忠実度が高いにもかかわらず、現代のビデオ生成モデルは、物体が浮遊したり、瞬間移動したり、因果関係を無視した形で変形するなど、直感的な物理法則に反するシーケンスを頻繁に生成します。人間はそのような不自然さを容易に検出できますが、ビデオにおける物理的なリアリズムを定量的に評価する堅牢な方法はまだ存在しません。本研究では、ビデオ言語モデル(VLM)が物理的な妥当性を判断する信頼できる審判として訓練できるかどうかを探ります。既存のVLMは物理法則の違反を特定するのに苦労しており、時間的および因果的推論における根本的な限界が明らかになりました。この問題に対処するため、バランスの取れたトレーニングデータセットと軌跡を意識したアテンションモジュールを組み合わせた微調整手法であるTRAVLを導入し、VLMの動きのエンコーディングと識別能力を向上させます。物理的推論をより厳密に評価するために、言語的バイアスを排除し、視覚的・時間的理解を単離した300本のビデオ(実写150本、生成150本)からなるベンチマークであるImplausiBenchを提案します。性能は、ゴールドスタンダードである人間の判断と、より厳格なLLM-as-judgeメトリクスの両方で報告されます。TRAVLとImplausiBenchは、マルチモーダルモデルにおける物理的妥当性を探求し、改善するための統一されたフレームワークを提供し、視覚的・時間的理解における挑戦的で未開拓の側面に光を当てます。
English
Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.
PDF12October 10, 2025