TRAVL: Рецепт для улучшения способности видео-языковых моделей оценивать физическую несостоятельность
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
October 8, 2025
Авторы: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI
Аннотация
Несмотря на впечатляющую визуальную достоверность, современные модели генерации видео часто создают последовательности, нарушающие интуитивные физические законы, такие как парение объектов, их телепортация или трансформация, противоречащие причинно-следственным связям. Хотя люди легко обнаруживают такие несоответствия, до сих пор не существует надежного метода для количественной оценки физической реалистичности в видео. В данной работе мы исследуем, можно ли обучить видео-языковые модели (VLMs) для надежной оценки физической правдоподобности. Мы обнаруживаем, что существующие VLMs испытывают трудности с выявлением нарушений физики, что указывает на фундаментальные ограничения в их временном и причинно-следственном анализе. Для решения этой проблемы мы представляем TRAVL — метод тонкой настройки, который сочетает сбалансированный набор данных для обучения с модулем внимания, учитывающим траектории, чтобы улучшить кодирование и распознавание движения в VLMs. Для более строгой оценки физического анализа мы предлагаем ImplausiBench — эталонный набор из 300 видео (150 реальных, 150 сгенерированных), который устраняет языковые предубеждения и изолирует визуально-временное понимание. Результаты оцениваются как с помощью эталонных суждений людей, так и с использованием более строгих метрик на основе LLM-судей. Вместе TRAVL и ImplausiBench предлагают унифицированную структуру для исследования и улучшения физической правдоподобности в мультимодальных моделях, проливая свет на сложный и малоизученный аспект визуально-временного понимания.
English
Despite impressive visual fidelity, modern video generative models frequently
produce sequences that violate intuitive physical laws, such as objects
floating, teleporting, or morphing in ways that defy causality. While humans
can easily detect such implausibilities, there remains no robust method for
quantitatively assessing physical realism in video. In this work, we explore
whether Video-Language Models (VLMs) can be trained to serve as reliable judges
of physical plausibility. We find that existing VLMs struggle to identify
physics violations, exposing fundamental limitations in their temporal and
causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe
that combines a balanced training dataset with a trajectory-aware attention
module to improve motion encoding and discrimination in VLMs. To evaluate
physical reasoning more rigorously, we propose ImplausiBench, a benchmark of
300 videos (150 real, 150 generated) that removes linguistic biases and
isolates visual-temporal understanding. Performance is reported both with
gold-standard human judgments and stricter LLM-as-judge metrics. Together,
TRAVL and ImplausiBench offer a unified framework for probing and improving
physical plausibility in multimodal models, shedding light on a challenging and
underexplored aspect of visual-temporal understanding.