ChatPaper.aiChatPaper

TRAVL: Рецепт для улучшения способности видео-языковых моделей оценивать физическую несостоятельность

TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

October 8, 2025
Авторы: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI

Аннотация

Несмотря на впечатляющую визуальную достоверность, современные модели генерации видео часто создают последовательности, нарушающие интуитивные физические законы, такие как парение объектов, их телепортация или трансформация, противоречащие причинно-следственным связям. Хотя люди легко обнаруживают такие несоответствия, до сих пор не существует надежного метода для количественной оценки физической реалистичности в видео. В данной работе мы исследуем, можно ли обучить видео-языковые модели (VLMs) для надежной оценки физической правдоподобности. Мы обнаруживаем, что существующие VLMs испытывают трудности с выявлением нарушений физики, что указывает на фундаментальные ограничения в их временном и причинно-следственном анализе. Для решения этой проблемы мы представляем TRAVL — метод тонкой настройки, который сочетает сбалансированный набор данных для обучения с модулем внимания, учитывающим траектории, чтобы улучшить кодирование и распознавание движения в VLMs. Для более строгой оценки физического анализа мы предлагаем ImplausiBench — эталонный набор из 300 видео (150 реальных, 150 сгенерированных), который устраняет языковые предубеждения и изолирует визуально-временное понимание. Результаты оцениваются как с помощью эталонных суждений людей, так и с использованием более строгих метрик на основе LLM-судей. Вместе TRAVL и ImplausiBench предлагают унифицированную структуру для исследования и улучшения физической правдоподобности в мультимодальных моделях, проливая свет на сложный и малоизученный аспект визуально-временного понимания.
English
Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.
PDF12October 10, 2025