TRAVL: Uma Receita para Melhorar a Capacidade de Modelos de Vídeo-Linguagem em Julgar Implausibilidades Físicas
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
October 8, 2025
Autores: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI
Resumo
Apesar da impressionante fidelidade visual, os modelos modernos de geração de vídeo frequentemente produzem sequências que violam leis físicas intuitivas, como objetos flutuando, se teleportando ou se transformando de maneiras que desafiam a causalidade. Embora os seres humanos possam detectar facilmente tais implausibilidades, ainda não existe um método robusto para avaliar quantitativamente o realismo físico em vídeos. Neste trabalho, exploramos se os Modelos de Vídeo-Linguagem (VLMs) podem ser treinados para servir como juízes confiáveis da plausibilidade física. Descobrimos que os VLMs existentes têm dificuldade em identificar violações da física, expondo limitações fundamentais em seu raciocínio temporal e causal. Para abordar isso, introduzimos o TRAVL, uma receita de ajuste fino que combina um conjunto de dados de treinamento balanceado com um módulo de atenção consciente da trajetória para melhorar a codificação e discriminação do movimento em VLMs. Para avaliar o raciocínio físico de forma mais rigorosa, propomos o ImplausiBench, um benchmark de 300 vídeos (150 reais, 150 gerados) que remove vieses linguísticos e isola o entendimento visual-temporal. O desempenho é relatado tanto com julgamentos humanos de padrão ouro quanto com métricas mais rigorosas de LLM-como-juiz. Juntos, TRAVL e ImplausiBench oferecem uma estrutura unificada para investigar e melhorar a plausibilidade física em modelos multimodais, lançando luz sobre um aspecto desafiador e pouco explorado do entendimento visual-temporal.
English
Despite impressive visual fidelity, modern video generative models frequently
produce sequences that violate intuitive physical laws, such as objects
floating, teleporting, or morphing in ways that defy causality. While humans
can easily detect such implausibilities, there remains no robust method for
quantitatively assessing physical realism in video. In this work, we explore
whether Video-Language Models (VLMs) can be trained to serve as reliable judges
of physical plausibility. We find that existing VLMs struggle to identify
physics violations, exposing fundamental limitations in their temporal and
causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe
that combines a balanced training dataset with a trajectory-aware attention
module to improve motion encoding and discrimination in VLMs. To evaluate
physical reasoning more rigorously, we propose ImplausiBench, a benchmark of
300 videos (150 real, 150 generated) that removes linguistic biases and
isolates visual-temporal understanding. Performance is reported both with
gold-standard human judgments and stricter LLM-as-judge metrics. Together,
TRAVL and ImplausiBench offer a unified framework for probing and improving
physical plausibility in multimodal models, shedding light on a challenging and
underexplored aspect of visual-temporal understanding.