TRAVL: Uma Receita para Melhorar a Capacidade de Modelos de Vídeo-Linguagem em Julgar Implausibilidades Físicas

Resumo

Apesar da impressionante fidelidade visual, os modelos modernos de geração de vídeo frequentemente produzem sequências que violam leis físicas intuitivas, como objetos flutuando, se teleportando ou se transformando de maneiras que desafiam a causalidade. Embora os seres humanos possam detectar facilmente tais implausibilidades, ainda não existe um método robusto para avaliar quantitativamente o realismo físico em vídeos. Neste trabalho, exploramos se os Modelos de Vídeo-Linguagem (VLMs) podem ser treinados para servir como juízes confiáveis da plausibilidade física. Descobrimos que os VLMs existentes têm dificuldade em identificar violações da física, expondo limitações fundamentais em seu raciocínio temporal e causal. Para abordar isso, introduzimos o TRAVL, uma receita de ajuste fino que combina um conjunto de dados de treinamento balanceado com um módulo de atenção consciente da trajetória para melhorar a codificação e discriminação do movimento em VLMs. Para avaliar o raciocínio físico de forma mais rigorosa, propomos o ImplausiBench, um benchmark de 300 vídeos (150 reais, 150 gerados) que remove vieses linguísticos e isola o entendimento visual-temporal. O desempenho é relatado tanto com julgamentos humanos de padrão ouro quanto com métricas mais rigorosas de LLM-como-juiz. Juntos, TRAVL e ImplausiBench oferecem uma estrutura unificada para investigar e melhorar a plausibilidade física em modelos multimodais, lançando luz sobre um aspecto desafiador e pouco explorado do entendimento visual-temporal.

English

Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.

TRAVL: Uma Receita para Melhorar a Capacidade de Modelos de Vídeo-Linguagem em Julgar Implausibilidades Físicas

TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

Resumo

Support