TRAVL: Una receta para mejorar los modelos de video-lenguaje como evaluadores de implausibilidad física
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
October 8, 2025
Autores: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI
Resumen
A pesar de su impresionante fidelidad visual, los modelos generativos de video modernos frecuentemente producen secuencias que violan leyes físicas intuitivas, como objetos que flotan, se teletransportan o se transforman de maneras que desafían la causalidad. Si bien los humanos pueden detectar fácilmente estas implausibilidades, aún no existe un método robusto para evaluar cuantitativamente el realismo físico en videos. En este trabajo, exploramos si los Modelos de Video-Lenguaje (VLMs, por sus siglas en inglés) pueden entrenarse para servir como jueces confiables de la plausibilidad física. Descubrimos que los VLMs existentes tienen dificultades para identificar violaciones de la física, lo que expone limitaciones fundamentales en su razonamiento temporal y causal. Para abordar esto, presentamos TRAVL, una receta de ajuste fino que combina un conjunto de datos de entrenamiento equilibrado con un módulo de atención consciente de trayectorias para mejorar la codificación y discriminación del movimiento en los VLMs. Para evaluar el razonamiento físico de manera más rigurosa, proponemos ImplausiBench, un punto de referencia de 300 videos (150 reales, 150 generados) que elimina sesgos lingüísticos y aísla la comprensión visual-temporal. El rendimiento se reporta tanto con juicios humanos de referencia como con métricas más estrictas de LLM-como-juez. Juntos, TRAVL e ImplausiBench ofrecen un marco unificado para explorar y mejorar la plausibilidad física en modelos multimodales, arrojando luz sobre un aspecto desafiante y poco explorado de la comprensión visual-temporal.
English
Despite impressive visual fidelity, modern video generative models frequently
produce sequences that violate intuitive physical laws, such as objects
floating, teleporting, or morphing in ways that defy causality. While humans
can easily detect such implausibilities, there remains no robust method for
quantitatively assessing physical realism in video. In this work, we explore
whether Video-Language Models (VLMs) can be trained to serve as reliable judges
of physical plausibility. We find that existing VLMs struggle to identify
physics violations, exposing fundamental limitations in their temporal and
causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe
that combines a balanced training dataset with a trajectory-aware attention
module to improve motion encoding and discrimination in VLMs. To evaluate
physical reasoning more rigorously, we propose ImplausiBench, a benchmark of
300 videos (150 real, 150 generated) that removes linguistic biases and
isolates visual-temporal understanding. Performance is reported both with
gold-standard human judgments and stricter LLM-as-judge metrics. Together,
TRAVL and ImplausiBench offer a unified framework for probing and improving
physical plausibility in multimodal models, shedding light on a challenging and
underexplored aspect of visual-temporal understanding.