TRAVL: Una receta para mejorar los modelos de video-lenguaje como evaluadores de implausibilidad física

Resumen

A pesar de su impresionante fidelidad visual, los modelos generativos de video modernos frecuentemente producen secuencias que violan leyes físicas intuitivas, como objetos que flotan, se teletransportan o se transforman de maneras que desafían la causalidad. Si bien los humanos pueden detectar fácilmente estas implausibilidades, aún no existe un método robusto para evaluar cuantitativamente el realismo físico en videos. En este trabajo, exploramos si los Modelos de Video-Lenguaje (VLMs, por sus siglas en inglés) pueden entrenarse para servir como jueces confiables de la plausibilidad física. Descubrimos que los VLMs existentes tienen dificultades para identificar violaciones de la física, lo que expone limitaciones fundamentales en su razonamiento temporal y causal. Para abordar esto, presentamos TRAVL, una receta de ajuste fino que combina un conjunto de datos de entrenamiento equilibrado con un módulo de atención consciente de trayectorias para mejorar la codificación y discriminación del movimiento en los VLMs. Para evaluar el razonamiento físico de manera más rigurosa, proponemos ImplausiBench, un punto de referencia de 300 videos (150 reales, 150 generados) que elimina sesgos lingüísticos y aísla la comprensión visual-temporal. El rendimiento se reporta tanto con juicios humanos de referencia como con métricas más estrictas de LLM-como-juez. Juntos, TRAVL e ImplausiBench ofrecen un marco unificado para explorar y mejorar la plausibilidad física en modelos multimodales, arrojando luz sobre un aspecto desafiante y poco explorado de la comprensión visual-temporal.

English

Despite impressive visual fidelity, modern video generative models frequently produce sequences that violate intuitive physical laws, such as objects floating, teleporting, or morphing in ways that defy causality. While humans can easily detect such implausibilities, there remains no robust method for quantitatively assessing physical realism in video. In this work, we explore whether Video-Language Models (VLMs) can be trained to serve as reliable judges of physical plausibility. We find that existing VLMs struggle to identify physics violations, exposing fundamental limitations in their temporal and causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe that combines a balanced training dataset with a trajectory-aware attention module to improve motion encoding and discrimination in VLMs. To evaluate physical reasoning more rigorously, we propose ImplausiBench, a benchmark of 300 videos (150 real, 150 generated) that removes linguistic biases and isolates visual-temporal understanding. Performance is reported both with gold-standard human judgments and stricter LLM-as-judge metrics. Together, TRAVL and ImplausiBench offer a unified framework for probing and improving physical plausibility in multimodal models, shedding light on a challenging and underexplored aspect of visual-temporal understanding.

TRAVL: Una receta para mejorar los modelos de video-lenguaje como evaluadores de implausibilidad física

TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility

Resumen

Support