TRAVL: Una Ricetta per Migliorare la Capacità dei Modelli Video-Linguistici di Valutare l'Implausibilità Fisica
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility
October 8, 2025
Autori: Saman Motamed, Minghao Chen, Luc Van Gool, Iro Laina
cs.AI
Abstract
Nonostante l'impressionante fedeltà visiva, i moderni modelli generativi di video spesso producono sequenze che violano le leggi fisiche intuitive, come oggetti che fluttuano, teletrasportano o si trasformano in modi che sfidano la causalità. Sebbene gli esseri umani possano facilmente rilevare tali implausibilità, non esiste ancora un metodo robusto per valutare quantitativamente il realismo fisico nei video. In questo lavoro, esploriamo se i modelli video-linguistici (VLMs) possano essere addestrati per fungere da giudici affidabili della plausibilità fisica. Scopriamo che i VLMs esistenti faticano a identificare le violazioni della fisica, rivelando limitazioni fondamentali nel loro ragionamento temporale e causale. Per affrontare questo problema, introduciamo TRAVL, una ricetta di fine-tuning che combina un dataset di addestramento bilanciato con un modulo di attenzione consapevole della traiettoria per migliorare la codifica e la discriminazione del movimento nei VLMs. Per valutare il ragionamento fisico in modo più rigoroso, proponiamo ImplausiBench, un benchmark di 300 video (150 reali, 150 generati) che elimina i pregiudizi linguistici e isola la comprensione visivo-temporale. Le prestazioni vengono riportate sia con giudizi umani di riferimento standard che con metriche più rigorose basate su LLM come giudice. Insieme, TRAVL e ImplausiBench offrono un framework unificato per esplorare e migliorare la plausibilità fisica nei modelli multimodali, gettando luce su un aspetto complesso e poco esplorato della comprensione visivo-temporale.
English
Despite impressive visual fidelity, modern video generative models frequently
produce sequences that violate intuitive physical laws, such as objects
floating, teleporting, or morphing in ways that defy causality. While humans
can easily detect such implausibilities, there remains no robust method for
quantitatively assessing physical realism in video. In this work, we explore
whether Video-Language Models (VLMs) can be trained to serve as reliable judges
of physical plausibility. We find that existing VLMs struggle to identify
physics violations, exposing fundamental limitations in their temporal and
causal reasoning. To address this, we introduce TRAVL, a fine-tuning recipe
that combines a balanced training dataset with a trajectory-aware attention
module to improve motion encoding and discrimination in VLMs. To evaluate
physical reasoning more rigorously, we propose ImplausiBench, a benchmark of
300 videos (150 real, 150 generated) that removes linguistic biases and
isolates visual-temporal understanding. Performance is reported both with
gold-standard human judgments and stricter LLM-as-judge metrics. Together,
TRAVL and ImplausiBench offer a unified framework for probing and improving
physical plausibility in multimodal models, shedding light on a challenging and
underexplored aspect of visual-temporal understanding.