Fysica-vragenscenegraaf: Fijnmazige Evaluatie van Fysische Plausibiliteit in Tekst-naar-Video Generatie

Samenvatting

Videogeneratiemodellen worden steeds beter in het produceren van realistische video's, maar ze hebben nog steeds moeite met het genereren van video's die de basiswetten van de natuurkunde volgen. Dit wordt verergerd door een gebrek aan betrouwbare, gedetailleerde evaluatiemethoden om schendingen van natuurkundige wetten in video's te lokaliseren en te specificeren. We pakken dit aan door de Physics Question Scene Graph (PQSG) te introduceren, een hiërarchische, op vragen gebaseerde evaluatiepijplijn. PQSG evalueert gegenereerde video's door hun trouw aan een prompt te controleren op het gebied van objecten, acties en naleving van natuurkundige wetten, gebruikmakend van een grafiekgebaseerde hiërarchie van vragen gegenereerd door een visie-taalmodel (VLM), begeleid door hoogwaardige in-context voorbeelden. Door vragen als een grafiek weer te geven, introduceert PQSG logische afhankelijkheden binnen vragen, waardoor elke vraag contextueel valide is. Bovendien biedt PQSG gedetailleerde beoordelingen van welke kwaliteiten van de video de beperkingen van fysieke plausibiliteit schenden. We valideren PQSG door FinePhyEval te creëren, een dataset met op natuurkunde gebaseerde prompts en bijbehorende gegenereerde video's van diverse geavanceerde videogeneratiemodellen (Sora 2, Veo 3 en Wan 2.1), waarbij elke video door mensen op meerdere categorieën is geannoteerd. Met behulp van FinePhyEval meten we de correlatie tussen de gedetailleerde scores van PQSG en menselijke oordelen, wat hogere algemene correlaties laat zien dan eerder werk. We vinden ook dat PQSG closed-source modellen hoger rangschikt dan Wan 2.1 op fysiek realisme. Tot slot tonen we aan dat de annotaties die we in FinePhyEval leveren ook kunnen worden gebruikt voor subtakevaluatie: we benchmarken twee sterke VLM's op het genereren en beantwoorden van vragen, waarbij we vinden dat modellen wel mensachtige vragen kunnen creëren, maar nog steeds tekortschieten in het beantwoorden ervan vergeleken met menselijke prestaties.

English

Video generation models are increasingly capable of producing realistic videos, but they still struggle to generate videos that follow basic physical laws. Compounding this is a lack of reliable granular evaluation methods for localizing and specifying physical law violations in videos. We address this by introducing Physics Question Scene Graph (PQSG), a hierarchical question-based evaluation pipeline. PQSG evaluates generated videos by checking their faithfulness to a prompt across objects, actions, and adherence to physical laws using a graph-based hierarchy of questions generated by a vision-language model (VLM), guided by high-quality in-context examples. By representing questions as a graph, PQSG introduces logical dependencies within questions, ensuring that each query is contextually valid. Moreover, PQSG provides granular assessments of which qualities of the video violate physical plausibility constraints. We validate PQSG by creating FinePhyEval, a dataset with physics-based prompts and corresponding generated videos from diverse state-of-the-art video generation models (Sora 2, Veo 3, and Wan 2.1), with each video annotated across multiple categories by humans. Using FinePhyEval, we measure the correlation between PQSG's fine-grained scores and human judgments, showing higher overall correlations than prior work. We also find that PQSG ranks closed-source models higher than Wan 2.1 on physical realism. Lastly, we show that the annotations we provide in FinePhyEval can also be used for subtask evaluation: we benchmark two strong VLMs on generating and answering questions, finding that while models can create human-like questions, they still fall short of human performance in answering them.