Граф сцены физического вопроса: мелкозернистая оценка физической правдоподобности в генерации видео по тексту

Аннотация

Модели генерации видео становятся все более способными создавать реалистичные видеоролики, однако им по-прежнему сложно генерировать видео, соответствующие базовым физическим законам. Усугубляет эту проблему отсутствие надежных детализированных методов оценки для локализации и определения нарушений физических законов в видео. Мы решаем эту задачу, представляя Physics Question Scene Graph (PQSG) — иерархический конвейер оценки на основе вопросов. PQSG оценивает сгенерированные видео, проверяя их соответствие подсказке по объектам, действиям и соблюдению физических законов, используя графовую иерархию вопросов, сгенерированных визуально-языковой моделью (VLM) с опорой на высококачественные контекстные примеры. Представляя вопросы в виде графа, PQSG вводит логические зависимости между вопросами, обеспечивая контекстуальную валидность каждого запроса. Кроме того, PQSG предоставляет детализированные оценки того, какие именно характеристики видео нарушают ограничения физической правдоподобности. Мы валидируем PQSG, создавая FinePhyEval — набор данных с подсказками, основанными на физике, и соответствующими сгенерированными видео от различных современных моделей генерации видео (Sora 2, Veo 3 и Wan 2.1), причем каждое видео аннотировано по нескольким категориям человеком. Используя FinePhyEval, мы измеряем корреляцию между детализированными оценками PQSG и человеческими суждениями, показывая более высокую общую корреляцию по сравнению с предыдущими работами. Мы также обнаружили, что PQSG оценивает закрытые модели выше, чем Wan 2.1, по показателю физического реализма. Наконец, мы показываем, что предоставленные в FinePhyEval аннотации могут быть использованы для оценки подзадач: мы тестируем две сильные VLM на генерацию и ответы на вопросы, обнаруживая, что хотя модели способны создавать человеко-подобные вопросы, они все еще уступают человеку в ответах на них.

English

Video generation models are increasingly capable of producing realistic videos, but they still struggle to generate videos that follow basic physical laws. Compounding this is a lack of reliable granular evaluation methods for localizing and specifying physical law violations in videos. We address this by introducing Physics Question Scene Graph (PQSG), a hierarchical question-based evaluation pipeline. PQSG evaluates generated videos by checking their faithfulness to a prompt across objects, actions, and adherence to physical laws using a graph-based hierarchy of questions generated by a vision-language model (VLM), guided by high-quality in-context examples. By representing questions as a graph, PQSG introduces logical dependencies within questions, ensuring that each query is contextually valid. Moreover, PQSG provides granular assessments of which qualities of the video violate physical plausibility constraints. We validate PQSG by creating FinePhyEval, a dataset with physics-based prompts and corresponding generated videos from diverse state-of-the-art video generation models (Sora 2, Veo 3, and Wan 2.1), with each video annotated across multiple categories by humans. Using FinePhyEval, we measure the correlation between PQSG's fine-grained scores and human judgments, showing higher overall correlations than prior work. We also find that PQSG ranks closed-source models higher than Wan 2.1 on physical realism. Lastly, we show that the annotations we provide in FinePhyEval can also be used for subtask evaluation: we benchmark two strong VLMs on generating and answering questions, finding that while models can create human-like questions, they still fall short of human performance in answering them.