Анализ и генерация видео с помощью семантической прогрессирующей функции
Video Analysis and Generation via a Semantic Progress Function
April 24, 2026
Авторы: Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, Raja Giryes, Daniel Cohen-Or
cs.AI
Аннотация
Преобразования, производимые моделями генерации изображений и видео, часто развиваются высоконелинейным образом: длительные периоды, когда содержание почти не меняется, сменяются внезапными, резкими семантическими скачками. Для анализа и коррекции этого поведения мы вводим Функцию Семантического Прогресса — одномерное представление, которое фиксирует, как значение заданной последовательности эволюционирует во времени. Для каждого кадра мы вычисляем расстояния между семантическими эмбеддингами и аппроксимируем гладкую кривую, отражающую кумулятивное семантическое изменение по всей последовательности. Отклонения этой кривой от прямой линии выявляют неравномерный семантический темп. Основываясь на этом наблюдении, мы предлагаем процедуру семантической линеаризации, которая перепараметризует (или изменяет тайминг) последовательности таким образом, что семантическое изменение разворачивается с постоянной скоростью, обеспечивая более плавные и связные переходы. Помимо линеаризации, наш фреймворк предоставляет модель-агностическую основу для выявления временных аномалий, сравнения семантического темпа между различными генераторами и управления как сгенерированными, так и реальными видео-последовательностями для достижения произвольного целевого темпа.
English
Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.