Analyse et génération vidéo via une fonction de progression sémantique
Video Analysis and Generation via a Semantic Progress Function
April 24, 2026
Auteurs: Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, Raja Giryes, Daniel Cohen-Or
cs.AI
Résumé
Les transformations produites par les modèles de génération d'images et de vidéos évoluent souvent de manière fortement non linéaire : de longues périodes où le contenu change à peine sont suivies de sauts sémantiques soudains et abrupts. Pour analyser et corriger ce comportement, nous introduisons une Fonction de Progression Sémantique, une représentation unidimensionnelle qui capture comment la signification d'une séquence donnée évolue dans le temps. Pour chaque image, nous calculons les distances entre les plongements sémantiques et ajustons une courbe lisse qui reflète le changement sémantique cumulatif tout au long de la séquence. Les écarts de cette courbe par rapport à une ligne droite révèlent un rythme sémantique irrégulier. Sur la base de cette observation, nous proposons une procédure de linéarisation sémantique qui reparamètre (ou réajuste le timing de) la séquence afin que le changement sémantique se déroule à un rythme constant, produisant ainsi des transitions plus fluides et plus cohérentes. Au-delà de la linéarisation, notre cadre fournit une base indépendante du modèle pour identifier les irrégularités temporelles, comparer le rythme sémantique entre différents générateurs, et orienter les séquences vidéo générées ou réelles vers un rythme cible arbitraire.
English
Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.