Video-analyse en -generatie via een semantische voortgangsfunctie

Samenvatting

Transformaties gegenereerd door beeld- en videogeneratiemodellen verlopen vaak sterk niet-lineair: lange periodes waarin de inhoud nauwelijks verandert, worden afgewisseld met plotselinge, abrupte semantische sprongen. Om dit gedrag te analyseren en te corrigeren, introduceren we een Semantische Progressiefunctie, een eendimensionale representatie die vastlegt hoe de betekenis van een gegeven sequentie in de tijd evolueert. Voor elk frame berekenen we afstanden tussen semantische embeddings en fitten we een vloeiende curve die de cumulatieve semantische verschuiving over de sequentie weergeeft. Afwijkingen van deze curve ten opzichte van een rechte lijn onthullen een ongelijkmatig semantisch tempo. Voortbordurend op dit inzicht stellen we een semantische linearisatieprocedure voor die de sequentie herparameteriseert (of hertimet), zodat de semantische verandering zich ontvouwt tegen een constant tempo, wat soepelere en coherentere overgangen oplevert. Naast linearisatie biedt ons raamwerk een model-agnostische basis voor het identificeren van temporele onregelmatigheden, het vergelijken van semantische tempo's tussen verschillende generatoren, en het sturen van zowel gegenereerde als echte videosequenties naar een willekeurig doel-tempo.

English

Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.

Video-analyse en -generatie via een semantische voortgangsfunctie

Video Analysis and Generation via a Semantic Progress Function

Samenvatting

Support