Videoanalyse und -generierung mittels einer semantischen Progress-Funktion

Zusammenfassung

Transformationen, die von Bild- und Videogenerierungsmodellen erzeugt werden, entwickeln sich oft auf stark nichtlineare Weise: Auf lange Abschnitte, in denen sich der Inhalt kaum verändert, folgen plötzliche, abrupte semantische Sprünge. Um dieses Verhalten zu analysieren und zu korrigieren, führen wir eine Semantische Progressionsfunktion ein, eine eindimensionale Repräsentation, die erfasst, wie sich die Bedeutung einer gegebenen Sequenz über die Zeit entwickelt. Für jedes Einzelbild berechnen wir Distanzen zwischen semantischen Einbettungen und approximieren eine glatte Kurve, die die kumulative semantische Verschiebung über die Sequenz hinweg widerspiegelt. Abweichungen dieser Kurve von einer geraden Linie zeigen eine ungleichmäßige semantische Abfolge. Aufbauend auf dieser Erkenntnis schlagen wir ein Verfahren zur semantischen Linearisierung vor, das die Sequenz so umparametrisiert (oder neu taktet), dass sich die semantische Veränderung mit einer konstanten Rate entfaltet, was zu glatteren und kohärenteren Übergängen führt. Über die Linearisierung hinaus bietet unser Framework eine modellunabhängige Grundlage, um zeitliche Unregelmäßigkeiten zu identifizieren, die semantische Abfolge verschiedener Generatoren zu vergleichen und sowohl generierte als auch reale Videosequenzen in Richtung einer beliebigen Zielabfolge zu steuern.

English

Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.

Videoanalyse und -generierung mittels einer semantischen Progress-Funktion

Video Analysis and Generation via a Semantic Progress Function

Zusammenfassung

Support