Analisi e Generazione Video tramite una Funzione di Progresso Semantico

Abstract

Le trasformazioni prodotte dai modelli di generazione di immagini e video spesso evolvono in modo altamente non lineare: a lunghi tratti in cui il contenuto cambia a malapena seguono improvvisi e bruschi salti semantici. Per analizzare e correggere questo comportamento, introduciamo una Funzione di Progresso Semantico, una rappresentazione unidimensionale che cattura come il significato di una determinata sequenza si evolve nel tempo. Per ogni fotogramma, calcoliamo le distanze tra gli embedding semantici e adattiamo una curva regolare che riflette lo spostamento semantico cumulativo lungo la sequenza. Gli scostamenti di questa curva da una linea retta rivelano un ritmo semantico irregolare. Basandoci su questa intuizione, proponiamo una procedura di linearizzazione semantica che riparametriza (o ritiming) la sequenza in modo che il cambiamento semantico si dispieghi a una velocità costante, producendo transizioni più fluide e coerenti. Oltre alla linearizzazione, il nostro framework fornisce una base indipendente dal modello per identificare irregolarità temporali, confrontare il ritmo semantico tra diversi generatori e guidare sia sequenze video generate che del mondo reale verso un ritmo target arbitrario.

English

Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.

Analisi e Generazione Video tramite una Funzione di Progresso Semantico

Video Analysis and Generation via a Semantic Progress Function

Abstract

Support