Análise e Geração de Vídeo por meio de uma Função de Progresso Semântica

Resumo

As transformações produzidas por modelos de geração de imagem e vídeo frequentemente evoluem de maneira altamente não linear: longos trechos onde o conteúdo praticamente não se altera são seguidos por saltos semânticos súbitos e abruptos. Para analisar e corrigir este comportamento, introduzimos uma Função de Progressão Semântica, uma representação unidimensional que captura como o significado de uma determinada sequência evolui ao longo do tempo. Para cada quadro, calculamos as distâncias entre *embeddings* semânticos e ajustamos uma curva suave que reflete a mudança semântica cumulativa ao longo da sequência. Os desvios desta curva em relação a uma linha reta revelam um ritmo semântico irregular. Com base nessa perceção, propomos um procedimento de linearização semântica que reparametriza (ou reajusta o *timing* de) a sequência para que a mudança semântica se desdobre a uma taxa constante, resultando em transições mais suaves e coerentes. Para além da linearização, a nossa estrutura fornece uma base independente do modelo para identificar irregularidades temporais, comparar o ritmo semântico entre diferentes geradores e orientar sequências de vídeo geradas e do mundo real em direção a um ritmo de destino arbitrário.

English

Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.

Análise e Geração de Vídeo por meio de uma Função de Progresso Semântica

Video Analysis and Generation via a Semantic Progress Function

Resumo

Support