Análisis y Generación de Vídeo mediante una Función de Progreso Semántico

Resumen

Las transformaciones producidos por los modelos de generación de imágenes y vídeos a menudo evolucionan de manera altamente no lineal: largos tramos en los que el contenido apenas cambia son seguidos por saltos semánticos repentinos y abruptos. Para analizar y corregir este comportamiento, introducimos una Función de Progreso Semántico, una representación unidimensional que captura cómo evoluciona el significado de una secuencia dada a lo largo del tiempo. Para cada fotograma, calculamos las distancias entre los *embeddings* semánticos y ajustamos una curva suave que refleja el cambio semántico acumulado a lo largo de la secuencia. Las desviaciones de esta curva respecto a una línea recta revelan un ritmo semántico irregular. Basándonos en esta idea, proponemos un procedimiento de linearización semántica que reparametriza (o reajusta temporalmente) la secuencia para que el cambio semántico se desarrolle a un ritmo constante, produciendo transiciones más suaves y coherentes. Más allá de la linearización, nuestro marco proporciona una base independiente del modelo para identificar irregularidades temporales, comparar el ritmo semántico entre diferentes generadores y dirigir tanto secuencias de vídeo generadas como del mundo real hacia un ritmo objetivo arbitrario.

English

Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.

Análisis y Generación de Vídeo mediante una Función de Progreso Semántico

Video Analysis and Generation via a Semantic Progress Function

Resumen

Support