Artículos de investigación en IA seleccionados diariamente con traducciones
La síntesis de contenido visual que satisfaga las necesidades de los usuarios a menudo requiere un control flexible y preciso sobre la pose, forma, expresión y disposición de los objetos generados. Los enfoques existentes logran controlar las redes generativas adversarias (GANs) mediante datos de entrenamiento anotados manualmente o un modelo 3D previo, lo que suele carecer de flexibilidad, precisión y generalidad. En este trabajo, estudiamos una forma poderosa pero mucho menos explorada de controlar las GANs, que consiste en "arrastrar" cualquier punto de la imagen para alcanzar de manera precisa puntos objetivo de forma interactiva, como se muestra en la Fig.1. Para lograrlo, proponemos DragGAN, que consta de dos componentes principales: 1) una supervisión de movimiento basada en características que impulsa el punto de control a moverse hacia la posición objetivo, y 2) un nuevo enfoque de seguimiento de puntos que aprovecha las características discriminativas del generador para localizar continuamente la posición de los puntos de control. Con DragGAN, cualquier persona puede deformar una imagen con un control preciso sobre el destino de los píxeles, manipulando así la pose, forma, expresión y disposición de diversas categorías como animales, coches, humanos, paisajes, etc. Dado que estas manipulaciones se realizan en el manifold generativo aprendido de una GAN, tienden a producir resultados realistas incluso en escenarios desafiantes, como la alucinación de contenido ocluido y la deformación de formas que siguen consistentemente la rigidez del objeto. Tanto las comparaciones cualitativas como cuantitativas demuestran la ventaja de DragGAN sobre enfoques previos en las tareas de manipulación de imágenes y seguimiento de puntos. También mostramos la manipulación de imágenes reales mediante inversión de GAN.
Los modelos de lenguaje se están implementando cada vez más para la resolución general de problemas en una amplia gama de tareas, pero aún están limitados a procesos de toma de decisiones a nivel de tokens, de izquierda a derecha, durante la inferencia. Esto significa que pueden fallar en tareas que requieren exploración, anticipación estratégica o donde las decisiones iniciales juegan un papel crucial. Para superar estos desafíos, presentamos un nuevo marco para la inferencia de modelos de lenguaje, Árbol de Pensamientos (Tree of Thoughts, ToT), que generaliza el enfoque popular de Cadena de Pensamiento (Chain of Thought) para la activación de modelos de lenguaje y permite la exploración sobre unidades coherentes de texto (pensamientos) que sirven como pasos intermedios hacia la resolución de problemas. ToT permite a los modelos de lenguaje realizar una toma de decisiones deliberada al considerar múltiples rutas de razonamiento y autoevaluar las opciones para decidir el siguiente curso de acción, así como anticipar o retroceder cuando sea necesario para tomar decisiones globales. Nuestros experimentos muestran que ToT mejora significativamente las habilidades de resolución de problemas de los modelos de lenguaje en tres tareas novedosas que requieren planificación o búsqueda no trivial: Juego del 24, Escritura Creativa y Mini Crucigramas. Por ejemplo, en el Juego del 24, mientras que GPT-4 con activación de cadena de pensamiento solo resolvió el 4% de las tareas, nuestro método logró una tasa de éxito del 74%. Repositorio de código con todos los prompts: https://github.com/ysymyth/tree-of-thought-llm.
Este artículo de investigación propone un Modelo de Difusión Latente para 3D (LDM3D) que genera tanto imágenes como mapas de profundidad a partir de un texto descriptivo, permitiendo a los usuarios crear imágenes RGBD a partir de indicaciones textuales. El modelo LDM3D se ajusta finamente sobre un conjunto de datos que contiene tuplas de imágenes RGB, mapas de profundidad y descripciones, y se valida mediante experimentos exhaustivos. También desarrollamos una aplicación llamada DepthFusion, que utiliza las imágenes RGB y los mapas de profundidad generados para crear experiencias inmersivas e interactivas de 360 grados utilizando TouchDesigner. Esta tecnología tiene el potencial de transformar una amplia gama de industrias, desde el entretenimiento y los videojuegos hasta la arquitectura y el diseño. En general, este artículo presenta una contribución significativa al campo de la IA generativa y la visión por computadora, y muestra el potencial de LDM3D y DepthFusion para revolucionar la creación de contenido y las experiencias digitales. Un video breve que resume el enfoque se puede encontrar en https://t.ly/tdi2.
Presentamos OpenShape, un método para aprender representaciones conjuntas multimodales de texto, imágenes y nubes de puntos. Adoptamos el marco de aprendizaje contrastivo multimodal comúnmente utilizado para la alineación de representaciones, pero con un enfoque específico en escalar las representaciones 3D para permitir la comprensión de formas 3D en un mundo abierto. Para lograr esto, escalamos los datos de entrenamiento mediante el ensamblaje de múltiples conjuntos de datos 3D y proponemos varias estrategias para filtrar y enriquecer automáticamente las descripciones de texto ruidosas. También exploramos y comparamos estrategias para escalar las redes principales 3D e introducimos un nuevo módulo de minería de negativos difíciles para un entrenamiento más eficiente. Evaluamos OpenShape en benchmarks de clasificación 3D de cero disparos y demostramos sus capacidades superiores para el reconocimiento en un mundo abierto. Específicamente, OpenShape logra una precisión de cero disparos del 46.8% en el benchmark Objaverse-LVIS de 1,156 categorías, en comparación con menos del 10% de los métodos existentes. OpenShape también alcanza una precisión del 85.3% en ModelNet40, superando a los métodos de referencia de cero disparos anteriores en un 20% y desempeñándose a la par con algunos métodos completamente supervisados. Además, mostramos que nuestros embeddings aprendidos codifican una amplia gama de conceptos visuales y semánticos (por ejemplo, subcategorías, color, forma, estilo) y facilitan interacciones detalladas entre texto-3D e imagen-3D. Debido a su alineación con los embeddings de CLIP, nuestras representaciones de formas aprendidas también pueden integrarse con modelos basados en CLIP listos para usar en diversas aplicaciones, como la generación de descripciones de nubes de puntos y la generación de imágenes condicionadas por nubes de puntos.
Los modelos de lenguaje multimodal de gran escala son considerados un paso crucial hacia la Inteligencia General Artificial (AGI) y han captado un interés significativo con la aparición de ChatGPT. Sin embargo, los modelos actuales de lenguaje y voz suelen adoptar el paradigma en cascada, lo que impide la transferencia de conocimiento entre modalidades. En este artículo, proponemos SpeechGPT, un modelo de lenguaje de gran escala con capacidades conversacionales intrínsecas entre modalidades, capaz de percibir y generar contenido multimodal. Utilizando representaciones discretas del habla, primero construimos SpeechInstruct, un conjunto de datos a gran escala de instrucciones de habla multimodal. Además, empleamos una estrategia de entrenamiento en tres etapas que incluye pre-entrenamiento de adaptación a la modalidad, ajuste fino de instrucciones multimodales y ajuste fino de instrucciones en cadena de modalidades. Los resultados experimentales demuestran que SpeechGPT tiene una capacidad impresionante para seguir instrucciones humanas multimodales y resaltan el potencial de manejar múltiples modalidades con un solo modelo. Las demostraciones se muestran en https://0nutation.github.io/SpeechGPT.github.io/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han acelerado notablemente el progreso hacia la inteligencia artificial general (AGI), gracias a su impresionante capacidad de zero-shot para tareas personalizadas por el usuario, lo que les otorga un enorme potencial en una amplia gama de aplicaciones. Sin embargo, en el campo de la visión por computadora, a pesar de la disponibilidad de numerosos modelos base de visión (VFMs) potentes, estos aún están restringidos a tareas en un formato predefinido, luchando por igualar las capacidades de tareas abiertas de los LLMs. En este trabajo, presentamos un marco basado en LLMs para tareas centradas en la visión, denominado VisionLLM. Este marco proporciona una perspectiva unificada para tareas de visión y lenguaje al tratar las imágenes como un lenguaje extranjero y alinear las tareas centradas en la visión con tareas de lenguaje que pueden definirse y gestionarse de manera flexible mediante instrucciones de lenguaje. Un decodificador basado en LLMs puede entonces hacer predicciones apropiadas basadas en estas instrucciones para tareas abiertas. Experimentos extensos muestran que el VisionLLM propuesto puede lograr diferentes niveles de personalización de tareas a través de instrucciones de lenguaje, desde la personalización a nivel de objeto de grano fino hasta la personalización a nivel de tarea de grano grueso, todo con buenos resultados. Es destacable que, con un marco generalista basado en LLMs, nuestro modelo puede alcanzar más del 60\% de mAP en COCO, a la par con modelos específicos de detección. Esperamos que este modelo pueda establecer un nuevo punto de referencia para modelos generalistas de visión y lenguaje. La demostración se lanzará basada en https://github.com/OpenGVLab/InternGPT. El código se lanzará en https://github.com/OpenGVLab/VisionLLM.
Lograr la autonomía de las máquinas y el control humano suelen representar objetivos divergentes en el diseño de sistemas de IA interactivos. Los modelos generativos visuales de base, como Stable Diffusion, muestran potencial para abordar estas metas, especialmente cuando se les proporcionan instrucciones en lenguajes arbitrarios. Sin embargo, a menudo fallan en generar imágenes con controles espaciales, estructurales o geométricos. La integración de dichos controles, que pueden acomodar diversas condiciones visuales en un único modelo unificado, sigue siendo un desafío sin resolver. En respuesta, presentamos UniControl, un nuevo modelo generativo de base que consolida una amplia gama de tareas controlables de condición a imagen (C2I) dentro de un marco singular, permitiendo aún el uso de instrucciones lingüísticas arbitrarias. UniControl permite la generación de imágenes con precisión a nivel de píxel, donde las condiciones visuales influyen principalmente en las estructuras generadas y las instrucciones lingüísticas guían el estilo y el contexto. Para dotar a UniControl de la capacidad de manejar diversas condiciones visuales, mejoramos los modelos de difusión de texto a imagen preentrenados e introducimos un HyperNet consciente de la tarea para modular los modelos de difusión, permitiendo la adaptación a diferentes tareas C2I simultáneamente. Entrenado en nueve tareas C2I únicas, UniControl demuestra impresionantes habilidades de generación zero-shot con condiciones visuales no vistas. Los resultados experimentales muestran que UniControl a menudo supera el rendimiento de métodos controlados por una sola tarea con tamaños de modelo comparables. Esta versatilidad de control posiciona a UniControl como un avance significativo en el ámbito de la generación visual controlable.
Los modelos de difusión han ganado creciente atención por sus impresionantes capacidades de generación, pero actualmente enfrentan dificultades para renderizar texto preciso y coherente. Para abordar este problema, presentamos TextDiffuser, centrado en generar imágenes con texto visualmente atractivo que sea coherente con los fondos. TextDiffuser consta de dos etapas: primero, un modelo Transformer genera el diseño de palabras clave extraídas de los prompts de texto, y luego los modelos de difusión generan imágenes condicionadas por el prompt de texto y el diseño generado. Además, contribuimos con el primer conjunto de datos a gran escala de imágenes con texto y anotaciones OCR, MARIO-10M, que contiene 10 millones de pares imagen-texto con anotaciones de reconocimiento de texto, detección y segmentación a nivel de caracteres. También recopilamos el benchmark MARIO-Eval para servir como una herramienta integral para evaluar la calidad de la renderización de texto. A través de experimentos y estudios de usuario, demostramos que TextDiffuser es flexible y controlable para crear imágenes de texto de alta calidad utilizando únicamente prompts de texto o junto con imágenes de plantillas de texto, y realiza inpainting de texto para reconstruir imágenes incompletas con texto. El código, el modelo y el conjunto de datos estarán disponibles en https://aka.ms/textdiffuser.
Mejorar la representación del texto ha atraído mucha atención para lograr una síntesis de voz (TTS) más expresiva. Sin embargo, los trabajos existentes solo aprenden implícitamente la prosodia mediante tareas de reconstrucción de tokens enmascarados, lo que conduce a una baja eficiencia en el entrenamiento y dificultades en el modelado de la prosodia. Proponemos CLAPSpeech, un marco de pre-entrenamiento contrastivo multimodal que aprende explícitamente la variación prosódica del mismo token de texto en diferentes contextos. Específicamente, 1) Fomentamos que el modelo conecte el contexto del texto con su patrón prosódico correspondiente en el espacio multimodal conjunto mediante un diseño elaborado de las entradas del codificador y la función de pérdida contrastiva; 2) Introducimos una canalización de pre-entrenamiento multiescala para capturar patrones prosódicos en múltiples niveles. Mostramos cómo incorporar CLAPSpeech en los modelos TTS existentes para mejorar la prosodia. Los experimentos en tres conjuntos de datos no solo demuestran que CLAPSpeech puede mejorar la predicción de la prosodia en los métodos TTS existentes, sino que también evidencian su capacidad de generalización para adaptarse a múltiples idiomas y TTS multi-hablante. También analizamos en profundidad el principio detrás del rendimiento de CLAPSpeech. Los estudios de ablación demuestran la necesidad de cada componente en nuestro método. El código fuente y muestras de audio están disponibles en https://clapspeech.github.io.
Los modelos de difusión, como Stable Diffusion, han demostrado un rendimiento increíble en la generación de imágenes a partir de texto. Dado que la generación de imágenes a partir de texto a menudo requiere que los modelos generen conceptos visuales con detalles y atributos específicos indicados en los prompts de texto, ¿podemos aprovechar las representaciones poderosas aprendidas por los modelos de difusión preentrenados para tareas discriminativas, como la correspondencia entre imágenes y texto? Para responder a esta pregunta, proponemos un enfoque novedoso, Discriminative Stable Diffusion (DSD), que convierte los modelos de difusión preentrenados para generación de imágenes a partir de texto en aprendices discriminativos de pocos ejemplos. Nuestro enfoque utiliza la puntuación de atención cruzada de un modelo Stable Diffusion para capturar la influencia mutua entre la información visual y textual, y ajusta el modelo mediante el aprendizaje de prompts basado en atención para realizar la correspondencia entre imágenes y texto. Al comparar DSD con métodos de vanguardia en varios conjuntos de datos de referencia, demostramos el potencial de utilizar modelos de difusión preentrenados para tareas discriminativas, obteniendo resultados superiores en la correspondencia entre imágenes y texto con pocos ejemplos.
La detección de objetos se ha ampliado desde un número limitado de categorías hasta un vocabulario abierto. Avanzando, un sistema de visión inteligente completo requiere comprender descripciones de objetos más detalladas y sus partes. En este artículo, proponemos un detector con la capacidad de predecir tanto objetos de vocabulario abierto como su segmentación de partes. Esta capacidad proviene de dos diseños. Primero, entrenamos el detector en la unión de datos a nivel de partes, a nivel de objeto y a nivel de imagen para construir la alineación multigranular entre el lenguaje y la imagen. Segundo, analizamos el objeto novedoso en sus partes mediante su correspondencia semántica densa con el objeto base. Estos dos diseños permiten que el detector se beneficie en gran medida de diversas fuentes de datos y modelos fundamentales. En experimentos de segmentación de partes de vocabulario abierto, nuestro método supera la línea base en 3.3 a 7.3 mAP en generalización entre conjuntos de datos en PartImageNet, y mejora la línea base en 7.3 AP_{50} novedoso en generalización entre categorías en Pascal Part. Finalmente, entrenamos un detector que generaliza a una amplia gama de conjuntos de datos de segmentación de partes, logrando un mejor rendimiento que el entrenamiento específico por conjunto de datos.
La evaluación de consistencia factual a menudo se realiza utilizando modelos de Inferencia del Lenguaje Natural (NLI, por sus siglas en inglés), aunque estos modelos muestran un éxito limitado al evaluar resúmenes. Trabajos previos han mejorado dichos modelos con datos de entrenamiento sintéticos. Sin embargo, estos datos suelen basarse en resúmenes escritos por humanos que han sido alterados, los cuales a menudo difieren en sus características de los resúmenes generados por modelos reales y tienen una cobertura limitada de posibles errores factuales. Alternativamente, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado recientemente resultados prometedores al evaluar directamente tareas generativas, pero son demasiado costosos computacionalmente para un uso práctico. Motivados por estas limitaciones, presentamos TrueTeacher, un método para generar datos sintéticos mediante la anotación de diversos resúmenes generados por modelos utilizando un LLM. A diferencia de trabajos anteriores, TrueTeacher no depende de resúmenes escritos por humanos y es multilingüe por naturaleza. Los experimentos en el benchmark TRUE muestran que un modelo estudiante entrenado con nuestros datos supera sustancialmente tanto al modelo de última generación con capacidad similar como al LLM maestro. En un estudio sistemático, comparamos TrueTeacher con métodos existentes de generación de datos sintéticos y demostramos su superioridad y robustez frente a cambios de dominio. Utilizando el conjunto de datos mFACE, también mostramos que nuestro método se generaliza a escenarios multilingües. Finalmente, publicamos un conjunto de datos sintéticos a gran escala con 1.4 millones de ejemplos generados usando TrueTeacher.
Presentamos nuestro trabajo sobre el desarrollo de un transformador de texto a texto multilingüe y eficiente, adecuado para manejar entradas largas. Este modelo, denominado mLongT5, se basa en la arquitectura de LongT5, aprovechando los conjuntos de datos multilingües utilizados para el preentrenamiento de mT5 y las tareas de preentrenamiento de UL2. Evaluamos este modelo en una variedad de tareas multilingües de resumen y respuesta a preguntas, y los resultados muestran un rendimiento superior de mLongT5 en comparación con modelos multilingües existentes como mBART o M-BERT.
La generación de música simbólica tiene como objetivo crear notas musicales que puedan ayudar a los usuarios a componer música, como generar pistas instrumentales objetivo desde cero o basándose en pistas fuente proporcionadas por el usuario. Dada la combinación diversa y flexible entre las pistas fuente y objetivo, es crucial contar con un modelo unificado capaz de generar cualquier pista arbitraria. Trabajos anteriores no han logrado abordar esta necesidad debido a limitaciones inherentes en las representaciones musicales y las arquitecturas de los modelos. Para resolver este problema, proponemos un marco de representación y difusión unificado llamado GETMusic (donde "GET" significa GEnerar pistas musicales), que incluye una nueva representación musical llamada GETScore y un modelo de difusión llamado GETDiff. GETScore representa las notas como tokens y las organiza en una estructura bidimensional, con las pistas apiladas verticalmente y avanzando horizontalmente en el tiempo. Durante el entrenamiento, las pistas se seleccionan aleatoriamente como objetivo o fuente. En el proceso de avance, las pistas objetivo se corrompen enmascarando sus tokens, mientras que las pistas fuente permanecen como verdad de referencia. En el proceso de eliminación de ruido, GETDiff aprende a predecir los tokens objetivo enmascarados, condicionados por las pistas fuente. Con pistas separadas en GETScore y el comportamiento no autoregresivo del modelo, GETMusic puede controlar explícitamente la generación de cualquier pista objetivo desde cero o condicionada por pistas fuente. Realizamos experimentos en generación musical que involucran seis pistas instrumentales, resultando en un total de 665 combinaciones. GETMusic ofrece resultados de alta calidad en diversas combinaciones y supera trabajos previos propuestos para algunas combinaciones específicas.
El texto visual evoca una imagen en la mente de una persona, mientras que el texto no visual no lo logra. Un método para detectar automáticamente la visualidad en el texto permitirá aumentar el texto con imágenes relevantes, ya que los modelos neuronales de generación y recuperación de texto a imagen operan bajo la suposición implícita de que el texto de entrada es visual por naturaleza. Recopilamos un conjunto de datos de 3.620 oraciones en inglés y sus puntuaciones de visualidad proporcionadas por múltiples anotadores humanos. Además, utilizamos documentos que contienen texto y recursos visuales para crear un corpus supervisado de manera distante de texto de documento e imágenes asociadas. También proponemos una estrategia de ajuste fino que adapta modelos grandes de visión y lenguaje, como CLIP, que asumen una correspondencia uno a uno entre texto e imagen, a la tarea de puntuar la visualidad del texto únicamente a partir de la entrada de texto. Nuestra estrategia implica modificar el objetivo de aprendizaje contrastivo del modelo para mapear texto identificado como no visual a una imagen NULL común, mientras se empareja texto visual con sus imágenes correspondientes en el documento. Evaluamos el enfoque propuesto en su capacidad para (i) clasificar texto visual y no visual con precisión, y (ii) enfocarse en palabras identificadas como visuales en estudios psicolingüísticos. La evaluación empírica indica que nuestro enfoque supera varias heurísticas y modelos de referencia para la tarea propuesta. Además, para resaltar la importancia de modelar la visualidad del texto, realizamos análisis cualitativos de sistemas de generación de texto a imagen como DALL-E.
Investigamos el uso de modelos de secuencias basados en transformadores (TDMs, por sus siglas en inglés) como modelos dinámicos para control. En una serie de experimentos dentro del conjunto de control de DeepMind, encontramos que, en primer lugar, los TDMs tienen un buen desempeño en un entorno de aprendizaje de un solo ambiente en comparación con modelos de referencia. En segundo lugar, los TDMs exhiben fuertes capacidades de generalización a entornos no vistos, tanto en un escenario de pocos ejemplos, donde un modelo generalista se ajusta con pequeñas cantidades de datos del entorno objetivo, como en un escenario de cero ejemplos, donde un modelo generalista se aplica a un entorno no visto sin ningún entrenamiento adicional. Además, demostramos que generalizar la dinámica del sistema puede funcionar mucho mejor que generalizar directamente el comportamiento óptimo como una política. Esto convierte a los TDMs en un componente prometedor para un modelo base de control.
Presentamos VideoFactory, un marco innovador para la generación de videos de alta calidad en dominios abiertos. VideoFactory destaca en la producción de videos en alta definición (1376x768), formato panorámico (16:9) y sin marcas de agua, creando una experiencia de usuario envolvente. La generación de videos guiada por instrucciones de texto plantea desafíos significativos, como modelar la compleja relación entre el espacio y el tiempo, y la falta de datos a gran escala de pares texto-video. Enfoques previos extienden modelos preentrenados de generación de texto a imagen mediante la adición de módulos de convolución/atención 1D temporal para la generación de videos. Sin embargo, estos enfoques pasan por alto la importancia de modelar conjuntamente el espacio y el tiempo, lo que inevitablemente conduce a distorsiones temporales y desalineaciones entre los textos y los videos. En este artículo, proponemos un enfoque novedoso que fortalece la interacción entre las percepciones espaciales y temporales. En particular, utilizamos un mecanismo de atención cruzada intercambiada en ventanas 3D que alterna el rol de "consulta" entre bloques espaciales y temporales, permitiendo un refuerzo mutuo entre ambos. Para desbloquear completamente las capacidades del modelo en la generación de videos de alta calidad, hemos creado un conjunto de datos de video a gran escala llamado HD-VG-130M. Este conjunto de datos comprende 130 millones de pares texto-video de dominio abierto, garantizando características de alta definición, formato panorámico y sin marcas de agua. Métricas objetivas y estudios de usuario demuestran la superioridad de nuestro enfoque en términos de calidad por fotograma, correlación temporal y alineación texto-video, con márgenes claros.
El Transformer preentrenado generativo (GPT) ha demostrado un gran éxito en el procesamiento del lenguaje natural, y técnicas relacionadas se han adaptado al modelado molecular. Considerando que el texto es el registro más importante para el descubrimiento científico, en este artículo proponemos MolXPT, un modelo de lenguaje unificado de texto y moléculas preentrenado en SMILES (una representación secuencial de moléculas) envuelto por texto. Brevemente, detectamos los nombres de las moléculas en cada secuencia y los reemplazamos por los SMILES correspondientes. De esta manera, los SMILES pueden aprovechar la información del texto circundante, y viceversa. Las secuencias envueltas mencionadas, las secuencias de texto de PubMed y las secuencias de SMILES de PubChem se introducen en un modelo de lenguaje para el preentrenamiento. Los resultados experimentales demuestran que MolXPT supera a los modelos de referencia en la predicción de propiedades moleculares en MoleculeNet, tiene un rendimiento comparable al mejor modelo en la traducción texto-molécula mientras utiliza menos de la mitad de sus parámetros, y permite la generación de moléculas en modo zero-shot sin necesidad de ajuste fino.
A pesar del progreso significativo en la generación de imágenes de alta calidad utilizando modelos de difusión, la síntesis de una secuencia de fotogramas animados que sean tanto fotorrealistas como temporalmente coherentes sigue en sus primeras etapas. Si bien existen conjuntos de datos de escala de miles de millones disponibles para la generación de imágenes, recopilar datos de video de una escala similar sigue siendo un desafío. Además, entrenar un modelo de difusión de video es computacionalmente mucho más costoso que su contraparte de imágenes. En este trabajo, exploramos el ajuste fino de un modelo de difusión de imágenes preentrenado con datos de video como una solución práctica para la tarea de síntesis de video. Descubrimos que extender de manera ingenua el ruido previo de imágenes al ruido previo de video en la difusión de video conduce a un rendimiento subóptimo. Nuestro diseño cuidadosamente elaborado del ruido previo de video resulta en un rendimiento sustancialmente mejor. Una validación experimental extensa muestra que nuestro modelo, Preserve Your Own Correlation (PYoCo), alcanza resultados de última generación (SOTA) en la generación de video a partir de texto (zero-shot text-to-video) en los benchmarks UCF-101 y MSR-VTT. También logra una calidad de generación de video de última generación en el benchmark de pequeña escala UCF-101 con un modelo 10 veces más pequeño, utilizando significativamente menos cómputo que las técnicas anteriores.