Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo presenta un modelo de difusión controlable de texto a video (T2V), denominado Video-ControlNet, que genera videos condicionados por una secuencia de señales de control, como mapas de bordes o de profundidad. Video-ControlNet se construye sobre un modelo preentrenado de difusión condicional de texto a imagen (T2I), incorporando un mecanismo de autoatención espacio-temporal y capas temporales entrenables para un modelado eficiente entre fotogramas. Se propone una estrategia de condicionamiento del primer fotograma para facilitar que el modelo genere videos transferidos desde el dominio de la imagen, así como videos de longitud arbitraria de manera autorregresiva. Además, Video-ControlNet emplea una novedosa estrategia de inicialización de ruido basada en residuos para introducir un previo de movimiento a partir de un video de entrada, produciendo videos más coherentes. Con la arquitectura y estrategias propuestas, Video-ControlNet puede lograr una convergencia eficiente en recursos y generar videos de calidad superior y consistentes con un control de grano fino. Experimentos exhaustivos demuestran su éxito en diversas tareas generativas de video, como la edición de videos y la transferencia de estilo en videos, superando a métodos anteriores en términos de consistencia y calidad. Página del proyecto: https://controlavideo.github.io/
Los modelos recientes de generación de imágenes a partir de texto han demostrado una capacidad impresionante para generar imágenes alineadas con el texto y de alta fidelidad. Sin embargo, generar imágenes de conceptos novedosos proporcionados por una imagen de entrada del usuario sigue siendo una tarea desafiante. Para abordar este problema, los investigadores han estado explorando diversos métodos para personalizar modelos preentrenados de generación de imágenes a partir de texto. Actualmente, la mayoría de los métodos existentes para personalizar estos modelos implican el uso de técnicas de regularización para evitar el sobreajuste. Si bien la regularización facilita el desafío de la personalización y conduce a la creación exitosa de contenido en relación con la guía del texto, puede restringir la capacidad del modelo, lo que resulta en la pérdida de información detallada y un rendimiento inferior. En este trabajo, proponemos un marco novedoso para la generación personalizada de imágenes a partir de texto sin el uso de regularización. Específicamente, nuestro marco propuesto consta de una red codificadora y un nuevo método de muestreo que puede abordar el problema de sobreajuste sin necesidad de regularización. Con el marco propuesto, podemos personalizar un modelo de generación de imágenes a partir de texto a gran escala en menos de medio minuto en una sola GPU, utilizando solo una imagen proporcionada por el usuario. Demostramos en experimentos que nuestro marco propuesto supera a los métodos existentes y preserva más detalles finos.