Artículos de investigación en IA seleccionados diariamente con traducciones
La personalización ha surgido como un aspecto destacado en el campo de la IA generativa, permitiendo la síntesis de individuos en diversos contextos y estilos, mientras se mantiene una alta fidelidad a sus identidades. Sin embargo, el proceso de personalización presenta desafíos inherentes en términos de tiempo y requisitos de memoria. El ajuste fino de cada modelo personalizado requiere una inversión considerable de tiempo en GPU, y almacenar un modelo personalizado por sujeto puede ser exigente en términos de capacidad de almacenamiento. Para superar estos desafíos, proponemos HyperDreamBooth, una hiperred capaz de generar eficientemente un pequeño conjunto de pesos personalizados a partir de una sola imagen de una persona. Al componer estos pesos en el modelo de difusión, junto con un ajuste fino rápido, HyperDreamBooth puede generar el rostro de una persona en varios contextos y estilos, con detalles precisos del sujeto, mientras preserva el conocimiento crucial del modelo sobre diversos estilos y modificaciones semánticas. Nuestro método logra la personalización de rostros en aproximadamente 20 segundos, 25 veces más rápido que DreamBooth y 125 veces más rápido que Textual Inversion, utilizando tan solo una imagen de referencia, con la misma calidad y diversidad de estilos que DreamBooth. Además, nuestro método produce un modelo que es 10,000 veces más pequeño que un modelo normal de DreamBooth. Página del proyecto: https://hyperdreambooth.github.io
La personalización de texto a imagen (T2I) permite a los usuarios guiar el proceso de generación creativa de imágenes al combinar sus propios conceptos visuales en indicaciones de lenguaje natural. Recientemente, las técnicas basadas en codificadores han surgido como un nuevo enfoque efectivo para la personalización T2I, reduciendo la necesidad de múltiples imágenes y tiempos de entrenamiento prolongados. Sin embargo, la mayoría de los codificadores existentes están limitados a un dominio de una sola clase, lo que dificulta su capacidad para manejar conceptos diversos. En este trabajo, proponemos un método agnóstico al dominio que no requiere ningún conjunto de datos especializado ni información previa sobre los conceptos personalizados. Introducimos una novedosa técnica de regularización basada en contraste para mantener una alta fidelidad a las características del concepto objetivo, manteniendo las incrustaciones predichas cerca de regiones editables del espacio latente, al empujar los tokens predichos hacia sus tokens CLIP existentes más cercanos. Nuestros resultados experimentales demuestran la efectividad de nuestro enfoque y muestran cómo los tokens aprendidos son más semánticos que los tokens predichos por modelos no regularizados. Esto conduce a una mejor representación que logra un rendimiento de vanguardia mientras es más flexible que los métodos anteriores.
La generación de videos para narrativas visuales puede ser un proceso tedioso y complejo que generalmente requiere filmación en vivo o renderizado de animaciones gráficas. Para sortear estos desafíos, nuestra idea clave es aprovechar la abundancia de clips de video existentes y sintetizar un video narrativo coherente personalizando sus apariencias. Logramos esto desarrollando un marco compuesto por dos módulos funcionales: (i) Recuperación de Estructura de Movimiento, que proporciona candidatos de video con el contexto de escena o movimiento deseado descrito por textos de consulta, y (ii) Síntesis de Texto a Video Guiada por Estructura, que genera videos alineados con la trama bajo la guía de la estructura de movimiento y las indicaciones de texto. Para el primer módulo, utilizamos un sistema de recuperación de video estándar y extraemos las profundidades del video como estructura de movimiento. Para el segundo módulo, proponemos un modelo de generación de video controlable que ofrece controles flexibles sobre la estructura y los personajes. Los videos se sintetizan siguiendo la guía estructural y las instrucciones de apariencia. Para garantizar la consistencia visual entre los clips, proponemos un enfoque efectivo de personalización de conceptos, que permite especificar las identidades deseadas de los personajes mediante indicaciones de texto. Experimentos extensos demuestran que nuestro enfoque exhibe ventajas significativas sobre varias líneas base existentes.
En este artículo, presentamos un enfoque novedoso para mejorar la calidad y la consistencia de las salidas generadas por modelos de lenguaje preentrenados a gran escala (LLMs, por sus siglas en inglés). La auto-consistencia ha surgido como un método efectivo para prompts con respuestas fijas, seleccionando la respuesta con el mayor número de votos. En este trabajo, introducimos un marco generalizado para la auto-consistencia que amplía su aplicabilidad más allá de problemas con respuestas fijas. A través de simulaciones extensas, demostramos que nuestro enfoque recupera de manera consistente la generación óptima o casi óptima de un conjunto de candidatos. También proponemos funciones de similitud ligeras y sin parámetros que muestran mejoras significativas y consistentes en tareas de generación de código, autoformalización y resumen, incluso sin acceso a las probabilidades logarítmicas de los tokens. Nuestro método incurre en un sobrecargo computacional mínimo, sin requerir modelos de reranking adicionales ni modificaciones al modelo existente.