Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en la generación de texto a imagen han logrado un progreso notable en la síntesis de fotografías humanas realistas condicionadas por indicaciones de texto dadas. Sin embargo, los métodos existentes de generación personalizada no pueden satisfacer simultáneamente los requisitos de alta eficiencia, fidelidad prometedora de identidad (ID) y controlabilidad flexible del texto. En este trabajo, presentamos PhotoMaker, un método eficiente de generación de texto a imagen personalizado, que principalmente codifica un número arbitrario de imágenes de ID de entrada en una incrustación de ID en pila para preservar la información de ID. Dicha incrustación, que sirve como una representación unificada de ID, no solo puede encapsular de manera integral las características de la misma ID de entrada, sino también acomodar las características de diferentes IDs para su posterior integración. Esto allana el camino para aplicaciones más intrigantes y de valor práctico. Además, para impulsar el entrenamiento de nuestro PhotoMaker, proponemos una canalización de construcción de datos orientada a ID para ensamblar los datos de entrenamiento. Bajo el sustento del conjunto de datos construido a través de la canalización propuesta, nuestro PhotoMaker demuestra una mejor capacidad de preservación de ID que los métodos basados en ajuste fino en tiempo de prueba, además de ofrecer mejoras significativas en velocidad, resultados de generación de alta calidad, fuertes capacidades de generalización y una amplia gama de aplicaciones. Nuestra página del proyecto está disponible en https://photo-maker.github.io/.
La síntesis de interacciones humano-objeto semánticamente conscientes y de largo horizonte es fundamental para simular comportamientos humanos realistas. En este trabajo, abordamos el problema desafiante de generar movimientos sincronizados de objetos y humanos guiados por descripciones lingüísticas en escenas 3D. Proponemos Síntesis de Interacción Humano-Objeto Controlable (CHOIS), un enfoque que genera simultáneamente el movimiento de objetos y humanos utilizando un modelo de difusión condicional dada una descripción lingüística, los estados iniciales del objeto y del humano, y waypoints dispersos del objeto. Mientras que las descripciones lingüísticas informan sobre el estilo y la intención, los waypoints anclan el movimiento en la escena y pueden extraerse eficazmente utilizando métodos de planificación de alto nivel. Aplicar un modelo de difusión de manera ingenua no logra predecir el movimiento del objeto alineado con los waypoints de entrada y no puede garantizar el realismo de las interacciones que requieren un contacto preciso mano-objeto y un contacto adecuado anclado al suelo. Para superar estos problemas, introducimos una pérdida de geometría del objeto como supervisión adicional para mejorar la coincidencia entre el movimiento del objeto generado y los waypoints del objeto de entrada. Además, diseñamos términos de guía para imponer restricciones de contacto durante el proceso de muestreo del modelo de difusión entrenado.
La creación de contenido 3D a partir de una sola imagen es una tarea de larga data pero altamente deseable. Los avances recientes han introducido priores de difusión 2D, obteniendo resultados razonables. Sin embargo, los métodos existentes no son lo suficientemente hiperrealistas para su uso posterior a la generación, ya que los usuarios no pueden visualizar, renderizar y editar el contenido 3D resultante desde un rango completo. Para abordar estos desafíos, presentamos HyperDreamer con varios diseños clave y propiedades atractivas: 1) Visualizable: el modelado de mallas de 360 grados con texturas de alta resolución permite la creación de modelos 3D visualmente atractivos desde un rango completo de puntos de observación. 2) Renderizable: se incorporan segmentación semántica de grano fino y priores basados en datos como guía para aprender propiedades razonables de albedo, rugosidad y especularidad de los materiales, permitiendo la estimación arbitraria de materiales con conciencia semántica. 3) Editable: para un modelo generado o sus propios datos, los usuarios pueden seleccionar interactivamente cualquier región con unos pocos clics y editar eficientemente la textura con guía basada en texto. Experimentos extensos demuestran la efectividad de HyperDreamer en el modelado de materiales conscientes de la región con texturas de alta resolución y en la habilitación de ediciones amigables para el usuario. Creemos que HyperDreamer tiene potencial para avanzar en la creación de contenido 3D y encontrar aplicaciones en diversos dominios.
Los modelos de difusión de texto a video (T2V) a gran escala han logrado avances significativos en los últimos años en términos de calidad visual, movimiento y consistencia temporal. Sin embargo, el proceso de generación sigue siendo una caja negra, donde todos los atributos (por ejemplo, apariencia, movimiento) se aprenden y generan conjuntamente sin una capacidad de control precisa más allá de descripciones textuales generales. Inspirados por la animación de imágenes, que desacopla el video en una apariencia específica con el movimiento correspondiente, proponemos AnimateZero para desvelar el modelo de difusión de texto a video preentrenado, es decir, AnimateDiff, y proporcionarle capacidades de control más precisas sobre la apariencia y el movimiento. Para el control de la apariencia, tomamos prestados los latentes intermedios y sus características de la generación de texto a imagen (T2I) para asegurar que el primer fotograma generado sea igual a la imagen generada dada. Para el control temporal, reemplazamos la atención temporal global del modelo T2V original con nuestra propuesta de atención de ventana corregida posicionalmente para asegurar que los demás fotogramas se alineen bien con el primer fotograma. Potenciado por los métodos propuestos, AnimateZero puede controlar con éxito el proceso de generación sin necesidad de entrenamiento adicional. Como animador de imágenes de tipo zero-shot para imágenes dadas, AnimateZero también habilita múltiples aplicaciones nuevas, incluyendo la generación interactiva de videos y la animación de imágenes reales. Los experimentos detallados demuestran la efectividad del método propuesto tanto en T2V como en aplicaciones relacionadas.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ofrece un marco versátil para alcanzar objetivos a largo plazo. Su generalidad nos permite formalizar una amplia gama de problemas que enfrentan los sistemas inteligentes del mundo real, como lidiar con recompensas retrasadas, manejar la observabilidad parcial, abordar el dilema de exploración y explotación, utilizar datos fuera de línea para mejorar el rendimiento en línea y garantizar que se cumplan las restricciones de seguridad. A pesar del progreso considerable realizado por la comunidad de investigación en RL para abordar estos problemas, las bibliotecas de RL de código abierto existentes tienden a centrarse en una parte reducida de la cadena de soluciones de RL, dejando otros aspectos en gran medida desatendidos. Este artículo presenta Pearl, un paquete de software de agente de RL listo para producción, diseñado explícitamente para abordar estos desafíos de manera modular. Además de presentar resultados preliminares de referencia, este artículo destaca las adopciones de Pearl en la industria para demostrar su preparación para su uso en producción. Pearl es de código abierto en Github en github.com/facebookresearch/pearl y su sitio web oficial se encuentra en pearlagent.github.io.
Recientemente, los modelos de difusión han logrado avances notables en la generación de texto a imagen (T2I), sintetizando imágenes con alta fidelidad y contenidos diversos. A pesar de este progreso, la suavidad del espacio latente en los modelos de difusión sigue siendo en gran medida inexplorada. Los espacios latentes suaves garantizan que una perturbación en un latente de entrada corresponda a un cambio gradual en la imagen de salida. Esta propiedad resulta beneficiosa en tareas posteriores, como la interpolación, inversión y edición de imágenes. En este trabajo, exponemos la falta de suavidad en los espacios latentes de difusión al observar fluctuaciones visuales notables resultantes de variaciones latentes menores. Para abordar este problema, proponemos Smooth Diffusion, una nueva categoría de modelos de difusión que pueden ser simultáneamente de alto rendimiento y suaves. Específicamente, introducimos la Regularización de Variación Paso a Paso para garantizar que la proporción entre las variaciones de un latente de entrada arbitrario y las de la imagen de salida sea constante en cualquier paso del entrenamiento de difusión. Además, diseñamos una métrica de desviación estándar de interpolación (ISTD) para evaluar efectivamente la suavidad del espacio latente de un modelo de difusión. Experimentos cuantitativos y cualitativos exhaustivos demuestran que Smooth Diffusion se destaca como una solución más deseable no solo en la generación T2I, sino también en diversas tareas posteriores. Smooth Diffusion se implementa como un Smooth-LoRA plug-and-play para funcionar con varios modelos comunitarios. El código está disponible en https://github.com/SHI-Labs/Smooth-Diffusion.
En este estudio, exploramos modelos de difusión basados en Transformers para la generación de imágenes y videos. A pesar del dominio de las arquitecturas Transformer en diversos campos debido a su flexibilidad y escalabilidad, el dominio de la generación visual utiliza principalmente arquitecturas U-Net basadas en CNN, particularmente en modelos basados en difusión. Introducimos GenTron, una familia de modelos generativos que emplean difusión basada en Transformers, para abordar esta brecha. Nuestro primer paso fue adaptar los Transformers de Difusión (DiTs) del condicionamiento por clase al condicionamiento por texto, un proceso que implicó una exploración empírica exhaustiva del mecanismo de condicionamiento. Luego, escalamos GenTron desde aproximadamente 900M a más de 3B parámetros, observando mejoras significativas en la calidad visual. Además, extendemos GenTron a la generación de texto a video, incorporando una novedosa guía sin movimiento para mejorar la calidad del video. En evaluaciones humanas frente a SDXL, GenTron logra una tasa de victoria del 51.1% en calidad visual (con un 19.8% de empates) y una tasa de victoria del 42.3% en alineación de texto (con un 42.9% de empates). GenTron también destaca en el T2I-CompBench, destacando sus fortalezas en la generación composicional. Creemos que este trabajo proporcionará insights significativos y servirá como una referencia valiosa para futuras investigaciones.
Proponemos NeRFiller, un enfoque que completa las porciones faltantes de una captura 3D mediante la restauración generativa 3D utilizando modelos generativos visuales 2D disponibles comercialmente. A menudo, partes de una escena u objeto capturados en 3D están incompletas debido a fallos en la reconstrucción de la malla o a la falta de observaciones (por ejemplo, regiones de contacto, como la base de los objetos, o áreas de difícil acceso). Abordamos este desafiante problema de restauración 3D aprovechando un modelo de difusión para restauración 2D. Identificamos un comportamiento sorprendente de estos modelos, donde generan restauraciones más consistentes en 3D cuando las imágenes forman una cuadrícula de 2x2, y mostramos cómo generalizar este comportamiento a más de cuatro imágenes. Luego, presentamos un marco iterativo para destilar estas regiones restauradas en una única escena 3D consistente. A diferencia de trabajos relacionados, nos enfocamos en completar escenas en lugar de eliminar objetos en primer plano, y nuestro enfoque no requiere máscaras 2D ajustadas de objetos ni texto. Comparamos nuestro enfoque con líneas base relevantes adaptadas a nuestro escenario en una variedad de escenas, donde NeRFiller crea las completaciones de escenas más consistentes y plausibles en 3D. Nuestra página del proyecto se encuentra en https://ethanweber.me/nerfiller.
Recientemente, los modelos de difusión han mostrado mejoras en la calidad de imágenes sintéticas, así como un mayor control en la generación. Motivamos y presentamos Gen2Det, una canalización modular y sencilla para crear datos de entrenamiento sintéticos para detección de objetos de manera gratuita, aprovechando métodos de generación de imágenes anclados de última generación. A diferencia de trabajos existentes que generan instancias de objetos individuales, requieren identificar el primer plano y luego pegarlo en otras imágenes, simplificamos el proceso generando directamente imágenes centradas en escenas. Además de los datos sintéticos, Gen2Det también propone un conjunto de técnicas para aprovechar al máximo los datos generados, incluyendo filtrado a nivel de imagen, filtrado a nivel de instancia y una mejor receta de entrenamiento para contrarrestar las imperfecciones en la generación. Utilizando Gen2Det, mostramos mejoras significativas en tareas de detección y segmentación de objetos en diversos escenarios, independientemente de los métodos de detección. En el escenario de detección de cola larga en LVIS, Gen2Det mejora considerablemente el rendimiento en categorías raras, mientras que también mejora significativamente el rendimiento en otras categorías, por ejemplo, observamos una mejora de 2.13 Box AP y 1.84 Mask AP sobre el entrenamiento solo con datos reales en LVIS con Mask R-CNN. En el escenario de bajo volumen de datos en COCO, Gen2Det mejora consistentemente tanto Box AP como Mask AP en 2.27 y 1.85 puntos, respectivamente. En el escenario de detección más general, Gen2Det sigue demostrando ganancias robustas en el rendimiento, por ejemplo, mejora Box AP y Mask AP en COCO en 0.45 y 0.32 puntos.
La generación personalizada utilizando modelos de difusión ha logrado avances impresionantes en la generación de imágenes, pero sigue siendo insatisfactoria en la desafiante tarea de generación de videos, ya que requiere controlabilidad tanto de los sujetos como de los movimientos. Con este fin, presentamos DreamVideo, un enfoque novedoso para generar videos personalizados a partir de unas pocas imágenes estáticas del sujeto deseado y algunos videos del movimiento objetivo. DreamVideo desacopla esta tarea en dos etapas: aprendizaje del sujeto y aprendizaje del movimiento, aprovechando un modelo de difusión de video preentrenado. El aprendizaje del sujeto tiene como objetivo capturar con precisión la apariencia detallada del sujeto a partir de las imágenes proporcionadas, lo cual se logra combinando la inversión textual y el ajuste fino de nuestro adaptador de identidad cuidadosamente diseñado. En el aprendizaje del movimiento, diseñamos un adaptador de movimiento y lo ajustamos en los videos dados para modelar efectivamente el patrón de movimiento objetivo. La combinación de estos dos adaptadores ligeros y eficientes permite la personalización flexible de cualquier sujeto con cualquier movimiento. Los resultados experimentales extensivos demuestran el rendimiento superior de nuestro DreamVideo sobre los métodos más avanzados para la generación de videos personalizados. Nuestra página del proyecto se encuentra en https://dreamvideo-t2v.github.io.
Los recientes avances significativos en los modelos de texto a imagen abren la posibilidad de entrenar sistemas de visión utilizando imágenes sintéticas, lo que podría superar la dificultad de recopilar datos curados a gran escala. Sin embargo, no está claro cómo se comportan estos modelos a medida que se añaden más datos sintéticos al conjunto de entrenamiento. En este artículo estudiamos las leyes de escalamiento de imágenes sintéticas generadas por modelos de texto a imagen de última generación, para el entrenamiento de modelos supervisados: clasificadores de imágenes con supervisión de etiquetas y CLIP con supervisión lingüística. Identificamos varios factores, como los textos de entrada, la escala de guía sin clasificador y los tipos de modelos de texto a imagen, que afectan significativamente el comportamiento de escalamiento. Tras ajustar estos factores, observamos que las imágenes sintéticas muestran una tendencia de escalamiento similar, aunque ligeramente menos efectiva, a las imágenes reales en el entrenamiento de CLIP, mientras que su rendimiento es significativamente inferior al escalar en el entrenamiento de clasificadores de imágenes supervisados. Nuestro análisis indica que la principal razón de este bajo rendimiento es la incapacidad de los modelos de texto a imagen estándar para generar ciertos conceptos, una limitación que perjudica significativamente el entrenamiento de clasificadores de imágenes. Nuestros hallazgos también sugieren que el escalamiento de datos sintéticos puede ser particularmente efectivo en escenarios como: (1) cuando hay un suministro limitado de imágenes reales para un problema supervisado (por ejemplo, menos de 0.5 millones de imágenes en ImageNet), (2) cuando el conjunto de datos de evaluación diverge significativamente de los datos de entrenamiento, indicando un escenario fuera de distribución, o (3) cuando los datos sintéticos se utilizan junto con imágenes reales, como se demuestra en el entrenamiento de modelos CLIP.
A pesar de que los modelos de difusión han demostrado una gran capacidad para generar imágenes fotorrealistas, la generación de videos que sean realistas y diversos sigue estando en sus primeras etapas. Una de las razones clave es que los métodos actuales entrelazan el contenido espacial y la dinámica temporal, lo que aumenta notablemente la complejidad de la generación de texto a video (T2V). En este trabajo, proponemos HiGen, un método basado en modelos de difusión que mejora el rendimiento al desacoplar los factores espaciales y temporales de los videos desde dos perspectivas: el nivel de estructura y el nivel de contenido. En el nivel de estructura, descomponemos la tarea T2V en dos pasos, que incluyen el razonamiento espacial y el razonamiento temporal, utilizando un desenredador unificado. Específicamente, generamos prioridades espacialmente coherentes utilizando texto durante el razonamiento espacial y luego generamos movimientos temporalmente coherentes a partir de estas prioridades durante el razonamiento temporal. En el nivel de contenido, extraemos dos pistas sutiles del contenido del video de entrada que pueden expresar cambios de movimiento y apariencia, respectivamente. Estas dos pistas luego guían el entrenamiento del modelo para generar videos, permitiendo variaciones de contenido flexibles y mejorando la estabilidad temporal. A través del paradigma desacoplado, HiGen puede reducir efectivamente la complejidad de esta tarea y generar videos realistas con precisión semántica y estabilidad de movimiento. Experimentos extensos demuestran el rendimiento superior de HiGen sobre los métodos T2V más avanzados.