Artículos de investigación en IA seleccionados diariamente con traducciones
En este trabajo, proponemos MagicDance, un modelo basado en difusión para la transferencia de movimiento humano 2D y expresiones faciales en videos desafiantes de baile humano. Específicamente, nuestro objetivo es generar videos de baile humano de cualquier identidad objetivo impulsados por secuencias de poses novedosas, manteniendo la identidad sin cambios. Para lograrlo, proponemos una estrategia de entrenamiento en dos etapas para separar los movimientos humanos y la apariencia (por ejemplo, expresiones faciales, tono de piel y vestimenta), que consiste en el preentrenamiento de un bloque de control de apariencia y el ajuste fino de un bloque de control conjunto de apariencia y pose sobre poses de baile humano del mismo conjunto de datos. Nuestro diseño novedoso permite un control robusto de la apariencia con consistencia temporal en la parte superior del cuerpo, atributos faciales e incluso el fondo. El modelo también generaliza bien en identidades humanas no vistas y secuencias de movimiento complejas sin necesidad de ajuste fino adicional con datos que contengan diversos atributos humanos, aprovechando el conocimiento previo de los modelos de difusión de imágenes. Además, el modelo propuesto es fácil de usar y puede considerarse como un módulo/extensión complementario para Stable Diffusion. También demostramos la capacidad del modelo para la generación de animación 2D en modo zero-shot, permitiendo no solo la transferencia de apariencia de una identidad a otra, sino también la estilización de tipo caricatura dado únicamente entradas de poses. Experimentos extensivos demuestran nuestro rendimiento superior en el conjunto de datos de TikTok.
La síntesis de voz basada en modelos de lenguaje de gran escala (LLM) ha sido ampliamente adoptada en la síntesis de voz zero-shot. Sin embargo, estos modelos requieren un gran volumen de datos y presentan las mismas limitaciones que los modelos de voz autorregresivos anteriores, incluyendo una velocidad de inferencia lenta y falta de robustez. Este artículo propone HierSpeech++, un sintetizador de voz zero-shot rápido y potente para la conversión de texto a voz (TTS) y la conversión de voz (VC). Verificamos que los marcos de síntesis de voz jerárquica podrían mejorar significativamente la robustez y expresividad de la voz sintética. Además, mejoramos notablemente la naturalidad y la similitud del hablante en la voz sintética, incluso en escenarios de síntesis de voz zero-shot. Para la conversión de texto a voz, adoptamos el marco text-to-vec, que genera una representación de voz auto-supervisada y una representación de F0 basada en representaciones de texto y señales de prosodia. Luego, HierSpeech++ genera voz a partir del vector generado, F0 y una señal de voz. También introducimos un marco eficiente de super-resolución de voz de 16 kHz a 48 kHz. Los resultados experimentales demostraron que el autoencoder variacional jerárquico puede ser un potente sintetizador de voz zero-shot, ya que supera a los modelos basados en LLM y en difusión. Además, logramos la primera síntesis de voz zero-shot con calidad a nivel humano. Las muestras de audio y el código fuente están disponibles en https://github.com/sh-lee-prml/HierSpeechpp.
Proponemos un método para permitir la extracción precisa y extremadamente rápida de mallas a partir de Gaussian Splatting 3D. Gaussian Splatting ha ganado mucha popularidad recientemente, ya que produce renderizados realistas mientras es significativamente más rápido de entrenar que los NeRFs. Sin embargo, es un desafío extraer una malla a partir de los millones de gaussianos 3D pequeños, ya que estos gaussianos tienden a estar desorganizados después de la optimización y hasta ahora no se ha propuesto ningún método para ello. Nuestra primera contribución clave es un término de regularización que fomenta que los gaussianos se alineen bien con la superficie de la escena. Luego, introducimos un método que aprovecha esta alineación para extraer una malla a partir de los gaussianos utilizando la reconstrucción de Poisson, la cual es rápida, escalable y preserva los detalles, en contraste con el algoritmo Marching Cubes que suele aplicarse para extraer mallas a partir de SDFs neuronales. Finalmente, presentamos una estrategia opcional de refinamiento que vincula los gaussianos a la superficie de la malla y optimiza conjuntamente estos gaussianos y la malla mediante el renderizado de Gaussian Splatting. Esto permite la edición, escultura, rigging, animación, composición y reiluminación sencilla de los gaussianos utilizando software tradicional al manipular la malla en lugar de los gaussianos mismos. La obtención de una malla editable para renderizados realistas se realiza en minutos con nuestro método, en comparación con las horas que requieren los métodos más avanzados en SDFs neuronales, mientras se ofrece una mejor calidad de renderizado.
A pesar de los impresionantes avances recientes en los modelos de difusión de texto a imagen, obtener imágenes de alta calidad a menudo requiere ingeniería de prompts por parte de humanos que han desarrollado experiencia en su uso. En este trabajo, presentamos NeuroPrompts, un marco adaptativo que mejora automáticamente el prompt de un usuario para elevar la calidad de las generaciones producidas por modelos de texto a imagen. Nuestro marco utiliza decodificación de texto restringida con un modelo de lenguaje preentrenado que ha sido adaptado para generar prompts similares a los producidos por ingenieros de prompts humanos. Este enfoque permite generaciones de texto a imagen de mayor calidad y brinda al usuario control sobre características estilísticas mediante la especificación de un conjunto de restricciones. Demostramos la utilidad de nuestro marco creando una aplicación interactiva para la mejora de prompts y la generación de imágenes utilizando Stable Diffusion. Además, realizamos experimentos utilizando un gran conjunto de datos de prompts diseñados por humanos para la generación de texto a imagen y mostramos que nuestro enfoque produce automáticamente prompts mejorados que resultan en una calidad de imagen superior. Hacemos público nuestro código, un video demostrativo y una instancia en vivo de NeuroPrompts.
Presentamos un método para crear controles deslizantes de conceptos interpretables que permiten un control preciso sobre atributos en generaciones de imágenes a partir de modelos de difusión. Nuestro enfoque identifica una dirección de parámetros de bajo rango correspondiente a un concepto mientras minimiza la interferencia con otros atributos. Un control deslizante se crea utilizando un pequeño conjunto de indicaciones o imágenes de muestra; por lo tanto, las direcciones de los controles deslizantes pueden crearse tanto para conceptos textuales como visuales. Los Controles Deslizantes de Conceptos son plug-and-play: pueden componerse de manera eficiente y modularse continuamente, permitiendo un control preciso sobre la generación de imágenes. En experimentos cuantitativos comparados con técnicas de edición anteriores, nuestros controles deslizantes muestran ediciones más específicas con menor interferencia. Mostramos controles deslizantes para clima, edad, estilos y expresiones, así como composiciones de controles deslizantes. Demostramos cómo los controles deslizantes pueden transferir latentes de StyleGAN para una edición intuitiva de conceptos visuales para los cuales la descripción textual es difícil. También encontramos que nuestro método puede ayudar a abordar problemas persistentes de calidad en Stable Diffusion XL, incluyendo la reparación de deformaciones de objetos y la corrección de manos distorsionadas. Nuestro código, datos y controles deslizantes entrenados están disponibles en https://sliders.baulab.info/.
Presentamos PhysGaussian, un nuevo método que integra de manera fluida la dinámica newtoniana físicamente fundamentada dentro de gaussianas 3D para lograr una síntesis de movimiento novedoso de alta calidad. Empleando un Método de Puntos Materiales (MPM) personalizado, nuestro enfoque enriquece los núcleos gaussianos 3D con atributos cinemáticos de deformación y tensión mecánica con significado físico, todos evolucionados de acuerdo con los principios de la mecánica de medios continuos. Una característica distintiva de nuestro método es la integración fluida entre la simulación física y el renderizado visual: ambos componentes utilizan los mismos núcleos gaussianos 3D como sus representaciones discretas. Esto elimina la necesidad de mallado de triángulos/tetraedros, cubos de marcha, "mallas de jaula" o cualquier otro tipo de incrustación geométrica, destacando el principio de "lo que ves es lo que simulas (WS^2)". Nuestro método demuestra una versatilidad excepcional en una amplia variedad de materiales—incluyendo entidades elásticas, metales, fluidos no newtonianos y materiales granulares—mostrando sus sólidas capacidades para crear contenido visual diverso con puntos de vista y movimientos novedosos. Nuestra página del proyecto se encuentra en: https://xpandora.github.io/PhysGaussian/
Proponemos un Modelo de Reconstrucción a Gran Escala Libre de Pose (PF-LRM) para reconstruir un objeto 3D a partir de unas pocas imágenes sin pose, incluso con poca superposición visual, mientras estimamos simultáneamente las poses relativas de la cámara en ~1.3 segundos en una sola GPU A100. PF-LRM es un método altamente escalable que utiliza bloques de auto-atención para intercambiar información entre tokens de objetos 3D y tokens de imágenes 2D; predecimos una nube de puntos aproximada para cada vista y luego usamos un solucionador diferenciable de Perspective-n-Point (PnP) para obtener las poses de la cámara. Cuando se entrena con una gran cantidad de datos de múltiples vistas con pose de ~1M de objetos, PF-LRM muestra una fuerte capacidad de generalización entre conjuntos de datos y supera ampliamente a los métodos de referencia en términos de precisión en la predicción de poses y calidad de reconstrucción 3D en varios conjuntos de datos de evaluación no vistos. También demostramos la aplicabilidad de nuestro modelo en tareas posteriores de texto/imagen-a-3D con inferencia rápida de avance. Nuestro sitio web del proyecto está en: https://totoro97.github.io/pf-lrm.
Los recientes avances en la generación de texto a video han aprovechado el poder de los modelos de difusión para crear contenido visualmente atractivo condicionado por indicaciones de texto. Sin embargo, estos métodos suelen enfrentar altos costos computacionales y a menudo tienen dificultades para producir videos con movimientos físicos coherentes. Para abordar estos problemas, proponemos GPT4Motion, un marco de trabajo que no requiere entrenamiento y que aprovecha la capacidad de planificación de modelos de lenguaje grandes como GPT, la fortaleza en simulación física de Blender y la excelente capacidad de generación de imágenes de los modelos de difusión de texto a imagen para mejorar la calidad de la síntesis de video. Específicamente, GPT4Motion emplea GPT-4 para generar un script de Blender basado en una indicación textual del usuario, el cual controla el motor de física integrado de Blender para crear componentes fundamentales de la escena que encapsulan movimientos físicos coherentes a lo largo de los fotogramas. Luego, estos componentes se introducen en Stable Diffusion para generar un video alineado con la indicación textual. Los resultados experimentales en tres escenarios básicos de movimiento físico, que incluyen la caída y colisión de objetos rígidos, el drapeado y balanceo de telas, y el flujo de líquidos, demuestran que GPT4Motion puede generar videos de alta calidad de manera eficiente, manteniendo la coherencia del movimiento y la consistencia de las entidades. GPT4Motion ofrece nuevas perspectivas en la investigación de texto a video, mejorando su calidad y ampliando su horizonte para futuras exploraciones.