Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos aMUSEd, un modelo de imagen enmascarada (MIM) ligero y de código abierto para la generación de imágenes a partir de texto, basado en MUSE. Con solo el 10% de los parámetros de MUSE, aMUSEd está enfocado en la generación rápida de imágenes. Creemos que el enfoque MIM ha sido menos explorado en comparación con la difusión latente, el método predominante para la generación de imágenes a partir de texto. En comparación con la difusión latente, MIM requiere menos pasos de inferencia y es más interpretable. Además, MIM puede ajustarse para aprender estilos adicionales con solo una única imagen. Esperamos fomentar una mayor exploración de MIM al demostrar su eficacia en la generación de imágenes a partir de texto a gran escala y al liberar código de entrenamiento reproducible. También publicamos puntos de control para dos modelos que producen imágenes directamente en resoluciones de 256x256 y 512x512 píxeles.
Presentamos un marco para generar avatares fotorealísticos completos que gesticulan según la dinámica conversacional de una interacción diádica. Dado un audio de voz, generamos múltiples posibilidades de movimiento gestual para un individuo, incluyendo cara, cuerpo y manos. La clave de nuestro método radica en combinar los beneficios de la diversidad de muestras de la cuantización vectorial con los detalles de alta frecuencia obtenidos a través de difusión para generar movimientos más dinámicos y expresivos. Visualizamos el movimiento generado utilizando avatares altamente fotorealísticos que pueden expresar matices cruciales en los gestos (por ejemplo, muecas y sonrisas irónicas). Para facilitar esta línea de investigación, introducimos un conjunto de datos conversacional de múltiples vistas, pionero en su tipo, que permite la reconstrucción fotorealística. Los experimentos muestran que nuestro modelo genera gestos apropiados y diversos, superando tanto a los métodos basados únicamente en difusión como en cuantización vectorial. Además, nuestra evaluación perceptual destaca la importancia del fotorealismo (frente a mallas) para evaluar con precisión los detalles sutiles del movimiento en los gestos conversacionales. El código y el conjunto de datos están disponibles en línea.
Presentamos Image Sculpting, un nuevo marco para editar imágenes 2D mediante la incorporación de herramientas de geometría y gráficos 3D. Este enfoque difiere notablemente de los métodos existentes, que se limitan a espacios 2D y suelen depender de instrucciones textuales, lo que genera ambigüedad y control limitado. Image Sculpting convierte objetos 2D en 3D, permitiendo la interacción directa con su geometría 3D. Después de la edición, estos objetos se vuelven a renderizar en 2D, fusionándose con la imagen original para producir resultados de alta fidelidad a través de un proceso de mejora de grueso a fino. El marco admite opciones de edición precisas, cuantificables y físicamente plausibles, como la edición de poses, rotación, traslación, composición 3D, tallado y adición en serie. Este marco representa un primer paso hacia la combinación de la libertad creativa de los modelos generativos con la precisión de las canalizaciones gráficas.
Los avances en los modelos de difusión de imágenes han llevado recientemente a mejoras notables en la generación de imágenes de alta calidad. En combinación con los Campos de Radiancia Neural (NeRFs), han abierto nuevas oportunidades en la generación 3D. Sin embargo, la mayoría de los enfoques generativos 3D están centrados en objetos y aplicarlos a la edición de escenas fotorealistas existentes no es trivial. Proponemos SIGNeRF, un enfoque novedoso para la edición rápida y controlable de escenas NeRF y la generación de objetos integrados en la escena. Una nueva estrategia de actualización generativa asegura la consistencia 3D en las imágenes editadas, sin requerir optimización iterativa. Descubrimos que los modelos de difusión condicionados por profundidad poseen inherentemente la capacidad de generar vistas 3D consistentes al solicitar una cuadrícula de imágenes en lugar de vistas individuales. Basándonos en estas ideas, introducimos una hoja de referencia multi-vista de imágenes modificadas. Nuestro método actualiza una colección de imágenes de manera consistente basándose en la hoja de referencia y refina el NeRF original con el nuevo conjunto de imágenes generadas de una sola vez. Al explotar el mecanismo de condicionamiento por profundidad del modelo de difusión de imágenes, obtenemos un control preciso sobre la ubicación espacial de la edición y aplicamos guías de forma mediante una región seleccionada o una malla externa.
Los métodos de Conversión de Voz Cantada (SVC, por sus siglas en inglés) basados en difusión han logrado resultados notables, produciendo audios naturales con una alta similitud al timbre objetivo. Sin embargo, el proceso de muestreo iterativo resulta en una velocidad de inferencia lenta, por lo que la aceleración se vuelve crucial. En este artículo, proponemos CoMoSVC, un método de SVC basado en un modelo de consistencia, que busca lograr tanto una generación de alta calidad como un muestreo de alta velocidad. Primero, se diseña un modelo maestro basado en difusión específicamente para SVC, y luego se destila un modelo estudiantil bajo propiedades de autoconsistencia para lograr un muestreo en un solo paso. Los experimentos realizados en una GPU NVIDIA GTX4090 revelan que, aunque CoMoSVC tiene una velocidad de inferencia significativamente más rápida que el sistema SVC basado en difusión más avanzado (SOTA), aún logra un rendimiento de conversión comparable o superior según métricas tanto subjetivas como objetivas. Muestras de audio y códigos están disponibles en https://comosvc.github.io/.
Los modelos paralelos de texto a voz se han aplicado ampliamente para la síntesis de voz en tiempo real, y ofrecen una mayor capacidad de control y un proceso de síntesis mucho más rápido en comparación con los modelos autorregresivos convencionales. Aunque los modelos paralelos tienen ventajas en muchos aspectos, se vuelven naturalmente inadecuados para la síntesis incremental debido a su arquitectura completamente paralela, como la del transformador. En este trabajo, proponemos Incremental FastPitch, una novedosa variante de FastPitch capaz de producir fragmentos de Mel de alta calidad de manera incremental, mejorando la arquitectura con bloques FFT basados en fragmentos, entrenando con máscaras de atención de fragmentos restringidas por el campo receptivo e inferencia con estados del modelo pasados de tamaño fijo. Los resultados experimentales muestran que nuestra propuesta puede producir una calidad de voz comparable a la de FastPitch paralelo, con una latencia significativamente menor que permite tiempos de respuesta aún más reducidos para aplicaciones de voz en tiempo real.
Las cámaras DSLR pueden lograr múltiples niveles de zoom mediante el ajuste de distancias entre lentes o el intercambio de tipos de lentes. Sin embargo, estas técnicas no son posibles en dispositivos móviles debido a limitaciones de espacio. La mayoría de los fabricantes de smartphones adoptan un sistema de zoom híbrido: comúnmente una cámara Wide (W) para un nivel de zoom bajo y una cámara Telefoto (T) para un nivel de zoom alto. Para simular niveles de zoom entre W y T, estos sistemas recortan y aumentan digitalmente las imágenes de W, lo que resulta en una pérdida significativa de detalles. En este artículo, proponemos un sistema eficiente para super-resolución de zoom híbrido en dispositivos móviles, que captura un par sincronizado de tomas W y T y aprovecha modelos de aprendizaje automático para alinear y transferir detalles de T a W. Además, desarrollamos un método de mezcla adaptativa que considera desajustes en la profundidad de campo, oclusiones en la escena, incertidumbre en el flujo y errores de alineación. Para minimizar la brecha de dominio, diseñamos un sistema de doble cámara en un teléfono para capturar entradas y verdades fundamentales del mundo real para el entrenamiento supervisado. Nuestro método genera una imagen de 12 megapíxeles en 500 ms en una plataforma móvil y se compara favorablemente con los métodos más avanzados en evaluaciones extensas en escenarios del mundo real.