Artículos de investigación en IA seleccionados diariamente con traducciones
La edición de imágenes basada en arrastrar ha ganado popularidad recientemente por su interactividad y precisión. Sin embargo, a pesar de la capacidad de los modelos de texto a imagen para generar muestras en un segundo, la edición por arrastre aún se rezaga debido al desafío de reflejar con precisión la interacción del usuario manteniendo el contenido de la imagen. Algunos enfoques existentes se basan en optimizaciones intensivas computacionalmente por imagen o en métodos basados en guías intrincadas, que requieren entradas adicionales como máscaras para regiones móviles y textos de instrucción, comprometiendo así la interactividad del proceso de edición. Presentamos InstantDrag, un flujo de trabajo sin optimización que mejora la interactividad y la velocidad, requiriendo solo una imagen y una instrucción de arrastre como entrada. InstantDrag consta de dos redes cuidadosamente diseñadas: un generador de flujo óptico condicionado por arrastre (FlowGen) y un modelo de difusión condicionado por flujo óptico (FlowDiffusion). InstantDrag aprende la dinámica del movimiento para la edición de imágenes basada en arrastrar en conjuntos de datos de video del mundo real al descomponer la tarea en generación de movimiento y generación de imagen condicionada por movimiento. Demostramos la capacidad de InstantDrag para realizar ediciones rápidas y fotorrealistas sin máscaras ni textos de instrucción a través de experimentos en conjuntos de datos de video facial y escenas generales. Estos resultados resaltan la eficiencia de nuestro enfoque en el manejo de la edición de imágenes basada en arrastrar, convirtiéndolo en una solución prometedora para aplicaciones interactivas en tiempo real.
Animar varias ilustraciones de personajes es una tarea atractiva de creación de contenido visual. Dado un dibujo de un personaje, los métodos de animación existentes están limitados a movimientos planos en 2D y carecen de efectos en 3D. Una solución alternativa es reconstruir un modelo en 3D a partir de un dibujo de un personaje como un proxy y luego redirigir datos de movimiento en 3D hacia él. Sin embargo, los métodos existentes de imagen a 3D no funcionaban bien para dibujos de personajes amateur en términos de apariencia y geometría. Observamos que las líneas de contorno, comúnmente presentes en los dibujos de personajes, podrían introducir una ambigüedad significativa en la síntesis de texturas debido a su dependencia de la vista. Además, las regiones delgadas representadas por contornos de una sola línea son difíciles de reconstruir (por ejemplo, las extremidades delgadas de una figura de palitos) debido a sus delicadas estructuras. Para abordar estos problemas, proponemos un sistema novedoso, DrawingSpinUp, para producir animaciones en 3D plausibles y dar vida a los dibujos de personajes, permitiéndoles girar libremente, saltar e incluso realizar un baile de hip-hop. Para mejorar la apariencia, adoptamos una estrategia de eliminación y posterior restauración para primero eliminar las líneas de contorno dependientes de la vista y luego renderizarlas nuevamente después de redirigir al personaje reconstruido. Para el perfeccionamiento de la geometría, desarrollamos un algoritmo de deformación de adelgazamiento basado en esqueletos para refinar las estructuras delgadas representadas por los contornos de una sola línea. Las evaluaciones experimentales y un estudio de usuario perceptual muestran que nuestro método propuesto supera a los métodos de animación 2D y 3D existentes y genera animaciones en 3D de alta calidad a partir de un solo dibujo de personaje. Por favor, consulte nuestra página de proyecto (https://lordliang.github.io/DrawingSpinUp) para acceder al código y a las animaciones generadas.
La detección de vocabulario abierto (DVA) tiene como objetivo detectar objetos más allá de un conjunto predefinido de categorías. Como un modelo pionero que incorpora la serie YOLO en la DVA, YOLO-World es adecuado para escenarios que priorizan la velocidad y la eficiencia. Sin embargo, su rendimiento se ve obstaculizado por su mecanismo de fusión de características en el cuello, que provoca una complejidad cuadrática y campos receptivos guiados limitados. Para abordar estas limitaciones, presentamos Mamba-YOLO-World, un modelo novedoso de DVA basado en YOLO que emplea la propuesta Red de Agregación de Ruta de Fusión Mamba (MambaFusion-PAN) como su arquitectura en el cuello. Específicamente, introducimos un innovador mecanismo de fusión de características basado en un Modelo de Espacio de Estados que consta de un algoritmo de Escaneo Selectivo Paralelo-Guiado y un algoritmo de Escaneo Selectivo Serial-Guiado con complejidad lineal y campos receptivos guiados globalmente. Aprovecha secuencias de entrada multimodales y estados ocultos de mamba para guiar el proceso de escaneo selectivo. Los experimentos demuestran que nuestro modelo supera al YOLO-World original en los conjuntos de datos COCO y LVIS tanto en configuraciones de cero disparos como de ajuste fino, manteniendo parámetros y FLOPs comparables. Además, supera a los métodos existentes de DVA de última generación con menos parámetros y FLOPs.
La reiluminación de campos de luminancia es severamente subdeterminada para datos de múltiples vistas, los cuales son capturados más a menudo bajo una sola condición de iluminación; resulta especialmente difícil para escenas completas que contienen múltiples objetos. Introducimos un método para crear campos de luminancia reiluminables utilizando tales datos de una sola iluminación, explotando precondiciones extraídas de modelos de difusión de imágenes 2D. En primer lugar, ajustamos un modelo de difusión 2D en un conjunto de datos de múltiple iluminación condicionado por la dirección de la luz, lo que nos permite aumentar una captura de una sola iluminación en un conjunto de datos de múltiple iluminación realista, pero posiblemente inconsistente, desde direcciones de luz definidas directamente. Utilizamos estos datos aumentados para crear un campo de luminancia reiluminable representado por salpicaduras gaussianas 3D. Para permitir el control directo de la dirección de la luz para la iluminación de baja frecuencia, representamos la apariencia con un perceptrón multicapa parametrizado en la dirección de la luz. Para hacer cumplir la consistencia de múltiples vistas y superar las imprecisiones, optimizamos un vector de características auxiliares por imagen. Mostramos resultados en datos sintéticos y reales de múltiples vistas bajo iluminación única, demostrando que nuestro método aprovecha con éxito las precondiciones del modelo de difusión 2D para permitir una reiluminación 3D realista para escenas completas. Sitio del proyecto: https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
El video volumétrico representa un avance transformador en los medios visuales, permitiendo a los usuarios navegar libremente por experiencias virtuales inmersivas y reduciendo la brecha entre los mundos digital y real. Sin embargo, la necesidad de una extensa intervención manual para estabilizar secuencias de malla y la generación de activos excesivamente grandes en flujos de trabajo existentes obstaculizan una adopción más amplia. En este documento, presentamos un novedoso enfoque basado en Gaussianas, denominado DualGS, para la reproducción en tiempo real y de alta fidelidad de actuaciones humanas complejas con excelentes ratios de compresión. Nuestra idea clave en DualGS es representar por separado el movimiento y la apariencia utilizando las Gaussianas correspondientes de piel y articulaciones. Dicha desentrelazación explícita puede reducir significativamente la redundancia de movimiento y mejorar la coherencia temporal. Comenzamos inicializando el DualGS y anclando las Gaussianas de piel a las Gaussianas de articulaciones en el primer fotograma. Posteriormente, empleamos una estrategia de entrenamiento de grueso a fino para la modelización de actuaciones humanas fotograma a fotograma. Esto incluye una fase de alineación gruesa para la predicción general del movimiento, así como una optimización detallada para un seguimiento robusto y una renderización de alta fidelidad. Para integrar el video volumétrico de manera fluida en entornos de realidad virtual, comprimimos eficientemente el movimiento utilizando codificación de entropía y la apariencia utilizando compresión de códec junto con un libro de códigos persistente. Nuestro enfoque logra un ratio de compresión de hasta 120 veces, requiriendo aproximadamente 350KB de almacenamiento por fotograma. Demostramos la eficacia de nuestra representación a través de experiencias fotorrealistas y de visualización libre en auriculares de realidad virtual, permitiendo a los usuarios ver inmersivamente a músicos actuando y sentir el ritmo de las notas en las puntas de los dedos de los intérpretes.
La restauración de audio se ha vuelto cada vez más significativa en la sociedad moderna, no solo debido a la demanda de experiencias auditivas de alta calidad habilitadas por dispositivos de reproducción avanzados, sino también porque las crecientes capacidades de los modelos de audio generativos requieren audio de alta fidelidad. Normalmente, la restauración de audio se define como una tarea de predecir audio sin distorsiones a partir de una entrada dañada, a menudo entrenada utilizando un marco GAN para equilibrar la percepción y la distorsión. Dado que la degradación del audio se concentra principalmente en los rangos de frecuencia media y alta, especialmente debido a los códecs, un desafío clave radica en diseñar un generador capaz de preservar la información de baja frecuencia mientras reconstruye con precisión contenido de alta calidad de frecuencia media y alta. Inspirado en los avances recientes en la separación de música de alta tasa de muestreo, mejora del habla y modelos de códecs de audio, proponemos Apollo, un modelo generativo diseñado para la restauración de audio de alta tasa de muestreo. Apollo emplea un módulo explícito de división de bandas de frecuencia para modelar las relaciones entre diferentes bandas de frecuencia, lo que permite un audio restaurado más coherente y de mayor calidad. Evaluado en los conjuntos de datos MUSDB18-HQ y MoisesDB, Apollo supera consistentemente a los modelos existentes de SR-GAN en varios índices de bits y géneros musicales, destacándose especialmente en escenarios complejos que involucran mezclas de múltiples instrumentos y voces. Apollo mejora significativamente la calidad de restauración de música manteniendo la eficiencia computacional. El código fuente de Apollo está disponible públicamente en https://github.com/JusperLee/Apollo.
Los avances recientes en modelos generativos han revolucionado la generación y edición de imágenes, haciendo que estas tareas sean accesibles para no expertos. Este artículo se centra en la edición local de imágenes, particularmente en la tarea de añadir nuevo contenido a un área vagamente especificada. Los métodos existentes a menudo requieren una máscara precisa o una descripción detallada de la ubicación, lo cual puede ser engorroso y propenso a errores. Proponemos Click2Mask, un enfoque novedoso que simplifica el proceso de edición local al requerir solo un punto de referencia (además de la descripción del contenido). Una máscara se expande dinámicamente alrededor de este punto durante un proceso de Difusión Latente Mezclada (BLD), guiado por una pérdida semántica basada en CLIP enmascarado. Click2Mask supera las limitaciones de los métodos basados en segmentación y dependientes de ajustes finos, ofreciendo una solución más amigable para el usuario y contextualmente precisa. Nuestros experimentos demuestran que Click2Mask no solo minimiza el esfuerzo del usuario, sino que también ofrece resultados de manipulación de imágenes locales competitivos o superiores en comparación con los métodos de Estado del Arte, según el juicio humano y las métricas automáticas. Las contribuciones clave incluyen la simplificación de la entrada del usuario, la capacidad de añadir objetos libremente sin restricciones de segmentos existentes y el potencial de integración de nuestro enfoque de máscara dinámica dentro de otros métodos de edición.