HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

22 papers found

StreamDiffusion: Una solución a nivel de pipeline para la generación interactiva en tiempo real
StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

Dec 19

ByAkio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei Ohno, Shogo Mitsuhori, Soichi Sugano, Hanying Cho, Zhijian Liu, Kurt Keutzer

Presentamos StreamDiffusion, una pipeline de difusión en tiempo real diseñada para la generación interactiva de imágenes. Los modelos de difusión existentes son hábiles para crear imágenes a partir de texto o imágenes de entrada, pero a menudo no cumplen con las expectativas en interacciones en tiempo real. Esta limitación se hace particularmente evidente en escenarios que involucran entradas continuas, como el Metaverso, transmisiones de video en vivo y radiodifusión, donde un alto rendimiento es imperativo. Para abordar esto, presentamos un enfoque novedoso que transforma el proceso de eliminación de ruido secuencial original en un proceso de eliminación de ruido por lotes. Stream Batch elimina el enfoque convencional de esperar e interactuar y permite flujos fluidos y de alto rendimiento. Para manejar la disparidad de frecuencia entre la entrada de datos y el rendimiento del modelo, diseñamos una cola de entrada-salida novedosa para paralelizar el proceso de transmisión. Además, la pipeline de difusión existente utiliza guía libre de clasificador (CFG), que requiere un cálculo adicional de U-Net. Para mitigar los cálculos redundantes, proponemos un algoritmo novedoso de guía libre de clasificador residual (RCFG) que reduce el número de pasos de eliminación de ruido condicional negativa a solo uno o incluso cero. Además, introducimos un filtro de similitud estocástico (SSF) para optimizar el consumo de energía. Nuestro Stream Batch logra una aceleración de aproximadamente 1.5x en comparación con el método de eliminación de ruido secuencial en diferentes niveles de eliminación de ruido. El RCFG propuesto conduce a velocidades hasta 2.05x más altas que el CFG convencional. Combinando las estrategias propuestas y las herramientas de aceleración maduras existentes, la generación de imagen a imagen alcanza hasta 91.07 fps en una RTX4090, mejorando el rendimiento de AutoPipeline desarrollado por Diffusers en más de 59.56x. Además, nuestro StreamDiffusion propuesto también reduce significativamente el consumo de energía en 2.39x en una RTX3060 y 1.99x en una RTX4090, respectivamente.

VideoPoet: Un Modelo de Lenguaje a Gran Escala para la Generación de Videos en Modo Cero-Shot
VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dec 21

ByDan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Rachel Hornung, Hartwig Adam, Hassan Akbari, Yair Alon, Vighnesh Birodkar, Yong Cheng, Ming-Chang Chiu, Josh Dillon, Irfan Essa, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, David Ross, Grant Schindler, Mikhail Sirotenko, Kihyuk Sohn, Krishna Somandepalli, Huisheng Wang, Jimmy Yan, Ming-Hsuan Yang, Xuan Yang, Bryan Seybold, Lu Jiang

Presentamos VideoPoet, un modelo de lenguaje capaz de sintetizar videos de alta calidad, con audio coincidente, a partir de una amplia variedad de señales de condicionamiento. VideoPoet emplea una arquitectura de transformador solo-decodificador que procesa entradas multimodales, incluyendo imágenes, videos, texto y audio. El protocolo de entrenamiento sigue el de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), consistiendo en dos etapas: preentrenamiento y adaptación específica para tareas. Durante el preentrenamiento, VideoPoet incorpora una mezcla de objetivos generativos multimodales dentro de un marco de transformador autorregresivo. El LLM preentrenado sirve como base que puede adaptarse para una variedad de tareas de generación de video. Presentamos resultados empíricos que demuestran las capacidades de vanguardia del modelo en la generación de video en modo zero-shot, destacando específicamente la habilidad de VideoPoet para generar movimientos de alta fidelidad. Página del proyecto: http://sites.research.google/videopoet/

PowerInfer: Servicio Rápido de Modelos de Lenguaje de Gran Escala con una GPU de Grado Consumidor
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Dec 16

ByYixin Song, Zeyu Mi, Haotong Xie, Haibo Chen

Este artículo presenta PowerInfer, un motor de inferencia de alta velocidad para modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) en una computadora personal (PC) equipada con una única GPU de consumo. El principio clave detrás del diseño de PowerInfer es aprovechar la alta localidad inherente a la inferencia de LLM, caracterizada por una distribución de ley de potencia en la activación de neuronas. Esta distribución indica que un pequeño subconjunto de neuronas, denominadas neuronas calientes, se activan consistentemente en diferentes entradas, mientras que la mayoría, las neuronas frías, varían según las entradas específicas. PowerInfer aprovecha esta idea para diseñar un motor de inferencia híbrido GPU-CPU: las neuronas calientes se cargan previamente en la GPU para un acceso rápido, mientras que las neuronas frías se calculan en la CPU, reduciendo significativamente las demandas de memoria de la GPU y las transferencias de datos entre CPU y GPU. PowerInfer además integra predictores adaptativos y operadores dispersos conscientes de las neuronas, optimizando la eficiencia de la activación neuronal y la dispersión computacional. Las evaluaciones muestran que PowerInfer alcanza una tasa promedio de generación de tokens de 13.20 tokens/s, con un pico de 29.08 tokens/s, en varios LLM (incluyendo OPT-175B) en una única GPU NVIDIA RTX 4090, solo un 18% inferior a la alcanzada por una GPU de servidor de gama alta A100. Esto supera significativamente a llama.cpp hasta en 11.69x, manteniendo la precisión del modelo.

Los Modelos Generativos Multimodales son Aprendices en Contexto.
Generative Multimodal Models are In-Context Learners

Dec 20

ByQuan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Zhengxiong Luo, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang

La capacidad humana para resolver fácilmente tareas multimodales en contexto (es decir, con solo unas pocas demostraciones o instrucciones simples) es algo que los sistemas multimodales actuales han tenido grandes dificultades para imitar. En este trabajo, demostramos que las capacidades de aprendizaje en contexto independientes de la tarea de los modelos multimodales grandes pueden mejorarse significativamente mediante un escalamiento efectivo. Presentamos Emu2, un modelo multimodal generativo con 37 mil millones de parámetros, entrenado en secuencias multimodales a gran escala con un objetivo autorregresivo unificado. Emu2 exhibe fuertes habilidades de aprendizaje multimodal en contexto, llegando incluso a resolver tareas que requieren razonamiento en tiempo real, como el prompting visual y la generación basada en objetos. El modelo establece un nuevo récord en múltiples tareas de comprensión multimodal en entornos de pocos ejemplos. Cuando se ajusta mediante instrucciones para seguir indicaciones específicas, Emu2 logra además un nuevo estado del arte en tareas desafiantes como los benchmarks de respuesta a preguntas para modelos multimodales grandes y la generación abierta impulsada por temas. Estos logros demuestran que Emu2 puede servir como un modelo base y una interfaz de propósito general para una amplia gama de tareas multimodales. El código y los modelos están disponibles públicamente para facilitar futuras investigaciones.

DREAM-Talk: Método Basado en Difusión para la Generación Realista de Rostros Hablantes a partir de Audio Emocional y una Única Imagen
DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for Single Image Talking Face Generation

Dec 21

ByChenxu Zhang, Chao Wang, Jianfeng Zhang, Hongyi Xu, Guoxian Song, You Xie, Linjie Luo, Yapeng Tian, Xiaohu Guo, Jiashi Feng

La generación de rostros parlantes con emociones a partir de una única imagen de retrato sigue siendo un desafío significativo. Lograr simultáneamente una expresión emocional hablada y una sincronización labial precisa es particularmente difícil, ya que la expresividad a menudo se ve comprometida por la precisión de la sincronización labial. Como ha sido ampliamente adoptado en trabajos previos, la red LSTM a menudo no logra capturar las sutilezas y variaciones de las expresiones emocionales. Para abordar estos desafíos, presentamos DREAM-Talk, un marco basado en difusión en dos etapas impulsado por audio, diseñado para generar diversas expresiones y una sincronización labial precisa de manera concurrente. En la primera etapa, proponemos EmoDiff, un módulo de difusión novedoso que genera expresiones emocionales altamente dinámicas y diversas, junto con poses de la cabeza, en función del audio y el estilo emocional de referencia. Dada la fuerte correlación entre el movimiento labial y el audio, refinamos la dinámica con una mayor precisión en la sincronización labial utilizando características de audio y el estilo emocional. Para ello, implementamos un módulo de renderizado de video a video para transferir las expresiones y movimientos labiales desde nuestro avatar 3D proxy a un retrato arbitrario. Tanto cuantitativa como cualitativamente, DREAM-Talk supera a los métodos más avanzados en términos de expresividad, precisión de sincronización labial y calidad perceptual.

DreamTuner: Una sola imagen es suficiente para la generación guiada por sujetos
DreamTuner: Single Image is Enough for Subject-Driven Generation

Dec 21

ByMiao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He

Los modelos basados en difusión han demostrado capacidades impresionantes para la generación de imágenes a partir de texto y se espera que sean útiles en aplicaciones personalizadas de generación guiada por sujetos, las cuales requieren la creación de conceptos personalizados con una o pocas imágenes de referencia. Sin embargo, los métodos existentes basados en ajuste fino no logran equilibrar la relación entre el aprendizaje del sujeto y el mantenimiento de las capacidades de generación de los modelos preentrenados. Además, otros métodos que utilizan codificadores de imágenes adicionales tienden a perder detalles importantes del sujeto debido a la compresión en la codificación. Para abordar estos desafíos, proponemos DreamTurner, un método novedoso que inyecta información de referencia de manera gradual, de lo general a lo específico, para lograr una generación de imágenes guiada por sujetos de manera más efectiva. DreamTurner introduce un codificador de sujetos para preservar la identidad general del sujeto, donde las características comprimidas del sujeto se incorporan a través de una capa de atención antes de la atención cruzada visual-texto. Luego, modificamos las capas de auto-atención dentro de los modelos preentrenados de texto a imagen para convertirlas en capas de auto-atención de sujeto, refinando así los detalles del sujeto objetivo. La imagen generada consulta características detalladas tanto de la imagen de referencia como de sí misma en la auto-atención de sujeto. Es importante enfatizar que la auto-atención de sujeto es un método efectivo, elegante y libre de entrenamiento para mantener las características detalladas de sujetos personalizados, y puede servir como una solución plug-and-play durante la inferencia. Finalmente, con un ajuste fino adicional guiado por el sujeto, DreamTurner logra un rendimiento notable en la generación de imágenes guiada por sujetos, la cual puede ser controlada por texto u otras condiciones como la pose. Para más detalles, visite la página del proyecto en https://dreamtuner-diffusion.github.io/.

Métrica de Profundidad Zero-Shot con un Modelo de Difusión Condicionado por el Campo de Visión
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

Dec 20

BySaurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet

Si bien los métodos para la estimación de profundidad monocular han logrado avances significativos en los benchmarks estándar, la estimación de profundidad métrica sin datos previos (zero-shot) sigue sin resolverse. Los desafíos incluyen el modelado conjunto de escenas interiores y exteriores, que a menudo presentan distribuciones significativamente diferentes de RGB y profundidad, así como la ambigüedad en la escala de profundidad debido a los parámetros intrínsecos desconocidos de la cámara. Trabajos recientes han propuesto arquitecturas especializadas de múltiples cabezas para modelar conjuntamente escenas interiores y exteriores. En contraste, proponemos un modelo de difusión genérico y agnóstico a la tarea, con varias mejoras, como la parametrización de profundidad en escala logarítmica para permitir el modelado conjunto de escenas interiores y exteriores, la condición basada en el campo de visión (FOV) para manejar la ambigüedad de escala y la ampliación sintética del FOV durante el entrenamiento para generalizar más allá de los parámetros intrínsecos limitados de las cámaras en los conjuntos de datos de entrenamiento. Además, al emplear una mezcla de entrenamiento más diversa de lo habitual y una parametrización eficiente de difusión, nuestro método, DMD (Difusión para Profundidad Métrica), logra una reducción del 25% en el error relativo (REL) en conjuntos de datos zero-shot interiores y del 33% en conjuntos de datos zero-shot exteriores, superando el estado del arte actual (SOTA) utilizando solo un pequeño número de pasos de eliminación de ruido. Para una visión general, consulte https://diffusion-vision.github.io/dmd.

Fairy: Síntesis Rápida de Video a Video Guiada por Instrucciones con Paralelización
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis

Dec 20

ByBichen Wu, Ching-Yao Chuang, Xiaoyan Wang, Yichen Jia, Kapil Krishnakumar, Tong Xiao, Feng Liang, Licheng Yu, Peter Vajda

En este artículo presentamos Fairy, una adaptación minimalista pero robusta de los modelos de difusión para edición de imágenes, mejorándolos para aplicaciones de edición de video. Nuestro enfoque se centra en el concepto de atención cruzada entre fotogramas basada en anclajes, un mecanismo que propaga implícitamente las características de difusión a lo largo de los fotogramas, garantizando una coherencia temporal superior y una síntesis de alta fidelidad. Fairy no solo aborda las limitaciones de modelos anteriores, incluyendo la memoria y la velocidad de procesamiento, sino que también mejora la consistencia temporal mediante una estrategia única de aumento de datos. Esta estrategia hace que el modelo sea equivariante a transformaciones afines tanto en las imágenes de origen como en las de destino. Notablemente eficiente, Fairy genera videos de 120 fotogramas a 512x384 (4 segundos de duración a 30 FPS) en solo 14 segundos, superando trabajos previos en al menos 44 veces. Un estudio de usuario exhaustivo, que involucra 1000 muestras generadas, confirma que nuestro enfoque ofrece una calidad superior, superando claramente a los métodos establecidos.

InstructVideo: Instrucción de Modelos de Difusión de Video con Retroalimentación Humana
InstructVideo: Instructing Video Diffusion Models with Human Feedback

Dec 19

ByHangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni

Los modelos de difusión han surgido como el paradigma de facto para la generación de videos. Sin embargo, su dependencia de datos a escala web de calidad variada a menudo produce resultados visualmente poco atractivos y desalineados con las indicaciones textuales. Para abordar este problema, proponemos InstructVideo, un enfoque para instruir a los modelos de difusión de texto a video mediante ajuste fino basado en retroalimentación humana. InstructVideo tiene dos componentes clave: 1) Para mitigar el costo del ajuste fino inducido por la generación a través de la cadena completa de muestreo DDIM, reformulamos el ajuste fino como un proceso de edición. Al aprovechar el proceso de difusión para corromper un video muestreado, InstructVideo requiere solo una inferencia parcial de la cadena de muestreo DDIM, reduciendo el costo del ajuste fino y mejorando su eficiencia. 2) Para abordar la ausencia de un modelo de recompensa de video dedicado a las preferencias humanas, reutilizamos modelos de recompensa de imágenes establecidos, como HPSv2. Para ello, proponemos Recompensa de Video Segmentado, un mecanismo para proporcionar señales de recompensa basado en muestreo disperso segmentado, y Recompensa Atenuada Temporalmente, un método que mitiga la degradación del modelado temporal durante el ajuste fino. Experimentos extensos, tanto cualitativos como cuantitativos, validan la practicidad y eficacia de utilizar modelos de recompensa de imágenes en InstructVideo, mejorando significativamente la calidad visual de los videos generados sin comprometer las capacidades de generalización. El código y los modelos estarán disponibles públicamente.

Splatter Image: Reconstrucción 3D Ultra-Rápida de Vista Única
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Dec 20

ByStanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi

Presentamos la Splatter Image, un enfoque ultrarrápido para la reconstrucción 3D monocular de objetos que opera a 38 FPS. Splatter Image se basa en Gaussian Splatting, que recientemente ha aportado renderizado en tiempo real, entrenamiento rápido y una excelente escalabilidad a la reconstrucción multivista. Por primera vez, aplicamos Gaussian Splatting en un escenario de reconstrucción monocular. Nuestro enfoque está basado en aprendizaje y, en el momento de la prueba, la reconstrucción solo requiere la evaluación directa de una red neuronal. La principal innovación de Splatter Image es su diseño sorprendentemente sencillo: utiliza una red de imagen a imagen en 2D para mapear la imagen de entrada a un Gaussiano 3D por píxel. Los Gaussianos resultantes tienen así la forma de una imagen, la Splatter Image. Además, extendemos el método para incorporar más de una imagen como entrada, lo que logramos añadiendo atención entre vistas. Gracias a la velocidad del renderizador (588 FPS), podemos utilizar una sola GPU para el entrenamiento mientras generamos imágenes completas en cada iteración con el fin de optimizar métricas perceptuales como LPIPS. En benchmarks estándar, demostramos no solo una reconstrucción rápida, sino también mejores resultados que líneas base recientes y mucho más costosas en términos de PSNR, LPIPS y otras métricas.

TinySAM: Llevando al límite la eficiencia del modelo Segment Anything
TinySAM: Pushing the Envelope for Efficient Segment Anything Model

Dec 21

ByHan Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen

Recientemente, el modelo Segment Anything (SAM) ha demostrado una potente capacidad de segmentación y ha atraído una gran atención en el campo de la visión por computadora. Numerosos trabajos posteriores han desarrollado diversas aplicaciones basadas en el SAM preentrenado, logrando un rendimiento impresionante en tareas de visión posteriores. Sin embargo, SAM está compuesto por arquitecturas pesadas y requiere una gran capacidad computacional, lo que dificulta su aplicación en dispositivos de borde con limitaciones de cálculo. Con este fin, en este artículo proponemos un marco para obtener un modelo Tiny Segment Anything (TinySAM) mientras se mantiene un fuerte rendimiento en tareas de zero-shot. Primero, proponemos un método de destilación de conocimiento en todas las etapas con una estrategia de muestreo de prompts difíciles en línea para destilar un modelo estudiantil ligero. También adaptamos la cuantización post-entrenamiento a la tarea de segmentación con prompts, reduciendo aún más el costo computacional. Además, proponemos una estrategia jerárquica de segmentación de todo para acelerar la inferencia de "todo" en 2 veces con casi ninguna degradación del rendimiento. Con todos estos métodos propuestos, nuestro TinySAM logra una reducción computacional de órdenes de magnitud y amplía los límites para la tarea eficiente de segmentar cualquier cosa. Experimentos extensos en diversas tareas de transferencia zero-shot demuestran el rendimiento significativamente ventajoso de nuestro TinySAM frente a métodos comparables. Los modelos preentrenados y los códigos estarán disponibles en https://github.com/xinghaochen/TinySAM y https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.

Transformadores con Caché: Mejorando Transformadores con Memoria Caché Diferenciable
Cached Transformers: Improving Transformers with Differentiable Memory Cache

Dec 20

ByZhaoyang Zhang, Wenqi Shao, Yixiao Ge, Xiaogang Wang, Jinwei Gu, Ping Luo

Este trabajo presenta un nuevo modelo Transformer llamado Cached Transformer, que utiliza atención con Caché Recurrente Ponderada (GRC) para extender el mecanismo de auto-atención con una caché de memoria diferenciable de tokens. La atención GRC permite atender tanto a tokens pasados como actuales, aumentando el campo receptivo de la atención y permitiendo explorar dependencias de largo alcance. Al utilizar una unidad de ponderación recurrente para actualizar continuamente la caché, nuestro modelo logra avances significativos en seis tareas de lenguaje y visión, incluyendo modelado de lenguaje, traducción automática, ListOPs, clasificación de imágenes, detección de objetos y segmentación de instancias. Además, nuestro enfoque supera técnicas anteriores basadas en memoria en tareas como el modelado de lenguaje y demuestra la capacidad de aplicarse a un rango más amplio de situaciones.

Sensaciones neuronales con campos neuronales: Percepción visuo-táctil para la manipulación en mano
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

Dec 20

BySudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam

Para alcanzar una destreza a nivel humano, los robots deben inferir conciencia espacial a partir de la percepción multimodal para razonar sobre interacciones de contacto. Durante la manipulación en mano de objetos novedosos, dicha conciencia espacial implica estimar la pose y la forma del objeto. El estado actual de la percepción en mano emplea principalmente la visión y se limita a rastrear objetos conocidos a priori. Además, la oclusión visual de los objetos en mano es inminente durante la manipulación, lo que impide que los sistemas actuales avancen más allá de tareas sin oclusión. Combinamos la visión y la percepción táctil en una mano multifuncional para estimar la pose y la forma de un objeto durante la manipulación en mano. Nuestro método, NeuralFeels, codifica la geometría del objeto aprendiendo un campo neuronal en línea y lo rastrea conjuntamente optimizando un problema de grafo de poses. Estudiamos la percepción multimodal en mano en simulación y en el mundo real, interactuando con diferentes objetos mediante una política impulsada por la propiocepción. Nuestros experimentos muestran puntuaciones F finales de reconstrucción del 81% y desviaciones promedio de pose de 4,7 mm, reducidas a 2,3 mm con modelos CAD conocidos. Además, observamos que bajo una fuerte oclusión visual podemos lograr mejoras de hasta el 94% en el seguimiento en comparación con métodos basados únicamente en visión. Nuestros resultados demuestran que el tacto, como mínimo, refina y, en el mejor de los casos, desambigua las estimaciones visuales durante la manipulación en mano. Publicamos nuestro conjunto de datos de evaluación de 70 experimentos, FeelSight, como un paso hacia la evaluación comparativa en este dominio. Nuestra representación neuronal impulsada por la percepción multimodal puede servir como columna vertebral de percepción para avanzar en la destreza robótica. Los videos pueden encontrarse en nuestro sitio web del proyecto: https://suddhu.github.io/neural-feels/

MaskINT: Edición de video mediante transformadores enmascarados interpolativos no autoregresivos
MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

Dec 19

ByHaoyu Ma, Shahin Mahdizadehaghdam, Bichen Wu, Zhipeng Fan, Yuchao Gu, Wenliang Zhao, Lior Shapira, Xiaohui Xie

Los recientes avances en IA generativa han mejorado significativamente la edición de imágenes y videos, particularmente en el contexto del control mediante indicaciones de texto. Los enfoques de vanguardia se basan predominantemente en modelos de difusión para realizar estas tareas. Sin embargo, las demandas computacionales de los métodos basados en difusión son sustanciales, a menudo requiriendo grandes conjuntos de datos emparejados para el entrenamiento, lo que dificulta su implementación en aplicaciones prácticas. Este estudio aborda este desafío descomponiendo el proceso de edición de videos basado en texto en dos etapas separadas. En la primera etapa, aprovechamos un modelo existente de difusión de texto a imagen para editar simultáneamente algunos fotogramas clave sin necesidad de ajustes adicionales. En la segunda etapa, introducimos un modelo eficiente llamado MaskINT, basado en transformadores generativos enmascarados no autoregresivos, que se especializa en la interpolación de fotogramas entre los fotogramas clave, beneficiándose de la guía estructural proporcionada por fotogramas intermedios. Nuestro conjunto exhaustivo de experimentos ilustra la eficacia y eficiencia de MaskINT en comparación con otras metodologías basadas en difusión. Esta investigación ofrece una solución práctica para la edición de videos basada en texto y muestra el potencial de los transformadores generativos enmascarados no autoregresivos en este dominio.

Alinea tus Gaussianos: Texto-a-4D con Gaussianos 3D Dinámicos y Modelos de Difusión Compuestos
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models

Dec 21

ByHuan Ling, Seung Wook Kim, Antonio Torralba, Sanja Fidler, Karsten Kreis

Los modelos de difusión guiados por texto han revolucionado la generación de imágenes y videos, y también se han utilizado con éxito para la síntesis de objetos 3D basada en optimización. Aquí, en cambio, nos centramos en el ámbito poco explorado de texto-a-4D y sintetizamos objetos 3D dinámicos y animados utilizando métodos de destilación de puntuación con una dimensión temporal adicional. En comparación con trabajos anteriores, adoptamos un enfoque novedoso basado en generación composicional, y combinamos modelos de difusión de texto-a-imagen, texto-a-video y multivista 3D para proporcionar retroalimentación durante la optimización de objetos 4D, logrando así simultáneamente consistencia temporal, apariencia visual de alta calidad y geometría realista. Nuestro método, llamado Align Your Gaussians (AYG), aprovecha el Splatting de Gaussianas 3D dinámico con campos de deformación como representación 4D. Un aspecto crucial de AYG es un método novedoso para regularizar la distribución de las Gaussianas 3D en movimiento, estabilizando así la optimización e induciendo movimiento. También proponemos un mecanismo de amplificación de movimiento, así como un nuevo esquema de síntesis autorregresiva para generar y combinar múltiples secuencias 4D para generaciones más largas. Estas técnicas nos permiten sintetizar escenas dinámicas vívidas, superar cualitativa y cuantitativamente trabajos anteriores y alcanzar un rendimiento de texto-a-4D de vanguardia. Debido a la representación 4D basada en Gaussianas, diferentes animaciones 4D pueden combinarse sin problemas, como demostramos. AYG abre nuevas vías prometedoras para la animación, simulación, creación de contenido digital y generación de datos sintéticos.

Mini-GPTs: Modelos de Lenguaje de Gran Escala Eficientes mediante Poda Contextual
Mini-GPTs: Efficient Large Language Models through Contextual Pruning

Dec 20

ByTim Valicenti, Justice Vidal, Ritik Patnaik

En la investigación de IA, la optimización de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) sigue siendo un desafío significativo, crucial para avanzar en las aplicaciones prácticas y la sostenibilidad del campo. Basándonos en el trabajo fundamental del laboratorio del profesor Song Han en el MIT, este artículo introduce un enfoque novedoso en el desarrollo de Mini-GPTs mediante la poda contextual. Nuestra metodología poda estratégicamente la arquitectura computacional de los LLMs tradicionales, como Phi-1.5, centrándose en retener las funcionalidades principales mientras reduce drásticamente el tamaño de los modelos. Aplicamos esta técnica en diversos y complejos conjuntos de datos, incluyendo leyes de EE. UU., preguntas y respuestas médicas, diálogos de Skyrim, traducciones inglés-taiwanés y artículos de economía. Los resultados destacan la eficiencia y efectividad de la poda contextual, no solo como un concepto teórico, sino como una herramienta práctica en el desarrollo de LLMs específicos de dominio y eficientes en recursos. La poda contextual es un método prometedor para construir LLMs específicos de dominio, y esta investigación es un bloque fundamental hacia el desarrollo futuro con mayor capacidad de cómputo en hardware, ajuste fino refinado y cuantización.

Orientación Adaptativa: Aceleración sin Entrenamiento de Modelos de Difusión Condicionales
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

Dec 19

ByAngela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet

Este artículo presenta un estudio exhaustivo sobre el papel de la Guía Libre de Clasificador (Classifier-Free Guidance, CFG) en modelos de difusión condicionados por texto, desde la perspectiva de la eficiencia en la inferencia. En particular, relajamos la elección predeterminada de aplicar CFG en todos los pasos de difusión y, en su lugar, buscamos políticas de guía eficientes. Formulamos el descubrimiento de dichas políticas en el marco de Búsqueda de Arquitectura Neuronal Diferenciable (Neural Architecture Search). Nuestros hallazgos sugieren que los pasos de eliminación de ruido propuestos por CFG se alinean cada vez más con pasos condicionales simples, lo que hace redundante la evaluación adicional de la red neuronal de CFG, especialmente en la segunda mitad del proceso de eliminación de ruido. Basándonos en esta idea, proponemos "Guía Adaptativa" (Adaptive Guidance, AG), una variante eficiente de CFG que omite de manera adaptativa las evaluaciones de la red cuando el proceso de eliminación de ruido muestra convergencia. Nuestros experimentos demuestran que AG preserva la calidad de imagen de CFG mientras reduce el cómputo en un 25%. Por lo tanto, AG constituye una alternativa plug-and-play a la Destilación de Guía (Guidance Distillation), logrando el 50% de las aceleraciones de esta última, sin necesidad de entrenamiento y manteniendo la capacidad de manejar indicaciones negativas. Finalmente, descubrimos más redundancias de CFG en la primera mitad del proceso de difusión, mostrando que evaluaciones completas de funciones neuronales pueden ser reemplazadas por transformaciones afines simples de estimaciones de puntuación pasadas. Este método, denominado LinearAG, ofrece una inferencia aún más económica a costa de desviarse del modelo base. Nuestros hallazgos proporcionan información sobre la eficiencia del proceso de eliminación de ruido condicional, contribuyendo a un despliegue más práctico y rápido de modelos de difusión condicionados por texto.

Repaint123: Generación rápida y de alta calidad de una imagen a 3D con repintado 2D progresivo y controlable
Repaint123: Fast and High-quality One Image to 3D Generation with Progressive Controllable 2D Repainting

Dec 20

ByJunwu Zhang, Zhenyu Tang, Yatian Pang, Xinhua Cheng, Peng Jin, Yida Wei, Wangbo Yu, Munan Ning, Li Yuan

Los métodos recientes de generación 3D a partir de una sola imagen comúnmente adoptan el Muestreo de Distilación de Puntaje (SDS). A pesar de los resultados impresionantes, existen múltiples deficiencias, incluyendo inconsistencia en múltiples vistas, texturas sobresaturadas y demasiado suavizadas, así como una velocidad de generación lenta. Para abordar estas deficiencias, presentamos Repaint123, que busca mitigar el sesgo en múltiples vistas, la degradación de texturas y acelerar el proceso de generación. La idea central es combinar la potente capacidad de generación de imágenes del modelo de difusión 2D y la habilidad de alineación de texturas de la estrategia de repintado para generar imágenes de múltiples vistas de alta calidad con consistencia. Además, proponemos una fuerza de repintado adaptativa basada en la visibilidad para regiones superpuestas, con el fin de mejorar la calidad de las imágenes generadas durante el proceso de repintado. Las imágenes generadas, de alta calidad y consistentes en múltiples vistas, permiten el uso de una simple pérdida de Error Cuadrático Medio (MSE) para la generación rápida de contenido 3D. Realizamos extensos experimentos y demostramos que nuestro método tiene una capacidad superior para generar contenido 3D de alta calidad con consistencia en múltiples vistas y texturas finas en 2 minutos desde cero. El código está disponible en https://github.com/junwuzhang19/repaint123.

UniSDF: Unificación de Representaciones Neuronales para la Reconstrucción 3D de Alta Fidelidad en Escenas Complejas con Reflexiones
UniSDF: Unifying Neural Representations for High-Fidelity 3D Reconstruction of Complex Scenes with Reflections

Dec 20

ByFangjinhua Wang, Marie-Julie Rakotosaona, Michael Niemeyer, Richard Szeliski, Marc Pollefeys, Federico Tombari

Las representaciones neuronales de escenas 3D han demostrado un gran potencial para la reconstrucción 3D a partir de imágenes 2D. Sin embargo, reconstruir capturas del mundo real de escenas complejas sigue siendo un desafío. Los métodos genéricos existentes de reconstrucción 3D a menudo tienen dificultades para representar detalles geométricos finos y no modelan adecuadamente las superficies reflectantes en escenas de gran escala. Las técnicas que se centran explícitamente en superficies reflectantes pueden modelar reflejos complejos y detallados al aprovechar mejores parametrizaciones de la reflexión. Sin embargo, observamos que estos métodos a menudo no son robustos en escenarios reales no acotados donde están presentes componentes tanto reflectantes como no reflectantes. En este trabajo, proponemos UniSDF, un método de reconstrucción 3D de propósito general que puede reconstruir escenas grandes y complejas con reflejos. Investigamos tanto técnicas de parametrización de predicción de color basadas en la vista como en la reflexión, y encontramos que la combinación explícita de estas representaciones en el espacio 3D permite la reconstrucción de superficies que son geométricamente más precisas, especialmente para superficies reflectantes. Además, combinamos esta representación con una arquitectura de red de malla multi-resolución que se entrena de manera gruesa a fina, permitiendo reconstrucciones más rápidas que los métodos anteriores. Experimentos extensivos en conjuntos de datos a nivel de objeto como DTU y Shiny Blender, así como en conjuntos de datos no acotados como Mip-NeRF 360 y Ref-NeRF real, demuestran que nuestro método es capaz de reconstruir de manera robusta escenas complejas de gran escala con detalles finos y superficies reflectantes. Consulte nuestra página del proyecto en https://fangjinhuawang.github.io/UniSDF.

SpecNeRF: Codificación Direccional Gaussiana para Reflexiones Especulares
SpecNeRF: Gaussian Directional Encoding for Specular Reflections

Dec 20

ByLi Ma, Vasu Agrawal, Haithem Turki, Changil Kim, Chen Gao, Pedro Sander, Michael Zollhöfer, Christian Richardt

Los campos de radiancia neural han logrado un rendimiento notable en el modelado de la apariencia de escenas 3D. Sin embargo, los enfoques existentes aún tienen dificultades con la apariencia dependiente de la vista en superficies brillantes, especialmente bajo iluminación compleja en entornos interiores. A diferencia de los métodos actuales, que suelen asumir iluminación distante como un mapa de entorno, proponemos una codificación direccional gaussiana aprendible para modelar mejor los efectos dependientes de la vista en condiciones de iluminación de campo cercano. Es importante destacar que nuestra nueva codificación direccional captura la naturaleza espacialmente variable de la iluminación de campo cercano y emula el comportamiento de los mapas de entorno pre-filtrados. Como resultado, permite la evaluación eficiente del color especular preconvolucionado en cualquier ubicación 3D con coeficientes de rugosidad variables. Además, introducimos un previo geométrico basado en datos que ayuda a mitigar la ambigüedad entre forma y radiancia en el modelado de reflexiones. Demostramos que nuestra codificación direccional gaussiana y el previo geométrico mejoran significativamente el modelado de reflexiones especulares desafiantes en campos de radiancia neural, lo que ayuda a descomponer la apariencia en componentes físicamente más significativos.

Control Basado en Modelos con Dinámicas Neuronales Escasas
Model-Based Control with Sparse Neural Dynamics

Dec 20

ByZiang Liu, Genggeng Zhou, Jeff He, Tobia Marcucci, Li Fei-Fei, Jiajun Wu, Yunzhu Li

El aprendizaje de modelos predictivos a partir de observaciones utilizando redes neuronales profundas (DNNs) es un enfoque prometedor para muchos problemas de planificación y control en el mundo real. Sin embargo, las DNNs comunes carecen de estructura suficiente para una planificación efectiva, y los métodos de control actuales suelen depender de un muestreo extensivo o del descenso de gradiente local. En este artículo, proponemos un nuevo marco para el aprendizaje integrado de modelos y el control predictivo que es compatible con algoritmos de optimización eficientes. Específicamente, comenzamos con un modelo neuronal ReLU de la dinámica del sistema y, con pérdidas mínimas en la precisión de predicción, lo esparcificamos gradualmente eliminando neuronas redundantes. Este proceso de esparcificación discreta se aproxima como un problema continuo, permitiendo una optimización de extremo a extremo tanto de la arquitectura del modelo como de los parámetros de peso. El modelo esparcificado se utiliza posteriormente por un controlador predictivo de enteros mixtos, que representa las activaciones de las neuronas como variables binarias y emplea algoritmos eficientes de ramificación y acotación. Nuestro marco es aplicable a una amplia variedad de DNNs, desde perceptrones multicapa simples hasta dinámicas neuronales gráficas complejas. Puede manejar eficientemente tareas que involucran dinámicas de contacto complicadas, como el empuje de objetos, la clasificación composicional de objetos y la manipulación de objetos deformables. Los experimentos numéricos y de hardware muestran que, a pesar de la esparcificación agresiva, nuestro marco puede ofrecer un mejor rendimiento en lazo cerrado que los métodos más avanzados existentes.

RadEdit: evaluación de resistencia de modelos de visión biomédica mediante edición de imágenes con difusión
RadEdit: stress-testing biomedical vision models via diffusion image editing

Dec 20

ByFernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse

Los conjuntos de datos de imágenes biomédicas suelen ser pequeños y sesgados, lo que significa que el rendimiento en el mundo real de los modelos predictivos puede ser sustancialmente menor de lo esperado en las pruebas internas. Este trabajo propone utilizar la edición generativa de imágenes para simular cambios en los conjuntos de datos y diagnosticar modos de fallo en los modelos de visión biomédica; esto puede usarse antes del despliegue para evaluar la preparación, reduciendo potencialmente costos y daños a los pacientes. Los métodos de edición existentes pueden producir cambios no deseados, con correlaciones espurias aprendidas debido a la co-ocurrencia de enfermedades e intervenciones de tratamiento, lo que limita su aplicabilidad práctica. Para abordar esto, entrenamos un modelo de difusión de texto a imagen en múltiples conjuntos de datos de radiografías de tórax e introducimos un nuevo método de edición, RadEdit, que utiliza múltiples máscaras, si están presentes, para restringir los cambios y garantizar la coherencia en las imágenes editadas. Consideramos tres tipos de cambios en los conjuntos de datos: cambio de adquisición, cambio de manifestación y cambio de población, y demostramos que nuestro enfoque puede diagnosticar fallos y cuantificar la robustez del modelo sin necesidad de recopilar datos adicionales, complementando herramientas más cualitativas para la IA explicable.