HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

19 papers found

TinyGPT-V: Modelo de Lenguaje Multimodal Eficiente mediante Arquitecturas Pequeñas
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Dec 28

ByZhengqing Yuan, Zhaoxu Li, Lichao Sun

En la era del aprendizaje multimodal avanzado, los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) como GPT-4V han logrado avances notables en la integración de elementos lingüísticos y visuales. Sin embargo, su naturaleza de código cerrado y su considerable demanda computacional presentan desafíos significativos para su uso universal y modificación. Aquí es donde entran en juego los MLLMs de código abierto como LLaVA y MiniGPT-4, que han logrado avances innovadores en diversas tareas. A pesar de estos logros, la eficiencia computacional sigue siendo un problema sin resolver, ya que estos modelos, como LLaVA-v1.5-13B, requieren recursos sustanciales. Para abordar estos problemas, presentamos TinyGPT-V, un modelo de nueva generación que combina un rendimiento impresionante con una capacidad computacional accesible. Destaca por requerir solo una GPU de 24G para el entrenamiento y una GPU de 8G o una CPU para la inferencia. Basado en Phi-2, TinyGPT-V integra un núcleo lingüístico eficaz con módulos de visión preentrenados de BLIP-2 o CLIP. Los 2.8 mil millones de parámetros de TinyGPT-V pueden someterse a un proceso único de cuantización, adecuado para su implementación local y tareas de inferencia en diversos dispositivos con 8G. Nuestro trabajo fomenta avances adicionales en el diseño de MLLMs rentables, eficientes y de alto rendimiento, ampliando su aplicabilidad en una amplia gama de escenarios del mundo real. Además, este artículo propone un nuevo paradigma de Modelos de Lenguaje Multimodal de Gran Escala mediante núcleos pequeños. Nuestro código y pesos de entrenamiento están disponibles en: https://github.com/DLYuanGod/TinyGPT-V y https://huggingface.co/Tyrannosaurus/TinyGPT-V, respectivamente.

Unified-IO 2: Escalando Modelos Autoregresivos Multimodales con Visión, Lenguaje, Audio y Acción
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

Dec 28

ByJiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi

Presentamos Unified-IO 2, el primer modelo multimodal autorregresivo capaz de comprender y generar imágenes, texto, audio y acciones. Para unificar las diferentes modalidades, tokenizamos las entradas y salidas —imágenes, texto, audio, acciones, cuadros delimitadores, etc.— en un espacio semántico compartido y luego las procesamos con un único modelo transformador de codificador-decodificador. Dado que el entrenamiento con modalidades tan diversas es un desafío, proponemos varias mejoras arquitectónicas para estabilizar el entrenamiento del modelo. Entrenamos nuestro modelo desde cero en un gran corpus de preentrenamiento multimodal proveniente de diversas fuentes, utilizando un objetivo de mezcla multimodal de desenmascaradores. Para aprender un amplio conjunto de habilidades, como seguir instrucciones multimodales, construimos y afinamos un conjunto de 120 conjuntos de datos con indicaciones y aumentos. Con un único modelo unificado, Unified-IO 2 logra un rendimiento de vanguardia en el benchmark GRIT y resultados sólidos en más de 35 benchmarks, incluyendo generación y comprensión de imágenes, comprensión del lenguaje natural, comprensión de video y audio, y manipulación robótica. Liberamos todos nuestros modelos para la comunidad investigadora.

IA Generativa para Matemáticas: Parte I -- MathPile: Un Corpus de Preentrenamiento a Escala de Mil Millones de Tokens para Matemáticas
Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Dec 28

ByZengzhi Wang, Rui Xia, Pengfei Liu

Los corpus de alta calidad y gran escala son la piedra angular para la construcción de modelos fundamentales. En este trabajo, presentamos MathPile, un corpus diverso y de alta calidad centrado en matemáticas que comprende aproximadamente 9.500 millones de tokens. Durante su creación, nos adherimos al principio de "menos es más", creyendo firmemente en la supremacía de la calidad de los datos sobre la cantidad, incluso en la fase de preentrenamiento. Nuestros meticulosos esfuerzos de recopilación y procesamiento de datos incluyeron un complejo conjunto de tareas de preprocesamiento, prefiltrado, identificación de idiomas, limpieza, filtrado y deduplicación, asegurando así la alta calidad de nuestro corpus. Además, realizamos detección de contaminación de datos en conjuntos de pruebas de referencia posteriores para eliminar duplicados. Esperamos que nuestro MathPile pueda ayudar a mejorar las habilidades de razonamiento matemático de los modelos de lenguaje. Planeamos liberar en código abierto diferentes versiones de \mathpile junto con los scripts utilizados para su procesamiento, con el fin de facilitar futuros desarrollos en este campo.

MobileVLM: Un Asistente de Visión y Lenguaje Rápido, Reproducible y Potente para Dispositivos Móviles
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices

Dec 28

ByXiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen

Presentamos MobileVLM, un modelo multimodal de visión y lenguaje (MMVLM) competente diseñado para ejecutarse en dispositivos móviles. Es una amalgama de una variedad de diseños arquitectónicos y técnicas orientadas a móviles, que incluye un conjunto de modelos de lenguaje con escalas de 1.4B y 2.7B parámetros, entrenados desde cero, un modelo de visión multimodal preentrenado al estilo CLIP, y una interacción entre modalidades mediante un proyector eficiente. Evaluamos MobileVLM en varios benchmarks típicos de VLM. Nuestros modelos demuestran un rendimiento comparable con algunos modelos mucho más grandes. Más importante aún, medimos la velocidad de inferencia tanto en una CPU Qualcomm Snapdragon 888 como en una GPU NVIDIA Jetson Orin, y obtenemos un rendimiento de vanguardia de 21.5 y 65.3 tokens por segundo, respectivamente. Nuestro código estará disponible en: https://github.com/Meituan-AutoML/MobileVLM.

Segmentación de Imágenes Universal No Supervisada
Unsupervised Universal Image Segmentation

Dec 28

ByDantong Niu, Xudong Wang, Xinyang Han, Long Lian, Roei Herzig, Trevor Darrell

Se han propuesto varios enfoques de segmentación de imágenes no supervisados que eliminan la necesidad de máscaras de segmentación anotadas manualmente de manera densa; los modelos actuales manejan por separado ya sea la segmentación semántica (por ejemplo, STEGO) o la segmentación de instancias independiente de la clase (por ejemplo, CutLER), pero no ambas (es decir, la segmentación panóptica). Proponemos un modelo de Segmentación Universal No Supervisada (U2Seg) capaz de realizar diversas tareas de segmentación de imágenes —segmentación de instancias, semántica y panóptica— utilizando un marco unificado novedoso. U2Seg genera etiquetas semánticas pseudo para estas tareas de segmentación aprovechando modelos auto-supervisados seguidos de agrupamiento; cada grupo representa la pertenencia semántica y/o de instancia de los píxeles. Luego, auto-entrenamos el modelo con estas etiquetas semánticas pseudo, obteniendo mejoras sustanciales en el rendimiento en comparación con métodos especializados diseñados para cada tarea: un aumento de +2.6 AP^{box} frente a CutLER en segmentación de instancias no supervisada en COCO y un incremento de +7.0 PixelAcc (frente a STEGO) en segmentación semántica no supervisada en COCOStuff. Además, nuestro método establece un nuevo punto de referencia para la segmentación panóptica no supervisada, que no había sido explorada previamente. U2Seg también es un modelo preentrenado sólido para la segmentación con pocos ejemplos, superando a CutLER por +5.0 AP^{mask} cuando se entrena en un régimen de bajo volumen de datos, por ejemplo, solo el 1% de las etiquetas de COCO. Esperamos que nuestro método simple pero efectivo pueda inspirar más investigaciones sobre la segmentación universal de imágenes no supervisada.

DreamGaussian4D: Generación de Splatting Gaussiano 4D
DreamGaussian4D: Generative 4D Gaussian Splatting

Dec 28

ByJiawei Ren, Liang Pan, Jiaxiang Tang, Chi Zhang, Ang Cao, Gang Zeng, Ziwei Liu

Se ha logrado un progreso notable en la generación de contenido 4D recientemente. Sin embargo, los métodos existentes adolecen de tiempos de optimización prolongados, falta de controlabilidad del movimiento y un bajo nivel de detalle. En este artículo, presentamos DreamGaussian4D, un marco eficiente para la generación 4D que se basa en la representación de 4D Gaussian Splatting. Nuestra idea clave es que el modelado explícito de transformaciones espaciales en Gaussian Splatting lo hace más adecuado para el entorno de generación 4D en comparación con las representaciones implícitas. DreamGaussian4D reduce el tiempo de optimización de varias horas a solo unos minutos, permite un control flexible del movimiento 3D generado y produce mallas animadas que pueden renderizarse eficientemente en motores 3D.

DL3DV-10K: Un conjunto de datos de escenas a gran escala para visión 3D basada en aprendizaje profundo
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Dec 26

ByLu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera

Hemos presenciado avances significativos en la visión 3D basada en aprendizaje profundo, que van desde el aprendizaje de representación 3D basado en campos de radiancia neural (NeRF) hasta aplicaciones en la síntesis de nuevas vistas (NVS). Sin embargo, los conjuntos de datos a nivel de escena existentes para la visión 3D basada en aprendizaje profundo, limitados a entornos sintéticos o a una selección reducida de escenas del mundo real, son bastante insuficientes. Esta insuficiencia no solo dificulta una evaluación integral de los métodos existentes, sino que también limita lo que podría explorarse en el análisis 3D basado en aprendizaje profundo. Para abordar esta brecha crítica, presentamos DL3DV-10K, un conjunto de datos de escenas a gran escala, que incluye 51.2 millones de fotogramas de 10,510 videos capturados en 65 tipos de ubicaciones de interés (POI), cubriendo tanto escenas delimitadas como no delimitadas, con diferentes niveles de reflexión, transparencia e iluminación. Realizamos una evaluación exhaustiva de los métodos recientes de NVS en DL3DV-10K, lo que reveló valiosas ideas para futuras investigaciones en NVS. Además, hemos obtenido resultados alentadores en un estudio piloto para aprender NeRF generalizable a partir de DL3DV-10K, lo que manifiesta la necesidad de un conjunto de datos a gran escala a nivel de escena para abrir camino hacia un modelo base para el aprendizaje de representación 3D. Nuestro conjunto de datos DL3DV-10K, los resultados de la evaluación y los modelos estarán disponibles públicamente en https://dl3dv-10k.github.io/DL3DV-10K/.

City-on-Web: Renderizado Neural en Tiempo Real de Escenas a Gran Escala en la Web
City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web

Dec 27

ByKaiwen Song, Juyong Zhang

NeRF ha avanzado significativamente en la reconstrucción de escenas 3D, capturando detalles intrincados en diversos entornos. Los métodos existentes han aprovechado con éxito el "baking" de campos de radiancia para facilitar la renderización en tiempo real de escenas pequeñas. Sin embargo, cuando se aplican a escenas de gran escala, estas técnicas enfrentan desafíos importantes, luchando por ofrecer una experiencia en tiempo real sin interrupciones debido a los recursos limitados en cómputo, memoria y ancho de banda. En este artículo, proponemos City-on-Web, que representa toda la escena dividiéndola en bloques manejables, cada uno con su propio nivel de detalle (Level-of-Detail), garantizando alta fidelidad, gestión eficiente de la memoria y renderización rápida. Además, diseñamos cuidadosamente el proceso de entrenamiento e inferencia para que el resultado final de la renderización en la web sea consistente con el entrenamiento. Gracias a nuestra representación novedosa y al proceso de entrenamiento/inferencia cuidadosamente diseñado, somos los primeros en lograr la renderización en tiempo real de escenas de gran escala en entornos con recursos limitados. Los resultados experimentales extensivos demuestran que nuestro método facilita la renderización en tiempo real de escenas de gran escala en una plataforma web, alcanzando 32 FPS a una resolución de 1080P con una GPU RTX 3060, mientras que simultáneamente logra una calidad que rivaliza estrechamente con la de los métodos más avanzados. Página del proyecto: https://ustc3dv.github.io/City-on-Web/

I2V-Adapter: Un Adaptador General de Imagen a Video para Modelos de Difusión de Video
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models

Dec 27

ByXun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang

En el ámbito en rápida evolución de la generación de contenido digital, el enfoque ha pasado de los modelos de texto a imagen (T2I) a modelos de difusión de video más avanzados, específicamente los de texto a video (T2V) e imagen a video (I2V). Este artículo aborda el complejo desafío planteado por I2V: convertir imágenes estáticas en secuencias de video dinámicas y realistas mientras se preserva la fidelidad de la imagen original. Los métodos tradicionales suelen implicar la integración de imágenes completas en procesos de difusión o el uso de codificadores preentrenados para la atención cruzada. Sin embargo, estos enfoques a menudo requieren modificar los pesos fundamentales de los modelos T2I, lo que limita su reutilización. Presentamos una solución novedosa, denominada I2V-Adapter, diseñada para superar estas limitaciones. Nuestro enfoque preserva la integridad estructural de los modelos T2I y sus módulos de movimiento inherentes. El I2V-Adapter opera procesando fotogramas de video ruidosos en paralelo con la imagen de entrada, utilizando un módulo adaptador ligero. Este módulo actúa como un puente, conectando eficientemente la entrada al mecanismo de auto-atención del modelo, manteniendo así los detalles espaciales sin requerir cambios estructurales en el modelo T2I. Además, I2V-Adapter requiere solo una fracción de los parámetros de los modelos convencionales y garantiza compatibilidad con los modelos T2I y herramientas de control impulsadas por la comunidad existentes. Nuestros resultados experimentales demuestran la capacidad de I2V-Adapter para producir salidas de video de alta calidad. Este rendimiento, junto con su versatilidad y la reducida necesidad de parámetros entrenables, representa un avance significativo en el campo de la generación de video impulsada por IA, particularmente para aplicaciones creativas.

InsActor: Personajes basados en física impulsados por instrucciones
InsActor: Instruction-driven Physics-based Characters

Dec 28

ByJiawei Ren, Mingyuan Zhang, Cunjun Yu, Xiao Ma, Liang Pan, Ziwei Liu

La generación de animaciones de personajes basados en física con control intuitivo ha sido durante mucho tiempo una tarea deseable con numerosas aplicaciones. Sin embargo, generar animaciones simuladas físicamente que reflejen instrucciones humanas de alto nivel sigue siendo un problema difícil debido a la complejidad de los entornos físicos y la riqueza del lenguaje humano. En este artículo, presentamos InsActor, un marco generativo fundamentado que aprovecha los avances recientes en modelos de movimiento humano basados en difusión para producir animaciones impulsadas por instrucciones de personajes basados en física. Nuestro marco permite a InsActor capturar relaciones complejas entre instrucciones humanas de alto nivel y movimientos de personajes mediante el uso de políticas de difusión para la planificación de movimientos condicionada de manera flexible. Para superar estados inválidos y transiciones de estado inviables en los movimientos planificados, InsActor descubre habilidades de bajo nivel y mapea planes a secuencias de habilidades latentes en un espacio latente compacto. Experimentos extensos demuestran que InsActor logra resultados de vanguardia en diversas tareas, incluyendo la generación de movimientos impulsados por instrucciones y la navegación hacia puntos de referencia guiada por instrucciones. Notablemente, la capacidad de InsActor para generar animaciones simuladas físicamente utilizando instrucciones humanas de alto nivel lo convierte en una herramienta valiosa, particularmente en la ejecución de tareas de largo plazo con un conjunto rico de instrucciones.

Proyección de Características Gaussianas en Espacio-Tiempo para Síntesis de Vistas Dinámicas en Tiempo Real
Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis

Dec 28

ByZhan Li, Zhang Chen, Zhong Li, Yi Xu

La síntesis de nuevas vistas de escenas dinámicas ha sido un problema fascinante pero desafiante. A pesar de los avances recientes, lograr simultáneamente resultados fotorealísticos de alta resolución, renderizado en tiempo real y almacenamiento compacto sigue siendo una tarea formidable. Para abordar estos desafíos, proponemos Spacetime Gaussian Feature Splatting como una nueva representación de escenas dinámicas, compuesta por tres componentes clave. Primero, formulamos Gaussianas Espacio-Temporales expresivas al mejorar las Gaussianas 3D con opacidad temporal y movimiento/rotación paramétricos. Esto permite que las Gaussianas Espacio-Temporales capturen contenido estático, dinámico y transitorio dentro de una escena. Segundo, introducimos el renderizado de características splat, que reemplaza los armónicos esféricos con características neuronales. Estas características facilitan el modelado de la apariencia dependiente de la vista y el tiempo, manteniendo un tamaño reducido. Tercero, aprovechamos la guía del error de entrenamiento y la profundidad aproximada para muestrear nuevas Gaussianas en áreas que son difíciles de converger con las tuberías existentes. Los experimentos en varios conjuntos de datos del mundo real establecidos demuestran que nuestro método logra una calidad y velocidad de renderizado de vanguardia, manteniendo un almacenamiento compacto. A una resolución de 8K, nuestra versión ligera del modelo puede renderizar a 60 FPS en una GPU Nvidia RTX 4090.

El Cirujano de Modelos de Lenguaje Grande
The LLM Surgeon

Dec 28

ByTycho F. A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort

Los modelos de lenguaje de última generación están aumentando cada vez más su tamaño en un esfuerzo por alcanzar el máximo rendimiento en grandes corpus de datos textuales disponibles. Sin embargo, el enorme tamaño de las arquitecturas Transformer dificulta el despliegue de los modelos dentro de limitaciones computacionales, ambientales o específicas del dispositivo. Exploramos la compresión basada en datos de modelos preentrenados existentes como una alternativa al entrenamiento de modelos más pequeños desde cero. Para ello, escalamos aproximaciones de curvatura factorizadas de Kronecker del paisaje de pérdidas objetivo a modelos de lenguaje grandes. Al hacerlo, podemos calcular tanto la asignación dinámica de estructuras que pueden eliminarse como las actualizaciones de los pesos restantes que tienen en cuenta la eliminación. Proporcionamos un marco general para la poda no estructurada, semiestructurada y estructurada, y mejoramos las actualizaciones de pesos para capturar más correlaciones entre ellos, manteniendo la eficiencia computacional. Experimentalmente, nuestro método puede podar filas y columnas de una variedad de modelos OPT y Llamav2-7B entre un 20% y un 30%, con una pérdida de rendimiento insignificante, y logra resultados de última generación en la poda no estructurada y semiestructurada de modelos de lenguaje grandes.

Hyper-VolTran: Generación Rápida y Generalizable de Estructuras 3D a partir de una Imagen en una Sola Toma mediante Hiperredes
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks

Dec 24

ByChristian Simon, Sen He, Juan-Manuel Perez-Rua, Frost Xu, Amine Benhalloum, Tao Xiang

Resolver la conversión de imagen a 3D a partir de una sola vista es un problema mal planteado, y los métodos actuales de reconstrucción neuronal que lo abordan mediante modelos de difusión aún dependen de la optimización específica de la escena, lo que limita su capacidad de generalización. Para superar las limitaciones de los enfoques existentes en cuanto a generalización y consistencia, introducimos una novedosa técnica de renderizado neuronal. Nuestro enfoque emplea la función de distancia con signo como representación de la superficie e incorpora conocimientos generalizables a través de volúmenes de codificación geométrica e HiperRedes. Específicamente, nuestro método construye volúmenes de codificación neuronal a partir de entradas de múltiples vistas generadas. Ajustamos los pesos de la red de SDF condicionada a una imagen de entrada en tiempo de prueba para permitir la adaptación del modelo a nuevas escenas de manera directa mediante HiperRedes. Para mitigar los artefactos derivados de las vistas sintetizadas, proponemos el uso de un módulo transformador de volúmenes para mejorar la agregación de características de imagen en lugar de procesar cada punto de vista por separado. A través de nuestro método propuesto, denominado Hyper-VolTran, evitamos el cuello de botella de la optimización específica de la escena y mantenemos la consistencia entre las imágenes generadas desde múltiples puntos de vista. Nuestros experimentos muestran las ventajas de nuestro enfoque propuesto con resultados consistentes y generación rápida.

PanGu-Draw: Avanzando en la síntesis eficiente de imágenes a partir de texto con entrenamiento desacoplado temporalmente y Coop-Difusión reutilizable
PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

Dec 27

ByGuansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu

Los modelos de difusión a gran escala actuales representan un gran avance en la síntesis de imágenes condicionales, siendo capaces de interpretar diversas señales como texto, poses humanas y bordes. Sin embargo, su dependencia de recursos computacionales sustanciales y la recopilación extensiva de datos sigue siendo un cuello de botella. Por otro lado, la integración de modelos de difusión existentes, cada uno especializado en diferentes controles y operando en espacios latentes únicos, presenta un desafío debido a resoluciones de imagen incompatibles y estructuras de incrustación de espacios latentes, lo que dificulta su uso conjunto. Para abordar estas limitaciones, presentamos "PanGu-Draw", un novedoso modelo de difusión latente diseñado para la síntesis eficiente de imágenes a partir de texto que se adapta hábilmente a múltiples señales de control. En primer lugar, proponemos una Estrategia de Entrenamiento con Desacoplamiento Temporal eficiente en recursos, que divide el modelo monolítico de texto a imagen en generadores de estructura y textura. Cada generador se entrena utilizando un régimen que maximiza la utilización de datos y la eficiencia computacional, reduciendo la preparación de datos en un 48% y disminuyendo los recursos de entrenamiento en un 51%. En segundo lugar, introducimos "Coop-Diffusion", un algoritmo que permite el uso cooperativo de varios modelos de difusión preentrenados con diferentes espacios latentes y resoluciones predefinidas dentro de un proceso unificado de eliminación de ruido. Esto permite la síntesis de imágenes con múltiples controles en resoluciones arbitrarias sin la necesidad de datos adicionales o reentrenamiento. Las validaciones empíricas de PanGu-Draw muestran su excepcional destreza en la generación de imágenes a partir de texto y con múltiples controles, sugiriendo una dirección prometedora para futuras eficiencias en el entrenamiento de modelos y versatilidad en la generación. El modelo más grande de PanGu-Draw de 5B T2I se ha lanzado en la plataforma Ascend. Página del proyecto: https://pangu-draw.github.io

Primitivas Compactas de Gráficos Neuronales con Sondeo de Hash Aprendido
Compact Neural Graphics Primitives with Learned Hash Probing

Dec 28

ByTowaki Takikawa, Thomas Müller, Merlin Nimier-David, Alex Evans, Sanja Fidler, Alec Jacobson, Alexander Keller

Los primitivos de gráficos neuronales son más rápidos y logran mayor calidad cuando sus redes neuronales se complementan con estructuras de datos espaciales que contienen características entrenables organizadas en una cuadrícula. Sin embargo, las cuadrículas de características existentes presentan ya sea una gran huella de memoria (cuadrículas densas o factorizadas, árboles y tablas hash) o un rendimiento lento (aprendizaje de índices y cuantización vectorial). En este artículo, demostramos que una tabla hash con sondeos aprendidos no tiene ninguna de estas desventajas, logrando una combinación favorable de tamaño y velocidad. La inferencia es más rápida que las tablas hash sin sondeo con igual calidad, mientras que el entrenamiento es solo 1.2-2.6 veces más lento, superando significativamente enfoques previos de aprendizaje de índices. Llegamos a esta formulación al enmarcar todas las cuadrículas de características en un marco común: cada una corresponde a una función de búsqueda que indexa en una tabla de vectores de características. En este marco, las funciones de búsqueda de las estructuras de datos existentes pueden combinarse mediante operaciones aritméticas simples de sus índices, logrando una compresión y velocidad óptimas en el sentido de Pareto.

SSR-Encoder: Codificación de Representación Selectiva del Sujeto para Generación Guiada por el Sujeto
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation

Dec 26

ByYuxuan Zhang, Jiaming Liu, Yiren Song, Rui Wang, Hao Tang, Jinpeng Yu, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing

Los recientes avances en la generación de imágenes basadas en sujetos han permitido la generación en modo zero-shot, aunque la selección precisa y el enfoque en las representaciones cruciales del sujeto siguen siendo desafiantes. Para abordar esto, presentamos el SSR-Encoder, una arquitectura novedosa diseñada para capturar selectivamente cualquier sujeto a partir de una o múltiples imágenes de referencia. Responde a diversas modalidades de consulta, incluyendo texto y máscaras, sin requerir ajustes en tiempo de prueba. El SSR-Encoder combina un Alineador de Token-a-Parche que alinea las entradas de consulta con los parches de imagen y un Codificador de Sujetos que Preserva Detalles para extraer y preservar las características finas de los sujetos, generando así incrustaciones de sujetos. Estas incrustaciones, utilizadas junto con las incrustaciones de texto originales, condicionan el proceso de generación. Caracterizado por su generalización de modelo y eficiencia, el SSR-Encoder se adapta a una variedad de modelos personalizados y módulos de control. Potenciado por la Pérdida de Regularización de Consistencia de Incrustaciones para mejorar el entrenamiento, nuestros extensos experimentos demuestran su efectividad en la generación versátil y de alta calidad de imágenes, indicando su amplia aplicabilidad. Página del proyecto: https://ssr-encoder.github.io

Expansión de Prompt para Generación Adaptativa de Texto a Imagen
Prompt Expansion for Adaptive Text-to-Image Generation

Dec 27

BySiddhartha Datta, Alexander Ku, Deepak Ramachandran, Peter Anderson

Los modelos de generación de texto a imagen son potentes pero difíciles de usar. Los usuarios elaboran indicaciones específicas para obtener mejores imágenes, aunque estas pueden resultar repetitivas. Este artículo propone un marco de Expansión de Indicaciones que ayuda a los usuarios a generar imágenes de alta calidad y diversas con menos esfuerzo. El modelo de Expansión de Indicaciones toma una consulta de texto como entrada y produce un conjunto de indicaciones de texto expandidas que están optimizadas para que, al ser pasadas a un modelo de texto a imagen, generen una mayor variedad de imágenes atractivas. Realizamos un estudio de evaluación humana que muestra que las imágenes generadas mediante Expansión de Indicaciones son más estéticamente agradables y diversas que las generadas por métodos de referencia. En general, este artículo presenta un enfoque novedoso y efectivo para mejorar la experiencia de generación de texto a imagen.

DiffusionGAN3D: Potenciando la generación 3D guiada por texto y la adaptación de dominio mediante la combinación de GANs 3D y priores de difusión
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors

Dec 28

ByBiwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie

La adaptación de dominio y la generación de retratos 3D guiados por texto encuentran muchas aplicaciones en diversos campos. Sin embargo, debido a la falta de datos de entrenamiento y a los desafíos en el manejo de la alta variedad de geometría y apariencia, los métodos existentes para estas tareas sufren de problemas como inflexibilidad, inestabilidad y baja fidelidad. En este artículo, proponemos un nuevo marco llamado DiffusionGAN3D, que impulsa la adaptación de dominio y la generación 3D guiadas por texto al combinar GANs 3D y modelos de difusión. Específicamente, integramos modelos generativos 3D preentrenados (por ejemplo, EG3D) y modelos de difusión de texto a imagen. El primero proporciona una base sólida para la generación estable y de alta calidad de avatares a partir de texto. Y los modelos de difusión, a su vez, ofrecen poderosos priores y guían el ajuste fino del generador 3D con una dirección informativa para lograr una adaptación de dominio guiada por texto flexible y eficiente. Para mejorar la diversidad en la adaptación de dominio y la capacidad de generación en la tarea de texto a avatar, introducimos la pérdida de distancia relativa y el triplano aprendible específico para cada caso, respectivamente. Además, diseñamos un módulo de refinamiento progresivo de texturas para mejorar la calidad de las texturas en ambas tareas mencionadas. Experimentos extensivos demuestran que el marco propuesto logra resultados excelentes tanto en la adaptación de dominio como en la tarea de texto a avatar, superando a los métodos existentes en términos de calidad y eficiencia de generación. La página principal del proyecto se encuentra en https://younglbw.github.io/DiffusionGAN3D-homepage/.

Restauración mediante Generación con Priores Constreñidos
Restoration by Generation with Constrained Priors

Dec 28

ByZheng Ding, Xuaner Zhang, Zhuowen Tu, Zhihao Xia

El poder generativo inherente de los modelos de difusión de eliminación de ruido los hace especialmente adecuados para tareas de restauración de imágenes, donde el objetivo es encontrar la imagen de alta calidad óptima dentro del espacio generativo que se asemeje estrechamente a la imagen de entrada. Proponemos un método para adaptar un modelo de difusión preentrenado para la restauración de imágenes simplemente añadiendo ruido a la imagen de entrada que se desea restaurar y luego eliminándolo. Nuestro método se basa en la observación de que el espacio de un modelo generativo necesita estar restringido. Imponemos esta restricción ajustando el modelo generativo con un conjunto de imágenes de anclaje que capturan las características de la imagen de entrada. Con el espacio restringido, podemos entonces aprovechar la estrategia de muestreo utilizada para la generación para realizar la restauración de imágenes. Evaluamos nuestro método frente a enfoques anteriores y mostramos un rendimiento superior en múltiples conjuntos de datos de restauración del mundo real, preservando la identidad y la calidad de la imagen. También demostramos una aplicación importante y práctica en la restauración personalizada, donde utilizamos un álbum personal como imágenes de anclaje para restringir el espacio generativo. Este enfoque nos permite producir resultados que preservan con precisión los detalles de alta frecuencia, algo que los trabajos anteriores no logran hacer. Página web del proyecto: https://gen2res.github.io.

PanGu-Draw: Avanzando en la síntesis eficiente de imágenes a partir de texto con entrenamiento desacoplado temporalmente y Coop-Difusión reutilizable
PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

Dec 27

ByGuansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu