Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos LlamaGen, una nueva familia de modelos de generación de imágenes que aplica el paradigma original de "predicción del siguiente token" de los modelos de lenguaje grandes al dominio de la generación visual. Es una respuesta afirmativa a si los modelos autorregresivos convencionales, como Llama, sin sesgos inductivos sobre señales visuales, pueden alcanzar un rendimiento de vanguardia en generación de imágenes si se escalan adecuadamente. Reexaminamos los espacios de diseño de los tokenizadores de imágenes, las propiedades de escalabilidad de los modelos de generación de imágenes y la calidad de sus datos de entrenamiento. El resultado de esta exploración incluye: (1) Un tokenizador de imágenes con una relación de reducción de 16, una calidad de reconstrucción de 0.94 rFID y un uso del codebook del 97% en el benchmark de ImageNet. (2) Una serie de modelos de generación de imágenes condicionados por clase que van desde 111M hasta 3.1B de parámetros, logrando un FID de 2.18 en los benchmarks de ImageNet 256x256, superando a modelos de difusión populares como LDM y DiT. (3) Un modelo de generación de imágenes condicionado por texto con 775M de parámetros, entrenado en dos etapas con datos de LAION-COCO e imágenes de alta calidad estética, demostrando un rendimiento competitivo en calidad visual y alineación de texto. (4) Verificamos la efectividad de los frameworks de servicio de LLM en la optimización de la velocidad de inferencia de los modelos de generación de imágenes, logrando una aceleración del 326% al 414%. Liberamos todos los modelos y códigos para facilitar a la comunidad de código abierto en generación visual y modelos fundacionales multimodales.
Los agentes de lenguaje realizan tareas complejas utilizando herramientas para ejecutar cada paso con precisión. Sin embargo, la mayoría de los agentes existentes se basan en modelos propietarios o están diseñados para abordar tareas específicas, como matemáticas o respuestas a preguntas de múltiples saltos. Presentamos Husky, un agente de lenguaje holístico y de código abierto que aprende a razonar sobre un espacio de acción unificado para abordar un conjunto diverso de tareas complejas que involucran razonamiento numérico, tabular y basado en conocimiento. Husky itera entre dos etapas: 1) generar la siguiente acción para resolver una tarea dada y 2) ejecutar la acción utilizando modelos expertos y actualizar el estado actual de la solución. Identificamos una ontología exhaustiva de acciones para abordar tareas complejas y seleccionamos datos de alta calidad para entrenar modelos expertos que ejecuten estas acciones. Nuestros experimentos muestran que Husky supera a los agentes de lenguaje anteriores en 14 conjuntos de datos de evaluación. Además, presentamos HuskyQA, un nuevo conjunto de evaluación que pone a prueba a los agentes de lenguaje en el razonamiento con herramientas mixtas, con un enfoque en la recuperación de conocimiento faltante y la realización de razonamiento numérico. A pesar de utilizar modelos de 7B, Husky iguala o incluso supera a modelos de vanguardia como GPT-4 en estas tareas, demostrando la eficacia de nuestro enfoque holístico para abordar problemas de razonamiento complejos. Nuestro código y modelos están disponibles en https://github.com/agent-husky/Husky-v1.
Los avances en el aprendizaje multimodal, particularmente en la comprensión y generación de videos, requieren conjuntos de datos de video-texto de alta calidad para mejorar el rendimiento de los modelos. Vript aborda este problema con un corpus meticulosamente anotado de 12K videos de alta resolución, ofreciendo subtítulos detallados, densos y similares a guiones para más de 420K clips. Cada clip tiene un subtítulo de ~145 palabras, lo que es más de 10 veces más largo que la mayoría de los conjuntos de datos video-texto. A diferencia de los subtítulos que solo documentan contenido estático en conjuntos de datos anteriores, mejoramos la subtitulación de videos a la creación de guiones, documentando no solo el contenido, sino también las operaciones de cámara, que incluyen los tipos de toma (plano medio, primer plano, etc.) y los movimientos de cámara (paneo, inclinación, etc.). Al utilizar Vript, exploramos tres paradigmas de entrenamiento que alinean más texto con la modalidad de video en lugar de pares clip-subtítulo. Esto resulta en Vriptor, un modelo de subtitulación de videos de alto rendimiento entre los modelos de código abierto, comparable a GPT-4V en rendimiento. Vriptor también es un modelo potente capaz de generar subtítulos densos y detallados de manera integral para videos largos. Además, presentamos Vript-Hard, un punto de referencia que consta de tres tareas de comprensión de videos más desafiantes que los puntos de referencia existentes: Vript-HAL es el primer punto de referencia que evalúa las alucinaciones de acciones y objetos en modelos de lenguaje de video (LLMs), Vript-RR combina razonamiento con recuperación para resolver la ambigüedad de preguntas en QAs de videos largos, y Vript-ERO es una nueva tarea para evaluar la comprensión temporal de eventos en videos largos en lugar de acciones en videos cortos en trabajos anteriores. Todo el código, modelos y conjuntos de datos están disponibles en https://github.com/mutonix/Vript.
En el ámbito de la salud, la mayoría de las investigaciones sobre modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) se han centrado en tareas clínicas. Sin embargo, los dispositivos móviles y wearables, que rara vez se integran en dichas tareas, proporcionan datos longitudinales ricos para el monitoreo personal de la salud. Aquí presentamos el Modelo de Lenguaje de Gran Escala para Salud Personal (PH-LLM), ajustado a partir de Gemini para comprender y razonar sobre datos numéricos de series temporales de salud personal. Creamos y curaron tres conjuntos de datos que evalúan 1) la producción de insights y recomendaciones personalizadas a partir de patrones de sueño, actividad física y respuestas fisiológicas, 2) el conocimiento experto del dominio, y 3) la predicción de resultados de sueño autoinformados. Para la primera tarea, diseñamos 857 estudios de caso en colaboración con expertos del dominio para evaluar escenarios del mundo real en sueño y fitness. A través de una evaluación exhaustiva de rúbricas específicas del dominio, observamos que Gemini Ultra 1.0 y PH-LLM no son estadísticamente diferentes del rendimiento experto en fitness y, aunque los expertos siguen siendo superiores en sueño, el ajuste fino de PH-LLM proporcionó mejoras significativas en el uso de conocimiento relevante del dominio y la personalización de información para insights sobre el sueño. Evaluamos el conocimiento del dominio de PH-LLM utilizando exámenes de opción múltiple en medicina del sueño y fitness. PH-LLM logró un 79% en sueño y un 88% en fitness, superando las puntuaciones promedio de una muestra de expertos humanos. Finalmente, entrenamos a PH-LLM para predecir resultados de calidad de sueño autoinformados a partir de representaciones textuales y multimodales de datos de wearables, y demostramos que la codificación multimodal es necesaria para igualar el rendimiento de modelos discriminativos especializados. Aunque se requiere más desarrollo y evaluación en el dominio crítico de la salud personal, estos resultados demuestran tanto el amplio conocimiento y capacidades de los modelos Gemini como el beneficio de contextualizar datos fisiológicos para aplicaciones de salud personal, como se ha hecho con PH-LLM.
Los métodos basados en renderizado volumétrico, como NeRF, destacan en la síntesis de vistas HDR a partir de imágenes RAW, especialmente en escenas nocturnas. Sin embargo, presentan tiempos de entrenamiento prolongados y no pueden realizar renderizado en tiempo real debido a los requisitos de muestreo denso. La aparición del 3D Gaussian Splatting (3DGS) permite el renderizado en tiempo real y un entrenamiento más rápido. No obstante, implementar la síntesis de vistas basada en imágenes RAW directamente utilizando 3DGS es un desafío debido a sus limitaciones inherentes: 1) en escenas nocturnas, una relación señal-ruido (SNR) extremadamente baja conduce a una estimación deficiente de la estructura a partir del movimiento (SfM) en vistas distantes; 2) la capacidad limitada de representación de las funciones armónicas esféricas (SH) no es adecuada para el espacio de color lineal RAW; y 3) una estructura de escena imprecisa dificulta tareas posteriores como el reenfoque. Para abordar estos problemas, proponemos LE3D (Lighting Every darkness with 3DGS). Nuestro método introduce la Inicialización de Dispersión Cónica para enriquecer la estimación de SfM y reemplaza las SH con una Red Neuronal de Color (Color MLP) para representar el espacio de color lineal RAW. Además, incorporamos regularizaciones de distorsión de profundidad y de rango cercano-lejano para mejorar la precisión de la estructura de la escena en tareas posteriores. Estos diseños permiten a LE3D realizar síntesis de vistas novedosas en tiempo real, renderizado HDR, reenfoque y cambios de mapeo de tonos. En comparación con los métodos anteriores basados en renderizado volumétrico, LE3D reduce el tiempo de entrenamiento al 1% y mejora la velocidad de renderizado hasta 4,000 veces para imágenes de resolución 2K en términos de FPS. El código y el visor están disponibles en https://github.com/Srameo/LE3D.
El desarrollo de terapéuticos es un proceso largo y costoso que requiere cumplir con muchos criterios diferentes, y los modelos de IA capaces de acelerar este proceso serían de un valor incalculable. Sin embargo, la mayoría de los enfoques actuales de IA abordan solo un conjunto estrechamente definido de tareas, a menudo circunscritas dentro de un dominio particular. Para cerrar esta brecha, presentamos Tx-LLM, un modelo de lenguaje grande (LLM) generalista ajustado a partir de PaLM-2 que codifica conocimiento sobre diversas modalidades terapéuticas. Tx-LLM se entrena utilizando una colección de 709 conjuntos de datos que abarcan 66 tareas en varias etapas del proceso de descubrimiento de fármacos. Utilizando un único conjunto de pesos, Tx-LLM procesa simultáneamente una amplia variedad de entidades químicas o biológicas (moléculas pequeñas, proteínas, ácidos nucleicos, líneas celulares, enfermedades) intercaladas con texto libre, lo que le permite predecir una amplia gama de propiedades asociadas, logrando un rendimiento competitivo con el estado del arte (SOTA) en 43 de las 66 tareas y superando el SOTA en 22. Entre estas, Tx-LLM es particularmente potente y supera el rendimiento de clase superior en promedio para tareas que combinan representaciones SMILES de moléculas con texto como nombres de líneas celulares o nombres de enfermedades, probablemente debido al contexto aprendido durante el preentrenamiento. Observamos evidencia de transferencia positiva entre tareas con diversos tipos de fármacos (por ejemplo, tareas que involucran moléculas pequeñas y tareas que involucran proteínas), y estudiamos el impacto del tamaño del modelo, el ajuste fino del dominio y las estrategias de indicación en el rendimiento. Creemos que Tx-LLM representa un paso importante hacia los LLM que codifican conocimiento bioquímico y podría tener un papel futuro como una herramienta integral en todo el proceso de desarrollo de descubrimiento de fármacos.
Este artículo presenta VALL-E 2, el avance más reciente en modelos de lenguaje de códec neuronal que marca un hito en la síntesis de texto a voz (TTS) en modo zero-shot, logrando por primera vez un nivel equivalente al humano. Basado en su predecesor, VALL-E, esta nueva iteración introduce dos mejoras significativas: el Muestreo Consciente de Repeticiones refina el proceso original de muestreo de núcleo al tener en cuenta la repetición de tokens en el historial de decodificación. No solo estabiliza la decodificación, sino que también evita el problema de los bucles infinitos. El Modelado de Códigos Agrupados organiza los códigos del códec en grupos para acortar efectivamente la longitud de la secuencia, lo que no solo acelera la inferencia, sino que también aborda los desafíos del modelado de secuencias largas. Nuestros experimentos en los conjuntos de datos LibriSpeech y VCTK muestran que VALL-E 2 supera a los sistemas anteriores en robustez del habla, naturalidad y similitud con el hablante. Es el primero de su tipo en alcanzar un nivel equivalente al humano en estos puntos de referencia. Además, VALL-E 2 sintetiza consistentemente habla de alta calidad, incluso para oraciones que tradicionalmente son desafiantes debido a su complejidad o frases repetitivas. Las ventajas de este trabajo podrían contribuir a esfuerzos valiosos, como la generación de habla para personas con afasia o personas con esclerosis lateral amiotrófica. Las demostraciones de VALL-E 2 estarán disponibles en https://aka.ms/valle2.
Las técnicas modernas de alineación basadas en preferencias humanas, como RLHF y DPO, suelen emplear regularización de divergencia respecto al modelo de referencia para garantizar la estabilidad del entrenamiento. Sin embargo, esto a menudo limita la flexibilidad de los modelos durante la alineación, especialmente cuando existe una discrepancia distribucional clara entre los datos de preferencia y el modelo de referencia. En este artículo, nos centramos en la alineación de modelos recientes de difusión texto-imagen, como Stable Diffusion XL (SDXL), y encontramos que este "desajuste de referencia" es, de hecho, un problema significativo al alinear estos modelos debido a la naturaleza no estructurada de las modalidades visuales: por ejemplo, una preferencia por un aspecto estilístico particular puede inducir fácilmente tal discrepancia. Motivados por esta observación, proponemos un método novedoso y eficiente en memoria para la alineación de preferencias en modelos de difusión que no depende de ningún modelo de referencia, denominado optimización de preferencias consciente del margen (MaPO). MaPO maximiza conjuntamente el margen de verosimilitud entre los conjuntos de imágenes preferidas y no preferidas, y la verosimilitud de los conjuntos preferidos, aprendiendo simultáneamente características estilísticas generales y preferencias. Para la evaluación, introducimos dos nuevos conjuntos de datos de preferencias por pares, que incluyen pares de imágenes autogeneradas de SDXL, Pick-Style y Pick-Safety, simulando diversos escenarios de desajuste de referencia. Nuestros experimentos validan que MaPO puede mejorar significativamente la alineación en Pick-Style y Pick-Safety, así como la alineación general de preferencias cuando se utiliza con Pick-a-Pic v2, superando al SDXL base y a otros métodos existentes. Nuestro código, modelos y conjuntos de datos están disponibles públicamente en https://mapo-t2i.github.io.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de lenguaje, pero enfrentan desafíos cuando se despliegan en dispositivos con recursos limitados debido a su gran cantidad de parámetros y su dependencia de multiplicaciones densas, lo que resulta en altas demandas de memoria y cuellos de botella en la latencia. La reparametrización de desplazamiento y suma ofrece una solución prometedora al reemplazar las costosas multiplicaciones con primitivas amigables para el hardware tanto en las capas de atención como en las capas de perceptrón multicapa (MLP) de un LLM. Sin embargo, las técnicas actuales de reparametrización requieren entrenamiento desde cero o ajuste fino de todos los parámetros para restaurar la precisión, lo que es intensivo en recursos para los LLMs. Para abordar esto, proponemos acelerar LLMs preentrenados mediante reparametrización de desplazamiento y suma post-entrenamiento, creando modelos eficientes libres de multiplicaciones, denominados ShiftAddLLM. Específicamente, cuantificamos cada matriz de pesos en matrices binarias emparejadas con factores de escalado por grupos. Las multiplicaciones asociadas se reparametrizan en (1) desplazamientos entre activaciones y factores de escalado y (2) consultas y sumas según las matrices binarias. Para reducir la pérdida de precisión, presentamos un método de optimización multiobjetivo para minimizar tanto los errores de reparametrización de los pesos como los de las activaciones de salida. Además, basándonos en la sensibilidad variable de las capas a la reparametrización, desarrollamos una estrategia automatizada de asignación de bits para reducir aún más el uso de memoria y la latencia. Los experimentos en cinco familias de LLMs y ocho tareas validan consistentemente la efectividad de ShiftAddLLM, logrando mejoras promedio en la perplejidad de 5.6 y 22.7 puntos con una latencia comparable o menor en comparación con los LLMs cuantizados más competitivos a 3 y 2 bits, respectivamente, y reducciones de más del 80% en memoria y energía sobre los LLMs originales. Los códigos y modelos están disponibles en https://github.com/GATECH-EIC/ShiftAddLLM.
Cómo los humanos pueden adquirir imágenes de manera eficiente y efectiva ha sido siempre una pregunta perenne. Una solución típica es la recuperación de texto a imagen a partir de una base de datos existente dada una consulta de texto; sin embargo, la base de datos limitada generalmente carece de creatividad. En contraste, los recientes avances en la generación de texto a imagen han hecho posible producir contenido visual llamativo y diverso, pero enfrenta desafíos en la síntesis de imágenes intensivas en conocimiento. En este trabajo, reconsideramos la relación entre la generación y la recuperación de texto a imagen y proponemos un marco unificado en el contexto de los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés). Específicamente, primero exploramos las habilidades discriminativas intrínsecas de los MLLMs e introducimos un método de recuperación generativa para realizar la recuperación de manera libre de entrenamiento. Posteriormente, unificamos la generación y la recuperación en un enfoque de generación autoregresiva y proponemos un módulo de decisión autónoma para elegir la mejor coincidencia entre las imágenes generadas y recuperadas como respuesta a la consulta de texto. Además, construimos un punto de referencia llamado TIGeR-Bench, que incluye dominios creativos e intensivos en conocimiento, para estandarizar la evaluación de la generación y recuperación unificada de texto a imagen. Los resultados experimentales extensivos en TIGeR-Bench y dos puntos de referencia de recuperación, es decir, Flickr30K y MS-COCO, demuestran la superioridad y efectividad de nuestro método propuesto.
Los métodos existentes para la síntesis de vistas reluminadas -- que utilizan un conjunto de imágenes de un objeto bajo iluminación desconocida para recuperar una representación 3D que puede ser renderizada desde nuevos puntos de vista bajo una iluminación objetivo -- se basan en la renderización inversa e intentan desentrañar la geometría del objeto, los materiales y la iluminación que explican las imágenes de entrada. Además, esto generalmente implica una optimización a través de la renderización Monte Carlo diferenciable, que es frágil y computacionalmente costosa. En este trabajo, proponemos un enfoque más simple: primero reluminamos cada imagen de entrada utilizando un modelo de difusión de imágenes condicionado por la iluminación y luego reconstruimos un Campo de Radiancia Neural (NeRF) con estas imágenes reluminadas, desde el cual renderizamos nuevas vistas bajo la iluminación objetivo. Demostramos que esta estrategia es sorprendentemente competitiva y logra resultados de vanguardia en múltiples benchmarks de reluminación. Por favor, visite nuestra página del proyecto en https://illuminerf.github.io/.
La destilación de grandes modelos de difusión latente (LDMs, por sus siglas en inglés) en modelos que permiten un muestreo rápido está atrayendo un creciente interés en la investigación. Sin embargo, la mayoría de los métodos existentes enfrentan un dilema en el que o bien (i) dependen de múltiples modelos destilados individuales para diferentes presupuestos de muestreo, o bien (ii) sacrifican la calidad de generación con un número limitado (por ejemplo, 2-4) y/o moderado (por ejemplo, 5-8) de pasos de muestreo. Para abordar estos problemas, extendemos la reciente estrategia de destilación de consistencia multietapa (MCD, por sus siglas en inglés) a LDMs representativos, estableciendo el enfoque de Modelos de Consistencia Latente Multietapa (MLCMs, por sus siglas en inglés) para la síntesis de imágenes de alta calidad y bajo costo. MLCM sirve como un modelo unificado para diversos pasos de muestreo debido a la promesa de MCD. Además, potenciamos MCD con una estrategia de entrenamiento progresivo para fortalecer la consistencia entre segmentos y mejorar la calidad de las generaciones con pocos pasos. Utilizamos los estados de las trayectorias de muestreo del modelo maestro como datos de entrenamiento para MLCMs, lo que reduce los requisitos de conjuntos de datos de entrenamiento de alta calidad y cierra la brecha entre el entrenamiento y la inferencia del modelo destilado. MLCM es compatible con estrategias de aprendizaje de preferencias para mejorar aún más la calidad visual y el atractivo estético. Empíricamente, MLCM puede generar imágenes de alta calidad y agradables con solo 2-8 pasos de muestreo. En el benchmark MSCOCO-2017 5K, MLCM destilado a partir de SDXL obtiene un CLIP Score de 33.30, un Aesthetic Score de 6.19 y un Image Reward de 1.20 con solo 4 pasos, superando sustancialmente a LCM de 4 pasos [23], SDXL-Lightning de 8 pasos [17] e HyperSD de 8 pasos [33]. También demostramos la versatilidad de MLCMs en aplicaciones que incluyen generación controlable, transferencia de estilo de imágenes y generación de imágenes a partir de texto en chino.
Proponemos ExtraNeRF, un método novedoso para extrapolar el rango de vistas manejadas por un Campo de Radiancia Neural (NeRF). Nuestra idea principal es aprovechar los NeRFs para modelar detalles específicos y granulares de la escena, mientras se capitaliza en modelos de difusión para extrapolar más allá de los datos observados. Un componente clave es rastrear la visibilidad para determinar qué porciones de la escena no han sido observadas y enfocarse en reconstruir esas regiones de manera consistente utilizando modelos de difusión. Nuestras contribuciones principales incluyen un módulo de inpaint basado en difusión y consciente de la visibilidad, que se ajusta finamente sobre las imágenes de entrada, produciendo un NeRF inicial con regiones inpaintadas de calidad moderada (a menudo borrosas), seguido de un segundo modelo de difusión entrenado en las imágenes de entrada para mejorar consistentemente, y notablemente afilar, las imágenes inpaintadas de la primera pasada. Demostramos resultados de alta calidad, extrapolando más allá de un pequeño número de vistas de entrada (típicamente seis o menos), efectuando outpaint del NeRF así como inpaint de regiones recién desocluidas dentro del volumen de visión original. Comparamos con trabajos relacionados tanto cuantitativa como cualitativamente y mostramos mejoras significativas sobre el estado del arte previo.
Proponemos un enfoque novedoso para la reconstrucción de mallas 3D a partir de imágenes multivista. Nuestro método se inspira en modelos de reconstrucción a gran escala como LRM, que utilizan un generador de triplanos basado en transformadores y un modelo de Neural Radiance Field (NeRF) entrenado con imágenes multivista. Sin embargo, en nuestro método, introducimos varias modificaciones importantes que nos permiten mejorar significativamente la calidad de la reconstrucción 3D. En primer lugar, examinamos la arquitectura original de LRM e identificamos varias limitaciones. Posteriormente, introducimos modificaciones respectivas a la arquitectura de LRM, lo que conduce a una mejor representación de imágenes multivista y a un entrenamiento más eficiente computacionalmente. En segundo lugar, para mejorar la reconstrucción de la geometría y permitir la supervisión a resolución completa de la imagen, extraemos mallas del campo NeRF de manera diferenciable y ajustamos finamente el modelo NeRF mediante el renderizado de mallas. Estas modificaciones nos permiten alcanzar un rendimiento de vanguardia en métricas de evaluación tanto 2D como 3D, como un PSNR de 28.67 en el conjunto de datos Google Scanned Objects (GSO). A pesar de estos resultados superiores, nuestro modelo de avance directo aún tiene dificultades para reconstruir texturas complejas, como texto y retratos en los activos. Para abordar esto, introducimos un procedimiento ligero de refinamiento de textura por instancia. Este procedimiento ajusta finamente la representación de triplanos y el modelo de estimación de color NeRF en la superficie de la malla utilizando las imágenes multivista de entrada en solo 4 segundos. Este refinamiento mejora el PSNR a 29.79 y logra una reconstrucción fiel de texturas complejas, como el texto. Además, nuestro enfoque permite diversas aplicaciones posteriores, incluida la generación de texto o imagen a 3D.