Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión de texto a imagen han logrado un avance notable en sus capacidades durante los últimos años, permitiendo la síntesis de imágenes de alta calidad y diversidad a partir de un texto descriptivo. Sin embargo, incluso los modelos más avanzados suelen tener dificultades para seguir con precisión todas las instrucciones en sus textos de entrada. La gran mayoría de estos modelos se entrenan en conjuntos de datos que consisten en pares (imagen, descripción), donde las imágenes suelen provenir de la web y las descripciones son sus textos alternativos HTML. Un ejemplo destacado es el conjunto de datos LAION, utilizado por Stable Diffusion y otros modelos. En este trabajo observamos que estas descripciones suelen ser de baja calidad y argumentamos que esto afecta significativamente la capacidad del modelo para comprender la semántica matizada en los textos de entrada. Demostramos que, al etiquetar nuevamente el corpus con un modelo especializado de generación automática de descripciones y entrenar un modelo de texto a imagen en el conjunto de datos reetiquetado, el modelo se beneficia sustancialmente en todos los aspectos. Primero, en la calidad general de la imagen: por ejemplo, un FID de 14.84 frente al valor de referencia de 17.87, y una mejora del 64.3% en la generación fiel de imágenes según la evaluación humana. Segundo, en la alineación semántica: por ejemplo, precisión en objetos semánticos de 84.34 frente a 78.90, errores de alineación en conteo de 1.32 frente a 1.44 y alineación posicional de 62.42 frente a 57.60. Analizamos diversas formas de reetiquetar el corpus y proporcionamos evidencia de que esta técnica, que llamamos RECAP, reduce la discrepancia entre entrenamiento e inferencia y proporciona al modelo más información por ejemplo, aumentando la eficiencia de las muestras y permitiendo que el modelo comprenda mejor las relaciones entre las descripciones y las imágenes.
Recopilamos un conjunto de datos de imágenes con licencia Creative Commons (CC), que utilizamos para entrenar una serie de modelos de difusión abiertos que son cualitativamente competitivos con Stable Diffusion 2 (SD2). Esta tarea presenta dos desafíos: (1) las imágenes CC de alta resolución carecen de las descripciones necesarias para entrenar modelos generativos de texto a imagen; (2) las imágenes CC son relativamente escasas. Para abordar estos desafíos, utilizamos una técnica intuitiva de transferencia de aprendizaje para generar un conjunto de descripciones sintéticas de alta calidad emparejadas con imágenes CC curadas. Luego, desarrollamos una receta de entrenamiento eficiente en términos de datos y computación que requiere tan solo el 3% de los datos de LAION-2B necesarios para entrenar los modelos SD2 existentes, pero obtiene una calidad comparable. Estos resultados indican que contamos con un número suficiente de imágenes CC (~70 millones) para entrenar modelos de alta calidad. Nuestra receta de entrenamiento también implementa una variedad de optimizaciones que logran aceleraciones de entrenamiento de ~3X, permitiendo una iteración rápida de los modelos. Aprovechamos esta receta para entrenar varios modelos de texto a imagen de alta calidad, a los que denominamos la familia CommonCanvas. Nuestro modelo más grande alcanza un rendimiento comparable a SD2 en una evaluación humana, a pesar de haber sido entrenado en nuestro conjunto de datos CC, que es significativamente más pequeño que LAION, y utilizando descripciones sintéticas para el entrenamiento. Publicamos nuestros modelos, datos y código en https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md.
Presentamos DreamCraft3D, un método jerárquico de generación de contenido 3D que produce objetos 3D de alta fidelidad y coherencia. Abordamos el problema utilizando una imagen de referencia 2D para guiar las etapas de esculpido de geometría y mejora de texturas. Un enfoque central de este trabajo es resolver el problema de consistencia que enfrentan los métodos existentes. Para esculpir geometrías que se rendericen de manera coherente, realizamos muestreo de destilación de puntuaciones mediante un modelo de difusión dependiente de la vista. Este previo 3D, junto con varias estrategias de entrenamiento, prioriza la consistencia geométrica pero compromete la fidelidad de las texturas. Además, proponemos la Destilación de Puntuación con Arranque (Bootstrapped Score Distillation) para mejorar específicamente las texturas. Entrenamos un modelo de difusión personalizado, Dreambooth, en las representaciones aumentadas de la escena, dotándolo de conocimiento 3D de la escena que se está optimizando. La destilación de puntuaciones desde este previo de difusión consciente de 3D proporciona una guía consistente en la vista para la escena. Notablemente, mediante una optimización alternada del previo de difusión y la representación de la escena 3D, logramos mejoras mutuamente reforzadas: la escena 3D optimizada ayuda a entrenar el modelo de difusión específico de la escena, el cual ofrece una guía cada vez más consistente en la vista para la optimización 3D. Así, la optimización se arranca y conduce a una mejora sustancial de las texturas. Con previos 3D personalizados a lo largo de la generación jerárquica, DreamCraft3D genera objetos 3D coherentes con renderizaciones fotorrealistas, avanzando el estado del arte en la generación de contenido 3D. Código disponible en https://github.com/deepseek-ai/DreamCraft3D.
Las arquitecturas Mixture-of-Experts (MoE) ofrecen una solución general a los altos costos de inferencia de los modelos de lenguaje grandes (LLMs) mediante el enrutamiento disperso, permitiendo modelos más rápidos y precisos, aunque a costa de un gran número de parámetros. Por ejemplo, el modelo SwitchTransformer-c2048 tiene 1.6 billones de parámetros, requiriendo 3.2TB de memoria en aceleradores para funcionar de manera eficiente, lo que hace que su implementación práctica sea desafiante y costosa. En este artículo, presentamos una solución a este problema de memoria, en forma de un nuevo marco de compresión y ejecución llamado QMoE. Específicamente, QMoE consiste en un algoritmo escalable que comprime con precisión MoEs de billones de parámetros a menos de 1 bit por parámetro, en un formato personalizado co-diseñado con núcleos de decodificación GPU específicos para facilitar una inferencia comprimida eficiente de extremo a extremo, con sobrecargas de tiempo de ejecución mínimas en comparación con la ejecución sin comprimir. Concretamente, QMoE puede comprimir el modelo SwitchTransformer-c2048 de 1.6 billones de parámetros a menos de 160GB (compresión de 20x, 0.8 bits por parámetro) con solo una mínima pérdida de precisión, en menos de un día en una sola GPU. Esto permite, por primera vez, la ejecución de un modelo de billones de parámetros en hardware asequible, como un solo servidor con 4x NVIDIA A6000 o 8x NVIDIA 3090 GPUs, con menos del 5% de sobrecarga de tiempo de ejecución en comparación con la inferencia ideal sin comprimir. El código fuente y los modelos comprimidos están disponibles en github.com/IST-DASLab/qmoe.
En este artículo, evaluamos diferentes capacidades de GPT-4V, incluyendo la comprensión visual, la comprensión del lenguaje, la resolución de acertijos visuales y la comprensión de otras modalidades como profundidad, térmica, video y audio. Para estimar el rendimiento de GPT-4V, construimos manualmente 656 casos de prueba y evaluamos cuidadosamente los resultados de GPT-4V. Los aspectos más destacados de nuestros hallazgos son los siguientes: (1) GPT-4V muestra un rendimiento impresionante en benchmarks visuales centrados en inglés, pero no logra reconocer textos simples en chino en las imágenes; (2) GPT-4V muestra un comportamiento de rechazo inconsistente al responder preguntas relacionadas con características sensibles como género, raza y edad; (3) GPT-4V obtiene peores resultados que GPT-4 (API) en tareas de comprensión del lenguaje, incluyendo benchmarks generales de comprensión del lenguaje y benchmarks de evaluación de conocimiento de sentido común visual; (4) El prompting de pocos ejemplos puede mejorar el rendimiento de GPT-4V tanto en comprensión visual como en comprensión del lenguaje; (5) GPT-4V tiene dificultades para encontrar los matices entre dos imágenes similares y resolver acertijos matemáticos visuales sencillos; (6) GPT-4V muestra un rendimiento no trivial en tareas de modalidades similares a la imagen, como video y térmica. Nuestros resultados experimentales revelan las capacidades y limitaciones de GPT-4V, y esperamos que nuestro artículo pueda proporcionar algunas ideas sobre la aplicación e investigación de GPT-4V.
En este trabajo presentamos Wonder3D, un método novedoso para generar eficientemente mallas texturizadas de alta fidelidad a partir de imágenes de vista única. Métodos recientes basados en Muestreo por Distilación de Puntuación (SDS) han demostrado el potencial para recuperar geometría 3D a partir de priores de difusión 2D, pero generalmente sufren de una optimización lenta por forma y geometría inconsistente. En contraste, ciertos trabajos producen directamente información 3D mediante inferencias rápidas de redes, pero sus resultados suelen ser de baja calidad y carecen de detalles geométricos. Para mejorar integralmente la calidad, consistencia y eficiencia de las tareas de imagen-a-3D, proponemos un modelo de difusión entre dominios que genera mapas normales multivista y las imágenes de color correspondientes. Para garantizar la consistencia, empleamos un mecanismo de atención entre dominios multivista que facilita el intercambio de información entre vistas y modalidades. Por último, introducimos un algoritmo de fusión normal con conciencia geométrica que extrae superficies de alta calidad a partir de las representaciones 2D multivista. Nuestras evaluaciones exhaustivas demuestran que nuestro método logra resultados de reconstrucción de alta calidad, generalización robusta y una eficiencia razonablemente buena en comparación con trabajos anteriores.
Muchos investigadores creen que las ConvNets funcionan bien en conjuntos de datos pequeños o de tamaño moderado, pero no son competitivas con los Vision Transformers cuando tienen acceso a conjuntos de datos a escala web. Desafiamos esta creencia evaluando una arquitectura de ConvNet de alto rendimiento preentrenada en JFT-4B, un gran conjunto de datos etiquetados de imágenes que se utiliza frecuentemente para entrenar modelos base. Consideramos presupuestos de cómputo para el preentrenamiento entre 0.4k y 110k horas de cómputo en núcleos TPU-v4, y entrenamos una serie de redes de profundidad y anchura crecientes de la familia de modelos NFNet. Observamos una ley de escalado logarítmico entre la pérdida en datos de validación y el presupuesto de cómputo. Después del ajuste fino en ImageNet, los NFNets igualan el rendimiento reportado de los Vision Transformers con presupuestos de cómputo comparables. Nuestro modelo más fuerte después del ajuste fino alcanza una precisión Top-1 del 90.4%.
Proponemos LLM-FP4 para cuantizar tanto los pesos como las activaciones en modelos de lenguaje grandes (LLMs) hasta valores de punto flotante de 4 bits, de manera post-entrenamiento. Las soluciones existentes de cuantización post-entrenamiento (PTQ) se basan principalmente en enteros y tienen dificultades con anchos de bits inferiores a 8 bits. En comparación con la cuantización de enteros, la cuantización de punto flotante (FP) es más flexible y puede manejar mejor distribuciones de cola larga o en forma de campana, y se ha convertido en una opción predeterminada en muchas plataformas de hardware. Una característica de la cuantización FP es que su rendimiento depende en gran medida de la elección de los bits de exponente y el rango de recorte. En este sentido, construimos una línea base sólida de FP-PTQ mediante la búsqueda de los parámetros de cuantización óptimos. Además, observamos un patrón de alta varianza intercanal y baja varianza intracanal en las distribuciones de activación, lo que aumenta la dificultad de la cuantización de activaciones. Reconocemos que este patrón es consistente en una variedad de modelos de transformadores diseñados para diversas tareas, como LLMs, BERT y modelos de Vision Transformer. Para abordar esto, proponemos la cuantización de activaciones por canal y demostramos que estos factores de escala adicionales pueden ser reparametrizados como sesgos exponenciales de los pesos, incurriendo en un costo insignificante. Nuestro método, por primera vez, puede cuantizar tanto los pesos como las activaciones en el LLaMA-13B a solo 4 bits y logra una puntuación promedio de 63.1 en tareas de razonamiento de sentido común sin ejemplos previos, lo cual es solo 5.8 puntos inferior al modelo de precisión completa, superando significativamente el estado del arte anterior por 12.7 puntos. El código está disponible en: https://github.com/nbasyl/LLM-FP4.
Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ampliamente implementados, los datos utilizados para entrenarlos rara vez se divulgan. Dada la increíble escala de estos datos, que pueden alcanzar billones de tokens, es casi seguro que incluyen texto potencialmente problemático, como materiales con derechos de autor, información personal identificable y datos de prueba para puntos de referencia ampliamente reportados. Sin embargo, actualmente no tenemos forma de saber qué tipos de datos están incluidos o en qué proporciones. En este artículo, estudiamos el problema de detección de datos de preentrenamiento: dado un fragmento de texto y acceso de caja negra a un LLM sin conocer los datos de preentrenamiento, ¿podemos determinar si el modelo fue entrenado con el texto proporcionado? Para facilitar este estudio, introducimos un punto de referencia dinámico, WIKIMIA, que utiliza datos creados antes y después del entrenamiento del modelo para respaldar la detección de la verdad absoluta. También presentamos un nuevo método de detección, Min-K% Prob, basado en una hipótesis simple: un ejemplo no visto probablemente contenga algunas palabras atípicas con bajas probabilidades bajo el LLM, mientras que un ejemplo visto es menos probable que tenga palabras con probabilidades tan bajas. Min-K% Prob puede aplicarse sin ningún conocimiento sobre el corpus de preentrenamiento o cualquier entrenamiento adicional, diferenciándose de métodos de detección anteriores que requieren entrenar un modelo de referencia con datos similares a los de preentrenamiento. Además, nuestros experimentos demuestran que Min-K% Prob logra una mejora del 7.4% en WIKIMIA sobre estos métodos anteriores. Aplicamos Min-K% Prob a dos escenarios del mundo real: detección de libros con derechos de autor y detección de ejemplos contaminados en tareas posteriores, y encontramos que es una solución consistentemente efectiva.
Los modelos de lenguaje de gran escala (LLMs) basados en Transformers están liderando avances en muchas tareas de procesamiento de lenguaje natural. Sin embargo, sus capacidades excepcionales están limitadas por la ventana de contexto preestablecida del Transformer. Los métodos de escalado de incrustaciones posicionales (PE), aunque efectivos para extender la ventana de contexto a una longitud específica, muestran limitaciones notables en su capacidad de extrapolación o sacrifican parte del rendimiento dentro de la ventana de contexto. Los métodos de extrapolación de longitud, aunque teóricamente capaces de extender la ventana de contexto más allá de la longitud de las secuencias de entrenamiento, a menudo tienen un rendimiento inferior en aplicaciones prácticas de contexto largo. Para abordar estos desafíos, proponemos la Extrapolación Continua de Longitud (CLEX) para LLMs. Generalizamos los enfoques de escalado de PE para modelar la dinámica continua mediante ecuaciones diferenciales ordinarias sobre el factor de escalado de longitud, superando así las limitaciones de los métodos actuales de escalado de PE diseñados para longitudes específicas. Además, al extender la dinámica a longitudes de contexto deseadas más allá de la longitud de las secuencias de entrenamiento, CLEX facilita la extrapolación de longitud con un rendimiento impresionante en tareas prácticas. Demostramos que CLEX puede integrarse sin problemas en LLMs equipados con Incrustación Posicional Rotatoria, como LLaMA y GPT-NeoX, con un impacto mínimo en la latencia de entrenamiento e inferencia. Los resultados experimentales revelan que CLEX puede extender efectivamente la ventana de contexto a más de 4x o casi 8x la longitud de entrenamiento, sin deterioro en el rendimiento. Además, cuando se evalúa en el benchmark práctico LongBench, nuestro modelo entrenado con una longitud de 4k muestra un rendimiento competitivo frente a los modelos de código abierto más avanzados entrenados con longitudes de contexto de hasta 32k.
Mantener actualizados los grandes modelos de base con los datos más recientes es inherentemente costoso. Para evitar los gastos prohibitivos de reentrenar constantemente, es imperativo entrenar continuamente estos modelos. Este problema se ve agravado por la falta de puntos de referencia o líneas base a gran escala para el aprendizaje continuo. Introducimos el primer conjunto de puntos de referencia a escala web para el entrenamiento continuo en el tiempo (TiC) de modelos de visión y lenguaje: TiC-DataCompt, TiC-YFCC y TiC-RedCaps, con más de 12.700 millones de pares de imágenes-texto con marcas de tiempo que abarcan 9 años (2014-2022). Primero utilizamos nuestros puntos de referencia para diseñar diversas evaluaciones dinámicas que miden la robustez temporal de los modelos existentes. Mostramos que CLIP de OpenAI (entrenado con datos hasta 2020) pierde aproximadamente un 8% de precisión en tareas de recuperación de cero disparos en nuestro conjunto de datos curado de 2021-2022 en comparación con modelos más recientes del repositorio OpenCLIP. Luego estudiamos cómo entrenar modelos de manera eficiente con datos continuos en el tiempo. Demostramos que un enfoque simple basado en repetición, que continúa el entrenamiento desde el último punto de control y repite datos antiguos, reduce el cómputo en 2.5 veces en comparación con la práctica estándar de reentrenar desde cero.
TD-MPC es un algoritmo de aprendizaje por refuerzo (RL) basado en modelos que realiza optimización local de trayectorias en el espacio latente de un modelo del mundo implícito (sin decodificador) aprendido. En este trabajo, presentamos TD-MPC2: una serie de mejoras sobre el algoritmo TD-MPC. Demostramos que TD-MPC2 supera significativamente a los métodos de referencia en 104 tareas de RL en línea que abarcan 4 dominios de tareas diversos, logrando resultados consistentemente sólidos con un único conjunto de hiperparámetros. Además, mostramos que las capacidades del agente aumentan con el tamaño del modelo y de los datos, y entrenamos con éxito un único agente de 317 millones de parámetros para realizar 80 tareas en múltiples dominios, encarnaciones y espacios de acción. Concluimos con un análisis de lecciones aprendidas, oportunidades y riesgos asociados con agentes TD-MPC2 de gran escala. Explora videos, modelos, datos, código y más en https://nicklashansen.github.io/td-mpc2.
La síntesis de imágenes de nuevas vistas en tiempo real en dispositivos móviles es prohibitiva debido al limitado poder computacional y almacenamiento. El uso de métodos de renderizado volumétrico, como NeRF y sus derivados, en dispositivos móviles no es adecuado debido al alto costo computacional del renderizado volumétrico. Por otro lado, los avances recientes en representaciones de campos de luz neuronales han mostrado resultados prometedores en la síntesis de vistas en tiempo real en dispositivos móviles. Los métodos de campos de luz neuronales aprenden un mapeo directo desde una representación de rayos al color del píxel. La elección actual de representación de rayos es el muestreo estratificado de rayos o las coordenadas de Pl\"{u}cker, pasando por alto la clásica representación de losa de luz (dos planos), la representación preferida para interpolar entre vistas de campos de luz. En este trabajo, encontramos que el uso de la representación de losa de luz es una representación eficiente para aprender un campo de luz neuronal. Más importante aún, es una representación de rayos de menor dimensión que nos permite aprender el espacio de rayos 4D utilizando cuadrículas de características que son significativamente más rápidas de entrenar y renderizar. Aunque principalmente diseñada para vistas frontales, demostramos que la representación de losa de luz puede extenderse aún más a escenas no frontales utilizando una estrategia de divide y vencerás. Nuestro método ofrece una calidad de renderizado superior en comparación con los métodos anteriores de campos de luz y logra un equilibrio significativamente mejorado entre la calidad de renderizado y la velocidad.