Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

¿Cómo se desempeñan tus LLMs? Potenciando la sintonización de instrucciones de código con datos de alta calidad
How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

Sep 5

ByYejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

Recientemente, ha habido un creciente interés en estudiar cómo construir mejores datos de ajuste de instrucciones de código. Sin embargo, observamos que los modelos de código entrenados con estos conjuntos de datos muestran un alto rendimiento en HumanEval pero funcionan peor en otros puntos de referencia como LiveCodeBench. Tras una investigación más detallada, descubrimos que muchos conjuntos de datos sufren de una grave fuga de datos. Después de limpiar la mayoría de los datos filtrados, algunos conjuntos de datos de alta calidad bien conocidos tienen un rendimiento deficiente. Este descubrimiento revela un nuevo desafío: identificar qué conjuntos de datos realmente califican como datos de instrucciones de código de alta calidad. Para abordar esto, proponemos una estrategia eficiente de poda de datos de código para seleccionar buenas muestras. Nuestro enfoque se basa en tres dimensiones: complejidad de la instrucción, calidad de la respuesta y diversidad de instrucciones. Basándonos en nuestros datos seleccionados, presentamos XCoder, una familia de modelos ajustados finamente a partir de LLaMA3. Nuestros experimentos muestran que XCoder logra un nuevo rendimiento de vanguardia utilizando menos datos de entrenamiento, lo que verifica la efectividad de nuestra estrategia de datos. Además, realizamos un análisis exhaustivo sobre la composición de los datos y encontramos que los conjuntos de datos de código existentes tienen diferentes características según sus métodos de construcción, lo que proporciona nuevas perspectivas para futuros LLMs de código. Nuestros modelos y conjunto de datos se encuentran disponibles en https://github.com/banksy23/XCoder

Modelos de Base Configurables: Construyendo LLMs desde una Perspectiva Modular
Configurable Foundation Models: Building LLMs from a Modular Perspective

Sep 4

ByChaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun

Los avances en LLMs han revelado recientemente desafíos vinculados a la eficiencia computacional y la escalabilidad continua debido a sus requisitos de enormes parámetros, lo que hace que las aplicaciones y la evolución de estos modelos en dispositivos con recursos de cómputo limitados y escenarios que requieren diversas habilidades sean cada vez más engorrosos. Inspirados por la modularidad dentro del cerebro humano, hay una creciente tendencia a descomponer los LLMs en numerosos módulos funcionales, permitiendo la inferencia con parte de los módulos y el ensamblaje dinámico de módulos para abordar tareas complejas, como la mezcla de expertos. Para resaltar la eficiencia inherente y la composabilidad del enfoque modular, acuñamos el término ladrillo para representar cada módulo funcional, designando la estructura modularizada como modelos de base configurables. En este documento, ofrecemos una visión general exhaustiva e investigación de la construcción, utilización y limitación de los modelos de base configurables. Primero formalizamos los módulos en ladrillos emergentes: particiones funcionales de neuronas que surgen durante la fase de pre-entrenamiento, y ladrillos personalizados: ladrillos construidos mediante un post-entrenamiento adicional para mejorar las capacidades y el conocimiento de los LLMs. Basándonos en diversos ladrillos funcionales, presentamos además cuatro operaciones orientadas a ladrillos: recuperación y enrutamiento, fusión, actualización y crecimiento. Estas operaciones permiten la configuración dinámica de los LLMs basada en instrucciones para manejar tareas complejas. Para verificar nuestra perspectiva, realizamos un análisis empírico en LLMs ampliamente utilizados. Descubrimos que las capas FFN siguen patrones modulares con especialización funcional de neuronas y particiones funcionales de neuronas. Finalmente, destacamos varios problemas abiertos y direcciones para futuras investigaciones. En general, este documento tiene como objetivo ofrecer una nueva perspectiva modular sobre la investigación existente en LLMs e inspirar la creación futura de modelos de base más eficientes y escalables.

Open-MAGVIT2: Un Proyecto de Código Abierto Hacia la Democratización de la Generación Visual Auto-regresiva
Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Sep 6

ByZhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan

Presentamos Open-MAGVIT2, una familia de modelos de generación de imágenes auto-regresivos que van desde 300M hasta 1.5B. El proyecto Open-MAGVIT2 produce una réplica de código abierto del tokenizador MAGVIT-v2 de Google, un tokenizador con un libro de códigos super grande (es decir, 2^{18} códigos), y logra un rendimiento de reconstrucción de vanguardia (1.17 rFID) en ImageNet 256 veces 256. Además, exploramos su aplicación en modelos auto-regresivos simples y validamos propiedades de escalabilidad. Para ayudar a los modelos auto-regresivos a predecir con un vocabulario super grande, lo factorizamos en dos subvocabularios de diferentes tamaños mediante factorización asimétrica de tokens, e introducimos "predicción de próximo sub-token" para mejorar la interacción de sub-tokens para una mejor calidad de generación. Publicamos todos los modelos y códigos para fomentar la innovación y creatividad en el campo de la generación visual auto-regresiva.

Qihoo-T2X: Un Transformador de Difusión Centrado en la Eficiencia a través de Tokens Proxies para Texto-a-Cualquier-Tarea
Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Sep 6

ByJing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang

El mecanismo de autoatención global en los transformadores de difusión implica una computación redundante debido a la naturaleza dispersa y redundante de la información visual, y el mapa de atención de tokens dentro de una ventana espacial muestra una similitud significativa. Para abordar esta redundancia, proponemos el Transformador de Difusión de Token Proxy (PT-DiT), que emplea una atención de token representativo disperso (donde el número de tokens representativos es mucho menor que el número total de tokens) para modelar eficientemente la información visual global. Específicamente, en cada bloque del transformador, muestreamos aleatoriamente un token de cada ventana espacio-temporal para servir como token proxy para esa región. La semántica global se captura a través de la autoatención de estos tokens proxy y luego se inyecta en todos los tokens latentes a través de la atención cruzada. Simultáneamente, introducimos la atención de ventana y la atención de ventana desplazada para abordar las limitaciones en el modelado detallado causadas por el mecanismo de atención dispersa. Basándonos en el bien diseñado PT-DiT, desarrollamos además la familia Qihoo-T2X, que incluye una variedad de modelos para tareas T2I, T2V y T2MV. Los resultados experimentales muestran que PT-DiT logra un rendimiento competitivo al tiempo que reduce la complejidad computacional en tareas de generación de imágenes y videos (por ejemplo, una reducción del 48% en comparación con DiT y una reducción del 35% en comparación con Pixart-alpha). Nuestro código fuente está disponible en https://github.com/360CVGroup/Qihoo-T2X.

GST: Cuerpo humano 3D preciso a partir de una sola imagen con esparcimiento gaussiano de transformadores.
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Sep 6

ByLorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht

La reconstrucción de modelos humanos 3D realistas a partir de imágenes monoculares tiene aplicaciones significativas en industrias creativas, interfaces humano-computadora y atención médica. Basamos nuestro trabajo en el Splatting Gaussiano 3D (3DGS), una representación de escena compuesta por una mezcla de gaussianas. Predecir tales mezclas para un humano a partir de una única imagen de entrada es un desafío, dado que es una densidad no uniforme (con una relación de muchos a uno con los píxeles de entrada) con estrictas restricciones físicas. Al mismo tiempo, debe ser flexible para adaptarse a una variedad de prendas y poses. Nuestra observación clave es que los vértices de mallas humanas estandarizadas (como SMPL) pueden proporcionar una densidad adecuada y una posición inicial aproximada para las gaussianas. Luego podemos entrenar un modelo transformador para predecir conjuntamente ajustes relativamente pequeños a estas posiciones, así como los atributos de las otras gaussianas y los parámetros de SMPL. Mostramos empíricamente que esta combinación (utilizando solo supervisión multi-vista) puede lograr una inferencia rápida de modelos humanos 3D a partir de una sola imagen sin optimización en tiempo de prueba, modelos de difusión costosos o supervisión de puntos 3D. También demostramos que puede mejorar la estimación de la pose 3D al ajustar mejor los modelos humanos que tienen en cuenta prendas y otras variaciones. El código está disponible en el sitio web del proyecto https://abdullahamdi.com/gst/.

Hilando el Hilo de Oro: Evaluación Comparativa de la Generación de Textos Extensos en Modelos de Lenguaje
Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

Sep 3

ByYuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee

Las capacidades de los modelos de lenguaje de largo contexto (LMs) suelen evaluarse mediante el test "Aguja en un Pajar" (NIAH), que comprende tareas diseñadas para evaluar la capacidad de un modelo para identificar información específica ("aguja") dentro de secuencias extensas de texto ("pajar"). Si bien estos puntos de referencia miden qué tan bien los modelos comprenden secuencias de entrada de largo contexto, no evalúan de manera efectiva la calidad de la generación de texto de formato extenso, un aspecto crítico para aplicaciones como propuestas de diseño y escritura creativa. Para abordar esta brecha, hemos introducido un nuevo punto de referencia de evaluación de texto de formato extenso, "Hilando el Hilo de Oro" (SGT), que evalúa la capacidad de los modelos para identificar eventos específicos dentro de secuencias largas de texto generadas. En este punto de referencia, solicitamos a los LMs de largo contexto crear texto de formato extenso que debe incluir eventos o restricciones particulares y evaluamos su capacidad para incorporar estos elementos. Evaluamos diez LMs de largo contexto en cuatro escenarios distintos, tres tipos de instrucciones de solicitud y dos configuraciones de longitud de generación diferentes (16K y 32K). Aunque estos modelos tienen un buen desempeño en los puntos de referencia NIAH, ninguno demostró un rendimiento satisfactorio en "Hilando el Hilo de Oro", lo que plantea preocupaciones sobre su capacidad para generar texto de formato extenso coherente que siga instrucciones. Además, a medida que aumenta la longitud del texto generado, todos los modelos muestran una disminución significativa en su rendimiento.

¿Cómo se desempeñan tus LLMs? Potenciando la sintonización de instrucciones de código con datos de alta calidad

How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

Sep 5

ByYejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu

Modelos de Base Configurables: Construyendo LLMs desde una Perspectiva Modular

Configurable Foundation Models: Building LLMs from a Modular Perspective

Sep 4

Open-MAGVIT2: Un Proyecto de Código Abierto Hacia la Democratización de la Generación Visual Auto-regresiva

Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

Sep 6

ByZhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan

Qihoo-T2X: Un Transformador de Difusión Centrado en la Eficiencia a través de Tokens Proxies para Texto-a-Cualquier-Tarea

Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task

Sep 6

ByJing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang

GST: Cuerpo humano 3D preciso a partir de una sola imagen con esparcimiento gaussiano de transformadores.

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Sep 6

ByLorenza Prospero, Abdullah Hamdi, Joao F. Henriques, Christian Rupprecht

Hilando el Hilo de Oro: Evaluación Comparativa de la Generación de Textos Extensos en Modelos de Lenguaje

Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

Sep 3

ByYuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee