Artículos de investigación en IA seleccionados diariamente con traducciones
Recientemente, ha habido un creciente interés en estudiar cómo construir mejores datos de ajuste de instrucciones de código. Sin embargo, observamos que los modelos de código entrenados con estos conjuntos de datos muestran un alto rendimiento en HumanEval pero funcionan peor en otros puntos de referencia como LiveCodeBench. Tras una investigación más detallada, descubrimos que muchos conjuntos de datos sufren de una grave fuga de datos. Después de limpiar la mayoría de los datos filtrados, algunos conjuntos de datos de alta calidad bien conocidos tienen un rendimiento deficiente. Este descubrimiento revela un nuevo desafío: identificar qué conjuntos de datos realmente califican como datos de instrucciones de código de alta calidad. Para abordar esto, proponemos una estrategia eficiente de poda de datos de código para seleccionar buenas muestras. Nuestro enfoque se basa en tres dimensiones: complejidad de la instrucción, calidad de la respuesta y diversidad de instrucciones. Basándonos en nuestros datos seleccionados, presentamos XCoder, una familia de modelos ajustados finamente a partir de LLaMA3. Nuestros experimentos muestran que XCoder logra un nuevo rendimiento de vanguardia utilizando menos datos de entrenamiento, lo que verifica la efectividad de nuestra estrategia de datos. Además, realizamos un análisis exhaustivo sobre la composición de los datos y encontramos que los conjuntos de datos de código existentes tienen diferentes características según sus métodos de construcción, lo que proporciona nuevas perspectivas para futuros LLMs de código. Nuestros modelos y conjunto de datos se encuentran disponibles en https://github.com/banksy23/XCoder
Los avances en LLMs han revelado recientemente desafíos vinculados a la eficiencia computacional y la escalabilidad continua debido a sus requisitos de enormes parámetros, lo que hace que las aplicaciones y la evolución de estos modelos en dispositivos con recursos de cómputo limitados y escenarios que requieren diversas habilidades sean cada vez más engorrosos. Inspirados por la modularidad dentro del cerebro humano, hay una creciente tendencia a descomponer los LLMs en numerosos módulos funcionales, permitiendo la inferencia con parte de los módulos y el ensamblaje dinámico de módulos para abordar tareas complejas, como la mezcla de expertos. Para resaltar la eficiencia inherente y la composabilidad del enfoque modular, acuñamos el término ladrillo para representar cada módulo funcional, designando la estructura modularizada como modelos de base configurables. En este documento, ofrecemos una visión general exhaustiva e investigación de la construcción, utilización y limitación de los modelos de base configurables. Primero formalizamos los módulos en ladrillos emergentes: particiones funcionales de neuronas que surgen durante la fase de pre-entrenamiento, y ladrillos personalizados: ladrillos construidos mediante un post-entrenamiento adicional para mejorar las capacidades y el conocimiento de los LLMs. Basándonos en diversos ladrillos funcionales, presentamos además cuatro operaciones orientadas a ladrillos: recuperación y enrutamiento, fusión, actualización y crecimiento. Estas operaciones permiten la configuración dinámica de los LLMs basada en instrucciones para manejar tareas complejas. Para verificar nuestra perspectiva, realizamos un análisis empírico en LLMs ampliamente utilizados. Descubrimos que las capas FFN siguen patrones modulares con especialización funcional de neuronas y particiones funcionales de neuronas. Finalmente, destacamos varios problemas abiertos y direcciones para futuras investigaciones. En general, este documento tiene como objetivo ofrecer una nueva perspectiva modular sobre la investigación existente en LLMs e inspirar la creación futura de modelos de base más eficientes y escalables.
Presentamos Open-MAGVIT2, una familia de modelos de generación de imágenes auto-regresivos que van desde 300M hasta 1.5B. El proyecto Open-MAGVIT2 produce una réplica de código abierto del tokenizador MAGVIT-v2 de Google, un tokenizador con un libro de códigos super grande (es decir, 2^{18} códigos), y logra un rendimiento de reconstrucción de vanguardia (1.17 rFID) en ImageNet 256 veces 256. Además, exploramos su aplicación en modelos auto-regresivos simples y validamos propiedades de escalabilidad. Para ayudar a los modelos auto-regresivos a predecir con un vocabulario super grande, lo factorizamos en dos subvocabularios de diferentes tamaños mediante factorización asimétrica de tokens, e introducimos "predicción de próximo sub-token" para mejorar la interacción de sub-tokens para una mejor calidad de generación. Publicamos todos los modelos y códigos para fomentar la innovación y creatividad en el campo de la generación visual auto-regresiva.
El mecanismo de autoatención global en los transformadores de difusión implica una computación redundante debido a la naturaleza dispersa y redundante de la información visual, y el mapa de atención de tokens dentro de una ventana espacial muestra una similitud significativa. Para abordar esta redundancia, proponemos el Transformador de Difusión de Token Proxy (PT-DiT), que emplea una atención de token representativo disperso (donde el número de tokens representativos es mucho menor que el número total de tokens) para modelar eficientemente la información visual global. Específicamente, en cada bloque del transformador, muestreamos aleatoriamente un token de cada ventana espacio-temporal para servir como token proxy para esa región. La semántica global se captura a través de la autoatención de estos tokens proxy y luego se inyecta en todos los tokens latentes a través de la atención cruzada. Simultáneamente, introducimos la atención de ventana y la atención de ventana desplazada para abordar las limitaciones en el modelado detallado causadas por el mecanismo de atención dispersa. Basándonos en el bien diseñado PT-DiT, desarrollamos además la familia Qihoo-T2X, que incluye una variedad de modelos para tareas T2I, T2V y T2MV. Los resultados experimentales muestran que PT-DiT logra un rendimiento competitivo al tiempo que reduce la complejidad computacional en tareas de generación de imágenes y videos (por ejemplo, una reducción del 48% en comparación con DiT y una reducción del 35% en comparación con Pixart-alpha). Nuestro código fuente está disponible en https://github.com/360CVGroup/Qihoo-T2X.
La reconstrucción de modelos humanos 3D realistas a partir de imágenes monoculares tiene aplicaciones significativas en industrias creativas, interfaces humano-computadora y atención médica. Basamos nuestro trabajo en el Splatting Gaussiano 3D (3DGS), una representación de escena compuesta por una mezcla de gaussianas. Predecir tales mezclas para un humano a partir de una única imagen de entrada es un desafío, dado que es una densidad no uniforme (con una relación de muchos a uno con los píxeles de entrada) con estrictas restricciones físicas. Al mismo tiempo, debe ser flexible para adaptarse a una variedad de prendas y poses. Nuestra observación clave es que los vértices de mallas humanas estandarizadas (como SMPL) pueden proporcionar una densidad adecuada y una posición inicial aproximada para las gaussianas. Luego podemos entrenar un modelo transformador para predecir conjuntamente ajustes relativamente pequeños a estas posiciones, así como los atributos de las otras gaussianas y los parámetros de SMPL. Mostramos empíricamente que esta combinación (utilizando solo supervisión multi-vista) puede lograr una inferencia rápida de modelos humanos 3D a partir de una sola imagen sin optimización en tiempo de prueba, modelos de difusión costosos o supervisión de puntos 3D. También demostramos que puede mejorar la estimación de la pose 3D al ajustar mejor los modelos humanos que tienen en cuenta prendas y otras variaciones. El código está disponible en el sitio web del proyecto https://abdullahamdi.com/gst/.
Las capacidades de los modelos de lenguaje de largo contexto (LMs) suelen evaluarse mediante el test "Aguja en un Pajar" (NIAH), que comprende tareas diseñadas para evaluar la capacidad de un modelo para identificar información específica ("aguja") dentro de secuencias extensas de texto ("pajar"). Si bien estos puntos de referencia miden qué tan bien los modelos comprenden secuencias de entrada de largo contexto, no evalúan de manera efectiva la calidad de la generación de texto de formato extenso, un aspecto crítico para aplicaciones como propuestas de diseño y escritura creativa. Para abordar esta brecha, hemos introducido un nuevo punto de referencia de evaluación de texto de formato extenso, "Hilando el Hilo de Oro" (SGT), que evalúa la capacidad de los modelos para identificar eventos específicos dentro de secuencias largas de texto generadas. En este punto de referencia, solicitamos a los LMs de largo contexto crear texto de formato extenso que debe incluir eventos o restricciones particulares y evaluamos su capacidad para incorporar estos elementos. Evaluamos diez LMs de largo contexto en cuatro escenarios distintos, tres tipos de instrucciones de solicitud y dos configuraciones de longitud de generación diferentes (16K y 32K). Aunque estos modelos tienen un buen desempeño en los puntos de referencia NIAH, ninguno demostró un rendimiento satisfactorio en "Hilando el Hilo de Oro", lo que plantea preocupaciones sobre su capacidad para generar texto de formato extenso coherente que siga instrucciones. Además, a medida que aumenta la longitud del texto generado, todos los modelos muestran una disminución significativa en su rendimiento.