Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Mixtral 8x7B, un modelo de lenguaje de Mezcla Dispersa de Expertos (SMoE, por sus siglas en inglés). Mixtral tiene la misma arquitectura que Mistral 7B, con la diferencia de que cada capa está compuesta por 8 bloques de red feedforward (es decir, expertos). Para cada token, en cada capa, una red enrutadora selecciona dos expertos para procesar el estado actual y combinar sus salidas. Aunque cada token solo ve a dos expertos, los expertos seleccionados pueden ser diferentes en cada paso de tiempo. Como resultado, cada token tiene acceso a 47B parámetros, pero solo utiliza 13B parámetros activos durante la inferencia. Mixtral fue entrenado con un tamaño de contexto de 32k tokens y supera o iguala a Llama 2 70B y GPT-3.5 en todos los puntos de referencia evaluados. En particular, Mixtral supera ampliamente a Llama 2 70B en matemáticas, generación de código y pruebas multilingües. También proporcionamos un modelo ajustado para seguir instrucciones, Mixtral 8x7B - Instruct, que supera a GPT-3.5 Turbo, Claude-2.1, Gemini Pro y el modelo de chat de Llama 2 70B en evaluaciones humanas. Tanto el modelo base como el modelo de instrucciones se publican bajo la licencia Apache 2.0.
Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) se han convertido en serios competidores en el campo del modelado secuencial, desafiando el dominio de los Transformers. Al mismo tiempo, la Mezcla de Expertos (MoE, por sus siglas en inglés) ha mejorado significativamente los modelos de lenguaje grandes (LLMs) basados en Transformers, incluyendo los modelos de código abierto más recientes y de vanguardia. Proponemos que, para desbloquear el potencial de los SSMs en términos de escalabilidad, estos deberían combinarse con MoE. Demostramos esto en Mamba, un modelo reciente basado en SSM que logra un rendimiento notable, similar al de los Transformers. Nuestro modelo, MoE-Mamba, supera tanto a Mamba como a Transformer-MoE. En particular, MoE-Mamba alcanza el mismo rendimiento que Mamba en 2.2 veces menos pasos de entrenamiento, manteniendo las mejoras en el rendimiento de inferencia de Mamba frente al Transformer.
En la investigación de IA conversacional, se observa una tendencia notable hacia el desarrollo de modelos con un mayor número de parámetros, ejemplificados por modelos como ChatGPT. Si bien estos modelos expansivos tienden a generar respuestas de chat cada vez mejores, requieren recursos computacionales y de memoria significativos. Este estudio explora una pregunta pertinente: ¿Puede una combinación de modelos más pequeños lograr de manera colaborativa un rendimiento comparable o mejorado en relación con un modelo grande singular? Introducimos un enfoque denominado "blending" (mezcla), un método sencillo pero efectivo de integrar múltiples IA de chat. Nuestra evidencia empírica sugiere que cuando se combinan sinérgicamente modelos más pequeños específicos, pueden superar o igualar las capacidades de contrapartes mucho más grandes. Por ejemplo, la integración de solo tres modelos de tamaño moderado (6B/13B parámetros) puede rivalizar o incluso superar las métricas de rendimiento de un modelo sustancialmente más grande como ChatGPT (175B+ parámetros). Esta hipótesis se prueba rigurosamente utilizando metodologías de pruebas A/B con una gran base de usuarios en la plataforma de investigación Chai durante un período de treinta días. Los hallazgos subrayan el potencial de la estrategia de "blending" como un enfoque viable para mejorar la eficacia de la IA de chat sin un aumento correspondiente en las demandas computacionales.
La utilización de contextos largos representa un gran desafío para los modelos de lenguaje de gran escala debido a la longitud limitada de su ventana de contexto. Aunque la ventana de contexto puede extenderse mediante ajuste fino, esto conlleva un costo considerable tanto en el tiempo de entrenamiento como en el de inferencia, y ejerce un impacto desfavorable en las capacidades originales del LLM. En este trabajo, proponemos Activation Beacon, que condensa las activaciones brutas del LLM en formas más compactas, permitiendo que perciba un contexto mucho más largo con una ventana de contexto limitada. Activation Beacon se introduce como un módulo plug-and-play para el LLM. Preserva completamente la capacidad original del LLM en contextos cortos mientras extiende la nueva capacidad para procesar contextos más largos. Además, funciona con ventanas deslizantes cortas para procesar el contexto largo, logrando una eficiencia competitiva en memoria y tiempo tanto en el entrenamiento como en la inferencia. Activation Beacon se aprende mediante la tarea de auto-regresión condicionada a una mezcla de beacons con ratios de condensación diversificados. Gracias a este enfoque, puede entrenarse eficientemente únicamente con datos de secuencias cortas en solo 10K pasos, lo que consume menos de 9 horas en una máquina con una sola GPU 8xA800. Los estudios experimentales muestran que Activation Beacon es capaz de extender la longitud de contexto de Llama-2-7B por 100 veces (de 4K a 400K), logrando al mismo tiempo un resultado superior tanto en tareas de generación como de comprensión de contextos largos. Nuestro modelo y código estarán disponibles en el repositorio BGE.
A pesar de los avances recientes en los métodos generativos de texto a 3D, existe una notable ausencia de métricas de evaluación confiables. Las métricas existentes suelen centrarse en un único criterio, como qué tan bien el recurso se alinea con el texto de entrada. Estas métricas carecen de la flexibilidad para generalizarse a diferentes criterios de evaluación y podrían no alinearse bien con las preferencias humanas. Realizar estudios de preferencia de usuarios es una alternativa que ofrece tanto adaptabilidad como resultados alineados con las preferencias humanas. Sin embargo, los estudios de usuarios pueden ser muy costosos de escalar. Este artículo presenta una métrica de evaluación automática, versátil y alineada con las preferencias humanas para modelos generativos de texto a 3D. Para ello, primero desarrollamos un generador de indicaciones utilizando GPT-4V para generar indicaciones de evaluación, que sirven como entrada para comparar modelos de texto a 3D. Además, diseñamos un método que instruye a GPT-4V para comparar dos recursos 3D según criterios definidos por el usuario. Finalmente, utilizamos estos resultados de comparación por pares para asignar a estos modelos calificaciones Elo. Los resultados experimentales sugieren que nuestra métrica se alinea fuertemente con las preferencias humanas en diferentes criterios de evaluación.
En este artículo presentamos DiarizationLM, un marco de trabajo que aprovecha los modelos de lenguaje de gran escala (LLM) para post-procesar los resultados de un sistema de diarización de hablantes. Con este marco propuesto se pueden lograr diversos objetivos, como mejorar la legibilidad de la transcripción diarizada o reducir la tasa de error de diarización de palabras (WDER). En este marco, los resultados de los sistemas de reconocimiento automático del habla (ASR) y de diarización de hablantes se representan en un formato textual compacto, que se incluye en el prompt de un LLM opcionalmente ajustado. Las salidas del LLM pueden utilizarse como resultados refinados de diarización con la mejora deseada. Como paso de post-procesamiento, este marco puede aplicarse fácilmente a cualquier sistema ASR y de diarización de hablantes disponible sin necesidad de reentrenar los componentes existentes. Nuestros experimentos muestran que un modelo PaLM 2-S ajustado puede reducir el WDER en un 25,9% relativo en el conjunto de datos de conversaciones telefónicas Fisher y en un 31% relativo en el conjunto de datos Callhome English.
Los modelos de lenguaje de gran escala (LLMs) han logrado avances significativos en tareas relacionadas con código, aunque muchos LLMs tratan el código como simples secuencias, descuidando su naturaleza estructurada. Presentamos AST-T5, un nuevo paradigma de preentrenamiento que aprovecha el Árbol de Sintaxis Abstracta (AST) para mejorar la generación, transpilación y comprensión de código. Utilizando programación dinámica, nuestra Segmentación Consciente del AST preserva la estructura del código, mientras que nuestro objetivo de Corrupción de Segmentos Consciente del AST capacita al modelo para reconstruir diversas estructuras de código. A diferencia de otros modelos, AST-T5 evita análisis de programas complejos o cambios arquitectónicos, por lo que se integra perfectamente con cualquier Transformer de codificador-decodificador. Las evaluaciones muestran que AST-T5 supera consistentemente a modelos de lenguaje de tamaño similar en diversas tareas relacionadas con código. La conciencia estructural hace que AST-T5 sea particularmente potente en tareas de código a código, superando a CodeT5 por 2 puntos en la puntuación de coincidencia exacta para la tarea Bugs2Fix y por 3 puntos en la puntuación de coincidencia exacta para la transpilación Java-C# en CodeXGLUE. Nuestro código y modelo están disponibles públicamente en https://github.com/gonglinyuan/ast_t5.
Presentamos CRUXEval (Evaluación de Razonamiento, Comprensión y Ejecución de Código), un benchmark que consta de 800 funciones en Python (de 3 a 13 líneas). Cada función viene acompañada de un par entrada-salida, lo que da lugar a dos tareas naturales: predicción de entrada y predicción de salida. En primer lugar, proponemos una receta genérica para generar nuestro benchmark de ejecución, que puede utilizarse para crear futuras variaciones del mismo. En segundo lugar, evaluamos veinte modelos de código en nuestro benchmark y descubrimos que muchos modelos recientes con puntuaciones altas en HumanEval no muestran las mismas mejoras en nuestro benchmark. En tercer lugar, demostramos que esquemas simples de CoT (Chain of Thought) y fine-tuning pueden mejorar el rendimiento en nuestro benchmark, pero aún están lejos de resolverlo. La mejor configuración, GPT-4 con CoT, alcanza un pass@1 del 75% y 81% en predicción de entrada y salida, respectivamente. En contraste, Code Llama 34B logra un pass@1 del 50% y 46% en predicción de entrada y salida, destacando la brecha entre modelos de código abierto y cerrado. Dado que ningún modelo está cerca de dominar CRUXEval, proporcionamos ejemplos de fallos consistentes de GPT-4 en programas simples como una ventana a sus capacidades de razonamiento de código y áreas de mejora.
El surgimiento de modelos preentrenados ha tenido un impacto significativo, desde el Procesamiento del Lenguaje Natural (PLN) y la Visión por Computador hasta los conjuntos de datos relacionales. Tradicionalmente, estos modelos se evalúan mediante tareas específicas ajustadas (fine-tuning). Sin embargo, esto plantea la cuestión de cómo evaluar estos modelos de manera más eficiente y efectiva. En este estudio, exploramos un enfoque novedoso en el que aprovechamos las características meta asociadas con cada entidad como fuente de conocimiento del mundo y empleamos las representaciones de entidades de los modelos. Proponemos utilizar la consistencia entre estas representaciones y las características meta como una métrica para evaluar modelos preentrenados. La efectividad de nuestro método se demuestra en diversos dominios, incluyendo modelos con conjuntos de datos relacionales, modelos de lenguaje de gran escala y modelos de imágenes.
Dada la creciente necesidad de pipelines automáticos para la creación de contenido 3D, se han estudiado diversas representaciones 3D para generar objetos tridimensionales a partir de una sola imagen. Debido a su eficiencia superior en renderizado, los modelos basados en splatting de Gaussianas 3D han destacado recientemente tanto en reconstrucción como en generación 3D. Los enfoques de splatting de Gaussianas 3D para la generación de 3D a partir de imágenes suelen estar basados en optimización, requiriendo numerosos pasos de destilación de puntuación computacionalmente costosos. Para superar estos desafíos, presentamos un marco de Gaussianas 3D Generativas Amortizadas (AGG, por sus siglas en inglés) que produce instantáneamente Gaussianas 3D a partir de una sola imagen, eliminando la necesidad de optimización por instancia. Utilizando una representación híbrida intermedia, AGG descompone la generación de las ubicaciones de las Gaussianas 3D y otros atributos de apariencia para una optimización conjunta. Además, proponemos un pipeline en cascada que primero genera una representación aproximada de los datos 3D y luego la mejora con un módulo de super-resolución de Gaussianas 3D. Nuestro método se evalúa frente a marcos de Gaussianas 3D basados en optimización y pipelines basados en muestreo que utilizan otras representaciones 3D, donde AGG demuestra capacidades de generación competitivas tanto cualitativa como cuantitativamente, siendo varios órdenes de magnitud más rápido. Página del proyecto: https://ir1d.github.io/AGG/
En este informe técnico, presentamos TeleChat, una colección de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con parámetros de 3 mil millones, 7 mil millones y 12 mil millones. Incluye modelos de lenguaje preentrenados, así como modelos de chat ajustados que están alineados con las preferencias humanas. TeleChat se preentrena inicialmente en un corpus extenso que contiene una diversa colección de textos en inglés y chino, incluyendo billones de tokens. Posteriormente, el modelo se somete a un ajuste fino para alinearse con las preferencias humanas, siguiendo una metodología detallada que describimos. Evaluamos el rendimiento de TeleChat en diversas tareas, incluyendo comprensión del lenguaje, matemáticas, razonamiento, generación de código y respuestas a preguntas basadas en conocimiento. Nuestros hallazgos indican que TeleChat logra un rendimiento comparable al de otros modelos de código abierto de tamaño similar en una amplia gama de benchmarks públicos. Para apoyar futuras investigaciones y aplicaciones que utilicen LLMs, liberamos los puntos de control de los modelos ajustados de las variantes de 7B y 12B de TeleChat, junto con el código y una porción de nuestros datos de preentrenamiento, a la comunidad pública.