Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran capacidades sustanciales en tareas de comprensión y generación de lenguaje natural. Con el creciente número de LLMs, cómo aprovechar la experiencia colectiva de múltiples LLMs es una dirección abierta y emocionante. Con este objetivo, proponemos un nuevo enfoque que aprovecha las fortalezas colectivas de múltiples LLMs mediante una metodología de Mezcla de Agentes (MoA, por sus siglas en inglés). En nuestro enfoque, construimos una arquitectura MoA en capas donde cada capa comprende múltiples agentes LLM. Cada agente toma todas las salidas de los agentes en la capa anterior como información auxiliar para generar su respuesta. Los modelos MoA logran un rendimiento de vanguardia en AlpacaEval 2.0, MT-Bench y FLASK, superando a GPT-4 Omni. Por ejemplo, nuestro MoA, que utiliza únicamente LLMs de código abierto, lidera AlpacaEval 2.0 con una brecha sustancial, alcanzando una puntuación del 65.1% en comparación con el 57.5% de GPT-4 Omni.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha surgido recientemente como una solución prometedora para mitigar la deficiencia de los Modelos de Lenguaje de Gran Escala (LLM) en cuanto a la falta de conocimiento. Sin embargo, los conjuntos de datos existentes de RAG no representan adecuadamente la naturaleza diversa y dinámica de las tareas reales de Respuesta a Preguntas (QA). Para cerrar esta brecha, presentamos el Benchmark Integral de RAG (CRAG), un conjunto de referencia de respuesta a preguntas factuales que incluye 4,409 pares de preguntas-respuestas y APIs simuladas para emular búsquedas en la web y en Grafos de Conocimiento (KG). CRAG está diseñado para abarcar una amplia variedad de preguntas en cinco dominios y ocho categorías de preguntas, reflejando la popularidad variada de las entidades, desde las más populares hasta las de cola larga, y dinámicas temporales que van desde años hasta segundos. Nuestra evaluación en este conjunto de referencia resalta la brecha hacia una QA completamente confiable. Mientras que la mayoría de los LLM más avanzados logran una precisión <=34% en CRAG, la adición de RAG de manera directa solo mejora la precisión al 44%. Las soluciones industriales de RAG más avanzadas solo responden correctamente el 63% de las preguntas sin generar alucinaciones. CRAG también revela una precisión mucho menor al responder preguntas sobre hechos con mayor dinamismo, menor popularidad o mayor complejidad, sugiriendo direcciones futuras de investigación. El benchmark CRAG sentó las bases para un desafío del KDD Cup 2024, atrayendo a miles de participantes y envíos en los primeros 50 días de la competencia. Nos comprometemos a mantener CRAG para servir a las comunidades de investigación en el avance de soluciones RAG y soluciones generales de QA.
Presentamos WildBench, un marco de evaluación automatizado diseñado para evaluar modelos de lenguaje de gran escala (LLMs) utilizando consultas de usuarios desafiantes y del mundo real. WildBench consta de 1,024 tareas cuidadosamente seleccionadas de más de un millón de registros de conversaciones entre humanos y chatbots. Para la evaluación automatizada con WildBench, hemos desarrollado dos métricas, WB-Reward y WB-Score, que son calculables utilizando LLMs avanzados como GPT-4-turbo. La evaluación con WildBench utiliza listas de verificación específicas para cada tarea para evaluar sistemáticamente las salidas de los modelos y proporciona explicaciones estructuradas que justifican las puntuaciones y comparaciones, lo que resulta en juicios automáticos más confiables e interpretables. WB-Reward emplea comparaciones detalladas por pares entre las respuestas de los modelos, generando cinco resultados potenciales: mucho mejor, ligeramente mejor, ligeramente peor, mucho peor o un empate. A diferencia de evaluaciones anteriores que utilizaban un único modelo de referencia, seleccionamos tres modelos de referencia con diferentes niveles de rendimiento para garantizar una evaluación por pares exhaustiva. Además, proponemos un método simple para mitigar el sesgo de longitud, convirtiendo los resultados de "ligeramente mejor/peor" en "empate" si la respuesta ganadora supera a la perdedora en más de K caracteres. WB-Score evalúa la calidad de las salidas de los modelos de manera individual, lo que lo convierte en una métrica de evaluación rápida y rentable. Los resultados de WildBench demuestran una fuerte correlación con las calificaciones Elo votadas por humanos de Chatbot Arena en tareas difíciles. Específicamente, WB-Reward alcanza una correlación de Pearson de 0.98 con los modelos mejor clasificados. Además, WB-Score alcanza 0.95, superando tanto el 0.91 de ArenaHard como el 0.89 de AlpacaEval2.0 para tasas de victoria controladas por longitud, así como el 0.87 para tasas de victoria regulares.
La IA generativa ha logrado avances notables para revolucionar campos como la generación de imágenes y videos. Estos progresos están impulsados por algoritmos, arquitecturas y datos innovadores. Sin embargo, la rápida proliferación de modelos generativos ha puesto de manifiesto una brecha crítica: la ausencia de métricas de evaluación confiables. Las evaluaciones automáticas actuales, como FID, CLIP, FVD, etc., a menudo no logran capturar la calidad matizada y la satisfacción del usuario asociadas con los resultados generativos. Este artículo propone una plataforma abierta, GenAI-Arena, para evaluar diferentes modelos generativos de imágenes y videos, donde los usuarios pueden participar activamente en la evaluación de estos modelos. Al aprovechar los comentarios y votos colectivos de los usuarios, GenAI-Arena tiene como objetivo proporcionar una medida más democrática y precisa del rendimiento de los modelos. Cubre tres áreas: generación de texto a imagen, generación de texto a video y edición de imágenes, respectivamente. Actualmente, incluimos un total de 27 modelos generativos de código abierto. GenAI-Arena ha estado operando durante cuatro meses, acumulando más de 6000 votos de la comunidad. Describimos nuestra plataforma, analizamos los datos y explicamos los métodos estadísticos para clasificar los modelos. Para fomentar aún más la investigación en la construcción de métricas de evaluación basadas en modelos, publicamos una versión depurada de nuestros datos de preferencia para las tres tareas, denominada GenAI-Bench. Instamos a los modelos multimodales existentes, como Gemini y GPT-4o, a imitar el voto humano. Calculamos la correlación entre los votos de los modelos y los votos humanos para comprender sus capacidades de juicio. Nuestros resultados muestran que los modelos multimodales existentes aún están rezagados en la evaluación del contenido visual generado; incluso el mejor modelo, GPT-4o, solo alcanza una correlación de Pearson de 0.22 en la subpuntuación de calidad y se comporta como una conjetura aleatoria en otros aspectos.
Estimar la incertidumbre o la confianza en las respuestas de un modelo puede ser significativo para evaluar la confianza no solo en las respuestas, sino también en el modelo en su conjunto. En este artículo, exploramos el problema de estimar la confianza en las respuestas de modelos de lenguaje grandes (LLMs) con acceso únicamente de caja negra o mediante consultas. Proponemos un marco simple y extensible en el que diseñamos características novedosas y entrenamos un modelo interpretable (específicamente, regresión logística) sobre estas características para estimar la confianza. Demostramos empíricamente que nuestro marco simple es efectivo para estimar la confianza de flan-ul2, llama-13b y mistral-7b, superando consistentemente los enfoques existentes de estimación de confianza de caja negra en conjuntos de datos de referencia como TriviaQA, SQuAD, CoQA y Natural Questions, en algunos casos incluso en más de un 10% (en AUROC). Además, nuestro enfoque interpretable proporciona información sobre las características que son predictivas de la confianza, lo que lleva al descubrimiento interesante y útil de que los modelos de confianza construidos para un LLM se generalizan sin entrenamiento previo (zero-shot) a otros en un conjunto de datos dado.
Las impresionantes capacidades de los Modelos de Lenguaje de Gran Escala (LLMs) ofrecen un enfoque poderoso para reinventar la experiencia de escritura de los usuarios. Este artículo presenta Proofread, una novedosa función de Gboard impulsada por un LLM en el servidor, que permite correcciones fluidas a nivel de oración y párrafo con un solo toque. Describimos el sistema completo en este artículo, desde la generación de datos, el diseño de métricas hasta el ajuste del modelo y su implementación. Para obtener modelos de calidad suficiente, implementamos una cuidadosa pipeline de síntesis de datos adaptada a casos de uso en línea, diseñamos métricas multifacéticas y empleamos un enfoque de ajuste en dos etapas para obtener el LLM dedicado a la función: el Ajuste Fino Supervisado (SFT) para la calidad fundamental, seguido del enfoque de Ajuste por Aprendizaje por Refuerzo (RL) para el refinamiento específico. En particular, encontramos que el ajuste secuencial en tareas de Reescribir y corregir produce la mejor calidad en la etapa de SFT, y proponemos recompensas globales y directas en la etapa de ajuste RL para buscar una mejora adicional. Experimentos extensivos en un conjunto de referencia etiquetado por humanos mostraron que nuestro modelo ajustado PaLM2-XS alcanzó un 85,56% de ratio de calidad. Lanzamos la función en dispositivos Pixel 8 sirviendo el modelo en TPU v5 en Google Cloud, con miles de usuarios activos diarios. La latencia de servicio se redujo significativamente mediante cuantización, inferencia por lotes, segmentación de texto y decodificación especulativa. Nuestra demostración puede verse en https://youtu.be/4ZdcuiwFU7I{Youtube}.
Presentamos NATURAL PLAN, un punto de referencia realista para la planificación en lenguaje natural que contiene 3 tareas clave: Planificación de Viajes, Planificación de Reuniones y Programación de Calendarios. Centramos nuestra evaluación en las capacidades de planificación de los LLM con información completa sobre la tarea, proporcionando salidas de herramientas como Google Flights, Google Maps y Google Calendar como contextos para los modelos. Esto elimina la necesidad de un entorno de uso de herramientas para evaluar los LLM en planificación. Observamos que NATURAL PLAN es un punto de referencia desafiante para los modelos de última generación. Por ejemplo, en Planificación de Viajes, GPT-4 y Gemini 1.5 Pro solo lograron tasas de resolución del 31.1% y 34.8% respectivamente. Descubrimos que el rendimiento de los modelos cae drásticamente a medida que aumenta la complejidad del problema: todos los modelos obtienen un rendimiento inferior al 5% cuando hay 10 ciudades, lo que resalta una brecha significativa en la planificación en lenguaje natural para los LLM de última generación. También realizamos extensos estudios de ablación en NATURAL PLAN para arrojar más luz sobre la (in)efectividad de enfoques como la autocorrección, la generalización few-shot y la planificación en contexto con contextos largos para mejorar la planificación de los LLM.
El comportamiento predecible al escalar sistemas avanzados de inteligencia artificial es una propiedad extremadamente deseable. Aunque existe una literatura bien establecida sobre cómo escala el rendimiento durante el preentrenamiento, la literatura sobre cómo escalan capacidades específicas en tareas posteriores es significativamente más confusa. En este trabajo, damos un paso atrás y nos preguntamos: ¿por qué ha resultado difícil predecir capacidades específicas en tareas posteriores con el escalamiento? Si bien muchos factores son ciertamente responsables, identificamos un nuevo factor que hace que modelar el comportamiento de escalamiento en puntos de referencia ampliamente utilizados de preguntas de opción múltiple sea un desafío. Utilizando cinco familias de modelos y doce puntos de referencia bien establecidos de preguntas de opción múltiple, demostramos que el rendimiento en tareas posteriores se calcula a partir de las probabilidades logarítmicas negativas mediante una secuencia de transformaciones que degradan progresivamente la relación estadística entre el rendimiento y el escalamiento. Luego revelamos el mecanismo que causa esta degradación: las métricas de tareas posteriores requieren comparar la opción correcta con un pequeño número de opciones incorrectas específicas, lo que significa que predecir con precisión las capacidades en tareas posteriores requiere predecir no solo cómo se concentra la masa de probabilidad en la opción correcta con el escalamiento, sino también cómo fluctúa la masa de probabilidad en opciones incorrectas específicas con el escalamiento. Estudiamos empíricamente cómo la masa de probabilidad en la opción correcta co-varía con la masa de probabilidad en opciones incorrectas con un aumento en el cómputo, sugiriendo que podrían ser alcanzables leyes de escalamiento para las opciones incorrectas. Nuestro trabajo también explica por qué las leyes de escalamiento del preentrenamiento se consideran comúnmente más predecibles que las capacidades en tareas posteriores y contribuye a establecer evaluaciones predecibles con escalamiento de modelos de IA de vanguardia.
El surgimiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha hecho necesario la adopción de técnicas de entrenamiento paralelo, que implican el despliegue de miles de GPUs para entrenar un solo modelo. Lamentablemente, hemos encontrado que la eficiencia del entrenamiento paralelo actual suele ser subóptima, principalmente debido a dos problemas principales. En primer lugar, los fallos de hardware son inevitables, lo que provoca interrupciones en las tareas de entrenamiento. La incapacidad de identificar rápidamente los componentes defectuosos resulta en un desperdicio considerable de recursos de GPU. En segundo lugar, dado que las GPUs deben esperar a que se complete la sincronización de parámetros antes de proceder a la siguiente ronda de cálculo, las congestiones de red pueden aumentar significativamente el tiempo de espera de las GPUs. Para abordar estos desafíos, este artículo introduce una solución impulsada por la comunicación, denominada C4. Las ideas clave de C4 son dos. Primero, en el entrenamiento paralelo, la comunicación colectiva exhibe características periódicas y homogéneas, por lo que cualquier anomalía se debe ciertamente a algún tipo de fallo de hardware. Al aprovechar esta característica, C4 puede identificar rápidamente los componentes defectuosos, aislar rápidamente la anomalía y reiniciar la tarea, evitando así el desperdicio de recursos causado por los retrasos en la detección de anomalías. Segundo, el modelo de comunicación predecible de la comunicación colectiva, que involucra pocos flujos grandes, permite a C4 ejecutar de manera eficiente la planificación del tráfico, reduciendo sustancialmente la congestión de la red. C4 ha sido ampliamente implementado en nuestros sistemas de producción, reduciendo los costos adicionales inducidos por errores en aproximadamente un 30% y mejorando el rendimiento en tiempo de ejecución en alrededor de un 15% para ciertas aplicaciones con costos de comunicación moderados.