Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ganando una creciente popularidad tanto en el ámbito académico como en la industria, debido a su desempeño sin precedentes en diversas aplicaciones. A medida que los LLMs continúan desempeñando un papel vital tanto en la investigación como en el uso diario, su evaluación se vuelve cada vez más crítica, no solo a nivel de tareas, sino también a nivel social para comprender mejor sus riesgos potenciales. En los últimos años, se han realizado esfuerzos significativos para examinar los LLMs desde diversas perspectivas. Este artículo presenta una revisión exhaustiva de estos métodos de evaluación para LLMs, centrándose en tres dimensiones clave: qué evaluar, dónde evaluar y cómo evaluar. En primer lugar, ofrecemos una visión general desde la perspectiva de las tareas de evaluación, abarcando tareas generales de procesamiento del lenguaje natural, razonamiento, uso médico, ética, educación, ciencias naturales y sociales, aplicaciones de agentes y otras áreas. En segundo lugar, respondemos a las preguntas de "dónde" y "cómo" al profundizar en los métodos de evaluación y los puntos de referencia, que sirven como componentes cruciales para evaluar el rendimiento de los LLMs. Luego, resumimos los casos de éxito y fracaso de los LLMs en diferentes tareas. Finalmente, arrojamos luz sobre varios desafíos futuros que se presentan en la evaluación de LLMs. Nuestro objetivo es ofrecer ideas invaluables a los investigadores en el ámbito de la evaluación de LLMs, ayudando así al desarrollo de LLMs más competentes. Nuestro punto clave es que la evaluación debe tratarse como una disciplina esencial para ayudar mejor al desarrollo de los LLMs. Mantenemos constantemente los materiales de código abierto relacionados en: https://github.com/MLGroupJLU/LLM-eval-survey.
Si bien los modelos de lenguaje recientes tienen la capacidad de recibir contextos largos como entrada, se sabe relativamente poco sobre qué tan bien estos modelos utilizan contextos más extensos. Analizamos el rendimiento de los modelos de lenguaje en dos tareas que requieren identificar información relevante dentro de sus contextos de entrada: respuesta a preguntas sobre múltiples documentos y recuperación de pares clave-valor. Encontramos que el rendimiento suele ser más alto cuando la información relevante aparece al principio o al final del contexto de entrada, y se degrada significativamente cuando los modelos deben acceder a información relevante en el medio de contextos largos. Además, el rendimiento disminuye sustancialmente a medida que el contexto de entrada se hace más extenso, incluso para modelos diseñados explícitamente para contextos largos. Nuestro análisis proporciona una mejor comprensión de cómo los modelos de lenguaje utilizan su contexto de entrada y ofrece nuevos protocolos de evaluación para futuros modelos de contexto largo.
Muchos enfoques cognitivos para el bienestar, como reconocer y reformular pensamientos poco útiles, han recibido un considerable apoyo empírico en las últimas décadas, pero aún carecen de una adopción verdaderamente generalizada en formato de autoayuda. Una barrera para esa adopción es la falta de material de práctica específico y diverso dedicado. Este trabajo examina si los modelos de lenguaje actuales pueden aprovecharse tanto para producir una cantidad prácticamente ilimitada de material de práctica que ilustre patrones estándar de pensamientos poco útiles que coincidan con contextos específicos dados, como para generar propuestas adecuadas de reformulación positiva. Proponemos PATTERNREFRAME, un nuevo conjunto de datos de aproximadamente 10k ejemplos de pensamientos que contienen patrones de pensamiento poco útiles condicionados a una persona dada, acompañados de aproximadamente 27k reformulaciones positivas. Al utilizar este conjunto de datos para entrenar y/o evaluar los modelos actuales, demostramos que los modelos existentes ya pueden ser herramientas poderosas para ayudar a generar una abundancia de material de práctica e hipótesis personalizadas, sin necesidad de entrenamiento adicional del modelo o con un mínimo requerido.
Los modelos de lenguaje de gran escala tienen una capacidad excepcional para incorporar nueva información de manera contextual. Sin embargo, el potencial completo de este enfoque a menudo se ve limitado por una restricción en la longitud efectiva del contexto. Una solución a este problema es dotar a una capa de atención con acceso a una memoria externa, que consta de pares (clave, valor). No obstante, a medida que aumenta el número de documentos, la proporción de claves relevantes frente a las irrelevantes disminuye, lo que lleva al modelo a enfocarse más en las claves irrelevantes. Identificamos un desafío significativo, denominado el problema de distracción, donde las claves vinculadas a diferentes valores semánticos pueden solaparse, dificultando su distinción. Para abordar este problema, presentamos el Transformer Enfocado (FoT), una técnica que emplea un proceso de entrenamiento inspirado en el aprendizaje contrastivo. Este enfoque novedoso mejora la estructura del espacio (clave, valor), permitiendo una extensión de la longitud del contexto. Nuestro método permite ajustar modelos preexistentes de gran escala para ampliar su contexto efectivo. Esto se demuestra mediante nuestro ajuste fino de los puntos de control OpenLLaMA de 3B y 7B. Los modelos resultantes, que denominamos LongLLaMA, muestran avances en tareas que requieren un contexto largo. Además, ilustramos que nuestros modelos LongLLaMA gestionan hábilmente una longitud de contexto de 256k para la recuperación de claves de acceso.
En este artículo, nos centramos en Whisper, un modelo reciente de reconocimiento automático del habla entrenado con un corpus masivo de 680k horas de habla etiquetada grabada en condiciones diversas. Primero mostramos un hallazgo interesante: aunque Whisper es muy robusto frente a sonidos de fondo del mundo real (por ejemplo, música), su representación de audio en realidad no es invariante al ruido, sino que está altamente correlacionada con sonidos no vocales, lo que indica que Whisper reconoce el habla condicionado al tipo de ruido. Con este hallazgo, construimos un modelo unificado de etiquetado de audio y reconocimiento del habla, Whisper-AT, mediante la congelación del backbone de Whisper y el entrenamiento de un modelo ligero de etiquetado de audio sobre él. Con un costo computacional adicional de <1%, Whisper-AT puede reconocer eventos de audio, además de texto hablado, en una sola pasada hacia adelante.
Los modelos de lenguaje autoregresivos de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en diversas tareas de generación de lenguaje natural. Sin embargo, incurren en altos costos computacionales y latencia debido a la generación token por token de manera autoregresiva. Para abordar este problema, se han propuesto varios enfoques para reducir el costo computacional utilizando estrategias de salida temprana. Estas estrategias permiten una generación de texto más rápida al utilizar un cómputo reducido sin aplicar el grafo computacional completo a cada token. Si bien los métodos existentes de salida temprana a nivel de token muestran resultados prometedores para la inferencia en línea, no pueden aplicarse fácilmente para la inferencia por lotes y el almacenamiento en caché de claves-valores (KV). Esto se debe a que deben esperar hasta que el último token en un lote salga antes de poder detener el cómputo, lo que limita severamente la aplicación práctica de tales técnicas. En este artículo, proponemos un método simple y efectivo de salida temprana a nivel de token, llamado SkipDecode, diseñado para funcionar de manera fluida con la inferencia por lotes y el almacenamiento en caché KV. Este método supera las limitaciones anteriores al establecer un punto de salida único para cada token en un lote en cada posición de la secuencia. Además, garantiza una disminución monótona en los puntos de salida, eliminando así la necesidad de recalcular las cachés KV para los tokens anteriores. En lugar de terminar el cómputo prematuramente como en trabajos anteriores, nuestro enfoque omite las capas inferiores y medias, dedicando la mayor parte de los recursos computacionales a las capas superiores, permitiendo que los tokens posteriores se beneficien del cómputo invertido en los tokens anteriores. Nuestros resultados experimentales muestran que SkipDecode puede obtener aceleraciones en la inferencia de 2x a 5x con una regresión insignificante en una variedad de tareas. Esto se logra utilizando modelos OPT de 1.3 mil millones y 6.7 mil millones de parámetros, siendo además directamente compatible con técnicas de optimización de lotes y almacenamiento en caché KV.
Evaluamos las capacidades de comprensión de video de los modelos fundacionales existentes utilizando un protocolo de experimento cuidadosamente diseñado que consta de tres tareas fundamentales (reconocimiento de acciones, localización temporal y localización espacio-temporal), ocho conjuntos de datos bien recibidos por la comunidad y cuatro métodos de adaptación que ajustan un modelo fundacional (FM) para una tarea específica. Además, proponemos una puntuación escalar llamada VideoGLUE (VGS) para medir la eficacia y eficiencia de un FM al adaptarse a tareas generales de comprensión de video. Nuestros principales hallazgos son los siguientes. En primer lugar, los modelos especializados en tareas superan significativamente a los seis FMs estudiados en este trabajo, en marcado contraste con lo que los FMs han logrado en la comprensión del lenguaje natural y de imágenes. En segundo lugar, los FMs nativos de video, cuyos datos de preentrenamiento incluyen la modalidad de video, generalmente superan a los FMs nativos de imagen en la clasificación de videos ricos en movimiento, la localización de acciones en el tiempo y la comprensión de videos con más de una acción. En tercer lugar, los FMs nativos de video pueden desempeñarse bien en tareas de video con adaptaciones ligeras a las tareas específicas (por ejemplo, congelando los backbones del FM), mientras que los FMs nativos de imagen destacan en el ajuste fino completo de extremo a extremo. Las dos primeras observaciones revelan la necesidad y las enormes oportunidades de investigar FMs centrados en video, y la última confirma que tanto las tareas como los métodos de adaptación son importantes a la hora de evaluar los FMs.