Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Llemma, un modelo de lenguaje a gran escala para matemáticas. Continuamos el entrenamiento previo de Code Llama en el Proof-Pile-2, una mezcla de artículos científicos, datos web que contienen matemáticas y código matemático, lo que da como resultado Llemma. En el benchmark MATH, Llemma supera a todos los modelos base abiertos conocidos, así como a la suite de modelos Minerva no lanzada, en una base de parámetros equivalentes. Además, Llemma es capaz de utilizar herramientas y realizar demostraciones formales de teoremas sin necesidad de ajustes adicionales. Publicamos abiertamente todos los artefactos, incluyendo modelos de 7 mil millones y 34 mil millones de parámetros, el Proof-Pile-2 y el código para replicar nuestros experimentos.
Los modelos de lenguaje de gran escala (LM, por sus siglas en inglés) se entrenan actualmente para predecir tokens dados prefijos de documentos, lo que les permite realizar directamente tareas de generación de texto extenso y de estilo de indicación que pueden reducirse a la finalización de documentos. Los pipelines de preentrenamiento existentes entrenan LM concatenando conjuntos aleatorios de documentos cortos para crear contextos de entrada, pero los documentos previos no proporcionan ninguna señal para predecir el siguiente documento. En su lugar, presentamos el Preentrenamiento en Contexto, un nuevo enfoque en el que los modelos de lenguaje se preentrenan en una secuencia de documentos relacionados, fomentando explícitamente que lean y razonen más allá de los límites de los documentos. Podemos realizar el Preentrenamiento en Contexto simplemente cambiando el orden de los documentos para que cada contexto contenga documentos relacionados y aplicando directamente los pipelines de preentrenamiento existentes. Sin embargo, este problema de ordenación de documentos es desafiante. Existen miles de millones de documentos y queremos que la ordenación maximice la similitud contextual para cada documento sin repetir ningún dato. Para lograrlo, introducimos algoritmos aproximados para encontrar documentos relacionados mediante búsqueda eficiente de vecinos más cercanos y construir contextos de entrada coherentes con un algoritmo de recorrido de grafos. Nuestros experimentos muestran que el Preentrenamiento en Contexto ofrece un enfoque simple y escalable para mejorar significativamente el rendimiento de los LM: observamos mejoras notables en tareas que requieren un razonamiento contextual más complejo, incluyendo el aprendizaje en contexto (+8%), la comprensión lectora (+15%), la fidelidad a contextos previos (+16%), el razonamiento de contexto largo (+5%) y la ampliación mediante recuperación (+9%).
Los grandes modelos de lenguaje han demostrado sus notables capacidades como una interfaz general para diversas aplicaciones relacionadas con el lenguaje. Motivados por esto, nuestro objetivo es construir una interfaz unificada para completar múltiples tareas de visión y lenguaje, incluyendo descripción de imágenes, respuesta a preguntas visuales y anclaje visual, entre otras. El desafío radica en utilizar un único modelo para realizar de manera efectiva diversas tareas de visión y lenguaje con instrucciones multimodales simples. Con este objetivo, presentamos MiniGPT-v2, un modelo que puede tratarse como una interfaz unificada para manejar mejor diversas tareas de visión y lenguaje. Proponemos el uso de identificadores únicos para diferentes tareas durante el entrenamiento del modelo. Estos identificadores permiten que nuestro modelo distinga cada instrucción de tarea sin esfuerzo y también mejora la eficiencia del aprendizaje del modelo para cada tarea. Después del entrenamiento en tres etapas, los resultados experimentales muestran que MiniGPT-v2 logra un rendimiento sólido en muchos puntos de referencia de respuesta a preguntas visuales y anclaje visual en comparación con otros modelos generalistas de visión y lenguaje. Nuestro modelo y códigos están disponibles en https://minigpt-v2.github.io/
Un marco de trabajo robótico interactivo logra la planificación de tareas a largo plazo y puede generalizarse fácilmente a nuevos objetivos o tareas distintas, incluso durante la ejecución. Sin embargo, la mayoría de los métodos tradicionales requieren un diseño de módulos predefinido, lo que dificulta la generalización a diferentes objetivos. Los enfoques recientes basados en modelos de lenguaje de gran escala permiten una planificación más abierta, pero a menudo requieren una ingeniería de prompts compleja o modelos preentrenados específicos de dominio. Para abordar esto, proponemos un marco simple que logra la planificación interactiva de tareas utilizando modelos de lenguaje. Nuestro sistema incorpora tanto la planificación de alto nivel como la ejecución de funciones de bajo nivel a través del lenguaje. Verificamos la robustez de nuestro sistema en la generación de instrucciones de alto nivel novedosas para objetivos no vistos y su facilidad de adaptación a diferentes tareas simplemente sustituyendo las directrices de la tarea, sin necesidad de ingeniería de prompts adicional compleja. Además, cuando el usuario envía una nueva solicitud, nuestro sistema es capaz de replanificar con precisión en función de la nueva solicitud, las directrices de la tarea y los pasos previamente ejecutados. Para más detalles, consulte https://wuphilipp.github.io/itp_site y https://youtu.be/TrKLuyv26_g.
Si bien los modelos de lenguaje de gran escala han demostrado ser efectivos en una amplia gama de aplicaciones posteriores, a menudo generan texto que es problemático o carece de un atributo deseado. En este artículo, presentamos la Decodificación Aumentada por Recompensas (Reward-Augmented Decoding, RAD), un procedimiento de generación de texto que utiliza un pequeño modelo de recompensa unidireccional para incentivar a un modelo de lenguaje a generar texto con ciertas propiedades. Específicamente, RAD utiliza el modelo de recompensa para puntuar las generaciones a medida que se producen y reescala las probabilidades de muestreo para favorecer tokens con alta recompensa. Al emplear un modelo de recompensa unidireccional, RAD puede almacenar en caché las activaciones de pasos previos de generación para reducir la sobrecarga computacional. A través de experimentos sobre la generación de texto no tóxico y controlado por sentimiento, demostramos que RAD supera a los métodos que solo modifican el procedimiento de generación y se equipara al rendimiento de los métodos más avanzados que implican reentrenar el modelo de lenguaje. Además, validamos que RAD es efectivo en modelos de lenguaje muy grandes mientras incurre en una sobrecarga computacional mínima.
Estamos interesados en habilitar la planificación visual para tareas complejas de largo plazo en el espacio de videos y lenguaje generados, aprovechando los avances recientes en modelos generativos de gran escala preentrenados con datos a escala de Internet. Con este fin, presentamos la planificación de video y lenguaje (VLP, por sus siglas en inglés), un algoritmo que consiste en un procedimiento de búsqueda en árbol, donde entrenamos (i) modelos de visión y lenguaje para que sirvan tanto como políticas como funciones de valor, y (ii) modelos de texto a video como modelos de dinámica. VLP toma como entrada una instrucción de tarea de largo plazo y una observación de imagen actual, y genera un plan de video extenso que proporciona especificaciones multimodales detalladas (video y lenguaje) que describen cómo completar la tarea final. VLP escala con un presupuesto de computación creciente, donde un mayor tiempo de computación resulta en planes de video mejorados, y es capaz de sintetizar planes de video de largo plazo en diferentes dominios de robótica: desde la reorganización de múltiples objetos hasta la manipulación diestra con dos brazos y múltiples cámaras. Los planes de video generados pueden traducirse en acciones de robots reales mediante políticas condicionadas a objetivos, basadas en cada fotograma intermedio del video generado. Los experimentos muestran que VLP mejora sustancialmente las tasas de éxito en tareas de largo plazo en comparación con métodos anteriores, tanto en robots simulados como reales (en 3 plataformas de hardware).
Estudiamos la destilación de datos para tareas de aprendizaje automático auto-regresivas, donde la entrada y la salida tienen una estructura causal estricta de izquierda a derecha. Más específicamente, proponemos Farzi, que resume un conjunto de datos de secuencias de eventos en un pequeño número de secuencias sintéticas —Datos Farzi—, las cuales están optimizadas para mantener (si no mejorar) el rendimiento del modelo en comparación con el entrenamiento en el conjunto de datos completo. Internamente, Farzi realiza una destilación de datos eficiente en memoria mediante (i) la derivación de una diferenciación en modo inverso eficiente del optimizador Adam aprovechando Productos Hessiano-Vector; y (ii) la factorización del espacio de eventos discreto de alta dimensión en un espacio latente que promueve de manera comprobable la regularización implícita. Empíricamente, para tareas de recomendación secuencial y modelado de lenguaje, logramos alcanzar entre el 98% y el 120% del rendimiento con datos completos al entrenar modelos de última generación con Datos Farzi que representan tan solo el 0.1% del conjunto de datos original. Es notable que la capacidad de entrenar modelos mejores con significativamente menos datos arroja luz sobre el diseño de futuros modelos auto-regresivos de gran escala y abre nuevas oportunidades para escalar aún más los tamaños de los modelos y los datos.
Los formatos de datos de ancho de bits reducido son clave para disminuir los costos computacionales y de almacenamiento en las aplicaciones modernas de aprendizaje profundo. Este artículo evalúa los formatos de datos de Microscalado (MX), que combinan un factor de escalado por bloque con tipos de punto flotante y enteros de ancho reducido para elementos individuales. Los formatos MX equilibran las necesidades contrapuestas de eficiencia hardware, precisión del modelo y fricción del usuario. Los resultados empíricos en más de dos docenas de benchmarks demuestran la viabilidad de los formatos MX como reemplazo directo del FP32 base para inferencia y entrenamiento de IA con baja fricción del usuario. También mostramos el primer caso de entrenamiento de modelos generativos de lenguaje con pesos, activaciones y gradientes de menos de 8 bits, con una pérdida mínima de precisión y sin modificaciones en la receta de entrenamiento.
A pesar de su éxito en muchas tareas de procesamiento de lenguaje natural, resolver problemas matemáticos sigue siendo un desafío significativo para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Existe una brecha considerable entre el rendimiento "pass-at-one" y "pass-at-N" de los LLMs al resolver problemas matemáticos, lo que sugiere que estos modelos podrían estar cerca de encontrar soluciones correctas, lo que motiva nuestra exploración de métodos de ajuste fino para desbloquear su rendimiento. Utilizando el desafiante conjunto de datos MATH, investigamos tres estrategias de ajuste fino: (1) ajuste fino de soluciones, donde ajustamos el modelo para generar una solución detallada a un problema matemático dado; (2) reordenación de clústeres de soluciones, donde el LLM se ajusta como un verificador/evaluador de soluciones para elegir entre clústeres de soluciones generadas; (3) ajuste fino secuencial multitarea, que integra eficientemente tanto la generación de soluciones como las tareas de evaluación para mejorar el rendimiento del LLM. Con estos métodos, presentamos un estudio empírico exhaustivo en una serie de modelos PaLM 2 y encontramos: (1) La calidad y el estilo de las soluciones paso a paso utilizadas para el ajuste fino pueden tener un impacto significativo en el rendimiento del modelo; (2) Si bien el reordenamiento de soluciones y la votación por mayoría son efectivos para mejorar el rendimiento del modelo cuando se usan por separado, también pueden usarse juntos para un mayor impulso en el rendimiento; (3) El ajuste fino multitarea que separa secuencialmente las tareas de generación y evaluación de soluciones puede ofrecer un rendimiento mejorado en comparación con la línea base de ajuste fino de soluciones. Guiados por estas observaciones, diseñamos una receta de ajuste fino que logra aproximadamente un 58.8% de precisión en el conjunto de datos MATH con modelos PaLM 2-L ajustados, una mejora del 11.2% en precisión sobre el rendimiento "few-shot" del modelo PaLM 2-L preentrenado con votación por mayoría.
Investigamos las capacidades de los modelos de lenguaje grandes (LLMs) basados en transformadores para tareas de razonamiento relacional que involucran símbolos abstractos. Estas tareas han sido ampliamente estudiadas en la literatura de neurociencia como bloques fundamentales para habilidades más complejas en programación, matemáticas y razonamiento verbal. Para (i) tareas de regresión, demostramos que los transformadores generalizan cuando se entrenan, pero requieren cantidades sorprendentemente grandes de datos de entrenamiento. Para (ii) tareas de predicción del siguiente token con etiquetas simbólicas, mostramos una "ley de escalado inverso": los transformadores no logran generalizar a medida que aumenta su dimensión de incrustación. Para ambos escenarios (i) y (ii), proponemos modificaciones sutiles en los transformadores que pueden reducir la cantidad de datos necesarios al agregar dos parámetros entrenables por cabeza.
La síntesis de invariantes inductivos para bucles es fundamental para automatizar la verificación de programas. En este trabajo, observamos que los Modelos de Lenguaje de Gran Escala (como gpt-3.5 o gpt-4) son capaces de sintetizar invariantes de bucles para una clase de programas en un entorno de 0-shot, aunque requieren varias muestras para generar los invariantes correctos. Esto puede llevar a un gran número de llamadas a un verificador de programas para establecer un invariante. Para abordar este problema, proponemos un enfoque de {\it reordenación} para los resultados generados por los LLMs. Hemos diseñado un clasificador que puede distinguir entre invariantes inductivos correctos e intentos incorrectos basándose en la definición del problema. El clasificador está optimizado como un clasificador contrastivo. Los resultados experimentales demuestran que este mecanismo de reordenación mejora significativamente la clasificación de los invariantes correctos entre los candidatos generados, lo que conduce a una notable reducción en el número de llamadas a un verificador.