Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

Llemma: Un modelo de lenguaje abierto para matemáticas
Llemma: An Open Language Model For Mathematics

Oct 16, 2023

Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck

566

Presentamos Llemma, un modelo de lenguaje a gran escala para matemáticas. Continuamos el entrenamiento previo de Code Llama en el Proof-Pile-2, una mezcla de artículos científicos, datos web que contienen matemáticas y código matemático, lo que da como resultado Llemma. En el benchmark MATH, Llemma supera a todos los modelos base abiertos conocidos, así como a la suite de modelos Minerva no lanzada, en una base de parámetros equivalentes. Además, Llemma es capaz de utilizar herramientas y realizar demostraciones formales de teoremas sin necesidad de ajustes adicionales. Publicamos abiertamente todos los artefactos, incluyendo modelos de 7 mil millones y 34 mil millones de parámetros, el Proof-Pile-2 y el código para replicar nuestros experimentos.

Entrenamiento Previo en Contexto: Modelado del Lenguaje Más Allá de los Límites del Documento
In-Context Pretraining: Language Modeling Beyond Document Boundaries

Oct 16, 2023

Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Scott Yih, Mike Lewis

303

Los modelos de lenguaje de gran escala (LM, por sus siglas en inglés) se entrenan actualmente para predecir tokens dados prefijos de documentos, lo que les permite realizar directamente tareas de generación de texto extenso y de estilo de indicación que pueden reducirse a la finalización de documentos. Los pipelines de preentrenamiento existentes entrenan LM concatenando conjuntos aleatorios de documentos cortos para crear contextos de entrada, pero los documentos previos no proporcionan ninguna señal para predecir el siguiente documento. En su lugar, presentamos el Preentrenamiento en Contexto, un nuevo enfoque en el que los modelos de lenguaje se preentrenan en una secuencia de documentos relacionados, fomentando explícitamente que lean y razonen más allá de los límites de los documentos. Podemos realizar el Preentrenamiento en Contexto simplemente cambiando el orden de los documentos para que cada contexto contenga documentos relacionados y aplicando directamente los pipelines de preentrenamiento existentes. Sin embargo, este problema de ordenación de documentos es desafiante. Existen miles de millones de documentos y queremos que la ordenación maximice la similitud contextual para cada documento sin repetir ningún dato. Para lograrlo, introducimos algoritmos aproximados para encontrar documentos relacionados mediante búsqueda eficiente de vecinos más cercanos y construir contextos de entrada coherentes con un algoritmo de recorrido de grafos. Nuestros experimentos muestran que el Preentrenamiento en Contexto ofrece un enfoque simple y escalable para mejorar significativamente el rendimiento de los LM: observamos mejoras notables en tareas que requieren un razonamiento contextual más complejo, incluyendo el aprendizaje en contexto (+8%), la comprensión lectora (+15%), la fidelidad a contextos previos (+16%), el razonamiento de contexto largo (+5%) y la ampliación mediante recuperación (+9%).

MiniGPT-v2: modelo de lenguaje grande como interfaz unificada para el aprendizaje multitarea de visión y lenguaje
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Oct 14, 2023

Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny

211

Los grandes modelos de lenguaje han demostrado sus notables capacidades como una interfaz general para diversas aplicaciones relacionadas con el lenguaje. Motivados por esto, nuestro objetivo es construir una interfaz unificada para completar múltiples tareas de visión y lenguaje, incluyendo descripción de imágenes, respuesta a preguntas visuales y anclaje visual, entre otras. El desafío radica en utilizar un único modelo para realizar de manera efectiva diversas tareas de visión y lenguaje con instrucciones multimodales simples. Con este objetivo, presentamos MiniGPT-v2, un modelo que puede tratarse como una interfaz unificada para manejar mejor diversas tareas de visión y lenguaje. Proponemos el uso de identificadores únicos para diferentes tareas durante el entrenamiento del modelo. Estos identificadores permiten que nuestro modelo distinga cada instrucción de tarea sin esfuerzo y también mejora la eficiencia del aprendizaje del modelo para cada tarea. Después del entrenamiento en tres etapas, los resultados experimentales muestran que MiniGPT-v2 logra un rendimiento sólido en muchos puntos de referencia de respuesta a preguntas visuales y anclaje visual en comparación con otros modelos generalistas de visión y lenguaje. Nuestro modelo y códigos están disponibles en https://minigpt-v2.github.io/

Planificación de Tareas Interactivas con Modelos de Lenguaje
Interactive Task Planning with Language Models

Oct 16, 2023

Boyi Li, Philipp Wu, Pieter Abbeel, Jitendra Malik

131

Un marco de trabajo robótico interactivo logra la planificación de tareas a largo plazo y puede generalizarse fácilmente a nuevos objetivos o tareas distintas, incluso durante la ejecución. Sin embargo, la mayoría de los métodos tradicionales requieren un diseño de módulos predefinido, lo que dificulta la generalización a diferentes objetivos. Los enfoques recientes basados en modelos de lenguaje de gran escala permiten una planificación más abierta, pero a menudo requieren una ingeniería de prompts compleja o modelos preentrenados específicos de dominio. Para abordar esto, proponemos un marco simple que logra la planificación interactiva de tareas utilizando modelos de lenguaje. Nuestro sistema incorpora tanto la planificación de alto nivel como la ejecución de funciones de bajo nivel a través del lenguaje. Verificamos la robustez de nuestro sistema en la generación de instrucciones de alto nivel novedosas para objetivos no vistos y su facilidad de adaptación a diferentes tareas simplemente sustituyendo las directrices de la tarea, sin necesidad de ingeniería de prompts adicional compleja. Además, cuando el usuario envía una nueva solicitud, nuestro sistema es capaz de replanificar con precisión en función de la nueva solicitud, las directrices de la tarea y los pasos previamente ejecutados. Para más detalles, consulte https://wuphilipp.github.io/itp_site y https://youtu.be/TrKLuyv26_g.

Decodificación Aumentada por Recompensas: Generación Controlada de Texto Eficiente con un Modelo de Recompensa Unidireccional
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Oct 14, 2023

Haikang Deng, Colin Raffel

121

Si bien los modelos de lenguaje de gran escala han demostrado ser efectivos en una amplia gama de aplicaciones posteriores, a menudo generan texto que es problemático o carece de un atributo deseado. En este artículo, presentamos la Decodificación Aumentada por Recompensas (Reward-Augmented Decoding, RAD), un procedimiento de generación de texto que utiliza un pequeño modelo de recompensa unidireccional para incentivar a un modelo de lenguaje a generar texto con ciertas propiedades. Específicamente, RAD utiliza el modelo de recompensa para puntuar las generaciones a medida que se producen y reescala las probabilidades de muestreo para favorecer tokens con alta recompensa. Al emplear un modelo de recompensa unidireccional, RAD puede almacenar en caché las activaciones de pasos previos de generación para reducir la sobrecarga computacional. A través de experimentos sobre la generación de texto no tóxico y controlado por sentimiento, demostramos que RAD supera a los métodos que solo modifican el procedimiento de generación y se equipara al rendimiento de los métodos más avanzados que implican reentrenar el modelo de lenguaje. Además, validamos que RAD es efectivo en modelos de lenguaje muy grandes mientras incurre en una sobrecarga computacional mínima.

Planificación del Lenguaje en Video
Video Language Planning

Oct 16, 2023

Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson

111

Estamos interesados en habilitar la planificación visual para tareas complejas de largo plazo en el espacio de videos y lenguaje generados, aprovechando los avances recientes en modelos generativos de gran escala preentrenados con datos a escala de Internet. Con este fin, presentamos la planificación de video y lenguaje (VLP, por sus siglas en inglés), un algoritmo que consiste en un procedimiento de búsqueda en árbol, donde entrenamos (i) modelos de visión y lenguaje para que sirvan tanto como políticas como funciones de valor, y (ii) modelos de texto a video como modelos de dinámica. VLP toma como entrada una instrucción de tarea de largo plazo y una observación de imagen actual, y genera un plan de video extenso que proporciona especificaciones multimodales detalladas (video y lenguaje) que describen cómo completar la tarea final. VLP escala con un presupuesto de computación creciente, donde un mayor tiempo de computación resulta en planes de video mejorados, y es capaz de sintetizar planes de video de largo plazo en diferentes dominios de robótica: desde la reorganización de múltiples objetos hasta la manipulación diestra con dos brazos y múltiples cámaras. Los planes de video generados pueden traducirse en acciones de robots reales mediante políticas condicionadas a objetivos, basadas en cada fotograma intermedio del video generado. Los experimentos muestran que VLP mejora sustancialmente las tasas de éxito en tareas de largo plazo en comparación con métodos anteriores, tanto en robots simulados como reales (en 3 plataformas de hardware).

Farzi Data: Destilación de Datos Autoregresivos
Farzi Data: Autoregressive Data Distillation

Oct 15, 2023

Noveen Sachdeva, Zexue He, Wang-Cheng Kang, Jianmo Ni, Derek Zhiyuan Cheng, Julian McAuley

101

Estudiamos la destilación de datos para tareas de aprendizaje automático auto-regresivas, donde la entrada y la salida tienen una estructura causal estricta de izquierda a derecha. Más específicamente, proponemos Farzi, que resume un conjunto de datos de secuencias de eventos en un pequeño número de secuencias sintéticas —Datos Farzi—, las cuales están optimizadas para mantener (si no mejorar) el rendimiento del modelo en comparación con el entrenamiento en el conjunto de datos completo. Internamente, Farzi realiza una destilación de datos eficiente en memoria mediante (i) la derivación de una diferenciación en modo inverso eficiente del optimizador Adam aprovechando Productos Hessiano-Vector; y (ii) la factorización del espacio de eventos discreto de alta dimensión en un espacio latente que promueve de manera comprobable la regularización implícita. Empíricamente, para tareas de recomendación secuencial y modelado de lenguaje, logramos alcanzar entre el 98% y el 120% del rendimiento con datos completos al entrenar modelos de última generación con Datos Farzi que representan tan solo el 0.1% del conjunto de datos original. Es notable que la capacidad de entrenar modelos mejores con significativamente menos datos arroja luz sobre el diseño de futuros modelos auto-regresivos de gran escala y abre nuevas oportunidades para escalar aún más los tamaños de los modelos y los datos.

Formatos de Datos de Microescalado para Aprendizaje Profundo
Microscaling Data Formats for Deep Learning

Oct 16, 2023

Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verilli, Ralph Wittig, Eric Chung

Los formatos de datos de ancho de bits reducido son clave para disminuir los costos computacionales y de almacenamiento en las aplicaciones modernas de aprendizaje profundo. Este artículo evalúa los formatos de datos de Microscalado (MX), que combinan un factor de escalado por bloque con tipos de punto flotante y enteros de ancho reducido para elementos individuales. Los formatos MX equilibran las necesidades contrapuestas de eficiencia hardware, precisión del modelo y fricción del usuario. Los resultados empíricos en más de dos docenas de benchmarks demuestran la viabilidad de los formatos MX como reemplazo directo del FP32 base para inferencia y entrenamiento de IA con baja fricción del usuario. También mostramos el primer caso de entrenamiento de modelos generativos de lenguaje con pesos, activaciones y gradientes de menos de 8 bits, con una pérdida mínima de precisión y sin modificaciones en la receta de entrenamiento.

Mejora del ajuste fino de modelos de lenguaje extenso para la resolución de problemas matemáticos
Improving Large Language Model Fine-tuning for Solving Math Problems

Oct 16, 2023

Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu

A pesar de su éxito en muchas tareas de procesamiento de lenguaje natural, resolver problemas matemáticos sigue siendo un desafío significativo para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Existe una brecha considerable entre el rendimiento "pass-at-one" y "pass-at-N" de los LLMs al resolver problemas matemáticos, lo que sugiere que estos modelos podrían estar cerca de encontrar soluciones correctas, lo que motiva nuestra exploración de métodos de ajuste fino para desbloquear su rendimiento. Utilizando el desafiante conjunto de datos MATH, investigamos tres estrategias de ajuste fino: (1) ajuste fino de soluciones, donde ajustamos el modelo para generar una solución detallada a un problema matemático dado; (2) reordenación de clústeres de soluciones, donde el LLM se ajusta como un verificador/evaluador de soluciones para elegir entre clústeres de soluciones generadas; (3) ajuste fino secuencial multitarea, que integra eficientemente tanto la generación de soluciones como las tareas de evaluación para mejorar el rendimiento del LLM. Con estos métodos, presentamos un estudio empírico exhaustivo en una serie de modelos PaLM 2 y encontramos: (1) La calidad y el estilo de las soluciones paso a paso utilizadas para el ajuste fino pueden tener un impacto significativo en el rendimiento del modelo; (2) Si bien el reordenamiento de soluciones y la votación por mayoría son efectivos para mejorar el rendimiento del modelo cuando se usan por separado, también pueden usarse juntos para un mayor impulso en el rendimiento; (3) El ajuste fino multitarea que separa secuencialmente las tareas de generación y evaluación de soluciones puede ofrecer un rendimiento mejorado en comparación con la línea base de ajuste fino de soluciones. Guiados por estas observaciones, diseñamos una receta de ajuste fino que logra aproximadamente un 58.8% de precisión en el conjunto de datos MATH con modelos PaLM 2-L ajustados, una mejora del 11.2% en precisión sobre el rendimiento "few-shot" del modelo PaLM 2-L preentrenado con votación por mayoría.

¿Cuándo pueden los transformadores razonar con símbolos abstractos?
When can transformers reason with abstract symbols?

Oct 15, 2023

Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind

Investigamos las capacidades de los modelos de lenguaje grandes (LLMs) basados en transformadores para tareas de razonamiento relacional que involucran símbolos abstractos. Estas tareas han sido ampliamente estudiadas en la literatura de neurociencia como bloques fundamentales para habilidades más complejas en programación, matemáticas y razonamiento verbal. Para (i) tareas de regresión, demostramos que los transformadores generalizan cuando se entrenan, pero requieren cantidades sorprendentemente grandes de datos de entrenamiento. Para (ii) tareas de predicción del siguiente token con etiquetas simbólicas, mostramos una "ley de escalado inverso": los transformadores no logran generalizar a medida que aumenta su dimensión de incrustación. Para ambos escenarios (i) y (ii), proponemos modificaciones sutiles en los transformadores que pueden reducir la cantidad de datos necesarios al agregar dos parámetros entrenables por cabeza.

Clasificación de Invariantes de Bucle Generados por LLM para la Verificación de Programas
Ranking LLM-Generated Loop Invariants for Program Verification

Oct 13, 2023

Saikat Chakraborty, Shuvendu K. Lahiri, Sarah Fakhoury, Madanlal Musuvathi, Akash Lal, Aseem Rastogi, Aditya Senthilnathan, Rahul Sharma, Nikhil Swamy

La síntesis de invariantes inductivos para bucles es fundamental para automatizar la verificación de programas. En este trabajo, observamos que los Modelos de Lenguaje de Gran Escala (como gpt-3.5 o gpt-4) son capaces de sintetizar invariantes de bucles para una clase de programas en un entorno de 0-shot, aunque requieren varias muestras para generar los invariantes correctos. Esto puede llevar a un gran número de llamadas a un verificador de programas para establecer un invariante. Para abordar este problema, proponemos un enfoque de {\it reordenación} para los resultados generados por los LLMs. Hemos diseñado un clasificador que puede distinguir entre invariantes inductivos correctos e intentos incorrectos basándose en la definición del problema. El clasificador está optimizado como un clasificador contrastivo. Los resultados experimentales demuestran que este mecanismo de reordenación mejora significativamente la clasificación de los invariantes correctos entre los candidatos generados, lo que conduce a una notable reducción en el número de llamadas a un verificador.

Mejora del ajuste fino de modelos de lenguaje extenso para la resolución de problemas matemáticos
Improving Large Language Model Fine-tuning for Solving Math Problems

Oct 16, 2023

Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu

Papers Diarios

Llemma: Un modelo de lenguaje abierto para matemáticas
Llemma: An Open Language Model For Mathematics

Entrenamiento Previo en Contexto: Modelado del Lenguaje Más Allá de los Límites del Documento
In-Context Pretraining: Language Modeling Beyond Document Boundaries

MiniGPT-v2: modelo de lenguaje grande como interfaz unificada para el aprendizaje multitarea de visión y lenguaje
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Planificación de Tareas Interactivas con Modelos de Lenguaje
Interactive Task Planning with Language Models

Decodificación Aumentada por Recompensas: Generación Controlada de Texto Eficiente con un Modelo de Recompensa Unidireccional
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Planificación del Lenguaje en Video
Video Language Planning

Farzi Data: Destilación de Datos Autoregresivos
Farzi Data: Autoregressive Data Distillation

Formatos de Datos de Microescalado para Aprendizaje Profundo
Microscaling Data Formats for Deep Learning

Mejora del ajuste fino de modelos de lenguaje extenso para la resolución de problemas matemáticos
Improving Large Language Model Fine-tuning for Solving Math Problems

¿Cuándo pueden los transformadores razonar con símbolos abstractos?
When can transformers reason with abstract symbols?

Clasificación de Invariantes de Bucle Generados por LLM para la Verificación de Programas
Ranking LLM-Generated Loop Invariants for Program Verification

Support

Support

Papers Diarios

Llemma: Un modelo de lenguaje abierto para matemáticas
Llemma: An Open Language Model For Mathematics

Entrenamiento Previo en Contexto: Modelado del Lenguaje Más Allá de los Límites del Documento
In-Context Pretraining: Language Modeling Beyond Document Boundaries

MiniGPT-v2: modelo de lenguaje grande como interfaz unificada para el aprendizaje multitarea de visión y lenguaje
MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Planificación de Tareas Interactivas con Modelos de Lenguaje
Interactive Task Planning with Language Models

Decodificación Aumentada por Recompensas: Generación Controlada de Texto Eficiente con un Modelo de Recompensa Unidireccional
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

Planificación del Lenguaje en Video
Video Language Planning

Farzi Data: Destilación de Datos Autoregresivos
Farzi Data: Autoregressive Data Distillation

Formatos de Datos de Microescalado para Aprendizaje Profundo
Microscaling Data Formats for Deep Learning

Mejora del ajuste fino de modelos de lenguaje extenso para la resolución de problemas matemáticos
Improving Large Language Model Fine-tuning for Solving Math Problems

¿Cuándo pueden los transformadores razonar con símbolos abstractos?
When can transformers reason with abstract symbols?

Clasificación de Invariantes de Bucle Generados por LLM para la Verificación de Programas
Ranking LLM-Generated Loop Invariants for Program Verification