Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje, como GPT-3.5 y ChatGPT, demuestran habilidades notables para seguir diversas instrucciones humanas y realizar una amplia gama de tareas. Sin embargo, al evaluar estos modelos utilizando una variedad de tareas básicas de comprensión de tablas, observamos que los modelos de lenguaje actuales aún son subóptimos en muchas tareas relacionadas con tablas, probablemente porque están preentrenados principalmente en textos unidimensionales de lenguaje natural, mientras que las tablas relacionales son objetos bidimensionales. En este trabajo, proponemos un nuevo paradigma de "ajuste de tablas" (table-tuning), donde continuamos entrenando/ajustando modelos de lenguaje como GPT-3.5 y ChatGPT, utilizando diversas tareas de tablas sintetizadas a partir de tablas reales como datos de entrenamiento, con el objetivo de mejorar la capacidad de los modelos de lenguaje para comprender tablas y realizar tareas relacionadas con ellas. Demostramos que nuestros modelos resultantes, Table-GPT, exhiben (1) mejores capacidades de comprensión de tablas, superando consistentemente a GPT-3.5 y ChatGPT en una amplia gama de tareas de tablas, incluidas tareas no vistas durante el entrenamiento, y (2) una fuerte generalización, en su capacidad para responder a diversas instrucciones humanas para realizar nuevas tareas de tablas, de manera similar a GPT-3.5 y ChatGPT.
Este artículo presenta PaLI-3, un modelo de lenguaje visual (VLM) más pequeño, rápido y potente que se compara favorablemente con modelos similares 10 veces más grandes. Como parte del proceso para alcanzar este alto rendimiento, comparamos modelos de Vision Transformer (ViT) preentrenados con objetivos de clasificación frente a aquellos preentrenados de manera contrastiva (SigLIP). Descubrimos que, aunque ligeramente inferior en benchmarks estándar de clasificación de imágenes, PaLI basado en SigLIP muestra un rendimiento superior en varios benchmarks multimodales, especialmente en localización y comprensión de texto situado visualmente. Escalamos el codificador de imágenes SigLIP hasta 2 mil millones de parámetros y logramos un nuevo estado del arte en recuperación cross-modal multilingüe. Esperamos que PaLI-3, con solo 5 mil millones de parámetros, reavive la investigación sobre los componentes fundamentales de los VLM complejos y pueda impulsar una nueva generación de modelos escalados.
La cuantización es una técnica indispensable para implementar Modelos de Lenguaje de Gran Escala (LLMs) y recientemente ha encontrado aplicación en el ajuste fino mediante LoRA. En este trabajo nos enfocamos en el escenario donde la cuantización y el ajuste fino con LoRA se aplican conjuntamente en un modelo preentrenado. En tales casos, es común observar una brecha consistente en el rendimiento en tareas posteriores entre el ajuste fino completo y el enfoque de cuantización más ajuste fino con LoRA. En respuesta, proponemos LoftQ (Cuantización Consciente del Ajuste Fino con LoRA), un novedoso marco de cuantización que simultáneamente cuantiza un LLM y encuentra una inicialización adecuada de bajo rango para el ajuste fino con LoRA. Dicha inicialización mitiga la discrepancia entre el modelo cuantizado y el de precisión completa, mejorando significativamente la generalización en tareas posteriores. Evaluamos nuestro método en tareas de comprensión del lenguaje natural, respuesta a preguntas, resumen y generación de lenguaje natural. Los experimentos muestran que nuestro método es altamente efectivo y supera a los métodos de cuantización existentes, especialmente en los regímenes desafiantes de 2 bits y precisión mixta de 2/4 bits. Publicaremos nuestro código.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una capacidad creciente para planificar y ejecutar un objetivo de alto nivel en un entorno informático en vivo (por ejemplo, MiniWoB++). Para realizar una tarea, trabajos recientes suelen requerir que un modelo aprenda a partir de ejemplos de trazas de la tarea mediante aprendizaje supervisado o técnicas de prompting con pocos o muchos ejemplos. Sin estas trazas de ejemplos, sigue siendo un desafío cómo un agente puede aprender y mejorar su control sobre un ordenador de manera autónoma, lo que limita su capacidad para realizar una nueva tarea. Abordamos este problema con un agente de cero ejemplos que no requiere trazas expertas proporcionadas. Nuestro agente planifica acciones ejecutables en un entorno parcialmente observado y avanza en una tarea de manera iterativa, identificando y aprendiendo de sus errores mediante la autorreflexión y la gestión estructurada del pensamiento. En las tareas sencillas de MiniWoB++, demostramos que nuestro agente de cero ejemplos a menudo supera a los modelos más recientes del estado del arte (SoTA), con un razonamiento más eficiente. Para tareas con mayor complejidad, nuestro agente reflexivo se desempeña al mismo nivel que los mejores modelos anteriores, a pesar de que estos trabajos previos tenían la ventaja de acceder a trazas expertas o información adicional de la pantalla.
Cuando se aplican a tareas de respuesta a preguntas y otras tareas de generación de texto, los modelos de lenguaje (LMs) pueden ser consultados de manera generativa (muestreando respuestas de su distribución de salida) o de manera discriminativa (utilizándolos para puntuar o clasificar un conjunto de candidatos de salida). Estos procedimientos a veces producen predicciones muy diferentes. ¿Cómo reconciliamos procedimientos de puntuación mutuamente incompatibles para obtener predicciones coherentes de los LMs? Introducimos un nuevo procedimiento, libre de entrenamiento y basado en la teoría de juegos, para la decodificación de modelos de lenguaje. Nuestro enfoque plantea la decodificación de modelos de lenguaje como un juego secuencial de señalización con información imperfecta y regularizado —al que denominamos el JUEGO DEL CONSENSO— en el que un GENERADOR busca comunicar un parámetro abstracto de corrección utilizando oraciones en lenguaje natural a un DISCRIMINADOR. Desarrollamos procedimientos computacionales para encontrar equilibrios aproximados de este juego, lo que resulta en un algoritmo de decodificación que llamamos EQUILIBRIUM-RANKING. Aplicado a una gran cantidad de tareas (incluyendo comprensión lectora, razonamiento de sentido común, resolución de problemas matemáticos y diálogo), EQUILIBRIUM-RANKING mejora consistentemente, y a veces sustancialmente, el rendimiento sobre los procedimientos de decodificación de LMs existentes —en múltiples benchmarks, observamos que aplicar EQUILIBRIUM-RANKING a LLaMA-7B supera a los modelos mucho más grandes LLaMA-65B y PaLM-540B. Estos resultados resaltan la promesa de las herramientas de la teoría de juegos para abordar los desafíos fundamentales de veracidad y consistencia en los LMs.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en una amplia gama de tareas de Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés), a menudo igualando o incluso superando a los modelos específicos de última generación. Este estudio tiene como objetivo evaluar las capacidades de razonamiento financiero de los LLMs. Utilizamos preguntas de exámenes simulados del Programa de Analista Financiero Certificado (CFA, por sus siglas en inglés) para llevar a cabo una evaluación exhaustiva de ChatGPT y GPT-4 en análisis financiero, considerando escenarios de Cero Disparos (ZS, por sus siglas en inglés), Cadena de Pensamiento (CoT, por sus siglas en inglés) y Pocos Disparos (FS, por sus siglas en inglés). Presentamos un análisis detallado del rendimiento y las limitaciones de los modelos, y estimamos si tendrían posibilidades de aprobar los exámenes del CFA. Finalmente, esbozamos ideas sobre posibles estrategias y mejoras para potenciar la aplicabilidad de los LLMs en el ámbito financiero. Desde esta perspectiva, esperamos que este trabajo siente las bases para futuros estudios que continúen mejorando los LLMs en el razonamiento financiero mediante evaluaciones rigurosas.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ya han demostrado ser bastante competentes para resolver tareas de programación más simples, como las presentes en los benchmarks HumanEval o MBPP. Sin embargo, resolver problemas de programación más complejos y competitivos sigue siendo un desafío significativo para estos modelos, posiblemente debido a su tendencia a generar soluciones como bloques de código monolíticos en lugar de descomponerlos en sub-tareas y submódulos lógicos. Por otro lado, los programadores experimentados instintivamente escriben código modularizado con abstracciones para resolver tareas complejas, reutilizando con frecuencia módulos desarrollados previamente. Para abordar esta brecha, proponemos CodeChain, un marco novedoso para la inferencia que fomenta la generación de código modularizado a través de una cadena de auto-revisiones, cada una guiada por algunos submódulos representativos generados en iteraciones anteriores. Concretamente, CodeChain primero instruye al LLM para generar códigos modularizados mediante el enfoque de cadena de pensamiento (chain-of-thought prompting). Luego, aplica una cadena de auto-revisiones iterando dos pasos: 1) extraer y agrupar los submódulos generados, seleccionando los representantes de cada grupo como implementaciones más genéricas y reutilizables, y 2) enriquecer la cadena de pensamiento original con estas implementaciones de módulos seleccionadas e instruir al LLM para regenerar nuevas soluciones modularizadas. Descubrimos que, al fomentar naturalmente la reutilización de submódulos previamente desarrollados y verificados, CodeChain puede mejorar significativamente tanto la modularidad como la corrección de las soluciones generadas, logrando mejoras relativas en pass@1 del 35% en APPS y del 76% en CodeContests. Se demuestra que es efectivo tanto en LLMs de OpenAI como en LLMs de código abierto como WizardCoder. También realizamos estudios de ablación exhaustivos con diferentes métodos de prompting, número de grupos, tamaños de modelos, calidades de programas, etc., para proporcionar insights útiles que respaldan el éxito de CodeChain.
El habla y el texto son dos formas principales del lenguaje humano. Durante muchos años, la comunidad investigadora se ha centrado en mapear el habla al texto o viceversa. Sin embargo, en el campo del modelado del lenguaje, se ha dedicado muy poco esfuerzo a modelarlos de manera conjunta. En este contexto, exploramos el modelado conjunto del lenguaje para unidades de habla y texto. Específicamente, comparamos diferentes tokenizadores de habla para transformar señales de habla continua en unidades discretas y utilizamos distintos métodos para construir datos mixtos de habla y texto. Introducimos métricas automáticas para evaluar qué tan bien el modelo de lenguaje (LM) conjunto integra el habla y el texto. También ajustamos el LM en tareas posteriores de comprensión del lenguaje hablado (SLU) con diferentes modalidades (habla o texto) y probamos su rendimiento para evaluar el aprendizaje de representaciones compartidas por el modelo. Nuestros resultados muestran que, al combinar unidades de habla y texto con nuestras técnicas de mezcla propuestas, el LM conjunto mejora respecto a un modelo basado únicamente en habla en tareas de SLU y demuestra transferibilidad cruzada entre modalidades de manera zero-shot.