Artículos de investigación en IA seleccionados diariamente con traducciones
La comunidad de aprendizaje automático está explorando rápidamente técnicas para el "prompting" de modelos de lenguaje (LMs) y para combinarlos en pipelines que resuelven tareas complejas. Desafortunadamente, los pipelines de LMs existentes suelen implementarse utilizando "plantillas de prompts" codificadas de forma rígida, es decir, cadenas extensas descubiertas mediante prueba y error. Con el objetivo de desarrollar un enfoque más sistemático para la creación y optimización de pipelines de LMs, presentamos DSPy, un modelo de programación que abstrae los pipelines de LMs como grafos de transformación de texto, es decir, grafos computacionales imperativos donde los LMs se invocan a través de módulos declarativos. Los módulos de DSPy están parametrizados, lo que significa que pueden aprender (creando y recopilando demostraciones) cómo aplicar composiciones de técnicas de prompting, ajuste fino, aumento y razonamiento. Diseñamos un compilador que optimiza cualquier pipeline de DSPy para maximizar una métrica dada. Realizamos dos estudios de caso, demostrando que programas concisos de DSPy pueden expresar y optimizar pipelines de LMs sofisticados que razonan sobre problemas matemáticos verbales, abordan recuperación de múltiples saltos, responden preguntas complejas y controlan bucles de agentes. En cuestión de minutos de compilación, unas pocas líneas de DSPy permiten que GPT-3.5 y llama2-13b-chat auto-bootstrapeen pipelines que superan el prompting estándar de pocos ejemplos (generalmente en más del 25% y 65%, respectivamente) y pipelines con demostraciones creadas por expertos (hasta en un 5-46% y 16-40%, respectivamente). Además, los programas de DSPy compilados para LMs abiertos y relativamente pequeños, como T5 de 770 millones de parámetros y llama2-13b-chat, son competitivos con enfoques que dependen de cadenas de prompts escritas por expertos para GPT-3.5 propietario. DSPy está disponible en https://github.com/stanfordnlp/dspy.
"Pensar es para Actuar." Los seres humanos pueden inferir los estados mentales de otras personas a partir de observaciones—una habilidad conocida como Teoría de la Mente (ToM, por sus siglas en inglés)—y luego actuar de manera pragmática basándose en esas inferencias. Los benchmarks existentes de respuesta a preguntas, como ToMi, plantean a los modelos preguntas para que hagan inferencias sobre las creencias de los personajes en una historia, pero no evalúan si los modelos pueden utilizar estas inferencias para guiar sus acciones. Proponemos un nuevo paradigma de evaluación para los modelos de lenguaje de gran escala (LLMs): Pensar para Actuar (T4D), que requiere que los modelos conecten inferencias sobre los estados mentales de otros con acciones en escenarios sociales. Los experimentos en T4D demuestran que LLMs como GPT-4 y PaLM 2 aparentemente sobresalen en rastrear las creencias de los personajes en las historias, pero tienen dificultades para traducir esta capacidad en acciones estratégicas. Nuestro análisis revela que el desafío central para los LLMs radica en identificar las inferencias implícitas sobre los estados mentales, que no se les preguntan explícitamente como en ToMi, y que conducen a elegir la acción correcta en T4D. Para cerrar esta brecha, introducimos un marco de prompting de cero disparos, Prever y Reflexionar (FaR), que proporciona una estructura de razonamiento que anima a los LLMs a anticipar desafíos futuros y razonar sobre acciones potenciales. FaR mejora el rendimiento de GPT-4 del 50% al 71% en T4D, superando a otros métodos de prompting como Cadena de Pensamiento y Auto-Pregunta. Además, FaR se generaliza a diversas estructuras de historias y escenarios fuera de distribución que también requieren inferencias de ToM para elegir una acción, superando consistentemente a otros métodos, incluido el aprendizaje en contexto con pocos ejemplos.
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como GPT-4 han demostrado un rendimiento notable en una variedad de tareas, pero este alto rendimiento suele venir acompañado del elevado costo de utilizar servicios de API de pago. En este artículo, nos motivamos a estudiar la construcción de una cascada de LLMs para reducir el costo de su uso, particularmente en tareas de razonamiento (por ejemplo, matemático, causal). Nuestra canalización en cascada sigue la intuición de que las preguntas más simples pueden ser abordadas por un LLM más débil pero más económico, mientras que solo las preguntas desafiantes requieren el uso de un LLM más potente y costoso. Para implementar esta toma de decisiones, consideramos la "consistencia de la respuesta" del LLM más débil como una señal de la dificultad de la pregunta y proponemos varios métodos para el muestreo de respuestas y la verificación de consistencia, incluyendo uno que aprovecha una mezcla de dos representaciones de pensamiento (es decir, Cadena de Pensamiento y Programa de Pensamiento). A través de experimentos en seis conjuntos de datos de referencia para razonamiento, utilizando GPT-3.5-turbo y GPT-4 como los LLMs más débil y más fuerte, respectivamente, demostramos que nuestras cascadas de LLMs propuestas pueden alcanzar un rendimiento comparable al uso exclusivo del LLM más fuerte, pero requieren solo el 40% de su costo.
Hoy en día, los usuarios recurren a los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como asistentes para responder consultas que requieren conocimiento externo; preguntan sobre el clima en una ciudad específica, sobre los precios de las acciones e incluso sobre la ubicación de lugares concretos en su vecindario. Estas consultas exigen que el LLM genere código que invoque APIs externas para responder a la pregunta del usuario, pero los LLMs rara vez producen código correcto en el primer intento, requiriendo un refinamiento iterativo del código basado en los resultados de la ejecución. Además, utilizar asistentes basados en LLMs para manejar grandes volúmenes de consultas puede resultar costoso. En este trabajo, presentamos un marco de trabajo, EcoAssistant, que permite a los LLMs responder consultas impulsadas por código de manera más económica y precisa. EcoAssistant consta de tres componentes. Primero, permite que los asistentes LLM interactúen con un ejecutor de código automático para refinar iterativamente el código o generar respuestas basadas en los resultados de la ejecución. Segundo, empleamos una jerarquía de asistentes LLM, que intenta responder la consulta con LLMs más débiles y económicos antes de recurrir a otros más potentes y costosos. Tercero, recuperamos soluciones de consultas exitosas pasadas como demostraciones en contexto para ayudar en consultas posteriores. Empíricamente, demostramos que EcoAssistant ofrece ventajas distintivas en términos de economía y precisión, superando a GPT-4 en 10 puntos de tasa de éxito con menos del 50% del costo de GPT-4.