Artigos de pesquisa em IA selecionados diariamente com traduções
A comunidade de aprendizado de máquina (ML) está rapidamente explorando técnicas para "prompting" de modelos de linguagem (LMs) e para organizá-los em pipelines que resolvam tarefas complexas. Infelizmente, os pipelines de LMs existentes são tipicamente implementados usando "templates de prompts" codificados de forma rígida, ou seja, strings extensas descobertas por tentativa e erro. Visando uma abordagem mais sistemática para desenvolver e otimizar pipelines de LMs, introduzimos o DSPy, um modelo de programação que abstrai pipelines de LMs como grafos de transformação de texto, ou seja, grafos computacionais imperativos onde os LMs são invocados por meio de módulos declarativos. Os módulos do DSPy são parametrizados, o que significa que podem aprender (criando e coletando demonstrações) como aplicar composições de técnicas de prompting, ajuste fino, aumento de dados e raciocínio. Projetamos um compilador que otimiza qualquer pipeline DSPy para maximizar uma métrica específica. Realizamos dois estudos de caso, mostrando que programas DSPy sucintos podem expressar e otimizar pipelines de LMs sofisticados que raciocinam sobre problemas de matemática, lidam com recuperação multi-hop, respondem a perguntas complexas e controlam loops de agentes. Em minutos de compilação, algumas linhas de DSPy permitem que GPT-3.5 e llama2-13b-chat auto-inicializem pipelines que superam o prompting padrão de poucos exemplos (geralmente em mais de 25% e 65%, respectivamente) e pipelines com demonstrações criadas por especialistas (em até 5-46% e 16-40%, respectivamente). Além disso, programas DSPy compilados para LMs abertos e relativamente pequenos, como o T5 com 770 milhões de parâmetros e o llama2-13b-chat, são competitivos com abordagens que dependem de cadeias de prompts escritas por especialistas para o GPT-3.5 proprietário. O DSPy está disponível em https://github.com/stanfordnlp/dspy.
"Pensar é para Agir." Os seres humanos podem inferir os estados mentais de outras pessoas a partir de observações—uma habilidade chamada Teoria da Mente (ToM)—e, subsequentemente, agir de forma pragmática com base nessas inferências. Benchmarks existentes de questionamento e resposta, como o ToMi, fazem perguntas aos modelos para que eles façam inferências sobre as crenças dos personagens em uma história, mas não testam se os modelos podem usar essas inferências para orientar suas ações. Propomos um novo paradigma de avaliação para modelos de linguagem de grande escala (LLMs): Pensar para Agir (T4D), que exige que os modelos conectem inferências sobre os estados mentais de outros a ações em cenários sociais. Experimentos no T4D demonstram que LLMs como GPT-4 e PaLM 2 aparentemente se destacam em rastrear as crenças dos personagens nas histórias, mas lutam para traduzir essa capacidade em ação estratégica. Nossa análise revela que o principal desafio para os LLMs está em identificar as inferências implícitas sobre os estados mentais sem que sejam explicitamente questionados, como no ToMi, que levam à escolha da ação correta no T4D. Para preencher essa lacuna, introduzimos um framework de prompt zero-shot, Prever e Refletir (FaR), que fornece uma estrutura de raciocínio que incentiva os LLMs a antecipar desafios futuros e refletir sobre possíveis ações. O FaR aumenta o desempenho do GPT-4 de 50% para 71% no T4D, superando outros métodos de prompt, como Cadeia de Pensamento e Auto-Pergunta. Além disso, o FaR generaliza para diversas estruturas de histórias e cenários fora da distribuição que também exigem inferências de ToM para escolher uma ação, consistentemente superando outros métodos, incluindo aprendizado few-shot em contexto.
Modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) como o GPT-4 têm demonstrado desempenho notável em uma variedade de tarefas, mas esse forte desempenho frequentemente vem com o alto custo de utilizar serviços pagos de API. Neste artigo, somos motivados a estudar a construção de uma cascata de LLMs para economizar o custo de utilização desses modelos, especialmente para tarefas de raciocínio (por exemplo, matemático, causal). Nossa pipeline de cascata segue a intuição de que questões mais simples podem ser resolvidas por um LLM mais fraco, porém mais acessível, enquanto apenas as questões desafiadoras exigem o uso de um LLM mais forte e caro. Para realizar essa tomada de decisão, consideramos a "consistência da resposta" do LLM mais fraco como um sinal da dificuldade da questão e propomos vários métodos para a amostragem de respostas e verificação de consistência, incluindo um que aproveita uma mistura de duas representações de pensamento (ou seja, Cadeia de Pensamento e Programa de Pensamento). Por meio de experimentos em seis conjuntos de dados de benchmark de raciocínio, utilizando o GPT-3.5-turbo e o GPT-4 como os LLMs mais fraco e mais forte, respectivamente, demonstramos que nossas cascatas de LLMs propostas podem alcançar um desempenho comparável ao uso exclusivo do LLM mais forte, mas exigindo apenas 40% do seu custo.
Hoje, os usuários solicitam que modelos de linguagem de grande escala (LLMs) atuem como assistentes para responder a consultas que exigem conhecimento externo; eles perguntam sobre o clima em uma cidade específica, sobre preços de ações e até mesmo sobre a localização de lugares específicos em sua vizinhança. Essas consultas exigem que o LLM produza código que invoque APIs externas para responder à pergunta do usuário, mas os LLMs raramente produzem código correto na primeira tentativa, exigindo refinamento iterativo do código com base nos resultados da execução. Além disso, usar assistentes LLM para suportar grandes volumes de consultas pode ser caro. Neste trabalho, contribuímos com um framework, o EcoAssistant, que permite que os LLMs respondam a consultas orientadas por código de forma mais acessível e precisa. O EcoAssistant contém três componentes. Primeiro, ele permite que os assistentes LLM conversem com um executor de código automático para refinar iterativamente o código ou produzir respostas com base nos resultados da execução. Segundo, usamos uma hierarquia de assistentes LLM, que tenta responder à consulta com LLMs mais fracos e baratos antes de recorrer a LLMs mais fortes e caros. Terceiro, recuperamos soluções de consultas bem-sucedidas anteriores como demonstrações em contexto para ajudar consultas subsequentes. Empiricamente, mostramos que o EcoAssistant oferece vantagens distintas em termos de acessibilidade e precisão, superando o GPT-4 em 10 pontos de taxa de sucesso com menos de 50% do custo do GPT-4.