ChatPaper.aiChatPaper

A Arte do Refinamento de LLM: Perguntar, Refinar e Confiar

The ART of LLM Refinement: Ask, Refine, and Trust

November 14, 2023
Autores: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI

Resumo

Nos últimos anos, os Modelos de Linguagem de Grande Escala (LLMs) demonstraram habilidades generativas notáveis, mas será que podem julgar a qualidade de suas próprias gerações? Um conceito popular, conhecido como autorrefinamento, postula que os LLMs são capazes de detectar e corrigir erros em suas gerações quando solicitados. No entanto, evidências empíricas recentes apontam na direção oposta, sugerindo que os LLMs frequentemente têm dificuldade em identificar erros com precisão quando o raciocínio está envolvido. Para abordar essa questão, propomos um objetivo de raciocínio com refinamento chamado ART: Perguntar, Refinar e Confiar, que faz as perguntas necessárias para decidir quando um LLM deve refinar sua saída, e afirma ou retém a confiança em seu refinamento ao classificar o refinamento e a previsão inicial. Em duas tarefas de raciocínio em múltiplas etapas envolvendo problemas matemáticos (GSM8K) e respostas a perguntas (StrategyQA), o ART alcança um ganho de desempenho de +5 pontos em relação às linhas de base de autorrefinamento, enquanto utiliza um modelo muito menor como tomador de decisão. Também demonstramos o benefício de usar modelos menores para tomar decisões de refinamento como uma alternativa econômica ao ajuste fino de um modelo maior.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable generative abilities, but can they judge the quality of their own generations? A popular concept, referred to as self-refinement, postulates that LLMs can detect and correct the errors in their generations when asked to do so. However, recent empirical evidence points in the opposite direction, suggesting that LLMs often struggle to accurately identify errors when reasoning is involved. To address this, we propose a reasoning with refinement objective called ART: Ask, Refine, and Trust, which asks necessary questions to decide when an LLM should refine its output, and either affirm or withhold trust in its refinement by ranking the refinement and the initial prediction. On two multistep reasoning tasks of mathematical word problems (GSM8K) and question answering (StrategyQA), ART achieves a performance gain of +5 points over self-refinement baselines, while using a much smaller model as the decision maker. We also demonstrate the benefit of using smaller models to make refinement decisions as a cost-effective alternative to fine-tuning a larger model.
PDF110December 15, 2024