ChatPaper.aiChatPaper

De kunst van LLM-verfijning: Vraag, Verfijn en Vertrouw

The ART of LLM Refinement: Ask, Refine, and Trust

November 14, 2023
Auteurs: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI

Samenvatting

De afgelopen jaren hebben Large Language Models (LLM's) opmerkelijke generatieve vaardigheden getoond, maar kunnen ze ook de kwaliteit van hun eigen generaties beoordelen? Een populair concept, genaamd zelfverfijning, stelt dat LLM's fouten in hun generaties kunnen detecteren en corrigeren wanneer ze daartoe worden aangezet. Recent empirisch bewijs wijst echter in de tegenovergestelde richting en suggereert dat LLM's vaak moeite hebben om fouten accuraat te identificeren wanneer redenering betrokken is. Om dit aan te pakken, stellen we een doelstelling voor redeneren met verfijning voor, genaamd ART: Ask, Refine, and Trust (Vraag, Verfijn en Vertrouw). Deze methode stelt noodzakelijke vragen om te bepalen wanneer een LLM zijn output moet verfijnen, en bevestigt of weerhoudt vertrouwen in de verfijning door de verfijning en de initiële voorspelling te rangschikken. Op twee meerstaps redeneertaken van wiskundige woordproblemen (GSM8K) en vraagbeantwoording (StrategyQA) behaalt ART een prestatieverbetering van +5 punten ten opzichte van zelfverfijningsbaselines, terwijl een veel kleiner model wordt gebruikt als besluitvormer. We tonen ook het voordeel aan van het gebruik van kleinere modellen om verfijningsbeslissingen te nemen als een kosteneffectief alternatief voor het finetunen van een groter model.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable generative abilities, but can they judge the quality of their own generations? A popular concept, referred to as self-refinement, postulates that LLMs can detect and correct the errors in their generations when asked to do so. However, recent empirical evidence points in the opposite direction, suggesting that LLMs often struggle to accurately identify errors when reasoning is involved. To address this, we propose a reasoning with refinement objective called ART: Ask, Refine, and Trust, which asks necessary questions to decide when an LLM should refine its output, and either affirm or withhold trust in its refinement by ranking the refinement and the initial prediction. On two multistep reasoning tasks of mathematical word problems (GSM8K) and question answering (StrategyQA), ART achieves a performance gain of +5 points over self-refinement baselines, while using a much smaller model as the decision maker. We also demonstrate the benefit of using smaller models to make refinement decisions as a cost-effective alternative to fine-tuning a larger model.
PDF110December 15, 2024