ChatPaper.aiChatPaper

L'art de l'affinement des LLM : Interroger, Affiner et Faire Confiance

The ART of LLM Refinement: Ask, Refine, and Trust

November 14, 2023
Auteurs: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI

Résumé

Ces dernières années, les modèles de langage de grande taille (LLMs) ont démontré des capacités génératives remarquables, mais peuvent-ils juger la qualité de leurs propres générations ? Un concept populaire, appelé auto-affinement, postule que les LLMs peuvent détecter et corriger les erreurs dans leurs générations lorsqu'ils y sont invités. Cependant, des preuves empiriques récentes vont dans le sens contraire, suggérant que les LLMs ont souvent du mal à identifier avec précision les erreurs lorsque le raisonnement est impliqué. Pour résoudre ce problème, nous proposons un objectif de raisonnement avec affinement appelé ART : Ask, Refine, and Trust (Demander, Affiner et Faire Confiance), qui pose les questions nécessaires pour décider quand un LLM doit affiner sa sortie, et soit confirmer soit retenir la confiance dans son affinement en classant l'affinement et la prédiction initiale. Sur deux tâches de raisonnement en plusieurs étapes, à savoir les problèmes mathématiques (GSM8K) et les questions-réponses (StrategyQA), ART obtient un gain de performance de +5 points par rapport aux bases d'auto-affinement, tout en utilisant un modèle beaucoup plus petit comme décideur. Nous démontrons également l'avantage d'utiliser des modèles plus petits pour prendre des décisions d'affinement comme une alternative rentable au fine-tuning d'un modèle plus grand.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable generative abilities, but can they judge the quality of their own generations? A popular concept, referred to as self-refinement, postulates that LLMs can detect and correct the errors in their generations when asked to do so. However, recent empirical evidence points in the opposite direction, suggesting that LLMs often struggle to accurately identify errors when reasoning is involved. To address this, we propose a reasoning with refinement objective called ART: Ask, Refine, and Trust, which asks necessary questions to decide when an LLM should refine its output, and either affirm or withhold trust in its refinement by ranking the refinement and the initial prediction. On two multistep reasoning tasks of mathematical word problems (GSM8K) and question answering (StrategyQA), ART achieves a performance gain of +5 points over self-refinement baselines, while using a much smaller model as the decision maker. We also demonstrate the benefit of using smaller models to make refinement decisions as a cost-effective alternative to fine-tuning a larger model.
PDF110December 15, 2024