Shepherd : Un critique pour la génération de modèles de langage
Shepherd: A Critic for Language Model Generation
August 8, 2023
papers.authors: Tianlu Wang, Ping Yu, Xiaoqing Ellen Tan, Sean O'Brien, Ramakanth Pasunuru, Jane Dwivedi-Yu, Olga Golovneva, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz
cs.AI
papers.abstract
Alors que les modèles de langage de grande taille s'améliorent, l'intérêt croît pour les techniques qui exploitent les capacités de ces modèles pour affiner leurs propres sorties. Dans ce travail, nous présentons Shepherd, un modèle de langage spécifiquement ajusté pour critiquer les réponses et suggérer des améliorations, allant au-delà des capacités d'un modèle non ajusté pour identifier des erreurs variées et proposer des suggestions pour y remédier. Au cœur de notre approche se trouve un ensemble de données de feedback de haute qualité, que nous avons constitué à partir de retours communautaires et d'annotations humaines. Bien que Shepherd soit de petite taille (7 milliards de paramètres), ses critiques sont soit équivalentes, soit préférées à celles de modèles établis, y compris ChatGPT. En utilisant GPT-4 pour l'évaluation, Shepherd atteint un taux de réussite moyen de 53 à 87 % par rapport à des alternatives concurrentes. Dans les évaluations humaines, Shepherd surpasse strictement les autres modèles et, en moyenne, se rapproche de très près de ChatGPT.
English
As large language models improve, there is increasing interest in techniques
that leverage these models' capabilities to refine their own outputs. In this
work, we introduce Shepherd, a language model specifically tuned to critique
responses and suggest refinements, extending beyond the capabilities of an
untuned model to identify diverse errors and provide suggestions to remedy
them. At the core of our approach is a high quality feedback dataset, which we
curate from community feedback and human annotations. Even though Shepherd is
small (7B parameters), its critiques are either equivalent or preferred to
those from established models including ChatGPT. Using GPT-4 for evaluation,
Shepherd reaches an average win-rate of 53-87% compared to competitive
alternatives. In human evaluation, Shepherd strictly outperforms other models
and on average closely ties with ChatGPT.