Shepherd: Ein Kritiker für die Generierung von Sprachmodellen
Shepherd: A Critic for Language Model Generation
August 8, 2023
papers.authors: Tianlu Wang, Ping Yu, Xiaoqing Ellen Tan, Sean O'Brien, Ramakanth Pasunuru, Jane Dwivedi-Yu, Olga Golovneva, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz
cs.AI
papers.abstract
Da große Sprachmodelle immer besser werden, wächst das Interesse an Techniken, die die Fähigkeiten dieser Modelle nutzen, um ihre eigenen Ausgaben zu verfeinern. In dieser Arbeit stellen wir Shepherd vor, ein Sprachmodell, das speziell darauf abgestimmt ist, Antworten zu kritisieren und Verbesserungsvorschläge zu machen. Es geht dabei über die Fähigkeiten eines nicht angepassten Modells hinaus, indem es diverse Fehler identifiziert und Vorschläge zu deren Behebung liefert. Kern unseres Ansatzes ist ein hochwertiges Feedback-Datenset, das wir aus Community-Feedback und menschlichen Annotationen kuratieren. Obwohl Shepherd klein ist (7B Parameter), sind seine Kritiken entweder gleichwertig oder werden denen etablierter Modelle wie ChatGPT vorgezogen. Bei der Bewertung mit GPT-4 erreicht Shepherd eine durchschnittliche Gewinnrate von 53-87 % im Vergleich zu konkurrierenden Alternativen. In der menschlichen Bewertung übertrifft Shepherd andere Modelle deutlich und liegt im Durchschnitt nahezu gleichauf mit ChatGPT.
English
As large language models improve, there is increasing interest in techniques
that leverage these models' capabilities to refine their own outputs. In this
work, we introduce Shepherd, a language model specifically tuned to critique
responses and suggest refinements, extending beyond the capabilities of an
untuned model to identify diverse errors and provide suggestions to remedy
them. At the core of our approach is a high quality feedback dataset, which we
curate from community feedback and human annotations. Even though Shepherd is
small (7B parameters), its critiques are either equivalent or preferred to
those from established models including ChatGPT. Using GPT-4 for evaluation,
Shepherd reaches an average win-rate of 53-87% compared to competitive
alternatives. In human evaluation, Shepherd strictly outperforms other models
and on average closely ties with ChatGPT.