Retour en langage naturel au niveau système
System-Level Natural Language Feedback
June 23, 2023
Auteurs: Weizhe Yuan, Kyunghyun Cho, Jason Weston
cs.AI
Résumé
Les retours en langage naturel (NL) contiennent des informations riches sur l'expérience utilisateur. Les études existantes se concentrent sur une approche au niveau des instances, où les retours sont utilisés pour affiner des exemples spécifiques, négligeant leur application à l'échelle du système. Cet article propose un cadre général pour exploiter les retours en NL au niveau système. Nous montrons comment utiliser ces retours pour formaliser les décisions de conception à l'échelle du système dans un processus impliquant l'humain (human-in-the-loop) afin de produire de meilleurs modèles. Cela se fait notamment par : (i) la conception de métriques pour les tâches ; et (ii) la conception d'invites (prompts) pour les modèles de langage afin d'affiner les réponses des modèles. Nous menons deux études de cas illustrant cette approche pour améliorer la génération de requêtes de recherche et la génération de réponses dialogiques, démontrant l'efficacité de l'utilisation des retours au niveau système. Nous montrons que la combinaison des retours au niveau système et au niveau des instances apporte des gains supplémentaires, et que les retours écrits par des humains au niveau des instances conduisent à des affinements plus ancrés que ceux écrits par GPT-3.5, soulignant l'importance des retours humains pour la construction de systèmes.
English
Natural language (NL) feedback contains rich information about the user
experience. Existing studies focus on an instance-level approach, where
feedback is used to refine specific examples, disregarding its system-wide
application. This paper proposes a general framework for unlocking the
system-level use of NL feedback. We show how to use feedback to formalize
system-level design decisions in a human-in-the-loop-process -- in order to
produce better models. In particular this is done through: (i) metric design
for tasks; and (ii) language model prompt design for refining model responses.
We conduct two case studies of this approach for improving search query
generation and dialog response generation, demonstrating the effectiveness of
the use of system-level feedback. We show the combination of system-level
feedback and instance-level feedback brings further gains, and that human
written instance-level feedback results in more grounded refinements than
GPT-3.5 written ones, underlying the importance of human feedback for building
systems.