Systeemniveau Natuurlijke Taal Feedback

Samenvatting

Natuurlijke taal (NL) feedback bevat rijke informatie over de gebruikerservaring. Bestaande studies richten zich op een instantie-niveau benadering, waarbij feedback wordt gebruikt om specifieke voorbeelden te verfijnen, zonder rekening te houden met de toepassing ervan op systeemniveau. Dit artikel stelt een algemeen raamwerk voor om het gebruik van NL feedback op systeemniveau te ontsluiten. We laten zien hoe feedback kan worden gebruikt om systeemniveau ontwerpbeslissingen te formaliseren in een human-in-the-loop-proces – om betere modellen te produceren. Dit wordt in het bijzonder gedaan door: (i) het ontwerpen van metrieken voor taken; en (ii) het ontwerpen van prompts voor taalmodel om modelresponsen te verfijnen. We voeren twee casestudies uit van deze aanpak om het genereren van zoekopdrachten en dialoogresponsen te verbeteren, waarbij we de effectiviteit aantonen van het gebruik van feedback op systeemniveau. We laten zien dat de combinatie van feedback op systeemniveau en instantie-niveau verdere verbeteringen oplevert, en dat door mensen geschreven feedback op instantie-niveau tot meer gefundeerde verfijningen leidt dan feedback geschreven door GPT-3.5, wat het belang van menselijke feedback voor het bouwen van systemen onderstreept.

English

Natural language (NL) feedback contains rich information about the user experience. Existing studies focus on an instance-level approach, where feedback is used to refine specific examples, disregarding its system-wide application. This paper proposes a general framework for unlocking the system-level use of NL feedback. We show how to use feedback to formalize system-level design decisions in a human-in-the-loop-process -- in order to produce better models. In particular this is done through: (i) metric design for tasks; and (ii) language model prompt design for refining model responses. We conduct two case studies of this approach for improving search query generation and dialog response generation, demonstrating the effectiveness of the use of system-level feedback. We show the combination of system-level feedback and instance-level feedback brings further gains, and that human written instance-level feedback results in more grounded refinements than GPT-3.5 written ones, underlying the importance of human feedback for building systems.

Systeemniveau Natuurlijke Taal Feedback

System-Level Natural Language Feedback

Samenvatting

Support