Die Zerlegung von Fragen verbessert die Zuverlässigkeit von modellgenerierten Schlussfolgerungen
Question Decomposition Improves the Faithfulness of Model-Generated Reasoning
July 17, 2023
Autoren: Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson Denison, Danny Hernandez, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Sam McCandlish, Sheer El Showk, Tamera Lanham, Tim Maxwell, Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez
cs.AI
Zusammenfassung
Da große Sprachmodelle (LLMs) immer schwierigere Aufgaben bewältigen, wird es zunehmend schwieriger, die Korrektheit und Sicherheit ihres Verhaltens zu überprüfen. Ein Ansatz, um dieses Problem zu adressieren, besteht darin, LLMs dazu anzuregen, ihre Argumentation zu externalisieren, z. B. indem sie schrittweise Begründungen generieren, während sie eine Frage beantworten (Chain-of-Thought; CoT). Diese Argumentation könnte es uns ermöglichen, den Prozess zu überprüfen, den Modelle zur Aufgabenbewältigung verwenden. Dieser Ansatz setzt jedoch voraus, dass die dargelegte Argumentation die tatsächliche Argumentation des Modells treu widerspiegelt, was nicht immer der Fall ist. Um die Treue der CoT-Argumentation zu verbessern, lassen wir Modelle Argumentationen generieren, indem sie Fragen in Teilfragen zerlegen. Zerlegungsbasierte Methoden erzielen starke Leistungen bei Frage-Antwort-Aufgaben und nähern sich manchmal der Leistung von CoT an, während sie gleichzeitig die Treue der vom Modell dargelegten Argumentation gemäß mehreren kürzlich vorgeschlagenen Metriken verbessern. Indem wir das Modell dazu zwingen, einfachere Teilfragen in separaten Kontexten zu beantworten, erhöhen wir die Treue der modellgenerierten Argumentation im Vergleich zu CoT erheblich, während wir gleichzeitig einige der Leistungsvorteile von CoT beibehalten. Unsere Ergebnisse zeigen, dass es möglich ist, die Treue der modellgenerierten Argumentation zu verbessern; weitere Fortschritte könnten zu Argumentationen führen, die es uns ermöglichen, die Korrektheit und Sicherheit des Verhaltens von LLMs zu überprüfen.
English
As large language models (LLMs) perform more difficult tasks, it becomes
harder to verify the correctness and safety of their behavior. One approach to
help with this issue is to prompt LLMs to externalize their reasoning, e.g., by
having them generate step-by-step reasoning as they answer a question
(Chain-of-Thought; CoT). The reasoning may enable us to check the process that
models use to perform tasks. However, this approach relies on the stated
reasoning faithfully reflecting the model's actual reasoning, which is not
always the case. To improve over the faithfulness of CoT reasoning, we have
models generate reasoning by decomposing questions into subquestions.
Decomposition-based methods achieve strong performance on question-answering
tasks, sometimes approaching that of CoT while improving the faithfulness of
the model's stated reasoning on several recently-proposed metrics. By forcing
the model to answer simpler subquestions in separate contexts, we greatly
increase the faithfulness of model-generated reasoning over CoT, while still
achieving some of the performance gains of CoT. Our results show it is possible
to improve the faithfulness of model-generated reasoning; continued
improvements may lead to reasoning that enables us to verify the correctness
and safety of LLM behavior.