Vraagdecompositie verbetert de betrouwbaarheid van door modellen gegenereerde redeneringen
Question Decomposition Improves the Faithfulness of Model-Generated Reasoning
July 17, 2023
Auteurs: Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson Denison, Danny Hernandez, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Sam McCandlish, Sheer El Showk, Tamera Lanham, Tim Maxwell, Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLMs) complexere taken uitvoeren, wordt het moeilijker om de correctheid en veiligheid van hun gedrag te verifiëren. Een benadering om dit probleem aan te pakken, is om LLMs aan te moedigen hun redenering te externaliseren, bijvoorbeeld door hen stapsgewijze redeneringen te laten genereren terwijl ze een vraag beantwoorden (Chain-of-Thought; CoT). Deze redenering kan ons in staat stellen het proces te controleren dat modellen gebruiken om taken uit te voeren. Deze benadering is echter afhankelijk van de veronderstelling dat de geuite redenering trouw weergeeft wat het model daadwerkelijk denkt, wat niet altijd het geval is. Om de trouwheid van CoT-redenering te verbeteren, laten we modellen redenering genereren door vragen op te splitsen in subvragen. Op decompositie gebaseerde methoden behalen sterke prestaties bij vraag-antwoordtaken, soms vergelijkbaar met CoT, terwijl ze de trouwheid van de geuite redenering van het model verbeteren volgens verschillende recent voorgestelde metrieken. Door het model te dwingen eenvoudigere subvragen in afzonderlijke contexten te beantwoorden, vergroten we de trouwheid van modelgegenereerde redenering aanzienlijk ten opzichte van CoT, terwijl we toch een deel van de prestatieverbeteringen van CoT behouden. Onze resultaten tonen aan dat het mogelijk is de trouwheid van modelgegenereerde redenering te verbeteren; verdere verbeteringen kunnen leiden tot redenering die ons in staat stelt de correctheid en veiligheid van LLM-gedrag te verifiëren.
English
As large language models (LLMs) perform more difficult tasks, it becomes
harder to verify the correctness and safety of their behavior. One approach to
help with this issue is to prompt LLMs to externalize their reasoning, e.g., by
having them generate step-by-step reasoning as they answer a question
(Chain-of-Thought; CoT). The reasoning may enable us to check the process that
models use to perform tasks. However, this approach relies on the stated
reasoning faithfully reflecting the model's actual reasoning, which is not
always the case. To improve over the faithfulness of CoT reasoning, we have
models generate reasoning by decomposing questions into subquestions.
Decomposition-based methods achieve strong performance on question-answering
tasks, sometimes approaching that of CoT while improving the faithfulness of
the model's stated reasoning on several recently-proposed metrics. By forcing
the model to answer simpler subquestions in separate contexts, we greatly
increase the faithfulness of model-generated reasoning over CoT, while still
achieving some of the performance gains of CoT. Our results show it is possible
to improve the faithfulness of model-generated reasoning; continued
improvements may lead to reasoning that enables us to verify the correctness
and safety of LLM behavior.