Vraagdecompositie verbetert de betrouwbaarheid van door modellen gegenereerde redeneringen

Samenvatting

Naarmate grote taalmodellen (LLMs) complexere taken uitvoeren, wordt het moeilijker om de correctheid en veiligheid van hun gedrag te verifiëren. Een benadering om dit probleem aan te pakken, is om LLMs aan te moedigen hun redenering te externaliseren, bijvoorbeeld door hen stapsgewijze redeneringen te laten genereren terwijl ze een vraag beantwoorden (Chain-of-Thought; CoT). Deze redenering kan ons in staat stellen het proces te controleren dat modellen gebruiken om taken uit te voeren. Deze benadering is echter afhankelijk van de veronderstelling dat de geuite redenering trouw weergeeft wat het model daadwerkelijk denkt, wat niet altijd het geval is. Om de trouwheid van CoT-redenering te verbeteren, laten we modellen redenering genereren door vragen op te splitsen in subvragen. Op decompositie gebaseerde methoden behalen sterke prestaties bij vraag-antwoordtaken, soms vergelijkbaar met CoT, terwijl ze de trouwheid van de geuite redenering van het model verbeteren volgens verschillende recent voorgestelde metrieken. Door het model te dwingen eenvoudigere subvragen in afzonderlijke contexten te beantwoorden, vergroten we de trouwheid van modelgegenereerde redenering aanzienlijk ten opzichte van CoT, terwijl we toch een deel van de prestatieverbeteringen van CoT behouden. Onze resultaten tonen aan dat het mogelijk is de trouwheid van modelgegenereerde redenering te verbeteren; verdere verbeteringen kunnen leiden tot redenering die ons in staat stelt de correctheid en veiligheid van LLM-gedrag te verifiëren.

English

As large language models (LLMs) perform more difficult tasks, it becomes harder to verify the correctness and safety of their behavior. One approach to help with this issue is to prompt LLMs to externalize their reasoning, e.g., by having them generate step-by-step reasoning as they answer a question (Chain-of-Thought; CoT). The reasoning may enable us to check the process that models use to perform tasks. However, this approach relies on the stated reasoning faithfully reflecting the model's actual reasoning, which is not always the case. To improve over the faithfulness of CoT reasoning, we have models generate reasoning by decomposing questions into subquestions. Decomposition-based methods achieve strong performance on question-answering tasks, sometimes approaching that of CoT while improving the faithfulness of the model's stated reasoning on several recently-proposed metrics. By forcing the model to answer simpler subquestions in separate contexts, we greatly increase the faithfulness of model-generated reasoning over CoT, while still achieving some of the performance gains of CoT. Our results show it is possible to improve the faithfulness of model-generated reasoning; continued improvements may lead to reasoning that enables us to verify the correctness and safety of LLM behavior.

Vraagdecompositie verbetert de betrouwbaarheid van door modellen gegenereerde redeneringen

Question Decomposition Improves the Faithfulness of Model-Generated Reasoning

Samenvatting

Support