PathFinder: Geleid Zoeken over Meerstaps Redeneerpaden

Samenvatting

Met de recente vooruitgang in grote taalmodellen is aangetoond dat methoden zoals chain-of-thought prompting, die redeneerketens opwekken, de resultaten op redeneertaken verbeteren. Taken die echter meerdere stappen van redenering vereisen, blijven een aanzienlijke uitdaging vormen voor state-of-the-art modellen. Geïnspireerd door het beam search-algoritme stellen we PathFinder voor, een op boomzoeken gebaseerde benadering voor het genereren van redeneerpaden. Het verbetert diverse vertakkingen en multi-hop redenering door de integratie van dynamische decodering, mogelijk gemaakt door variërende steekproefmethoden en parameters. Door gebruik te maken van beperkte redenering, integreert PathFinder nieuwe kwaliteitsbeperkingen, snoeien en exploratiemethoden om de efficiëntie en kwaliteit van de generatie te verbeteren. Bovendien omvat het scorings- en rangschikkingsfuncties om de selectie van kandidaten te verbeteren. Onze benadering overtreft concurrerende basislijnen op drie complexe rekenkundige en gezond-verstand-redeneertaken met gemiddeld 6%. Ons model generaliseert goed naar langere, onbekende redeneerketens, wat vergelijkbare complexiteiten weerspiegelt als beam search met grote vertakkingsfactoren.

English

With recent advancements in large language models, methods like chain-of-thought prompting to elicit reasoning chains have been shown to improve results on reasoning tasks. However, tasks that require multiple steps of reasoning still pose significant challenges to state-of-the-art models. Drawing inspiration from the beam search algorithm, we propose PathFinder, a tree-search-based reasoning path generation approach. It enhances diverse branching and multi-hop reasoning through the integration of dynamic decoding, enabled by varying sampling methods and parameters. Using constrained reasoning, PathFinder integrates novel quality constraints, pruning, and exploration methods to enhance the efficiency and the quality of generation. Moreover, it includes scoring and ranking features to improve candidate selection. Our approach outperforms competitive baselines on three complex arithmetic and commonsense reasoning tasks by 6% on average. Our model generalizes well to longer, unseen reasoning chains, reflecting similar complexities to beam search with large branching factors.

PathFinder: Geleid Zoeken over Meerstaps Redeneerpaden

PathFinder: Guided Search over Multi-Step Reasoning Paths

Samenvatting

Support