OPE: Superare la saturazione informativa nel pensiero parallelo tramite esplorazione guidata da schemi

Abstract

Il pensiero parallelo è emerso come un nuovo paradigma per i grandi modelli di ragionamento (LRM) nell'affrontare problemi complessi. I metodi recenti sfruttano l'Apprendimento per Rinforzo (RL) per potenziare il pensiero parallelo, con l'obiettivo di superare le limitazioni nelle risorse computazionali e nell'efficacia incontrate con la messa a punto supervisionata. Tuttavia, la maggior parte degli studi esistenti si concentra principalmente sull'ottimizzazione della fase di aggregazione, dedicando un'attenzione limitata alla fase di esplorazione dei percorsi. In questo articolo, analizziamo teoricamente l'ottimizzazione del pensiero parallelo nell'ambito dell'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR), e identifichiamo come il collo di bottiglia dell'informazione mutua tra i percorsi di esplorazione limiti fondamentalmente le prestazioni complessive. Per affrontare questo problema, proponiamo l'Esplorazione di Percorsi Guidata da Schemi (OPE), che partiziona esplicitamente lo spazio delle soluzioni generando diversi schemi di ragionamento prima del ragionamento parallelo sui percorsi, riducendo così la ridondanza informativa e migliorando la diversità delle informazioni catturate attraverso i percorsi di esplorazione. Implementiamo l'OPE con una strategia RL iterativa che ottimizza in modo indipendente la pianificazione degli schemi e il ragionamento guidato dagli schemi. Esperimenti estesi su molteplici benchmark matematici complessi dimostrano che l'OPE migliora efficacemente le prestazioni di ragionamento con diverse strategie di aggregazione, consentendo agli LRM di scoprire più affidabilmente soluzioni corrette.

English

Parallel thinking has emerged as a new paradigm for large reasoning models (LRMs) in tackling complex problems. Recent methods leverage Reinforcement Learning (RL) to enhance parallel thinking, aiming to address the limitations in computational resources and effectiveness encountered with supervised fine-tuning. However, most existing studies primarily focus on optimizing the aggregation phase, with limited attention to the path exploration stage. In this paper, we theoretically analyze the optimization of parallel thinking under the Reinforcement Learning with Verifiable Rewards (RLVR) setting, and identify that the mutual information bottleneck among exploration paths fundamentally restricts overall performance. To address this, we propose Outline-Guided Path Exploration (OPE), which explicitly partitions the solution space by generating diverse reasoning outlines prior to parallel path reasoning, thereby reducing information redundancy and improving the diversity of information captured across exploration paths. We implement OPE with an iterative RL strategy that optimizes outline planning and outline-guided reasoning independently. Extensive experiments across multiple challenging mathematical benchmarks demonstrate that OPE effectively improves reasoning performance in different aggregation strategies, enabling LRMs to more reliably discover correct solutions.

OPE: Superare la saturazione informativa nel pensiero parallelo tramite esplorazione guidata da schemi

OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration

Abstract

Support