φ解碼:適應性前瞻取樣實現推理時期的平衡探索與利用φ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time
Exploration and Exploitation
推理時的最佳化透過擴展計算來推導出深思熟慮的推理步驟,以實現高效能。雖然先前的基於搜索的策略解決了自回歸生成的短視問題,但龐大的搜索空間導致過度探索和不足的利用。為了在推導最佳步驟時達到高效的平衡,我們將解碼策略框架化為前瞻採樣,利用模擬的未來步驟來獲得全局最優的步驟估計。基於此,我們提出了一種名為phi-Decoding的新穎解碼策略。為了提供精確且具表現力的步驟價值估計,phi-Decoding透過前瞻和聚類來近似兩個分佈。從聯合分佈中採樣,可以選擇最佳步驟進行利用。為了支持自適應的計算分配,我們提出了寬度和深度的剪枝策略,提供了一種輕量級解決方案以實現推理效率。在七個基準測試上的廣泛實驗表明,phi-Decoding在效能和效率上均優於強基線。額外的分析展示了其在各種大型語言模型上的泛化能力以及在廣泛計算預算範圍內的可擴展性。程式碼將發佈於https://github.com/xufangzhi/phi-Decoding,開源的PyPI套件即將推出。