φ-Decodering: Adaptieve Vooruitziende Steekproefname voor Gebalanceerde Inferentie-Tijd
Exploratie en Exploitatieφ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time
Exploration and Exploitation
Inferentie-tijd optimalisatie schaalt de berekening om weloverwogen redeneerstappen af te leiden voor effectieve prestaties. Hoewel eerder op zoek gebaseerde strategieën de kortzichtigheid van auto-regressieve generatie aanpakken, leidt de enorme zoekruimte tot overmatige exploratie en onvoldoende exploitatie. Om een efficiënt evenwicht te vinden om de optimale stap af te leiden, formuleren we de decodeerstrategie als vooruitziende steekproefname, waarbij gesimuleerde toekomstige stappen worden benut om een globaal optimale stapschatting te verkrijgen. Hierop voortbouwend stellen we een nieuwe decodeerstrategie voor, genaamd phi-Decoding. Om een nauwkeurige en expressieve schatting van de stapwaarde te bieden, benadert phi-Decoding twee verdelingen via vooruitziendheid en clustering. Door steekproeven te nemen uit de gezamenlijke verdeling kunnen de optimale stappen worden geselecteerd voor exploitatie. Om adaptieve berekeningsallocatie te ondersteunen, stellen we in-breedte en in-diepte snoeistrategieën voor, met een lichtgewicht oplossing om inferentie-efficiëntie te bereiken. Uitgebreide experimenten over zeven benchmarks tonen aan dat phi-Decoding sterke basislijnen overtreft in zowel prestaties als efficiëntie. Aanvullende analyse toont de generalisatie over verschillende LLM's en schaalbaarheid over een breed scala aan rekenbudgetten. De code zal worden vrijgegeven op https://github.com/xufangzhi/phi-Decoding, en het open-source PyPI-pakket komt binnenkort beschikbaar.