φ-Decoding: Amostragem de Previsão Adaptativa para Equilíbrio entre Exploração e Exploração no Tempo de Inferênciaφ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time
Exploration and Exploitation
A otimização durante a inferência dimensiona a computação para derivar etapas de raciocínio deliberadas visando um desempenho eficaz. Embora estratégias anteriores baseadas em busca abordem a miopia da geração autorregressiva, o vasto espaço de busca resulta em exploração excessiva e exploração insuficiente. Para alcançar um equilíbrio eficiente e derivar a etapa ótima, estruturamos a estratégia de decodificação como amostragem com previsão, aproveitando etapas futuras simuladas para obter uma estimativa globalmente ótima da etapa. Com base nisso, propomos uma nova estratégia de decodificação, denominada phi-Decoding. Para fornecer uma estimativa precisa e expressiva do valor da etapa, o phi-Decoding aproxima duas distribuições por meio de previsão e agrupamento. Ao amostrar a partir da distribuição conjunta, as etapas ótimas podem ser selecionadas para exploração. Para suportar a alocação adaptativa de computação, propomos estratégias de poda em largura e em profundidade, oferecendo uma solução leve para alcançar eficiência na inferência. Experimentos extensivos em sete benchmarks mostram que o phi-Decoding supera as linhas de base fortes tanto em desempenho quanto em eficiência. Análises adicionais demonstram sua generalização em vários LLMs e escalabilidade em uma ampla gama de orçamentos computacionais. O código será liberado em https://github.com/xufangzhi/phi-Decoding, e o pacote PyPI de código aberto estará disponível em breve.