φ-Декодирование: Адаптивная стратегия выборки с предвидением для сбалансированного исследования и использования на этапе выводаφ-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time
Exploration and Exploitation
Оптимизация во время вывода масштабирует вычисления для получения осознанных шагов рассуждения, обеспечивая эффективную производительность. В то время как предыдущие стратегии, основанные на поиске, решают проблему близорукости авторегрессивной генерации, обширное пространство поиска приводит к избыточному исследованию и недостаточному использованию. Для достижения эффективного баланса и получения оптимального шага мы формулируем стратегию декодирования как выборку с предвидением, используя смоделированные будущие шаги для получения глобально оптимальной оценки шага. На основе этого мы предлагаем новую стратегию декодирования, названную phi-Decoding. Для обеспечения точной и выразительной оценки ценности шага phi-Decoding аппроксимирует два распределения через предвидение и кластеризацию. Выборка из совместного распределения позволяет выбирать оптимальные шаги для использования. Для поддержки адаптивного распределения вычислений мы предлагаем стратегии обрезки по ширине и глубине, представляя легковесное решение для достижения эффективности вывода. Многочисленные эксперименты на семи бенчмарках показывают, что phi-Decoding превосходит сильные базовые подходы как по производительности, так и по эффективности. Дополнительный анализ демонстрирует его обобщаемость для различных языковых моделей и масштабируемость в широком диапазоне вычислительных ресурсов. Код будет опубликован на https://github.com/xufangzhi/phi-Decoding, а открытый пакет PyPI появится в ближайшее время.