SoftCoT++: Масштабирование во время тестирования с использованием мягкого цепочечного рассуждения
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning
May 16, 2025
Авторы: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao
cs.AI
Аннотация
Масштабирование во время тестирования (Test-Time Scaling, TTS) относится к подходам, которые улучшают производительность рассуждений за счет выделения дополнительных вычислительных ресурсов на этапе вывода, не изменяя параметры модели. В то время как существующие методы TTS работают в дискретном пространстве токенов, генерируя больше промежуточных шагов, недавние исследования в Coconut и SoftCoT показали, что рассуждения в непрерывном латентном пространстве могут дополнительно повысить производительность. Такие латентные мысли кодируют информативное мышление без потерь информации, связанных с авторегрессивной генерацией токенов, что вызывает растущий интерес к рассуждениям в непрерывном пространстве. В отличие от дискретного декодирования, где повторная выборка позволяет исследовать разнообразные пути рассуждений, латентные представления в непрерывном пространстве фиксированы для данного входа, что ограничивает разнообразие исследований, так как все декодированные пути исходят из одной и той же латентной мысли. Чтобы преодолеть это ограничение, мы представляем SoftCoT++, который расширяет SoftCoT до парадигмы масштабирования во время тестирования, позволяя исследовать разнообразные пути мышления. В частности, мы возмущаем латентные мысли с помощью нескольких специализированных начальных токенов и применяем контрастное обучение для повышения разнообразия среди мягких представлений мыслей. Эксперименты на пяти тестах рассуждений и двух различных архитектурах больших языковых моделей (LLM) демонстрируют, что SoftCoT++ значительно улучшает SoftCoT и также превосходит SoftCoT с масштабированием самосогласованности. Более того, он показывает сильную совместимость с традиционными методами масштабирования, такими как самосогласованность. Исходный код доступен по адресу https://github.com/xuyige/SoftCoT.
English
Test-Time Scaling (TTS) refers to approaches that improve reasoning
performance by allocating extra computation during inference, without altering
the model's parameters. While existing TTS methods operate in a discrete token
space by generating more intermediate steps, recent studies in Coconut and
SoftCoT have demonstrated that thinking in the continuous latent space can
further enhance the reasoning performance. Such latent thoughts encode
informative thinking without the information loss associated with
autoregressive token generation, sparking increased interest in
continuous-space reasoning. Unlike discrete decoding, where repeated sampling
enables exploring diverse reasoning paths, latent representations in continuous
space are fixed for a given input, which limits diverse exploration, as all
decoded paths originate from the same latent thought. To overcome this
limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling
paradigm by enabling diverse exploration of thinking paths. Specifically, we
perturb latent thoughts via multiple specialized initial tokens and apply
contrastive learning to promote diversity among soft thought representations.
Experiments across five reasoning benchmarks and two distinct LLM architectures
demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms
SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility
with conventional scaling techniques such as self-consistency. Source code is
available at https://github.com/xuyige/SoftCoT.Summary
AI-Generated Summary