ChatPaper.aiChatPaper

SoftCoT++: Escalado en Tiempo de Prueba con Razonamiento de Cadena de Pensamiento Suave

SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

May 16, 2025
Autores: Yige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao
cs.AI

Resumen

El Escalamiento en Tiempo de Prueba (TTS, por sus siglas en inglés) se refiere a enfoques que mejoran el rendimiento del razonamiento al asignar cómputo adicional durante la inferencia, sin alterar los parámetros del modelo. Mientras que los métodos existentes de TTS operan en un espacio de tokens discretos generando más pasos intermedios, estudios recientes en Coconut y SoftCoT han demostrado que pensar en el espacio latente continuo puede mejorar aún más el rendimiento del razonamiento. Tales pensamientos latentes codifican un pensamiento informativo sin la pérdida de información asociada con la generación autoregresiva de tokens, lo que ha generado un mayor interés en el razonamiento en espacios continuos. A diferencia de la decodificación discreta, donde el muestreo repetido permite explorar diversas rutas de razonamiento, las representaciones latentes en el espacio continuo están fijas para una entrada dada, lo que limita la exploración diversa, ya que todas las rutas decodificadas se originan a partir del mismo pensamiento latente. Para superar esta limitación, introducimos SoftCoT++ para extender SoftCoT al paradigma de Escalamiento en Tiempo de Prueba, permitiendo una exploración diversa de las rutas de pensamiento. Específicamente, perturbamos los pensamientos latentes mediante múltiples tokens iniciales especializados y aplicamos aprendizaje contrastivo para promover la diversidad entre las representaciones de pensamientos suaves. Los experimentos en cinco benchmarks de razonamiento y dos arquitecturas distintas de LLM demuestran que SoftCoT++ mejora significativamente a SoftCoT y también supera a SoftCoT con escalamiento de autoconsistencia. Además, muestra una fuerte compatibilidad con técnicas de escalamiento convencionales, como la autoconsistencia. El código fuente está disponible en https://github.com/xuyige/SoftCoT.
English
Test-Time Scaling (TTS) refers to approaches that improve reasoning performance by allocating extra computation during inference, without altering the model's parameters. While existing TTS methods operate in a discrete token space by generating more intermediate steps, recent studies in Coconut and SoftCoT have demonstrated that thinking in the continuous latent space can further enhance the reasoning performance. Such latent thoughts encode informative thinking without the information loss associated with autoregressive token generation, sparking increased interest in continuous-space reasoning. Unlike discrete decoding, where repeated sampling enables exploring diverse reasoning paths, latent representations in continuous space are fixed for a given input, which limits diverse exploration, as all decoded paths originate from the same latent thought. To overcome this limitation, we introduce SoftCoT++ to extend SoftCoT to the Test-Time Scaling paradigm by enabling diverse exploration of thinking paths. Specifically, we perturb latent thoughts via multiple specialized initial tokens and apply contrastive learning to promote diversity among soft thought representations. Experiments across five reasoning benchmarks and two distinct LLM architectures demonstrate that SoftCoT++ significantly boosts SoftCoT and also outperforms SoftCoT with self-consistency scaling. Moreover, it shows strong compatibility with conventional scaling techniques such as self-consistency. Source code is available at https://github.com/xuyige/SoftCoT.
PDF52May 20, 2025