Cercare nel Buio: Ragionamento tramite Gradiente della Politica a Livello di Istanza durante il Test nello Spazio Latente
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space
May 19, 2025
Autori: Hengli Li, Chenxi Li, Tong Wu, Xuekai Zhu, Yuxuan Wang, Zhaoxin Yu, Eric Hanchen Jiang, Song-Chun Zhu, Zixia Jia, Ying Nian Wu, Zilong Zheng
cs.AI
Abstract
La capacità di ragionamento, componente fondamentale dell'intelligenza umana, continua a rappresentare una sfida significativa per i Large Language Models (LLM) nel perseguimento dell'AGI. Sebbene le prestazioni dei modelli siano migliorate in base alla legge di scala dell'addestramento, rimangono sfide importanti, in particolare per quanto riguarda gli algoritmi di training, come l'oblio catastrofico, e la limitata disponibilità di nuovi dati di addestramento. Come alternativa, il test-time scaling migliora le prestazioni di ragionamento aumentando il calcolo durante il test senza aggiornare i parametri. A differenza dei metodi precedenti in questo paradigma, focalizzati sullo spazio dei token, proponiamo di sfruttare lo spazio latente per un ragionamento più efficace e una migliore aderenza alla legge di scala del test-time. Introduciamo LatentSeek, un nuovo framework che migliora il ragionamento degli LLM attraverso l'Adattamento a Livello di Istanza durante il Test (TTIA) all'interno dello spazio latente del modello. Nello specifico, LatentSeek utilizza il gradiente della politica per aggiornare iterativamente le rappresentazioni latenti, guidato da segnali di ricompensa auto-generati. LatentSeek è valutato su una serie di benchmark di ragionamento, tra cui GSM8K, MATH-500 e AIME2024, su diverse architetture di LLM. I risultati mostrano che LatentSeek supera costantemente baseline robuste, come il prompting a Catena di Pensiero e i metodi basati su fine-tuning. Inoltre, la nostra analisi dimostra che LatentSeek è altamente efficiente, convergendo tipicamente in poche iterazioni per problemi di complessità media, pur beneficiando di iterazioni aggiuntive, evidenziando così il potenziale del test-time scaling nello spazio latente. Questi risultati posizionano LatentSeek come una soluzione leggera, scalabile ed efficace per migliorare le capacità di ragionamento degli LLM.
English
Reasoning ability, a core component of human intelligence, continues to pose
a significant challenge for Large Language Models (LLMs) in the pursuit of AGI.
Although model performance has improved under the training scaling law,
significant challenges remain, particularly with respect to training
algorithms, such as catastrophic forgetting, and the limited availability of
novel training data. As an alternative, test-time scaling enhances reasoning
performance by increasing test-time computation without parameter updating.
Unlike prior methods in this paradigm focused on token space, we propose
leveraging latent space for more effective reasoning and better adherence to
the test-time scaling law. We introduce LatentSeek, a novel framework that
enhances LLM reasoning through Test-Time Instance-level Adaptation (TTIA)
within the model's latent space. Specifically, LatentSeek leverages policy
gradient to iteratively update latent representations, guided by self-generated
reward signals. LatentSeek is evaluated on a range of reasoning benchmarks,
including GSM8K, MATH-500, and AIME2024, across multiple LLM architectures.
Results show that LatentSeek consistently outperforms strong baselines, such as
Chain-of-Thought prompting and fine-tuning-based methods. Furthermore, our
analysis demonstrates that LatentSeek is highly efficient, typically converging
within a few iterations for problems of average complexity, while also
benefiting from additional iterations, thereby highlighting the potential of
test-time scaling in the latent space. These findings position LatentSeek as a
lightweight, scalable, and effective solution for enhancing the reasoning
capabilities of LLMs.