ChatPaper.aiChatPaper

Zoeken in het Donker: Redeneren via Test-Tijd Instantie-Niveau Beleidsgradiënt in Latente Ruimte

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space

May 19, 2025
Auteurs: Hengli Li, Chenxi Li, Tong Wu, Xuekai Zhu, Yuxuan Wang, Zhaoxin Yu, Eric Hanchen Jiang, Song-Chun Zhu, Zixia Jia, Ying Nian Wu, Zilong Zheng
cs.AI

Samenvatting

Redeneervermogen, een kerncomponent van menselijke intelligentie, blijft een aanzienlijke uitdaging vormen voor Large Language Models (LLMs) in de zoektocht naar AGI. Hoewel de modelprestaties zijn verbeterd onder de schaalwet van training, blijven er aanzienlijke uitdagingen bestaan, met name op het gebied van trainingsalgoritmen, zoals catastrofaal vergeten, en de beperkte beschikbaarheid van nieuwe trainingsdata. Als alternatief verbetert test-time scaling het redeneervermogen door de test-time berekening te vergroten zonder parameterupdates. In tegenstelling tot eerdere methoden in dit paradigma die zich richtten op tokenruimte, stellen wij voor om latent space te benutten voor effectiever redeneren en een betere naleving van de test-time schaalwet. Wij introduceren LatentSeek, een nieuw framework dat het redeneervermogen van LLMs verbetert door Test-Time Instance-level Adaptation (TTIA) binnen de latent space van het model. Specifiek maakt LatentSeek gebruik van policy gradient om latent representaties iteratief bij te werken, geleid door zelf gegenereerde beloningssignalen. LatentSeek wordt geëvalueerd op een reeks redeneerbenchmarks, waaronder GSM8K, MATH-500 en AIME2024, over meerdere LLM-architecturen. De resultaten tonen aan dat LatentSeek consistent sterke baselines overtreft, zoals Chain-of-Thought prompting en fine-tuning-gebaseerde methoden. Bovendien toont onze analyse aan dat LatentSeek zeer efficiënt is, doorgaans convergerend binnen enkele iteraties voor problemen van gemiddelde complexiteit, terwijl het ook profiteert van extra iteraties, wat het potentieel van test-time scaling in de latent space benadrukt. Deze bevindingen positioneren LatentSeek als een lichtgewicht, schaalbaar en effectieve oplossing voor het verbeteren van de redeneercapaciteiten van LLMs.
English
Reasoning ability, a core component of human intelligence, continues to pose a significant challenge for Large Language Models (LLMs) in the pursuit of AGI. Although model performance has improved under the training scaling law, significant challenges remain, particularly with respect to training algorithms, such as catastrophic forgetting, and the limited availability of novel training data. As an alternative, test-time scaling enhances reasoning performance by increasing test-time computation without parameter updating. Unlike prior methods in this paradigm focused on token space, we propose leveraging latent space for more effective reasoning and better adherence to the test-time scaling law. We introduce LatentSeek, a novel framework that enhances LLM reasoning through Test-Time Instance-level Adaptation (TTIA) within the model's latent space. Specifically, LatentSeek leverages policy gradient to iteratively update latent representations, guided by self-generated reward signals. LatentSeek is evaluated on a range of reasoning benchmarks, including GSM8K, MATH-500, and AIME2024, across multiple LLM architectures. Results show that LatentSeek consistently outperforms strong baselines, such as Chain-of-Thought prompting and fine-tuning-based methods. Furthermore, our analysis demonstrates that LatentSeek is highly efficient, typically converging within a few iterations for problems of average complexity, while also benefiting from additional iterations, thereby highlighting the potential of test-time scaling in the latent space. These findings position LatentSeek as a lightweight, scalable, and effective solution for enhancing the reasoning capabilities of LLMs.

Summary

AI-Generated Summary

PDF254May 20, 2025