ChatPaper.aiChatPaper

Suche im Dunkeln: Schlussfolgern durch Testzeit-Instanz-Level-Policy-Gradient im latenten Raum

Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space

May 19, 2025
Autoren: Hengli Li, Chenxi Li, Tong Wu, Xuekai Zhu, Yuxuan Wang, Zhaoxin Yu, Eric Hanchen Jiang, Song-Chun Zhu, Zixia Jia, Ying Nian Wu, Zilong Zheng
cs.AI

Zusammenfassung

Das Schlussfolgern, ein zentraler Bestandteil der menschlichen Intelligenz, stellt nach wie vor eine erhebliche Herausforderung für Large Language Models (LLMs) auf dem Weg zur Allgemeinen Künstlichen Intelligenz (AGI) dar. Obwohl die Modellleistung durch das Skalierungsgesetz des Trainings verbessert wurde, bestehen weiterhin signifikante Herausforderungen, insbesondere in Bezug auf Trainingsalgorithmen, wie katastrophales Vergessen, und die begrenzte Verfügbarkeit von neuartigen Trainingsdaten. Als Alternative verbessert das Skalieren zur Testzeit die Schlussfolgerungsleistung, indem die Berechnung zur Testzeit erhöht wird, ohne die Parameter zu aktualisieren. Im Gegensatz zu früheren Methoden in diesem Paradigma, die sich auf den Token-Raum konzentrierten, schlagen wir vor, den latenten Raum für effektiveres Schlussfolgern und eine bessere Einhaltung des Skalierungsgesetzes zur Testzeit zu nutzen. Wir stellen LatentSeek vor, ein neuartiges Framework, das die Schlussfolgerungsfähigkeit von LLMs durch Test-Time Instance-level Adaptation (TTIA) im latenten Raum des Modells verbessert. Insbesondere nutzt LatentSeek Policy Gradient, um latente Repräsentationen iterativ zu aktualisieren, geleitet von selbstgenerierten Belohnungssignalen. LatentSeek wird auf einer Reihe von Schlussfolgerungs-Benchmarks, einschließlich GSM8K, MATH-500 und AIME2024, über mehrere LLM-Architekturen hinweg evaluiert. Die Ergebnisse zeigen, dass LatentSeek durchweg starke Baselines, wie Chain-of-Thought-Prompting und feinabstimmungsbasierte Methoden, übertrifft. Darüber hinaus zeigt unsere Analyse, dass LatentSeek äußerst effizient ist und sich typischerweise innerhalb weniger Iterationen für Probleme durchschnittlicher Komplexität konvergiert, während es auch von zusätzlichen Iterationen profitiert, wodurch das Potenzial des Skalierens zur Testzeit im latenten Raum hervorgehoben wird. Diese Erkenntnisse positionieren LatentSeek als eine leichtgewichtige, skalierbare und effektive Lösung zur Verbesserung der Schlussfolgerungsfähigkeiten von LLMs.
English
Reasoning ability, a core component of human intelligence, continues to pose a significant challenge for Large Language Models (LLMs) in the pursuit of AGI. Although model performance has improved under the training scaling law, significant challenges remain, particularly with respect to training algorithms, such as catastrophic forgetting, and the limited availability of novel training data. As an alternative, test-time scaling enhances reasoning performance by increasing test-time computation without parameter updating. Unlike prior methods in this paradigm focused on token space, we propose leveraging latent space for more effective reasoning and better adherence to the test-time scaling law. We introduce LatentSeek, a novel framework that enhances LLM reasoning through Test-Time Instance-level Adaptation (TTIA) within the model's latent space. Specifically, LatentSeek leverages policy gradient to iteratively update latent representations, guided by self-generated reward signals. LatentSeek is evaluated on a range of reasoning benchmarks, including GSM8K, MATH-500, and AIME2024, across multiple LLM architectures. Results show that LatentSeek consistently outperforms strong baselines, such as Chain-of-Thought prompting and fine-tuning-based methods. Furthermore, our analysis demonstrates that LatentSeek is highly efficient, typically converging within a few iterations for problems of average complexity, while also benefiting from additional iterations, thereby highlighting the potential of test-time scaling in the latent space. These findings position LatentSeek as a lightweight, scalable, and effective solution for enhancing the reasoning capabilities of LLMs.

Summary

AI-Generated Summary

PDF233May 20, 2025