Busca na Escuridão: Raciocínio via Gradiente de Política em Nível de Instância Durante o Teste no Espaço Latente
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space
May 19, 2025
Autores: Hengli Li, Chenxi Li, Tong Wu, Xuekai Zhu, Yuxuan Wang, Zhaoxin Yu, Eric Hanchen Jiang, Song-Chun Zhu, Zixia Jia, Ying Nian Wu, Zilong Zheng
cs.AI
Resumo
A capacidade de raciocínio, um componente central da inteligência humana, continua a representar um desafio significativo para os Modelos de Linguagem de Grande Escala (LLMs) na busca pela Inteligência Artificial Geral (AGI). Embora o desempenho dos modelos tenha melhorado sob a lei de escalonamento de treinamento, desafios importantes permanecem, particularmente em relação aos algoritmos de treinamento, como o esquecimento catastrófico, e a disponibilidade limitada de dados de treinamento novos. Como alternativa, o escalonamento em tempo de teste melhora o desempenho de raciocínio ao aumentar a computação em tempo de teste sem atualização de parâmetros. Diferentemente de métodos anteriores nesse paradigma, que se concentravam no espaço de tokens, propomos aproveitar o espaço latente para um raciocínio mais eficaz e uma melhor adesão à lei de escalonamento em tempo de teste. Introduzimos o LatentSeek, uma nova estrutura que aprimora o raciocínio dos LLMs por meio da Adaptação em Nível de Instância em Tempo de Teste (TTIA) dentro do espaço latente do modelo. Especificamente, o LatentSeek utiliza gradiente de política para atualizar iterativamente as representações latentes, guiado por sinais de recompensa autogerados. O LatentSeek é avaliado em uma variedade de benchmarks de raciocínio, incluindo GSM8K, MATH-500 e AIME2024, em várias arquiteturas de LLMs. Os resultados mostram que o LatentSeek supera consistentemente baselines robustas, como o prompting de Cadeia de Pensamento e métodos baseados em ajuste fino. Além disso, nossa análise demonstra que o LatentSeek é altamente eficiente, geralmente convergindo em poucas iterações para problemas de complexidade média, ao mesmo tempo em que se beneficia de iterações adicionais, destacando assim o potencial do escalonamento em tempo de teste no espaço latente. Esses achados posicionam o LatentSeek como uma solução leve, escalável e eficaz para aprimorar as capacidades de raciocínio dos LLMs.
English
Reasoning ability, a core component of human intelligence, continues to pose
a significant challenge for Large Language Models (LLMs) in the pursuit of AGI.
Although model performance has improved under the training scaling law,
significant challenges remain, particularly with respect to training
algorithms, such as catastrophic forgetting, and the limited availability of
novel training data. As an alternative, test-time scaling enhances reasoning
performance by increasing test-time computation without parameter updating.
Unlike prior methods in this paradigm focused on token space, we propose
leveraging latent space for more effective reasoning and better adherence to
the test-time scaling law. We introduce LatentSeek, a novel framework that
enhances LLM reasoning through Test-Time Instance-level Adaptation (TTIA)
within the model's latent space. Specifically, LatentSeek leverages policy
gradient to iteratively update latent representations, guided by self-generated
reward signals. LatentSeek is evaluated on a range of reasoning benchmarks,
including GSM8K, MATH-500, and AIME2024, across multiple LLM architectures.
Results show that LatentSeek consistently outperforms strong baselines, such as
Chain-of-Thought prompting and fine-tuning-based methods. Furthermore, our
analysis demonstrates that LatentSeek is highly efficient, typically converging
within a few iterations for problems of average complexity, while also
benefiting from additional iterations, thereby highlighting the potential of
test-time scaling in the latent space. These findings position LatentSeek as a
lightweight, scalable, and effective solution for enhancing the reasoning
capabilities of LLMs.