Modelos de Linguagem de Autodireção

Resumo

Embora o raciocínio em tempo de teste permita que modelos de linguagem enfrentem tarefas complexas, a busca ou planejamento em linguagem natural pode ser lento, custoso e propenso a erros. No entanto, mesmo quando os modelos de linguagem (LMs) têm dificuldade em emular os passos precisos de raciocínio necessários para resolver um problema, eles frequentemente se destacam em descrever sua estrutura abstrata—tanto como verificar soluções quanto como buscá-las. Este artigo apresenta o DisCIPL, um método para "autodirecionar" LMs, onde um modelo Planejador gera um programa de inferência específico para a tarefa que é executado por uma população de modelos Seguidores. Nossa abordagem capacita os LMs com a habilidade de escrever procedimentos de busca recursiva que guiam a inferência do LM, permitindo novas formas de raciocínio verificável e eficiente. Quando instanciado com um Seguidor pequeno (por exemplo, Llama-3.2-1B), o DisCIPL iguala (e às vezes supera) modelos muito maiores, incluindo GPT-4o e o1, em tarefas desafiadoras de geração com restrições. Ao desacoplar o planejamento da execução, nosso trabalho abre um espaço de design para estratégias de inferência de Monte Carlo altamente paralelizadas que superam a amostragem padrão best-of-N, não requerem ajuste fino e podem ser implementadas automaticamente por LMs existentes.

English

While test-time reasoning enables language models to tackle complex tasks, searching or planning in natural language can be slow, costly, and error-prone. But even when LMs struggle to emulate the precise reasoning steps needed to solve a problem, they often excel at describing its abstract structure--both how to verify solutions and how to search for them. This paper introduces DisCIPL, a method for "self-steering" LMs where a Planner model generates a task-specific inference program that is executed by a population of Follower models. Our approach equips LMs with the ability to write recursive search procedures that guide LM inference, enabling new forms of verifiable and efficient reasoning. When instantiated with a small Follower (e.g., Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models, including GPT-4o and o1, on challenging constrained generation tasks. In decoupling planning from execution, our work opens up a design space of highly-parallelized Monte Carlo inference strategies that outperform standard best-of-N sampling, require no finetuning, and can be implemented automatically by existing LMs.

Modelos de Linguagem de Autodireção

Self-Steering Language Models

Resumo

Summary

Support

Support