Modelos de Linguagem de Autodireção
Self-Steering Language Models
April 9, 2025
Autores: Gabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas
cs.AI
Resumo
Embora o raciocínio em tempo de teste permita que modelos de linguagem enfrentem tarefas complexas, a busca ou planejamento em linguagem natural pode ser lento, custoso e propenso a erros. No entanto, mesmo quando os modelos de linguagem (LMs) têm dificuldade em emular os passos precisos de raciocínio necessários para resolver um problema, eles frequentemente se destacam em descrever sua estrutura abstrata—tanto como verificar soluções quanto como buscá-las. Este artigo apresenta o DisCIPL, um método para "autodirecionar" LMs, onde um modelo Planejador gera um programa de inferência específico para a tarefa que é executado por uma população de modelos Seguidores. Nossa abordagem capacita os LMs com a habilidade de escrever procedimentos de busca recursiva que guiam a inferência do LM, permitindo novas formas de raciocínio verificável e eficiente. Quando instanciado com um Seguidor pequeno (por exemplo, Llama-3.2-1B), o DisCIPL iguala (e às vezes supera) modelos muito maiores, incluindo GPT-4o e o1, em tarefas desafiadoras de geração com restrições. Ao desacoplar o planejamento da execução, nosso trabalho abre um espaço de design para estratégias de inferência de Monte Carlo altamente paralelizadas que superam a amostragem padrão best-of-N, não requerem ajuste fino e podem ser implementadas automaticamente por LMs existentes.
English
While test-time reasoning enables language models to tackle complex tasks,
searching or planning in natural language can be slow, costly, and error-prone.
But even when LMs struggle to emulate the precise reasoning steps needed to
solve a problem, they often excel at describing its abstract structure--both
how to verify solutions and how to search for them. This paper introduces
DisCIPL, a method for "self-steering" LMs where a Planner model generates a
task-specific inference program that is executed by a population of Follower
models. Our approach equips LMs with the ability to write recursive search
procedures that guide LM inference, enabling new forms of verifiable and
efficient reasoning. When instantiated with a small Follower (e.g.,
Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models,
including GPT-4o and o1, on challenging constrained generation tasks. In
decoupling planning from execution, our work opens up a design space of
highly-parallelized Monte Carlo inference strategies that outperform standard
best-of-N sampling, require no finetuning, and can be implemented automatically
by existing LMs.Summary
AI-Generated Summary