Modèles de Langage à Auto-Pilotage

papers.abstract

Bien que le raisonnement au moment du test permette aux modèles de langage de s'attaquer à des tâches complexes, la recherche ou la planification en langage naturel peut être lente, coûteuse et sujette à des erreurs. Cependant, même lorsque les modèles de langage (LMs) peinent à reproduire les étapes de raisonnement précises nécessaires pour résoudre un problème, ils excellent souvent à décrire sa structure abstraite—à la fois comment vérifier les solutions et comment les rechercher. Cet article présente DisCIPL, une méthode pour "auto-piloter" les LMs, où un modèle Planificateur génère un programme d'inférence spécifique à la tâche qui est exécuté par une population de modèles Suiveurs. Notre approche dote les LMs de la capacité à écrire des procédures de recherche récursives qui guident l'inférence des LMs, permettant ainsi de nouvelles formes de raisonnement vérifiable et efficace. Lorsqu'il est instancié avec un petit Suiveur (par exemple, Llama-3.2-1B), DisCIPL rivalise (et parfois surpasse) des modèles beaucoup plus grands, y compris GPT-4o et o1, sur des tâches de génération contrainte difficiles. En découplant la planification de l'exécution, notre travail ouvre un espace de conception pour des stratégies d'inférence Monte Carlo hautement parallélisées qui surpassent l'échantillonnage standard best-of-N, ne nécessitent aucun ajustement fin et peuvent être implémentées automatiquement par les LMs existants.

English

While test-time reasoning enables language models to tackle complex tasks, searching or planning in natural language can be slow, costly, and error-prone. But even when LMs struggle to emulate the precise reasoning steps needed to solve a problem, they often excel at describing its abstract structure--both how to verify solutions and how to search for them. This paper introduces DisCIPL, a method for "self-steering" LMs where a Planner model generates a task-specific inference program that is executed by a population of Follower models. Our approach equips LMs with the ability to write recursive search procedures that guide LM inference, enabling new forms of verifiable and efficient reasoning. When instantiated with a small Follower (e.g., Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models, including GPT-4o and o1, on challenging constrained generation tasks. In decoupling planning from execution, our work opens up a design space of highly-parallelized Monte Carlo inference strategies that outperform standard best-of-N sampling, require no finetuning, and can be implemented automatically by existing LMs.

Modèles de Langage à Auto-Pilotage

Self-Steering Language Models

papers.abstract

Support