Il était une fois une entrée : raisonnement par synthèse de programmes par instance

papers.abstract

Les grands modèles de langage (LLM) excellent en inférence zero-shot mais continuent de rencontrer des difficultés avec les raisonnements complexes à multiples étapes. Les méthodes récentes qui augmentent les LLM avec des étapes de raisonnement intermédiaires telles que la Chaîne de Pensée (CoT) et le Programme de Pensée (PoT) améliorent les performances mais produisent souvent des solutions indésirables, particulièrement dans les domaines algorithmiques. Nous présentons la Synthèse de Programme par Instance (PIPS), une méthode qui génère et affine des programmes au niveau de l'instance en utilisant un retour structurel, sans dépendre de directives spécifiques à la tâche ou de cas de test explicites. Pour améliorer davantage les performances, PIPS intègre une métrique de confiance qui choisit dynamiquement entre l'inférence directe et la synthèse de programme sur une base par instance. Les expériences menées sur trois LLM de pointe et 30 benchmarks, incluant toutes les tâches de Big Bench Extra Hard (BBEH), des tâches de question-réponse visuelle, des tâches de raisonnement relationnel et des tâches de raisonnement mathématique, montrent que PIPS améliore la précision moyenne harmonique absolue jusqu'à 8,6 % et 9,4 % par rapport à PoT et CoT respectivement, et réduit les générations de programmes indésirables de 65,1 % sur les tâches algorithmiques par rapport à PoT avec Gemini-2.0-Flash.

English

Large language models (LLMs) excel at zero-shot inference but continue to struggle with complex, multi-step reasoning. Recent methods that augment LLMs with intermediate reasoning steps such as Chain of Thought (CoT) and Program of Thought (PoT) improve performance but often produce undesirable solutions, especially in algorithmic domains. We introduce Per-Instance Program Synthesis (PIPS), a method that generates and refines programs at the instance-level using structural feedback without relying on task-specific guidance or explicit test cases. To further improve performance, PIPS incorporates a confidence metric that dynamically chooses between direct inference and program synthesis on a per-instance basis. Experiments across three frontier LLMs and 30 benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question answering tasks, relational reasoning tasks, and mathematical reasoning tasks show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and 9.4% compared to PoT and CoT respectively, and reduces undesirable program generations by 65.1% on the algorithmic tasks compared to PoT with Gemini-2.0-Flash.

Il était une fois une entrée : raisonnement par synthèse de programmes par instance

Once Upon an Input: Reasoning via Per-Instance Program Synthesis

papers.abstract

Support