PlaSma : Transformer les petits modèles de langage en meilleurs modèles de connaissances procédurales pour la planification (contrefactuelle)

Résumé

La planification procédurale, qui consiste à décomposer un objectif de haut niveau en une séquence d'étapes temporellement ordonnées, est une tâche importante mais complexe pour les machines. Elle implique l'intégration de connaissances de bon sens pour raisonner sur des situations contextualisées complexes, souvent contrefactuelles, par exemple "prendre un rendez-vous chez le médecin sans téléphone". Bien que les approches actuelles montrent des résultats encourageants en utilisant des modèles de langage de grande taille (LLMs), elles sont entravées par des inconvénients tels que des appels API coûteux et des problèmes de reproductibilité. Dans cet article, nous préconisons la planification en utilisant des modèles de langage plus petits. Nous présentons PlaSma, une nouvelle approche à double facette pour doter les petits modèles de langage de connaissances procédurales et de capacités de planification (contrefactuelles). Plus concrètement, nous développons une distillation symbolique de connaissances procédurales pour améliorer les connaissances implicites dans les petits modèles de langage et un algorithme d'inférence pour faciliter un raisonnement plus structuré et précis. En outre, nous introduisons une nouvelle tâche, la Planification Contrefactuelle, qui nécessite une révision d'un plan pour faire face à une situation contrefactuelle. Dans les contextes originaux et contrefactuels, nous montrons que des modèles d'ordres de grandeur plus petits (770M-11B paramètres) peuvent rivaliser et souvent surpasser les capacités de leurs modèles enseignants plus grands.

English

Procedural planning, which entails decomposing a high-level goal into a sequence of temporally ordered steps, is an important yet intricate task for machines. It involves integrating common-sense knowledge to reason about complex contextualized situations that are often counterfactual, e.g. "scheduling a doctor's appointment without a phone". While current approaches show encouraging results using large language models (LLMs), they are hindered by drawbacks such as costly API calls and reproducibility issues. In this paper, we advocate planning using smaller language models. We present PlaSma, a novel two-pronged approach to endow small language models with procedural knowledge and (counterfactual) planning capabilities. More concretely, we develop symbolic procedural knowledge distillation to enhance the implicit knowledge in small language models and an inference-time algorithm to facilitate more structured and accurate reasoning. In addition, we introduce a novel task, Counterfactual Planning, that requires a revision of a plan to cope with a counterfactual situation. In both the original and counterfactual setting, we show that orders-of-magnitude smaller models (770M-11B parameters) can compete and often surpass their larger teacher models' capabilities.

PlaSma : Transformer les petits modèles de langage en meilleurs modèles de connaissances procédurales pour la planification (contrefactuelle)

PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

Résumé

Support