PlaSma: Het verbeteren van kleine taalmodellen tot betere procedurele kennismodellen voor (contrafactueel) plannen

Samenvatting

Procedureel plannen, dat het opsplitsen van een hooggelegen doel in een reeks tijdelijk geordende stappen inhoudt, is een belangrijke maar complexe taak voor machines. Het vereist het integreren van gezond verstand om te redeneren over complexe, gecontextualiseerde situaties die vaak contrafeitelijk zijn, zoals "een doktersafspraak inplannen zonder telefoon". Hoewel huidige benaderingen bemoedigende resultaten laten zien met behulp van grote taalmmodellen (LLM's), worden ze gehinderd door nadelen zoals kostbare API-aanroepen en reproduceerbaarheidsproblemen. In dit artikel pleiten we voor plannen met kleinere taalmmodellen. We presenteren PlaSma, een nieuwe tweeledige aanpak om kleine taalmmodellen uit te rusten met procedurele kennis en (contrafeitelijke) planningscapaciteiten. Concreter ontwikkelen we symbolische procedurele kennisdistillatie om de impliciete kennis in kleine taalmmodellen te versterken en een inferentie-tijd algoritme om gestructureerder en nauwkeuriger redeneren te vergemakkelijken. Daarnaast introduceren we een nieuwe taak, Contrafeitelijk Plannen, die een herziening van een plan vereist om een contrafeitelijke situatie het hoofd te bieden. In zowel de oorspronkelijke als de contrafeitelijke setting laten we zien dat modellen die ordes van grootte kleiner zijn (770M-11B parameters) kunnen concurreren en vaak de capaciteiten van hun grotere leraarmodellen overtreffen.

English

Procedural planning, which entails decomposing a high-level goal into a sequence of temporally ordered steps, is an important yet intricate task for machines. It involves integrating common-sense knowledge to reason about complex contextualized situations that are often counterfactual, e.g. "scheduling a doctor's appointment without a phone". While current approaches show encouraging results using large language models (LLMs), they are hindered by drawbacks such as costly API calls and reproducibility issues. In this paper, we advocate planning using smaller language models. We present PlaSma, a novel two-pronged approach to endow small language models with procedural knowledge and (counterfactual) planning capabilities. More concretely, we develop symbolic procedural knowledge distillation to enhance the implicit knowledge in small language models and an inference-time algorithm to facilitate more structured and accurate reasoning. In addition, we introduce a novel task, Counterfactual Planning, that requires a revision of a plan to cope with a counterfactual situation. In both the original and counterfactual setting, we show that orders-of-magnitude smaller models (770M-11B parameters) can compete and often surpass their larger teacher models' capabilities.

PlaSma: Het verbeteren van kleine taalmodellen tot betere procedurele kennismodellen voor (contrafactueel) plannen

PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

Samenvatting

Support