Het vervangen van denken door het gebruik van tools maakt redeneren mogelijk in kleine taalmodellen.

Samenvatting

Recente ontwikkelingen hebben een nieuw machine learning-paradigma gevestigd dat gebaseerd is op het opschalen van rekenkracht tijdens zowel inferentie als training. In die lijn van onderzoek wordt een combinatie van Supervised Fine-Tuning (SFT) op synthetische demonstraties en Reinforcement Learning met Verifieerbare Beloningen (RLVR) gebruikt om Large Language Models te trainen om extra rekenkracht te besteden tijdens inferentie in de vorm van "gedachten" uitgedrukt in natuurlijke taal. In dit artikel stellen we voor om deze tokens in plaats daarvan te formatteren als een multi-turn interactietrace met een stateful tool. Bij elke beurt wordt de nieuwe staat van de tool toegevoegd aan de context van het model, dat de taak heeft om de tokens te genereren die nodig zijn om de tool te besturen via een aangepaste DSL. We evalueren deze aanpak op het probleem van het repareren van defecte Python-code en tonen aan dat deze beperkte opstelling een snellere bemonstering van ervaring en een dichter beloningssignaal mogelijk maakt, waardoor zelfs modellen met een grootte tot 3B parameters kunnen leren hoe ze extra rekenkracht op de taak kunnen besteden.

English

Recent advances have established a new machine learning paradigm based on scaling up compute at inference time as well as at training time. In that line of work, a combination of Supervised Fine-Tuning (SFT) on synthetic demonstrations and Reinforcement Learning with Verifiable Rewards (RLVR) is used for training Large Language Models to expend extra compute during inference in the form of "thoughts" expressed in natural language. In this paper, we propose to instead format these tokens as a multi-turn interaction trace with a stateful tool. At each turn, the new state of the tool is appended to the context of the model, whose job is to generate the tokens necessary to control the tool via a custom DSL. We benchmark this approach on the problem of repairing malfunctioning Python code, and show that this constrained setup allows for faster sampling of experience and a denser reward signal, allowing even models of size up to 3B parameters to learn how to proficiently expend additional compute on the task.

Het vervangen van denken door het gebruik van tools maakt redeneren mogelijk in kleine taalmodellen.

Replacing thinking with tool usage enables reasoning in small language models

Samenvatting

Support