Het vervangen van denken door het gebruik van tools maakt redeneren mogelijk in kleine taalmodellen.
Replacing thinking with tool usage enables reasoning in small language models
July 7, 2025
Auteurs: Corrado Rainone, Tim Bakker, Roland Memisevic
cs.AI
Samenvatting
Recente ontwikkelingen hebben een nieuw machine learning-paradigma gevestigd dat gebaseerd is op het opschalen van rekenkracht tijdens zowel inferentie als training. In die lijn van onderzoek wordt een combinatie van Supervised Fine-Tuning (SFT) op synthetische demonstraties en Reinforcement Learning met Verifieerbare Beloningen (RLVR) gebruikt om Large Language Models te trainen om extra rekenkracht te besteden tijdens inferentie in de vorm van "gedachten" uitgedrukt in natuurlijke taal. In dit artikel stellen we voor om deze tokens in plaats daarvan te formatteren als een multi-turn interactietrace met een stateful tool. Bij elke beurt wordt de nieuwe staat van de tool toegevoegd aan de context van het model, dat de taak heeft om de tokens te genereren die nodig zijn om de tool te besturen via een aangepaste DSL. We evalueren deze aanpak op het probleem van het repareren van defecte Python-code en tonen aan dat deze beperkte opstelling een snellere bemonstering van ervaring en een dichter beloningssignaal mogelijk maakt, waardoor zelfs modellen met een grootte tot 3B parameters kunnen leren hoe ze extra rekenkracht op de taak kunnen besteden.
English
Recent advances have established a new machine learning paradigm based on
scaling up compute at inference time as well as at training time. In that line
of work, a combination of Supervised Fine-Tuning (SFT) on synthetic
demonstrations and Reinforcement Learning with Verifiable Rewards (RLVR) is
used for training Large Language Models to expend extra compute during
inference in the form of "thoughts" expressed in natural language. In this
paper, we propose to instead format these tokens as a multi-turn interaction
trace with a stateful tool. At each turn, the new state of the tool is appended
to the context of the model, whose job is to generate the tokens necessary to
control the tool via a custom DSL. We benchmark this approach on the problem of
repairing malfunctioning Python code, and show that this constrained setup
allows for faster sampling of experience and a denser reward signal, allowing
even models of size up to 3B parameters to learn how to proficiently expend
additional compute on the task.