OVD: On-policy Verbale Distillatie

Samenvatting

Kennisdistillatie biedt een veelbelovende weg om redeneervaardigheden over te dragen van grote leraar-modellen naar efficiënte student-modellen. Echter, bestaande *on-policy* distillatiemethoden op tokenniveau vereisen een token-level alignering tussen de student- en leraar-modellen. Dit beperkt het verkenningsvermogen van het student-model, verhindert het effectieve gebruik van feedback uit de interactieve omgeving en leidt tot ernstige geheugenknelpunten bij *reinforcement learning*. Wij introduceren *On-policy Verbal Distillation* (OVD), een geheugenefficiënt raamwerk dat kansverdeling op tokenniveau vervangt door trajectovereenkomst met behulp van discrete verbale scores (0–9) van leraar-modellen. OVD vermindert de geheugenconsumptie aanzienlijk, maakt *on-policy* distillatie mogelijk van leraar-modellen met verbale feedback en vermijdt token-level alignering, waardoor het student-model vrij de uitvoerruimte kan verkennen. Uitgebreide experimenten met *Web question answering* en wiskundige redeneertaken tonen aan dat OVD bestaande methoden aanzienlijk overtreft, met een verbetering tot +12,9% absoluut in gemiddelde EM op Web Q&A-taken en een winst tot +25,7% op wiskundige benchmarks (wanneer getraind met slechts één willekeurig voorbeeld), terwijl het ook superieure trainings efficiëntie vertoont. Onze projectpagina is beschikbaar op https://OVD.github.io.

English

Knowledge distillation offers a promising path to transfer reasoning capabilities from large teacher models to efficient student models; however, existing token-level on-policy distillation methods require token-level alignment between the student and teacher models, which restricts the student model's exploration ability, prevent effective use of interactive environment feedback, and suffer from severe memory bottlenecks in reinforcement learning. We introduce On-policy Verbal Distillation (OVD), a memory-efficient framework that replaces token-level probability matching with trajectory matching using discrete verbal scores (0--9) from teacher models. OVD dramatically reduces memory consumption while enabling on-policy distillation from teacher models with verbal feedback, and avoids token-level alignment, allowing the student model to freely explore the output space. Extensive experiments on Web question answering and mathematical reasoning tasks show that OVD substantially outperforms existing methods, delivering up to +12.9% absolute improvement in average EM on Web Q&A tasks and a up to +25.7% gain on math benchmarks (when trained with only one random samples), while also exhibiting superior training efficiency. Our project page is available at https://OVD.github.io

OVD: On-policy Verbale Distillatie

OVD: On-policy Verbal Distillation

Samenvatting

Support