Vertrouwensfuncties: Bijna-verliesloze zwak-naar-sterk generalisatie door te leren wanneer de zwakke leraar te vertrouwen

Samenvatting

Zwak-naar-sterk generalisatie bestudeert hoe een sterke student verbeterd kan worden met behulp van supervisie van een zwakkere leraar wanneer betrouwbare labels schaars zijn. Wij beschouwen dit primair als een dataselectieprobleem, waarbij de grootste uitdaging is om te bepalen welke zwakke labels betrouwbaar genoeg zijn om als trainingssignaal te dienen. Hiervoor introduceren wij vertrouwensfuncties die aan elk zwak label een scalaire vertrouwensscore toekennen, waarmee we zwakke supervisie filteren. In verschillende domeinen, waaronder wereldkennis, kwantitatief redeneren en strategische spellen, leidt vertrouwensfiltering tot studenten die gelijkwaardig presteren aan en soms beter zijn dan supervisie op basis van grondwaarheid, wat resulteert in nagenoeg verliesvrije zwak-naar-sterk generalisatie. Bovendien maken vertrouwensfuncties een iteratieve zwak-naar-sterk keten mogelijk die de winst versterkt door een student te trainen en deze opnieuw als volgende leraar te gebruiken, waardoor de behaalde voordelen worden vergroot. Er zijn verschillende mechanismen waaraan het voordeel van vertrouwensfuncties kan worden toegeschreven.

English

Weak-to-strong generalization studies how to improve a strong student using supervision from a weaker teacher when reliable labels are scarce. We view this primarily as a data selection problem, where the key challenge is to identify which weak labels are reliable enough to serve as a training signal. To address this, we introduce trust functions that assign each weak label a scalar trust score and use these scores to filter weak supervision. Across several domains, including world knowledge, quantitative reasoning, and strategy games, trust filtering yields students that match and sometimes surpass ground-truth supervision, achieving near-lossless weak-to-strong generalization. Moreover, trust functions enable an iterative weak-to-strong chain that compounds gains by training a student and reusing it as the next teacher, amplifying the gains. There are several mechanisms to which advantage of trust functions can be attributed.