Fonctions de confiance : généralisation quasi sans perte de faible à fort en apprenant quand faire confiance à l'enseignant faible

Résumé

Les études sur la généralisation faible-à-forte examinent comment améliorer un étudiant fort à l'aide d'une supervision provenant d'un enseignant faible lorsque les étiquettes fiables sont rares. Nous considérons ce problème principalement comme un problème de sélection de données, dont le défi central est d'identifier les étiquettes faibles suffisamment fiables pour servir de signal d'apprentissage. Pour y remédier, nous introduisons des fonctions de confiance qui attribuent à chaque étiquette faible un score de confiance scalaire, et utilisons ces scores pour filtrer la supervision faible. Dans plusieurs domaines, notamment les connaissances générales, le raisonnement quantitatif et les jeux de stratégie, le filtrage par confiance produit des étudiants qui égalent, et parfois surpassent, la supervision vérité terrain, permettant une généralisation faible-à-forte quasi sans perte. De plus, les fonctions de confiance permettent une chaîne itérative faible-à-forte qui amplifie les gains en entraînant un étudiant et en le réutilisant comme enseignant suivant, ce qui renforce les améliorations. Plusieurs mécanismes peuvent expliquer l'avantage conféré par les fonctions de confiance.

English

Weak-to-strong generalization studies how to improve a strong student using supervision from a weaker teacher when reliable labels are scarce. We view this primarily as a data selection problem, where the key challenge is to identify which weak labels are reliable enough to serve as a training signal. To address this, we introduce trust functions that assign each weak label a scalar trust score and use these scores to filter weak supervision. Across several domains, including world knowledge, quantitative reasoning, and strategy games, trust filtering yields students that match and sometimes surpass ground-truth supervision, achieving near-lossless weak-to-strong generalization. Moreover, trust functions enable an iterative weak-to-strong chain that compounds gains by training a student and reusing it as the next teacher, amplifying the gains. There are several mechanisms to which advantage of trust functions can be attributed.