Vertrauensfunktionen: Nahezu verlustfreie Schwach-zu-Stark Generalisierung durch Lernen, wann dem schwachen Lehrer zu vertrauen ist.
Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher
May 31, 2026
Autoren: Arda Uzunoglu, Alvin Zhang, Daniel Khashabi
cs.AI
Zusammenfassung
Schwach-zu-Stark-Verallgemeinerung untersucht, wie ein starker Schüler mithilfe der Aufsicht eines schwächeren Lehrers verbessert werden kann, wenn zuverlässige Labels knapp sind. Wir betrachten dies primär als ein Problem der Datenauswahl, bei dem die zentrale Herausforderung darin besteht, zu identifizieren, welche schwachen Labels zuverlässig genug sind, um als Trainingssignal zu dienen. Um dies zu adressieren, führen wir Vertrauensfunktionen ein, die jedem schwachen Label einen skalaren Vertrauenswert zuweisen, und nutzen diese Werte, um die schwache Aufsicht zu filtern. In mehreren Domänen, darunter Weltwissen, quantitatives Denken und Strategiespiele, erzielt das Vertrauensfiltering Schüler, die mit der Grundwahrheitsüberwachung gleichziehen und sie teilweise übertreffen, was eine nahezu verlustfreie Schwach-zu-Stark-Verallgemeinerung ermöglicht. Darüber hinaus ermöglichen Vertrauensfunktionen eine iterative Schwach-zu-Stark-Kette, die Gewinne verstärkt, indem sie einen Schüler trainiert und ihn als nächsten Lehrer wiederverwendet, wodurch die Gewinne potenziert werden. Es gibt mehrere Mechanismen, denen die Vorteile von Vertrauensfunktionen zugeschrieben werden können.
English
Weak-to-strong generalization studies how to improve a strong student using supervision from a weaker teacher when reliable labels are scarce. We view this primarily as a data selection problem, where the key challenge is to identify which weak labels are reliable enough to serve as a training signal. To address this, we introduce trust functions that assign each weak label a scalar trust score and use these scores to filter weak supervision. Across several domains, including world knowledge, quantitative reasoning, and strategy games, trust filtering yields students that match and sometimes surpass ground-truth supervision, achieving near-lossless weak-to-strong generalization. Moreover, trust functions enable an iterative weak-to-strong chain that compounds gains by training a student and reusing it as the next teacher, amplifying the gains. There are several mechanisms to which advantage of trust functions can be attributed.