Funções de Confiança: Generalização de Fraco para Forte Quase Sem Perdas ao Aprender Quando Confiar no Professor Fraco

Resumo

Estudos sobre generalização fraca-para-forte investigam como melhorar um aluno forte utilizando supervisão de um professor mais fraco quando rótulos confiáveis são escassos. Encaramos isso principalmente como um problema de seleção de dados, no qual o principal desafio é identificar quais rótulos fracos são suficientemente confiáveis para servir como sinal de treinamento. Para lidar com isso, introduzimos funções de confiança que atribuem a cada rótulo fraco uma pontuação escalar de confiança e utilizamos essas pontuações para filtrar a supervisão fraca. Em vários domínios, incluindo conhecimento geral, raciocínio quantitativo e jogos de estratégia, a filtragem por confiança produz alunos que igualam e, por vezes, superam a supervisão de referência, alcançando uma generalização fraca-para-forte quase sem perdas. Além disso, as funções de confiança possibilitam uma cadeia iterativa fraca-para-forte que potencia ganhos ao treinar um aluno e reutilizá-lo como o próximo professor, amplificando esses ganhos. Existem diversos mecanismos aos quais a vantagem das funções de confiança pode ser atribuída.

English

Weak-to-strong generalization studies how to improve a strong student using supervision from a weaker teacher when reliable labels are scarce. We view this primarily as a data selection problem, where the key challenge is to identify which weak labels are reliable enough to serve as a training signal. To address this, we introduce trust functions that assign each weak label a scalar trust score and use these scores to filter weak supervision. Across several domains, including world knowledge, quantitative reasoning, and strategy games, trust filtering yields students that match and sometimes surpass ground-truth supervision, achieving near-lossless weak-to-strong generalization. Moreover, trust functions enable an iterative weak-to-strong chain that compounds gains by training a student and reusing it as the next teacher, amplifying the gains. There are several mechanisms to which advantage of trust functions can be attributed.