ChatPaper.aiChatPaper

Funciones de Confianza: Generalización cuasi sin pérdidas de débil a fuerte mediante el aprendizaje de cuándo confiar en el profesor débil

Trust Functions: Near-Lossless Weak-to-Strong Generalization by Learning When to Trust the Weak Teacher

May 31, 2026
Autores: Arda Uzunoglu, Alvin Zhang, Daniel Khashabi
cs.AI

Resumen

La generalización débil-a-fuerte estudia cómo mejorar un estudiante fuerte utilizando supervisión de un profesor más débil cuando las etiquetas confiables son escasas. Consideramos esto principalmente como un problema de selección de datos, donde el desafío clave es identificar qué etiquetas débiles son lo suficientemente confiables para servir como señal de entrenamiento. Para abordarlo, introducimos funciones de confianza que asignan a cada etiqueta débil una puntuación escalar de confianza y utilizamos estas puntuaciones para filtrar la supervisión débil. En varios dominios, incluyendo conocimiento del mundo, razonamiento cuantitativo y juegos de estrategia, el filtrado por confianza produce estudiantes que igualan y en ocasiones superan la supervisión de verdad fundamental, logrando una generalización débil-a-fuerte casi sin pérdida. Además, las funciones de confianza permiten una cadena iterativa débil-a-fuerte que acumula ganancias al entrenar un estudiante y reutilizarlo como el siguiente profesor, amplificando así dichas ganancias. Existen varios mecanismos a los que se puede atribuir la ventaja de las funciones de confianza.
English
Weak-to-strong generalization studies how to improve a strong student using supervision from a weaker teacher when reliable labels are scarce. We view this primarily as a data selection problem, where the key challenge is to identify which weak labels are reliable enough to serve as a training signal. To address this, we introduce trust functions that assign each weak label a scalar trust score and use these scores to filter weak supervision. Across several domains, including world knowledge, quantitative reasoning, and strategy games, trust filtering yields students that match and sometimes surpass ground-truth supervision, achieving near-lossless weak-to-strong generalization. Moreover, trust functions enable an iterative weak-to-strong chain that compounds gains by training a student and reusing it as the next teacher, amplifying the gains. There are several mechanisms to which advantage of trust functions can be attributed.