Функции доверия: почти без потерь обобщение от слабого к сильному путем обучения тому, когда доверять слабому учителю

Аннотация

Обобщение от слабого к сильному изучает, как улучшить сильного ученика, используя контроль со стороны более слабого учителя в условиях дефицита надежных меток. Мы рассматриваем эту задачу прежде всего как проблему выбора данных, где ключевая трудность заключается в определении того, какие слабые метки достаточно надежны, чтобы служить обучающим сигналом. Для решения этой проблемы мы вводим функции доверия, которые присваивают каждой слабой метке скалярную оценку доверия и используют эти оценки для фильтрации слабого контроля. В нескольких областях, включая знание о мире, количественные рассуждения и стратегические игры, фильтрация на основе доверия дает учеников, которые соответствуют, а иногда и превосходят контроль по истинным меткам, достигая почти без потерь обобщения от слабого к сильному. Кроме того, функции доверия позволяют построить итеративную цепочку от слабого к сильному, которая накапливает выигрыш путем обучения ученика и повторного использования его в качестве следующего учителя, усиливая тем самым выигрыш. Существует несколько механизмов, которым можно приписать преимущество функций доверия.

English

Weak-to-strong generalization studies how to improve a strong student using supervision from a weaker teacher when reliable labels are scarce. We view this primarily as a data selection problem, where the key challenge is to identify which weak labels are reliable enough to serve as a training signal. To address this, we introduce trust functions that assign each weak label a scalar trust score and use these scores to filter weak supervision. Across several domains, including world knowledge, quantitative reasoning, and strategy games, trust filtering yields students that match and sometimes surpass ground-truth supervision, achieving near-lossless weak-to-strong generalization. Moreover, trust functions enable an iterative weak-to-strong chain that compounds gains by training a student and reusing it as the next teacher, amplifying the gains. There are several mechanisms to which advantage of trust functions can be attributed.