O Debate Auxilia na Generalização de Fraca para Forte
Debate Helps Weak-to-Strong Generalization
January 21, 2025
Autores: Hao Lang, Fei Huang, Yongbin Li
cs.AI
Resumo
Métodos comuns para alinhar modelos já capazes com o comportamento desejado dependem da capacidade dos humanos em fornecer supervisão. No entanto, modelos super-humanos futuros irão ultrapassar a capacidade dos humanos. Portanto, os humanos só serão capazes de supervisionar fracamente os modelos super-humanos. Essa deficiência esperada na avaliação humana enfraqueceria a segurança dos futuros sistemas de IA. A supervisão escalável e a generalização fraca a forte são duas abordagens complementares para lidar com esse problema. Neste artigo, tentamos combinar os pontos fortes dessas duas abordagens para melhorar ainda mais o alinhamento. Especificamente, investigamos maneiras de melhorar a supervisão humana com um modelo pré-treinado forte e então supervisionar o modelo forte com uma supervisão humana fraca aprimorada. Para fazer progressos empíricos iterativos, consideramos uma analogia: podemos usar um modelo forte para melhorar a supervisão de um modelo fraco e então usá-lo para supervisionar o modelo forte? Testamos empiricamente isso refinando um pequeno modelo fraco em rótulos de verdade absoluta com a ajuda adicional de um grande modelo forte e, em seguida, refinando o modelo forte em rótulos gerados pelo modelo fraco. Descobrimos que o debate pode auxiliar um modelo fraco a extrair informações confiáveis de um modelo forte não confiável, o que fornece alavancagem como contexto em amostras durante o treinamento de um modelo fraco. Também mostramos que um conjunto de modelos fracos ajuda a explorar argumentos longos gerados por debatedores de modelos fortes e obter uma estimativa de supervisão mais robusta. Experimentos extensivos nos benchmarks de NLP fraco a forte da OpenAI mostram que a abordagem combinada leva a um melhor alinhamento, o que indica que o debate tem o potencial de ajudar na generalização fraca a forte.
English
Common methods for aligning already-capable models with desired behavior rely
on the ability of humans to provide supervision. However, future superhuman
models will surpass the capability of humans. Therefore, humans will only be
able to weakly supervise superhuman models. This expected deficiency of human
evaluation would weaken the safety of future AI systems. Scalable oversight and
weak-to-strong generalization are two complementary approaches to tackle this
issue. In this paper, we attempt to combine the strengths of these two
approaches to further improve alignment. Specifically, we investigate ways of
improving human supervision with a strong pretrained model and then supervise
the strong model with enhanced weak human supervision. To make iterative
empirical progress, we consider an analogy: can we use a strong model to
improve weak model supervision and then use it to supervise the strong model?
We empirically test it by finetuning a small weak model on ground truth labels
with the additional help from a large strong model, and then finetuning the
strong model on labels generated by the weak model. We find that debate can
assist a weak model in extracting trustworthy information from an untrustworthy
strong model, which provides leverage as context on samples when training a
weak model. We also show that an ensemble of weak models helps exploit long
arguments generated by strong model debaters and obtain a more robust
supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP
benchmarks show that the combination approach leads to better alignment, which
indicates that debate has the potential to help weak-to-strong generalization.Summary
AI-Generated Summary