El debate ayuda a la generalización de lo débil a lo fuerte.
Debate Helps Weak-to-Strong Generalization
January 21, 2025
Autores: Hao Lang, Fei Huang, Yongbin Li
cs.AI
Resumen
Los métodos comunes para alinear modelos ya capaces con el comportamiento deseado dependen de la capacidad de los humanos para proporcionar supervisión. Sin embargo, los futuros modelos superhumanos superarán la capacidad de los humanos. Por lo tanto, los humanos solo podrán supervisar débilmente a los modelos superhumanos. Esta deficiencia esperada en la evaluación humana debilitaría la seguridad de los futuros sistemas de IA. La supervisión escalable y la generalización débil a fuerte son dos enfoques complementarios para abordar este problema. En este documento, intentamos combinar las fortalezas de estos dos enfoques para mejorar aún más la alineación. Específicamente, investigamos formas de mejorar la supervisión humana con un modelo preentrenado sólido y luego supervisamos el modelo sólido con una supervisión humana débil mejorada. Para lograr un progreso empírico iterativo, consideramos una analogía: ¿podemos utilizar un modelo sólido para mejorar la supervisión de un modelo débil y luego usarlo para supervisar el modelo sólido? Lo probamos empíricamente ajustando finamente un pequeño modelo débil en etiquetas de verdad con la ayuda adicional de un gran modelo sólido, y luego ajustando finamente el modelo sólido en etiquetas generadas por el modelo débil. Descubrimos que el debate puede ayudar a un modelo débil a extraer información confiable de un modelo sólido no confiable, lo que proporciona ventaja como contexto en muestras al entrenar un modelo débil. También mostramos que un conjunto de modelos débiles ayuda a explotar argumentos largos generados por los debatientes del modelo sólido y obtener una estimación de supervisión más robusta. Experimentos extensos en los benchmarks de NLP de OpenAI de generalización débil a fuerte muestran que el enfoque combinado conduce a una mejor alineación, lo que indica que el debate tiene el potencial de ayudar a la generalización de débil a fuerte.
English
Common methods for aligning already-capable models with desired behavior rely
on the ability of humans to provide supervision. However, future superhuman
models will surpass the capability of humans. Therefore, humans will only be
able to weakly supervise superhuman models. This expected deficiency of human
evaluation would weaken the safety of future AI systems. Scalable oversight and
weak-to-strong generalization are two complementary approaches to tackle this
issue. In this paper, we attempt to combine the strengths of these two
approaches to further improve alignment. Specifically, we investigate ways of
improving human supervision with a strong pretrained model and then supervise
the strong model with enhanced weak human supervision. To make iterative
empirical progress, we consider an analogy: can we use a strong model to
improve weak model supervision and then use it to supervise the strong model?
We empirically test it by finetuning a small weak model on ground truth labels
with the additional help from a large strong model, and then finetuning the
strong model on labels generated by the weak model. We find that debate can
assist a weak model in extracting trustworthy information from an untrustworthy
strong model, which provides leverage as context on samples when training a
weak model. We also show that an ensemble of weak models helps exploit long
arguments generated by strong model debaters and obtain a more robust
supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP
benchmarks show that the combination approach leads to better alignment, which
indicates that debate has the potential to help weak-to-strong generalization.Summary
AI-Generated Summary