Il dibattito aiuta la generalizzazione da debole a forte.
Debate Helps Weak-to-Strong Generalization
January 21, 2025
Autori: Hao Lang, Fei Huang, Yongbin Li
cs.AI
Abstract
I metodi comuni per allineare modelli già capaci con il comportamento desiderato si basano sulla capacità degli esseri umani di fornire supervisione. Tuttavia, i futuri modelli superumani supereranno le capacità umane. Pertanto, gli esseri umani saranno in grado di supervisionare debolmente solo i modelli superumani. Questa carenza prevista nella valutazione umana indebolirebbe la sicurezza dei futuri sistemi di intelligenza artificiale. La supervisione scalabile e la generalizzazione da debole a forte sono due approcci complementari per affrontare questo problema. In questo articolo, cerchiamo di combinare i punti di forza di questi due approcci per migliorare ulteriormente l'allineamento. In particolare, esaminiamo modi per migliorare la supervisione umana con un modello preaddestrato forte e quindi supervisionare il modello forte con una supervisione umana debole potenziata. Per fare progressi empirici iterativi, consideriamo un'analogia: possiamo utilizzare un modello forte per migliorare la supervisione di un modello debole e poi utilizzarlo per supervisionare il modello forte? Lo testiamo empiricamente affinando un piccolo modello debole su etichette di verità fondamentale con l'ausilio aggiuntivo di un grande modello forte, e poi affinando il modello forte su etichette generate dal modello debole. Scopriamo che il dibattito può aiutare un modello debole a estrarre informazioni affidabili da un modello forte non affidabile, fornendo un vantaggio come contesto su campioni durante l'addestramento di un modello debole. Mostriamo anche che un insieme di modelli deboli aiuta a sfruttare lunghi argomenti generati dai dibattenti del modello forte e ottenere una stima di supervisione più robusta. Esperimenti approfonditi sui benchmark NLP da debole a forte di OpenAI mostrano che l'approccio combinato porta a un miglior allineamento, il che indica che il dibattito ha il potenziale per aiutare la generalizzazione da debole a forte.
English
Common methods for aligning already-capable models with desired behavior rely
on the ability of humans to provide supervision. However, future superhuman
models will surpass the capability of humans. Therefore, humans will only be
able to weakly supervise superhuman models. This expected deficiency of human
evaluation would weaken the safety of future AI systems. Scalable oversight and
weak-to-strong generalization are two complementary approaches to tackle this
issue. In this paper, we attempt to combine the strengths of these two
approaches to further improve alignment. Specifically, we investigate ways of
improving human supervision with a strong pretrained model and then supervise
the strong model with enhanced weak human supervision. To make iterative
empirical progress, we consider an analogy: can we use a strong model to
improve weak model supervision and then use it to supervise the strong model?
We empirically test it by finetuning a small weak model on ground truth labels
with the additional help from a large strong model, and then finetuning the
strong model on labels generated by the weak model. We find that debate can
assist a weak model in extracting trustworthy information from an untrustworthy
strong model, which provides leverage as context on samples when training a
weak model. We also show that an ensemble of weak models helps exploit long
arguments generated by strong model debaters and obtain a more robust
supervision estimate. Extensive experiments on the OpenAI weak-to-strong NLP
benchmarks show that the combination approach leads to better alignment, which
indicates that debate has the potential to help weak-to-strong generalization.Summary
AI-Generated Summary