Великие модели мыслят одинаково, и это подрывает надзор над искусственным интеллектом.
Great Models Think Alike and this Undermines AI Oversight
February 6, 2025
Авторы: Shashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping
cs.AI
Аннотация
По мере усовершенствования возможностей языковых моделей (LM) оценка и надзор за ними в масштабе становятся все сложнее для людей. Существует надежда, что другие языковые модели могут автоматизировать обе эти задачи, которые мы называем "надзором над ИИ". Мы изучаем, как сходство моделей влияет на оба аспекта надзора над ИИ, предлагая вероятностную метрику для оценки сходства LM на основе перекрытия в ошибках модели. Используя эту метрику, мы сначала показываем, что оценки LLM-как-судьи благоприятствуют моделям, похожим на судью, обобщая недавние результаты самопредпочтения. Затем мы изучаем обучение на аннотациях LM и обнаруживаем, что дополняющие знания между слабым наблюдателем и сильной учебной моделью играют решающую роль в приросте от "слабого к сильному обобщению". По мере увеличения возможностей моделей становится сложнее находить их ошибки, и мы можем все больше полагаться на надзор над ИИ. Однако мы наблюдаем тревожную тенденцию - ошибки моделей становятся более похожими с увеличением возможностей, указывая на риски от коррелированных сбоев. Наша работа подчеркивает важность отчетности и корректировки с учетом сходства моделей, особенно в новом парадигме надзора над ИИ.
English
As Language Model (LM) capabilities advance, evaluating and supervising them
at scale is getting harder for humans. There is hope that other language models
can automate both these tasks, which we refer to as "AI Oversight". We study
how model similarity affects both aspects of AI oversight by proposing a
probabilistic metric for LM similarity based on overlap in model mistakes.
Using this metric, we first show that LLM-as-a-judge scores favor models
similar to the judge, generalizing recent self-preference results. Then, we
study training on LM annotations, and find complementary knowledge between the
weak supervisor and strong student model plays a crucial role in gains from
"weak-to-strong generalization". As model capabilities increase, it becomes
harder to find their mistakes, and we might defer more to AI oversight.
However, we observe a concerning trend -- model mistakes are becoming more
similar with increasing capabilities, pointing to risks from correlated
failures. Our work underscores the importance of reporting and correcting for
model similarity, especially in the emerging paradigm of AI oversight.Summary
AI-Generated Summary