ProgressGym: Ausrichtung mit einem Jahrtausend moralischen Fortschritts
ProgressGym: Alignment with a Millennium of Moral Progress
June 28, 2024
Autoren: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI
Zusammenfassung
Frontier KI-Systeme, einschließlich großer Sprachmodelle (LLMs), gewinnen zunehmend Einfluss auf die Erkenntnistheorie menschlicher Benutzer. Ein solcher Einfluss kann bestehende gesellschaftliche Werte verstärken und somit zur Verfestigung fehlgeleiteter moralischer Überzeugungen und infolgedessen zur Aufrechterhaltung problematischer moralischer Praktiken im großen Maßstab beitragen. Wir stellen Fortschrittsausrichtung als technische Lösung vor, um dieses unmittelbare Risiko zu mindern. Fortschrittsausrichtungsalgorithmen lernen, die Mechanismen des menschlichen moralischen Fortschritts nachzuahmen, um damit die Anfälligkeit bestehender Ausrichtungsmethoden für zeitgenössische moralische Blindstellen anzugehen. Um die Forschung in Fortschrittsausrichtung zu unterstützen, führen wir ProgressGym ein, ein experimentelles Framework, das das Lernen moralischer Fortschrittsmechanismen aus der Geschichte ermöglicht, um zukünftige Fortschritte bei moralischen Entscheidungen in der realen Welt zu erleichtern. Durch die Nutzung von 9 Jahrhunderten historischer Texte und 18 historischer LLMs ermöglicht ProgressGym die Kodifizierung von Herausforderungen der Fortschrittsausrichtung in konkrete Benchmarks. Konkret führen wir drei Kernherausforderungen ein: die Verfolgung sich entwickelnder Werte (PG-Follow), das vorausschauende Antizipieren moralischen Fortschritts (PG-Predict) und die Regulierung der Rückkopplungsschleife zwischen menschlichen und KI-Wertverschiebungen (PG-Coevolve). Ausrichtungsmethoden ohne zeitliche Dimension sind für diese Aufgaben unanwendbar. Als Reaktion präsentieren wir lebenslange und extrapolative Algorithmen als Basisverfahren der Fortschrittsausrichtung und erstellen ein offenes Leaderboard, das neue Algorithmen und Herausforderungen aufruft. Das Framework und das Leaderboard sind unter folgenden Links verfügbar: https://github.com/PKU-Alignment/ProgressGym und https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.
English
Frontier AI systems, including large language models (LLMs), hold increasing
influence over the epistemology of human users. Such influence can reinforce
prevailing societal values, potentially contributing to the lock-in of
misguided moral beliefs and, consequently, the perpetuation of problematic
moral practices on a broad scale. We introduce progress alignment as a
technical solution to mitigate this imminent risk. Progress alignment
algorithms learn to emulate the mechanics of human moral progress, thereby
addressing the susceptibility of existing alignment methods to contemporary
moral blindspots. To empower research in progress alignment, we introduce
ProgressGym, an experimental framework allowing the learning of moral progress
mechanics from history, in order to facilitate future progress in real-world
moral decisions. Leveraging 9 centuries of historical text and 18 historical
LLMs, ProgressGym enables codification of real-world progress alignment
challenges into concrete benchmarks. Specifically, we introduce three core
challenges: tracking evolving values (PG-Follow), preemptively anticipating
moral progress (PG-Predict), and regulating the feedback loop between human and
AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension
are inapplicable to these tasks. In response, we present lifelong and
extrapolative algorithms as baseline methods of progress alignment, and build
an open leaderboard soliciting novel algorithms and challenges. The framework
and the leaderboard are available at
https://github.com/PKU-Alignment/ProgressGym and
https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
respectively.Summary
AI-Generated Summary