ProgressGym: Afstemming met een Millennium van Morele Vooruitgang
ProgressGym: Alignment with a Millennium of Moral Progress
June 28, 2024
Auteurs: Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang
cs.AI
Samenvatting
Frontier AI-systemen, waaronder grote taalmodellen (LLMs), hebben een toenemende invloed op de epistemologie van menselijke gebruikers. Deze invloed kan heersende maatschappelijke waarden versterken, wat mogelijk bijdraagt aan de verankering van misplaatste morele overtuigingen en, als gevolg daarvan, de voortzetting van problematische morele praktijken op grote schaal. Wij introduceren progress alignment als een technische oplossing om dit dreigende risico te mitigeren. Progress alignment-algoritmen leren de mechanismen van menselijke morele vooruitgang na te bootsen, waardoor de gevoeligheid van bestaande alignment-methoden voor hedendaagse morele blinde vlekken wordt aangepakt. Om onderzoek naar progress alignment te bevorderen, introduceren wij ProgressGym, een experimenteel raamwerk dat het mogelijk maakt om de mechanismen van morele vooruitgang uit de geschiedenis te leren, teneinde toekomstige vooruitgang in real-world morele beslissingen te faciliteren. Gebruikmakend van 9 eeuwen historische tekst en 18 historische LLMs, maakt ProgressGym het mogelijk om real-world progress alignment-uitdagingen te codificeren in concrete benchmarks. Specifiek introduceren wij drie kernuitdagingen: het volgen van evoluerende waarden (PG-Follow), het preventief anticiperen op morele vooruitgang (PG-Predict), en het reguleren van de feedbackloop tussen menselijke en AI-waardeveranderingen (PG-Coevolve). Alignment-methoden zonder een temporele dimensie zijn niet toepasbaar op deze taken. Als reactie hierop presenteren wij levenslange en extrapolatieve algoritmen als baseline-methoden van progress alignment, en bouwen wij een open leaderboard om nieuwe algoritmen en uitdagingen te verzamelen. Het raamwerk en het leaderboard zijn beschikbaar op respectievelijk https://github.com/PKU-Alignment/ProgressGym en https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.
English
Frontier AI systems, including large language models (LLMs), hold increasing
influence over the epistemology of human users. Such influence can reinforce
prevailing societal values, potentially contributing to the lock-in of
misguided moral beliefs and, consequently, the perpetuation of problematic
moral practices on a broad scale. We introduce progress alignment as a
technical solution to mitigate this imminent risk. Progress alignment
algorithms learn to emulate the mechanics of human moral progress, thereby
addressing the susceptibility of existing alignment methods to contemporary
moral blindspots. To empower research in progress alignment, we introduce
ProgressGym, an experimental framework allowing the learning of moral progress
mechanics from history, in order to facilitate future progress in real-world
moral decisions. Leveraging 9 centuries of historical text and 18 historical
LLMs, ProgressGym enables codification of real-world progress alignment
challenges into concrete benchmarks. Specifically, we introduce three core
challenges: tracking evolving values (PG-Follow), preemptively anticipating
moral progress (PG-Predict), and regulating the feedback loop between human and
AI value shifts (PG-Coevolve). Alignment methods without a temporal dimension
are inapplicable to these tasks. In response, we present lifelong and
extrapolative algorithms as baseline methods of progress alignment, and build
an open leaderboard soliciting novel algorithms and challenges. The framework
and the leaderboard are available at
https://github.com/PKU-Alignment/ProgressGym and
https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard
respectively.