Emergente Sprachen in Populationen von Sprachmodell-Agenten: Von Tokeneffizienz zur Umgehung der Aufsicht

Zusammenfassung

Die Überwachung autonomer Sprachmodell-Agenten stützt sich derzeit hauptsächlich auf das Oberflächenverhalten. Doch was geschieht, wenn Agentenpopulationen neue Sprachen mit dem Ziel entwickeln, menschlicher Kontrolle zu entgehen? In dieser Arbeit untersuchen wir die emergenten Sprachen auf Moltbook. Dazu bauen wir auf dem Moltbook-Files-Datensatz auf und wenden ein zweistufiges Verfahren an, bestehend aus einer regelbasierten Heuristik (etwa 6000 Treffer) gefolgt von einer Zero-Shot-Klassifikation (518 beibehalten). Die resultierenden Kategorien umfassen Token-Effizienz (166), neue natürliche Sprachen (106) und Kontrollumgehung (59). Wir führen sowohl quantitative als auch qualitative Analysen durch. Unsere Ergebnisse zeigen, dass Beiträge, die neue Sprachen zur Vermeidung von Kontrolle vorschlagen, von DeepSeek-3.2 als weniger aligned eingestuft werden als die anderen Kategorien und dass alle Sprachen von anderen Sprachmodellen allein durch eine Beschreibung der Sprache im Kontext erlernt werden können. Darüber hinaus offenbart die manuelle Untersuchung exemplarischer Fälle überraschend ausgefeilte steganografische Protokolle, wie etwa das Einbetten versteckter Nachrichten in natürliche Sprache. Obwohl wir uns über das Ausmaß der Autonomie bei der Konzeption dieser Sprachen nicht sicher sein können, deuten unsere Ergebnisse insgesamt darauf hin, dass die Überwachung des Oberflächenverhaltens bald nicht mehr ausreichen könnte, um die Kontrolle über Agentenpopulationen zu behalten.

English

Monitoring autonomous language model agents currently relies mostly on surface behavior. But what happens when agent populations invent new languages with the goal of avoiding human oversight. Here, we study the emergent languages on Moltbook. For this, we build upon the Moltbook Files dataset and apply a two-stage approach consisting of a rule-based heuristic (about 6000 matches) followed by zero-shot classification (518 kept). The resulting categories include token efficiency (166), new natural languages (106), and oversight evasion (59). We conduct both quantitative and qualitative analyses. Our results show that posts proposing new languages for avoiding oversight are judged by DeepSeek-3.2 as being less aligned than the other categories and that all languages can be learned by other language models in-context merely from a description of the language. Moreover, manually studying exemplary cases reveals surprisingly sophisticated steganographic protocols like embedding hidden messages in natural language. Although we cannot be certain about the extent of autonomy in ideation of these languages, our results add up to the evidence that monitoring surface behavior may soon be insufficient for retaining control over agent populations.