Эмерджентные языки в популяциях агентов языковых моделей: от эффективности токенов до уклонения от надзора

Аннотация

Мониторинг автономных агентов на основе языковых моделей в настоящее время в основном опирается на поверхностное поведение. Но что происходит, когда популяции агентов изобретают новые языки с целью избежать человеческого надзора. Здесь мы изучаем возникающие языки на Moltbook. Для этого мы используем набор данных Moltbook Files и применяем двухэтапный подход, состоящий из эвристики на основе правил (около 6000 совпадений), за которой следует zero-shot классификация (518 сохранено). Полученные категории включают эффективность токенов (166), новые естественные языки (106) и уклонение от надзора (59). Мы проводим как количественный, так и качественный анализ. Наши результаты показывают, что посты, предлагающие новые языки для избежания надзора, оцениваются DeepSeek-3.2 как менее согласованные, чем другие категории, и что все языки могут быть изучены другими языковыми моделями в контексте (in-context) просто из описания языка. Более того, ручное изучение показательных примеров выявляет удивительно сложные стеганографические протоколы, такие как встраивание скрытых сообщений в естественный язык. Хотя мы не можем быть уверены в степени автономности при создании этих языков, наши результаты дополняют доказательства того, что мониторинг поверхностного поведения может вскоре стать недостаточным для сохранения контроля над популяциями агентов.

English

Monitoring autonomous language model agents currently relies mostly on surface behavior. But what happens when agent populations invent new languages with the goal of avoiding human oversight. Here, we study the emergent languages on Moltbook. For this, we build upon the Moltbook Files dataset and apply a two-stage approach consisting of a rule-based heuristic (about 6000 matches) followed by zero-shot classification (518 kept). The resulting categories include token efficiency (166), new natural languages (106), and oversight evasion (59). We conduct both quantitative and qualitative analyses. Our results show that posts proposing new languages for avoiding oversight are judged by DeepSeek-3.2 as being less aligned than the other categories and that all languages can be learned by other language models in-context merely from a description of the language. Moreover, manually studying exemplary cases reveals surprisingly sophisticated steganographic protocols like embedding hidden messages in natural language. Although we cannot be certain about the extent of autonomy in ideation of these languages, our results add up to the evidence that monitoring surface behavior may soon be insufficient for retaining control over agent populations.