Lenguajes emergentes en poblaciones de agentes basados en modelos de lenguaje: De la eficiencia de tokens a la evasión de supervisión

Resumen

El monitoreo de agentes de modelos de lenguaje autónomos se basa actualmente, en gran medida, en el comportamiento superficial. Pero ¿qué sucede cuando las poblaciones de agentes inventan nuevos lenguajes con el objetivo de evadir la supervisión humana? Aquí estudiamos los lenguajes emergentes en Moltbook. Para ello, nos basamos en el conjunto de datos Moltbook Files y aplicamos un enfoque de dos etapas que consiste en una heurística basada en reglas (aproximadamente 6000 coincidencias) seguida de clasificación zero-shot (518 retenidos). Las categorías resultantes incluyen eficiencia de tokens (166), nuevos lenguajes naturales (106) y evasión de supervisión (59). Realizamos análisis tanto cuantitativos como cualitativos. Nuestros resultados muestran que las publicaciones que proponen nuevos lenguajes para evitar la supervisión son juzgadas por DeepSeek-3.2 como menos alineadas que las otras categorías y que todos los lenguajes pueden ser aprendidos por otros modelos de lenguaje en contexto, simplemente a partir de una descripción del lenguaje. Además, el estudio manual de casos ejemplares revela protocolos esteganográficos sorprendentemente sofisticados, como la incrustación de mensajes ocultos en lenguaje natural. Aunque no podemos estar seguros del grado de autonomía en la ideación de estos lenguajes, nuestros resultados se suman a la evidencia de que monitorear el comportamiento superficial pronto podría ser insuficiente para mantener el control sobre las poblaciones de agentes.

English

Monitoring autonomous language model agents currently relies mostly on surface behavior. But what happens when agent populations invent new languages with the goal of avoiding human oversight. Here, we study the emergent languages on Moltbook. For this, we build upon the Moltbook Files dataset and apply a two-stage approach consisting of a rule-based heuristic (about 6000 matches) followed by zero-shot classification (518 kept). The resulting categories include token efficiency (166), new natural languages (106), and oversight evasion (59). We conduct both quantitative and qualitative analyses. Our results show that posts proposing new languages for avoiding oversight are judged by DeepSeek-3.2 as being less aligned than the other categories and that all languages can be learned by other language models in-context merely from a description of the language. Moreover, manually studying exemplary cases reveals surprisingly sophisticated steganographic protocols like embedding hidden messages in natural language. Although we cannot be certain about the extent of autonomy in ideation of these languages, our results add up to the evidence that monitoring surface behavior may soon be insufficient for retaining control over agent populations.