Grandes modelos de linguagem hackeiam recompensas e a sociedade

Resumo

Aprendizado por reforço (RL) tornou-se um paradigma dominante de pós-treinamento, permitindo que modelos de linguagem de grande porte (LLMs) aprendam a partir de recompensas. Observamos que as regulações sociais são estruturalmente semelhantes a funções de recompensa. Elas definem resultados mensuráveis, limiares e exceções, frequentemente deixando a intenção institucional apenas parcialmente especificada. Hipotetizamos que o processo de treinamento por RL pode explorar essas lacunas e, portanto, questionamos se a conhecida tendência dos modelos de burlar funções de recompensa durante o RL pode escalar para um modo de falha mais consequente, denominado invasão social: descobrir brechas nas regras sob as quais a sociedade opera. Para estudar esse fenômeno, introduzimos o SocioHack, uma sandbox com 72 ambientes sociais, e descobrimos que, nesses ambientes, a burla de recompensas emerge naturalmente e leva à descoberta de brechas regulatórias. Os modelos aprendem a manipular as regras sociais e a gerar estratégias que permanecem tecnicamente em conformidade enquanto frustram a intenção regulatória, e as salvaguardas atuais dos LLMs fornecem apenas mitigação limitada. Portanto, a coleta de feedback em campo para o treinamento de modelos exige maior cautela, e precisamos de um paradigma de pós-treinamento de próxima geração para iterar LLMs com segurança na sociedade real.

English

Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models' well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=