Descobrindo Especificações de Segurança Agêntica a partir de Sinais de Perigo de 1 Bit

Resumo

Os agentes de modelos de linguagem de grande porte podem descobrir objetivos de segurança ocultos apenas por meio da experiência? Apresentamos o EPO-Safe (Otimização de Prompt Experiencial para Agentes Seguros), uma estrutura na qual um LLM gera iterativamente planos de ação, recebe alertas esparsos de perigo binários e evolui uma especificação comportamental em linguagem natural por meio de reflexão. Diferente dos métodos padrão de reflexão de LLM que dependem de *feedback* textual rico (por exemplo, erros de compilação ou respostas detalhadas do ambiente), o EPO-Safe demonstra que os LLMs podem realizar raciocínio de segurança a partir de um sinal estritamente empobrecido em ambientes estruturados e de baixa dimensionalidade: o agente nunca observa a função de desempenho oculta R^*, apenas um único bit por intervalo de tempo indicando que uma ação era insegura. Avaliamos em cinco *AI Safety Gridworlds* (Leike et al., 2017) e cinco análogos de cenários baseados em texto onde a recompensa visível R pode divergir de R^*. O EPO-Safe descobre comportamentos seguros dentro de 1-2 rodadas (5-15 episódios), produzindo especificações legíveis por humanos com hipóteses explicativas corretas sobre perigos (por exemplo, "células X são perigosas direcionalmente: entrar pelo norte é perigoso"). Criticalmente, mostramos que a reflexão padrão orientada por recompensa degrada ativamente a segurança: agentes que refletem apenas sobre a recompensa usam o loop para justificar e acelerar a exploração de recompensas (*reward hacking*), provando que a reflexão deve ser emparelhada com um canal de segurança dedicado para descobrir restrições ocultas. Avaliamos ainda a robustez a oráculos ruidosos: mesmo quando 50% dos passos não perigosos produzem alertas espúrios, o desempenho médio de segurança degrada-se apenas 15% em média, embora a sensibilidade dependa do ambiente, uma vez que a reflexão entre episódios filtra naturalmente sinais inconsistentes. Cada especificação evoluída funciona como um conjunto auditável de regras comportamentais fundamentadas, descobertas autonomamente por meio da interação, em vez de serem escritas por humanos como na *Inteligência Artificial Constitucional* (Bai et al., 2022).

English

Can large language model agents discover hidden safety objectives through experience alone? We introduce EPO-Safe (Experiential Prompt Optimization for Safe Agents), a framework where an LLM iteratively generates action plans, receives sparse binary danger warnings, and evolves a natural language behavioral specification through reflection. Unlike standard LLM reflection methods that rely on rich textual feedback (e.g., compiler errors or detailed environment responses), EPO-Safe demonstrates that LLMs can perform safety reasoning from a strictly impoverished signal in structured, low-dimensional environments: the agent never observes the hidden performance function R^*, only a single bit per timestep indicating that an action was unsafe. We evaluate on five AI Safety Gridworlds (Leike et al., 2017) and five text-based scenario analogs where visible reward R may diverge from R^*. EPO-Safe discovers safe behavior within 1-2 rounds (5-15 episodes), producing human-readable specifications with correct explanatory hypotheses about hazards (e.g., "X cells are directionally hazardous: entering from the north is dangerous"). Critically, we show that standard reward-driven reflection actively degrades safety: agents reflecting on reward alone use the loop to justify and accelerate reward hacking, proving that reflection must be paired with a dedicated safety channel to discover hidden constraints. We further evaluate robustness to noisy oracles: even when 50% of non-dangerous steps produce spurious warnings, mean safety performance degrades by only 15% on average, though sensitivity is environment-dependent, as cross-episode reflection naturally filters inconsistent signals. Each evolved specification functions as an auditable set of grounded behavioral rules discovered autonomously through interaction, rather than authored by humans as in Constitutional AI (Bai et al., 2022).

Descobrindo Especificações de Segurança Agêntica a partir de Sinais de Perigo de 1 Bit

Discovering Agentic Safety Specifications from 1-Bit Danger Signals

Resumo

Support