Scoprire Specifiche di Sicurezza Agenti da Segnali di Pericolo a 1 Bit

Abstract

I modelli linguistici di grandi dimensioni possono scoprire autonomamente obiettivi di sicurezza nascosti solo attraverso l'esperienza? Presentiamo EPO-Safe (Ottimizzazione Esperienziale dei Prompt per Agenti Sicuri), un framework in cui un LLM genera iterativamente piani d'azione, riceve avvisi di pericolo binari e sparsi, ed evolve una specifica comportamentale in linguaggio naturale attraverso la riflessione. A differenza dei metodi standard di riflessione per LLM che si basano su feedback testuali ricchi (ad esempio, errori del compilatore o risposte dettagliate dell'ambiente), EPO-Safe dimostra che gli LLM possono eseguire ragionamenti sulla sicurezza partendo da un segnale rigorosamente impoverito in ambienti strutturati e a bassa dimensionalità: l'agente non osserva mai la funzione di performance nascosta R*, ma solo un singolo bit per passo temporale che indica se un'azione era non sicura. Valutiamo il framework su cinque AI Safety Gridworlds (Leike et al., 2017) e cinque scenari testuali analoghi in cui la ricompensa visibile R può divergere da R*. EPO-Safe scopre comportamenti sicuri entro 1-2 round (5-15 episodi), producendo specifiche leggibili dall'uomo con ipotesi esplicative corrette sui pericoli (ad esempio, "Le celle X sono pericolose in modo direzionale: entrare da nord è rischioso"). In modo cruciale, dimostriamo che la riflessione standard guidata dalla ricompensa degrada attivamente la sicurezza: agenti che riflettono solo sulla ricompensa utilizzano il ciclo per giustificare e accelerare il reward hacking, provando che la riflessione deve essere abbinata a un canale dedicato alla sicurezza per scoprire vincoli nascosti. Valutiamo inoltre la robustezza a oracoli rumorosi: anche quando il 50% dei passi non pericolosi produce avvisi spurii, la performance media di sicurezza si degrada in media solo del 15%, sebbene la sensibilità dipenda dall'ambiente, poiché la riflessione cross-episodio filtra naturalmente i segnali inconsistenti. Ogni specifica evoluta funziona come un insieme verificabile di regole comportamentali radicate, scoperte autonomamente attraverso l'interazione, anziché essere scritte da umani come nell'Intelligenza Artificiale Costituzionale (Bai et al., 2022).

English

Can large language model agents discover hidden safety objectives through experience alone? We introduce EPO-Safe (Experiential Prompt Optimization for Safe Agents), a framework where an LLM iteratively generates action plans, receives sparse binary danger warnings, and evolves a natural language behavioral specification through reflection. Unlike standard LLM reflection methods that rely on rich textual feedback (e.g., compiler errors or detailed environment responses), EPO-Safe demonstrates that LLMs can perform safety reasoning from a strictly impoverished signal in structured, low-dimensional environments: the agent never observes the hidden performance function R^*, only a single bit per timestep indicating that an action was unsafe. We evaluate on five AI Safety Gridworlds (Leike et al., 2017) and five text-based scenario analogs where visible reward R may diverge from R^*. EPO-Safe discovers safe behavior within 1-2 rounds (5-15 episodes), producing human-readable specifications with correct explanatory hypotheses about hazards (e.g., "X cells are directionally hazardous: entering from the north is dangerous"). Critically, we show that standard reward-driven reflection actively degrades safety: agents reflecting on reward alone use the loop to justify and accelerate reward hacking, proving that reflection must be paired with a dedicated safety channel to discover hidden constraints. We further evaluate robustness to noisy oracles: even when 50% of non-dangerous steps produce spurious warnings, mean safety performance degrades by only 15% on average, though sensitivity is environment-dependent, as cross-episode reflection naturally filters inconsistent signals. Each evolved specification functions as an auditable set of grounded behavioral rules discovered autonomously through interaction, rather than authored by humans as in Constitutional AI (Bai et al., 2022).

Scoprire Specifiche di Sicurezza Agenti da Segnali di Pericolo a 1 Bit

Discovering Agentic Safety Specifications from 1-Bit Danger Signals

Abstract

Support