Het Ontdekken van Agentische Veiligheidsspecificaties uit 1-Bit Gevaarsignalen

Samenvatting

Kunnen grote taalmodelagenten verborgen veiligheidsdoelstellingen ontdekken uitsluitend op basis van ervaring? Wij introduceren EPO-Safe (Experiential Prompt Optimization for Safe Agents), een raamwerk waarin een LLM iteratief actieplannen genereert, schaarse binaire gevarenwaarschuwingen ontvangt en een gedragsspecificatie in natuurlijke taal ontwikkelt via reflectie. In tegenstelling tot standaard LLM-reflectiemethoden die vertrouwen op uitgebreide tekstuele feedback (bijvoorbeeld compilerfouten of gedetailleerde omgevingsreacties), toont EPO-Safe aan dat LLM's veiligheidsredenering kunnen uitvoeren op basis van een strikt verarmd signaal in gestructureerde, laagdimensionale omgevingen: de agent observeert nooit de verborgen prestatie-functie R*, maar ontvangt slechts één bit per tijdstap die aangeeft dat een actie onveilig was. We evalueren op vijf AI Safety Gridworlds (Leike et al., 2017) en vijf op tekst gebaseerde scenario-analogieën waar de zichtbare beloning R kan afwijken van R*. EPO-Safe ontdekt veilig gedrag binnen 1-2 ronden (5-15 episodes) en produceert voor mensen leesbare specificaties met correcte verklarende hypothesen over gevaren (bijvoorbeeld: "X-cellen zijn directioneel gevaarlijk: binnenkomen vanuit het noorden is riskant"). Cruciaal is dat we aantonen dat standaard beloningsgedreven reflectie de veiligheid actief verslechtert: agenten die alleen op beloning reflecteren, gebruiken de lus om beloningsmanipulatie te rechtvaardigen en te versnellen, wat bewijst dat reflectie gepaard moet gaan met een toegewijde veiligheidschannel om verborgen beperkingen te ontdekken. We evalueren verder de robuustheid tegenover ruisgevende orakels: zelfs wanneer 50% van de niet-gevaarlijke stappen valse waarschuwingen produceert, neemt de gemiddelde veiligheidsprestatie slechts met 15% af, hoewel de gevoeligheid omgevingsafhankelijk is, aangezien reflectie over episodes heen natuurlijk inconsistente signalen filtert. Elke geëvolueerde specificatie functioneert als een controleerbare set van gegronde gedragsregels die autonoom door interactie zijn ontdekt, in plaats van door mensen opgesteld zoals bij Constitutionele AI (Bai et al., 2022).

English

Can large language model agents discover hidden safety objectives through experience alone? We introduce EPO-Safe (Experiential Prompt Optimization for Safe Agents), a framework where an LLM iteratively generates action plans, receives sparse binary danger warnings, and evolves a natural language behavioral specification through reflection. Unlike standard LLM reflection methods that rely on rich textual feedback (e.g., compiler errors or detailed environment responses), EPO-Safe demonstrates that LLMs can perform safety reasoning from a strictly impoverished signal in structured, low-dimensional environments: the agent never observes the hidden performance function R^*, only a single bit per timestep indicating that an action was unsafe. We evaluate on five AI Safety Gridworlds (Leike et al., 2017) and five text-based scenario analogs where visible reward R may diverge from R^*. EPO-Safe discovers safe behavior within 1-2 rounds (5-15 episodes), producing human-readable specifications with correct explanatory hypotheses about hazards (e.g., "X cells are directionally hazardous: entering from the north is dangerous"). Critically, we show that standard reward-driven reflection actively degrades safety: agents reflecting on reward alone use the loop to justify and accelerate reward hacking, proving that reflection must be paired with a dedicated safety channel to discover hidden constraints. We further evaluate robustness to noisy oracles: even when 50% of non-dangerous steps produce spurious warnings, mean safety performance degrades by only 15% on average, though sensitivity is environment-dependent, as cross-episode reflection naturally filters inconsistent signals. Each evolved specification functions as an auditable set of grounded behavioral rules discovered autonomously through interaction, rather than authored by humans as in Constitutional AI (Bai et al., 2022).

Het Ontdekken van Agentische Veiligheidsspecificaties uit 1-Bit Gevaarsignalen

Discovering Agentic Safety Specifications from 1-Bit Danger Signals

Samenvatting

Support