Bewertung von Spitzenmodellen für gefährliche Fähigkeiten

papers.abstract

Um die Risiken zu verstehen, die durch ein neues KI-System entstehen, müssen wir verstehen, was es kann und nicht kann. Aufbauend auf früheren Arbeiten führen wir ein Programm neuer "gefährlicher Fähigkeitsbewertungen" ein und testen diese an Gemini 1.0-Modellen. Unsere Bewertungen umfassen vier Bereiche: (1) Überzeugung und Täuschung; (2) Cybersicherheit; (3) Selbstvermehrung; und (4) Selbstbegründung. Wir finden keine Hinweise auf starke gefährliche Fähigkeiten in den von uns bewerteten Modellen, aber wir kennzeichnen Frühwarnzeichen. Unser Ziel ist es, eine strenge Wissenschaft der Bewertung gefährlicher Fähigkeiten voranzutreiben, um auf zukünftige Modelle vorbereitet zu sein.

English

To understand the risks posed by a new AI system, we must understand what it can and cannot do. Building on prior work, we introduce a programme of new "dangerous capability" evaluations and pilot them on Gemini 1.0 models. Our evaluations cover four areas: (1) persuasion and deception; (2) cyber-security; (3) self-proliferation; and (4) self-reasoning. We do not find evidence of strong dangerous capabilities in the models we evaluated, but we flag early warning signs. Our goal is to help advance a rigorous science of dangerous capability evaluation, in preparation for future models.

Bewertung von Spitzenmodellen für gefährliche Fähigkeiten

Evaluating Frontier Models for Dangerous Capabilities

papers.abstract

Support