Evaluación de Modelos de Frontera por Capacidades Peligrosas

Resumen

Para comprender los riesgos que plantea un nuevo sistema de IA, debemos entender lo que puede y no puede hacer. Basándonos en trabajos previos, presentamos un programa de nuevas evaluaciones de "capacidades peligrosas" y las implementamos en los modelos Gemini 1.0. Nuestras evaluaciones abarcan cuatro áreas: (1) persuasión y engaño; (2) ciberseguridad; (3) auto-proliferación; y (4) auto-razonamiento. No encontramos evidencia de capacidades peligrosas fuertes en los modelos evaluados, pero señalamos indicios tempranos de advertencia. Nuestro objetivo es contribuir al avance de una ciencia rigurosa de evaluación de capacidades peligrosas, en preparación para futuros modelos.

English

To understand the risks posed by a new AI system, we must understand what it can and cannot do. Building on prior work, we introduce a programme of new "dangerous capability" evaluations and pilot them on Gemini 1.0 models. Our evaluations cover four areas: (1) persuasion and deception; (2) cyber-security; (3) self-proliferation; and (4) self-reasoning. We do not find evidence of strong dangerous capabilities in the models we evaluated, but we flag early warning signs. Our goal is to help advance a rigorous science of dangerous capability evaluation, in preparation for future models.

Evaluación de Modelos de Frontera por Capacidades Peligrosas

Evaluating Frontier Models for Dangerous Capabilities

Resumen

Support