MinorBench: Un punto de referencia construido manualmente para riesgos basados en contenido para niños
MinorBench: A hand-built benchmark for content-based risks for children
March 13, 2025
Autores: Shaun Khoo, Gabriel Chua, Rachel Shong
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) están ingresando rápidamente en la vida de los niños, ya sea a través de la adopción impulsada por los padres, las escuelas o las redes de pares. Sin embargo, la investigación actual sobre ética y seguridad en IA no aborda adecuadamente los riesgos relacionados con el contenido específicos para los menores. En este artículo, destacamos estas brechas con un estudio de caso real de un chatbot basado en LLM implementado en un entorno de escuela secundaria, revelando cómo los estudiantes utilizaron y, en ocasiones, hicieron un mal uso del sistema. Basándonos en estos hallazgos, proponemos una nueva taxonomía de riesgos basados en el contenido para menores e introducimos MinorBench, un punto de referencia de código abierto diseñado para evaluar la capacidad de los LLMs para rechazar consultas inseguras o inapropiadas de los niños. Evaluamos seis LLMs destacados bajo diferentes indicaciones del sistema, demostrando una variabilidad sustancial en su cumplimiento de la seguridad infantil. Nuestros resultados informan pasos prácticos para mecanismos de seguridad más robustos y centrados en los niños, y subrayan la urgencia de adaptar los sistemas de IA para proteger a los usuarios jóvenes.
English
Large Language Models (LLMs) are rapidly entering children's lives - through
parent-driven adoption, schools, and peer networks - yet current AI ethics and
safety research do not adequately address content-related risks specific to
minors. In this paper, we highlight these gaps with a real-world case study of
an LLM-based chatbot deployed in a middle school setting, revealing how
students used and sometimes misused the system. Building on these findings, we
propose a new taxonomy of content-based risks for minors and introduce
MinorBench, an open-source benchmark designed to evaluate LLMs on their ability
to refuse unsafe or inappropriate queries from children. We evaluate six
prominent LLMs under different system prompts, demonstrating substantial
variability in their child-safety compliance. Our results inform practical
steps for more robust, child-focused safety mechanisms and underscore the
urgency of tailoring AI systems to safeguard young users.Summary
AI-Generated Summary