ChatPaper.aiChatPaper

MinorBench: Un punto de referencia construido manualmente para riesgos basados en contenido para niños

MinorBench: A hand-built benchmark for content-based risks for children

March 13, 2025
Autores: Shaun Khoo, Gabriel Chua, Rachel Shong
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) están ingresando rápidamente en la vida de los niños, ya sea a través de la adopción impulsada por los padres, las escuelas o las redes de pares. Sin embargo, la investigación actual sobre ética y seguridad en IA no aborda adecuadamente los riesgos relacionados con el contenido específicos para los menores. En este artículo, destacamos estas brechas con un estudio de caso real de un chatbot basado en LLM implementado en un entorno de escuela secundaria, revelando cómo los estudiantes utilizaron y, en ocasiones, hicieron un mal uso del sistema. Basándonos en estos hallazgos, proponemos una nueva taxonomía de riesgos basados en el contenido para menores e introducimos MinorBench, un punto de referencia de código abierto diseñado para evaluar la capacidad de los LLMs para rechazar consultas inseguras o inapropiadas de los niños. Evaluamos seis LLMs destacados bajo diferentes indicaciones del sistema, demostrando una variabilidad sustancial en su cumplimiento de la seguridad infantil. Nuestros resultados informan pasos prácticos para mecanismos de seguridad más robustos y centrados en los niños, y subrayan la urgencia de adaptar los sistemas de IA para proteger a los usuarios jóvenes.
English
Large Language Models (LLMs) are rapidly entering children's lives - through parent-driven adoption, schools, and peer networks - yet current AI ethics and safety research do not adequately address content-related risks specific to minors. In this paper, we highlight these gaps with a real-world case study of an LLM-based chatbot deployed in a middle school setting, revealing how students used and sometimes misused the system. Building on these findings, we propose a new taxonomy of content-based risks for minors and introduce MinorBench, an open-source benchmark designed to evaluate LLMs on their ability to refuse unsafe or inappropriate queries from children. We evaluate six prominent LLMs under different system prompts, demonstrating substantial variability in their child-safety compliance. Our results inform practical steps for more robust, child-focused safety mechanisms and underscore the urgency of tailoring AI systems to safeguard young users.

Summary

AI-Generated Summary

PDF43March 14, 2025