MinorBench : Un benchmark manuel pour les risques liés au contenu pour les enfants
MinorBench: A hand-built benchmark for content-based risks for children
March 13, 2025
Auteurs: Shaun Khoo, Gabriel Chua, Rachel Shong
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) s'intègrent rapidement dans la vie des enfants - par le biais de l'adoption parentale, des écoles et des réseaux de pairs - pourtant, les recherches actuelles en éthique et sécurité de l'IA ne traitent pas de manière adéquate les risques liés au contenu spécifiques aux mineurs. Dans cet article, nous mettons en lumière ces lacunes avec une étude de cas réelle d'un chatbot basé sur un LLM déployé dans un collège, révélant comment les élèves ont utilisé et parfois détourné le système. En nous appuyant sur ces résultats, nous proposons une nouvelle taxonomie des risques liés au contenu pour les mineurs et introduisons MinorBench, un benchmark open-source conçu pour évaluer les LLMs sur leur capacité à refuser les requêtes dangereuses ou inappropriées des enfants. Nous évaluons six LLMs majeurs sous différentes instructions système, démontrant une variabilité substantielle dans leur conformité à la sécurité des enfants. Nos résultats informent sur les étapes pratiques pour des mécanismes de sécurité plus robustes et centrés sur les enfants, et soulignent l'urgence d'adapter les systèmes d'IA pour protéger les jeunes utilisateurs.
English
Large Language Models (LLMs) are rapidly entering children's lives - through
parent-driven adoption, schools, and peer networks - yet current AI ethics and
safety research do not adequately address content-related risks specific to
minors. In this paper, we highlight these gaps with a real-world case study of
an LLM-based chatbot deployed in a middle school setting, revealing how
students used and sometimes misused the system. Building on these findings, we
propose a new taxonomy of content-based risks for minors and introduce
MinorBench, an open-source benchmark designed to evaluate LLMs on their ability
to refuse unsafe or inappropriate queries from children. We evaluate six
prominent LLMs under different system prompts, demonstrating substantial
variability in their child-safety compliance. Our results inform practical
steps for more robust, child-focused safety mechanisms and underscore the
urgency of tailoring AI systems to safeguard young users.Summary
AI-Generated Summary