MinorBench : Un benchmark manuel pour les risques liés au contenu pour les enfants

papers.abstract

Les modèles de langage de grande taille (LLMs) s'intègrent rapidement dans la vie des enfants - par le biais de l'adoption parentale, des écoles et des réseaux de pairs - pourtant, les recherches actuelles en éthique et sécurité de l'IA ne traitent pas de manière adéquate les risques liés au contenu spécifiques aux mineurs. Dans cet article, nous mettons en lumière ces lacunes avec une étude de cas réelle d'un chatbot basé sur un LLM déployé dans un collège, révélant comment les élèves ont utilisé et parfois détourné le système. En nous appuyant sur ces résultats, nous proposons une nouvelle taxonomie des risques liés au contenu pour les mineurs et introduisons MinorBench, un benchmark open-source conçu pour évaluer les LLMs sur leur capacité à refuser les requêtes dangereuses ou inappropriées des enfants. Nous évaluons six LLMs majeurs sous différentes instructions système, démontrant une variabilité substantielle dans leur conformité à la sécurité des enfants. Nos résultats informent sur les étapes pratiques pour des mécanismes de sécurité plus robustes et centrés sur les enfants, et soulignent l'urgence d'adapter les systèmes d'IA pour protéger les jeunes utilisateurs.

English

Large Language Models (LLMs) are rapidly entering children's lives - through parent-driven adoption, schools, and peer networks - yet current AI ethics and safety research do not adequately address content-related risks specific to minors. In this paper, we highlight these gaps with a real-world case study of an LLM-based chatbot deployed in a middle school setting, revealing how students used and sometimes misused the system. Building on these findings, we propose a new taxonomy of content-based risks for minors and introduce MinorBench, an open-source benchmark designed to evaluate LLMs on their ability to refuse unsafe or inappropriate queries from children. We evaluate six prominent LLMs under different system prompts, demonstrating substantial variability in their child-safety compliance. Our results inform practical steps for more robust, child-focused safety mechanisms and underscore the urgency of tailoring AI systems to safeguard young users.

MinorBench : Un benchmark manuel pour les risques liés au contenu pour les enfants

MinorBench: A hand-built benchmark for content-based risks for children

papers.abstract

Support