ChatPaper.aiChatPaper

MinorBench: 아동을 위한 콘텐츠 기반 위험 평가를 위한 수작업 벤치마크

MinorBench: A hand-built benchmark for content-based risks for children

March 13, 2025
저자: Shaun Khoo, Gabriel Chua, Rachel Shong
cs.AI

초록

대형 언어 모델(LLMs)은 부모 주도의 도입, 학교, 또래 네트워크를 통해 어린이들의 삶에 빠르게 침투하고 있지만, 현재의 AI 윤리 및 안전 연구는 미성년자에게 특화된 콘텐츠 관련 위험을 충분히 다루지 못하고 있습니다. 본 논문에서는 중학교 환경에 배포된 LLM 기반 챗봇의 실제 사례 연구를 통해 이러한 격차를 부각시키고, 학생들이 시스템을 사용하고 때로는 오용하는 방식을 밝혀냅니다. 이러한 연구 결과를 바탕으로, 우리는 미성년자를 위한 콘텐츠 기반 위험의 새로운 분류 체계를 제안하고, 어린이의 안전하지 않거나 부적절한 질문을 거부하는 LLM의 능력을 평가하기 위해 설계된 오픈소스 벤치마크인 MinorBench를 소개합니다. 우리는 다양한 시스템 프롬프트 하에서 6개의 주요 LLM을 평가하여, 이들이 아동 안전 준수 측면에서 상당한 변동성을 보임을 입증합니다. 연구 결과는 더 강력하고 아동 중심의 안전 메커니즘을 위한 실질적인 단계를 제시하며, 젊은 사용자를 보호하기 위해 AI 시스템을 맞춤화하는 것이 시급함을 강조합니다.
English
Large Language Models (LLMs) are rapidly entering children's lives - through parent-driven adoption, schools, and peer networks - yet current AI ethics and safety research do not adequately address content-related risks specific to minors. In this paper, we highlight these gaps with a real-world case study of an LLM-based chatbot deployed in a middle school setting, revealing how students used and sometimes misused the system. Building on these findings, we propose a new taxonomy of content-based risks for minors and introduce MinorBench, an open-source benchmark designed to evaluate LLMs on their ability to refuse unsafe or inappropriate queries from children. We evaluate six prominent LLMs under different system prompts, demonstrating substantial variability in their child-safety compliance. Our results inform practical steps for more robust, child-focused safety mechanisms and underscore the urgency of tailoring AI systems to safeguard young users.

Summary

AI-Generated Summary

PDF43March 14, 2025