데이터에서 행동으로: 훈련 전 의도하지 않은 모델 행동 예측하기
From Data to Behavior: Predicting Unintended Model Behaviors Before Training
February 4, 2026
저자: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
초록
대규모 언어 모델(LLM)은 명시적 단서나 악성 콘텐츠 없이도 겉보기에는 무해한 훈련 데이터로부터 의도치 않은 편향을 학습할 수 있습니다. 기존 방법론은 미세 조정 전에 이러한 위험을 탐지하는 데 어려움을 겪어 사후 평가가 비용이 많이 들고 비효율적입니다. 이러한 문제를 해결하기 위해 우리는 훈련 전에 의도하지 않은 모델 행동을 예측하는 새로운 과제인 Data2Behavior를 소개합니다. 또한 경량 접근법인 MDF(Manipulating Data Features)를 제안합니다. MDF는 후보 데이터를 평균 표현으로 요약하여 기본 모델의 순전파 과정에 주입함으로써, 데이터 내 잠재적 통계적 신호가 모델 활성화를 형성하도록 하여 매개변수 업데이트 없이도 잠재적 편향과 안전 위험을 드러냅니다. MDF는 미세 조정에 필요한 GPU 자원의 약 20%만 소비하면서도 신뢰할 수 있는 예측 성능을 달성합니다. Qwen3-14B, Qwen2.5-32B-Instruct, Gemma-3-12b-it 모델에 대한 실험을 통해 MDF가 의도하지 않은 행동을 예측하고 사전 훈련 취약점에 대한 통찰력을 제공할 수 있음을 확인했습니다.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.