ChatPaper.aiChatPaper

データから行動へ:訓練前における意図しないモデル行動の予測

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

February 4, 2026
著者: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

要旨

大規模言語モデル(LLM)は、明示的な手がかりや悪意のあるコンテンツがなくとも、一見無害な学習データから意図しないバイアスを獲得する可能性がある。既存の手法ではファインチューニング前のこうしたリスク検出が困難であり、事後評価はコストが高く非効率である。この課題に対処するため、我々は学習前に意図しないモデル挙動を予測する新タスク「Data2Behavior」を提案する。さらに、軽量な手法としてManipulating Data Features(MDF)を開発した。これは候補データを平均表現で要約し、ベースモデルのフォワードパスに注入することで、データ内の潜在的な統計的信号がモデルの活性化を形成し、パラメータ更新なしに潜在的なバイアスや安全性リスクを明らかにするものである。MDFは、ファインチューニングに必要なGPUリソースの約20%のみを消費しつつ、信頼性の高い予測を実現する。Qwen3-14B、Qwen2.5-32B-Instruct、Gemma-3-12b-itを用いた実験により、MDFが意図しない挙動を事前に予測し、事前学習時の脆弱性に関する知見を提供できることを確認した。
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.
PDF131February 6, 2026