Van data naar gedrag: Onbedoeld modelgedrag voorspellen vóór de training
From Data to Behavior: Predicting Unintended Model Behaviors Before Training
February 4, 2026
Auteurs: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) kunnen onbedoelde vooroordelen verwerven uit ogenschijnlijk onschuldige trainingsgegevens, zelfs zonder expliciete aanwijzingen of kwaadaardige inhoud. Bestaande methoden slagen er niet in om dergelijke risico's vóór fine-tuning op te sporen, waardoor post-hoc-evaluatie kostbaar en inefficiënt is. Om deze uitdaging aan te pakken, introduceren we Data2Behavior, een nieuwe taak voor het voorspellen van onbedoeld modelgedrag vóór de training. We stellen ook Manipulating Data Features (MDF) voor, een lichtgewicht benadering die kandidaatdata samenvat via hun gemiddelde representaties en deze injecteert in de forward pass van een basismodel. Hierdoor kunnen latente statistische signalen in de data modelactivaties vormen en potentiële vooroordelen en veiligheidsrisico's onthullen zonder dat parameters worden bijgewerkt. MDF bereikt betrouwbare voorspellingen terwijl het slechts ongeveer 20% van de GPU-bronnen verbruikt die nodig zijn voor fine-tuning. Experimenten met Qwen3-14B, Qwen2.5-32B-Instruct en Gemma-3-12b-it bevestigen dat MDF onbedoeld gedrag kan anticiperen en inzicht kan geven in kwetsbaarheden tijdens pre-training.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.