ChatPaper.aiChatPaper

De la donnée au comportement : prédire les comportements indésirables des modèles avant l'entraînement

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

February 4, 2026
papers.authors: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

papers.abstract

Les grands modèles de langage (LLM) peuvent acquérir des biais non intentionnels à partir de données d'entraînement apparemment bénignes, même sans indices explicites ou contenu malveillant. Les méthodes existantes peinent à détecter ces risques avant le fine-tuning, rendant l'évaluation post hoc coûteuse et inefficace. Pour relever ce défi, nous introduisons Data2Behavior, une nouvelle tâche visant à prédire les comportements non intentionnels des modèles avant l'entraînement. Nous proposons également Manipulating Data Features (MDF), une approche légère qui résume les données candidates via leurs représentations moyennes et les injecte dans la passe avant d'un modèle de base, permettant aux signaux statistiques latents dans les données d'influencer les activations du modèle et de révéler les biais potentiels et risques de sécurité sans mettre à jour aucun paramètre. MDF permet une prédiction fiable tout en consommant seulement environ 20% des ressources GPU nécessaires au fine-tuning. Les expériences sur Qwen3-14B, Qwen2.5-32B-Instruct et Gemma-3-12b-it confirment que MDF peut anticiper les comportements non intentionnels et fournir un éclairage sur les vulnérabilités pré-entraînement.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.
PDF131February 6, 2026