ChatPaper.aiChatPaper

Da dati a comportamento: predire comportamenti indesiderati del modello prima dell'addestramento

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

February 4, 2026
Autori: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

Abstract

I grandi modelli linguistici (LLM) possono acquisire bias non intenzionali da dati di addestramento apparentemente innocui, anche in assenza di segnali espliciti o contenuti malevoli. I metodi esistenti faticano a rilevare tali rischi prima del fine-tuning, rendendo la valutazione post hoc costosa e inefficiente. Per affrontare questa sfida, introduciamo Data2Behavior, un nuovo compito che mira a prevedere i comportamenti indesiderati del modello prima dell'addestramento. Proponiamo inoltre Manipulating Data Features (MDF), un approccio leggero che sintetizza i dati candidati attraverso le loro rappresentazioni medie e le inietta nel forward pass di un modello base, permettendo ai segnali statistici latenti nei dati di modellare le attivazioni del modello e rivelare potenziali bias e rischi per la sicurezza senza aggiornare alcun parametro. MDF raggiunge previsioni affidabili consumando solo circa il 20% delle risorse GPU richieste per il fine-tuning. Esperimenti condotti su Qwen3-14B, Qwen2.5-32B-Instruct e Gemma-3-12b-it confermano che MDF può anticipare comportamenti non intenzionali e fornire insight sulle vulnerabilità del pre-training.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.
PDF134February 8, 2026