ChatPaper.aiChatPaper

Von Daten zu Verhalten: Unbeabsichtigte Modellverhalten vor dem Training vorhersagen

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

February 4, 2026
papers.authors: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) können unbeabsichtigte Verzerrungen aus scheinbar harmlosen Trainingsdaten erwerben, selbst ohne explizite Hinweise oder bösartige Inhalte. Bestehende Methoden haben Schwierigkeiten, solche Risiken vor dem Fine-Tuning zu erkennen, was die nachträgliche Bewertung kostspielig und ineffizient macht. Um diese Herausforderung zu bewältigen, führen wir Data2Behavior ein, eine neue Aufgabe zur Vorhersage unbeabsichtigter Modellverhaltensweisen vor dem Training. Wir schlagen außerdem Manipulating Data Features (MDF) vor, einen leichtgewichtigen Ansatz, der Kandidatendaten über ihre mittleren Repräsentationen zusammenfasst und sie in den Forward-Pass eines Basismodells einspeist. Dies ermöglicht es, dass latente statistische Signale in den Daten die Modellaktivierungen formen und potenzielle Verzerrungen und Sicherheitsrisiken aufdecken, ohne dass Parameter aktualisiert werden müssen. MDF erreicht eine zuverlässige Vorhersage, während es nur etwa 20 % der GPU-Ressourcen verbraucht, die für Fine-Tuning erforderlich sind. Experimente mit Qwen3-14B, Qwen2.5-32B-Instruct und Gemma-3-12b-it bestätigen, dass MDF unbeabsichtigtes Verhalten antizipieren und Einblicke in Schwachstellen des Pre-Trainings liefern kann.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.
PDF131February 6, 2026