ChatPaper.aiChatPaper

От данных к поведению: прогнозирование нежелательного поведения моделей до обучения

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

February 4, 2026
Авторы: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

Аннотация

Крупные языковые модели (LLMs) могут приобретать непреднамеренные смещения из, казалось бы, безобидных обучающих данных даже без явных указаний или вредоносного контента. Существующие методы с трудом выявляют такие риски до тонкой настройки, что делает последующую оценку дорогостоящей и неэффективной. Для решения этой проблемы мы представляем Data2Behavior — новую задачу прогнозирования непреднамеренного поведения модели до начала обучения. Мы также предлагаем Manipulating Data Features (MDF), легковесный подход, который суммирует кандидатные данные через их усредненные представления и инжектирует их в прямой проход базовой модели. Это позволяет латентным статистическим сигналам в данных формировать активации модели и выявлять потенциальные смещения и риски безопасности без обновления каких-либо параметров. MDF обеспечивает надежное прогнозирование, потребляя при этом лишь около 20% GPU-ресурсов, необходимых для тонкой настройки. Эксперименты на моделях Qwen3-14B, Qwen2.5-32B-Instruct и Gemma-3-12b-it подтверждают, что MDF способен предсказывать непреднамеренное поведение и дает представление об уязвимостях, заложенных на этапе предварительного обучения.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.
PDF131February 6, 2026