De los Datos a la Conducta: Prediciendo Comportamientos No Deseados de Modelos Antes del Entrenamiento
From Data to Behavior: Predicting Unintended Model Behaviors Before Training
February 4, 2026
Autores: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLM) pueden adquirir sesgos no intencionados a partir de datos de entrenamiento aparentemente benignos, incluso sin indicaciones explícitas o contenido malicioso. Los métodos existentes tienen dificultades para detectar dichos riesgos antes del ajuste fino, lo que hace que la evaluación *post hoc* sea costosa e ineficiente. Para abordar este desafío, presentamos Data2Behavior, una nueva tarea para predecir comportamientos no deseados del modelo antes del entrenamiento. También proponemos Manipulación de Características de Datos (MDF, por sus siglas en inglés), un enfoque ligero que resume los datos candidatos a través de sus representaciones medias y los inyecta en el pase hacia adelante de un modelo base, permitiendo que las señales estadísticas latentes en los datos moldeen las activaciones del modelo y revelen posibles sesgos y riesgos de seguridad sin actualizar ningún parámetro. MDF logra una predicción confiable mientras consume solo aproximadamente el 20% de los recursos de GPU requeridos para el ajuste fino. Experimentos en Qwen3-14B, Qwen2.5-32B-Instruct y Gemma-3-12b-it confirman que MDF puede anticipar comportamientos no deseados y proporcionar información sobre vulnerabilidades en el pre-entrenamiento.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.