ChatPaper.aiChatPaper

Do Dado ao Comportamento: Prevendo Comportamentos Indesejados de Modelos Antes do Treinamento

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

February 4, 2026
Autores: Mengru Wang, Zhenqian Xu, Junfeng Fang, Yunzhi Yao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) podem adquirir vieses não intencionais a partir de dados de treinamento aparentemente benignos, mesmo sem pistas explícitas ou conteúdo malicioso. Os métodos existentes têm dificuldade em detectar tais riscos antes do ajuste fino, tornando a avaliação post hoc dispendiosa e ineficiente. Para enfrentar este desafio, introduzimos o Data2Behavior, uma nova tarefa para prever comportamentos indesejados do modelo antes do treinamento. Também propomos a Manipulação de Características dos Dados (MDF), uma abordagem leve que resume os dados candidatos através das suas representações médias e as injeta no passe direto de um modelo base, permitindo que sinais estatísticos latentes nos dados moldem as ativações do modelo e revelem vieses potenciais e riscos de segurança sem atualizar quaisquer parâmetros. O MDF alcança previsão confiável enquanto consome apenas cerca de 20% dos recursos de GPU necessários para o ajuste fino. Experimentos com Qwen3-14B, Qwen2.5-32B-Instruct e Gemma-3-12b-it confirmam que o MDF pode antecipar comportamentos não intencionais e fornecer insights sobre vulnerabilidades no pré-treinamento.
English
Large Language Models (LLMs) can acquire unintended biases from seemingly benign training data even without explicit cues or malicious content. Existing methods struggle to detect such risks before fine-tuning, making post hoc evaluation costly and inefficient. To address this challenge, we introduce Data2Behavior, a new task for predicting unintended model behaviors prior to training. We also propose Manipulating Data Features (MDF), a lightweight approach that summarizes candidate data through their mean representations and injects them into the forward pass of a base model, allowing latent statistical signals in the data to shape model activations and reveal potential biases and safety risks without updating any parameters. MDF achieves reliable prediction while consuming only about 20% of the GPU resources required for fine-tuning. Experiments on Qwen3-14B, Qwen2.5-32B-Instruct, and Gemma-3-12b-it confirm that MDF can anticipate unintended behaviors and provide insight into pre-training vulnerabilities.
PDF134February 8, 2026