ChatPaper.aiChatPaper

Detecção de Contaminação de Dados no Pós-treinamento por Aprendizado por Reforço em Modelos de Linguagem de Grande Escala

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

October 10, 2025
Autores: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI

Resumo

A contaminação de dados representa uma ameaça significativa para a avaliação confiável de Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês). Esse problema ocorre quando amostras de benchmarks podem aparecer inadvertidamente em conjuntos de treinamento, comprometendo a validade do desempenho reportado. Embora métodos de detecção tenham sido desenvolvidos para as etapas de pré-treinamento e Ajuste Fino Supervisionado, existe uma lacuna crítica de pesquisa para a fase cada vez mais relevante de Pós-Treinamento com Aprendizado por Reforço (RL, na sigla em inglês). À medida que o pós-treinamento com RL se torna crucial para o avanço do raciocínio dos LLMs, a ausência de métodos especializados de detecção de contaminação nesse paradigma representa uma vulnerabilidade crítica. Para abordar essa questão, realizamos o primeiro estudo sistemático de detecção de dados no cenário de pós-treinamento com RL e propomos o método Self-Critique. Nossa abordagem é motivada por uma observação fundamental: após a fase de RL, a distribuição de entropia das saídas dos LLMs tende a colapsar em modos altamente específicos e esparsos. O Self-Critique investiga o colapso subjacente da política, ou seja, a convergência do modelo para um caminho de raciocínio estreito, que causa essa redução de entropia. Para facilitar essa pesquisa, também introduzimos o RL-MIA, um benchmark construído para simular esse cenário específico de contaminação. Experimentos extensivos mostram que o Self-Critique supera significativamente os métodos de baseline em vários modelos e tarefas de contaminação, alcançando uma melhoria de AUC de até 30%. Enquanto os métodos existentes se aproximam de um palpite aleatório para contaminação na fase de RL, nossa abordagem torna a detecção viável.
English
Data contamination poses a significant threat to the reliable evaluation of Large Language Models (LLMs). This issue arises when benchmark samples may inadvertently appear in training sets, compromising the validity of reported performance. While detection methods have been developed for the pre-training and Supervised Fine-Tuning stages, a critical research gap exists for the increasingly significant phase of Reinforcement Learning (RL) post-training. As RL post-training becomes pivotal for advancing LLM reasoning, the absence of specialized contamination detection methods in this paradigm presents a critical vulnerability. To address this, we conduct the first systematic study of data detection within RL post-training scenario and propose Self-Critique. Our method is motivated by a key observation: after RL phase, the output entropy distribution of LLMs tends to collapse into highly specific and sparse modes. Self-Critique probes for the underlying policy collapse, i.e., the model's convergence to a narrow reasoning path, which causes this entropy reduction. To facilitate this research, we also introduce RL-MIA, a benchmark constructed to simulate this specific contamination scenario. Extensive experiments show that Self-Critique significantly outperforms baseline methods across multiple models and contamination tasks, achieving an AUC improvement of up to 30%. Whereas existing methods are close to a random guess for RL-phase contamination, our method makes detection possible.
PDF32February 7, 2026