LaRA: Análise de Representação por Camadas para Detecção de Contaminação de Dados no Pós-Treinamento em RL

Resumo

O pós-treinamento por aprendizado por reforço (RL) tem se mostrado eficaz para melhorar o raciocínio em grandes modelos de linguagem (LLMs). No entanto, houve pouca exploração do problema de contaminação de dados no pós-treinamento por RL, potencialmente comprometendo a generalização e a confiabilidade da avaliação do próprio processo de treinamento. Os métodos de detecção existentes baseiam-se principalmente em sinais de nível de saída, como verossimilhança ou entropia, que se tornam não confiáveis para modelos treinados com RL, uma vez que o RL molda o comportamento por meio de recompensas em nível de trajetória, e não de verossimilhanças de tokens. Propomos LaRA, uma estrutura de análise de representação em nível de camada para detectar contaminação em LLMs pós-treinados por RL. LaRA introduz três métricas complementares, medindo sensibilidade a perturbações, colapso direcional e rigidez de representação local sob perturbações controladas. Descobrimos que a contaminação produz desvios geométricos progressivos entre as camadas, incluindo sensibilidade amplificada a perturbações, colapso direcional mais forte e rigidez local aumentada. Com base em nossas descobertas, também desenvolvemos um protocolo de detecção de contaminação que agrega desvios no nível de representação entre camadas e métricas. Experimentos em modelos de raciocínio treinados com RL mostram que nosso protocolo supera as linhas de base existentes em nível de saída para detecção de contaminação.

English

Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little exploration on the problem of data contamination in RL post-training, potentially undermining generalization and evaluation reliability of the training process itself. Existing detection methods primarily rely on output-level signals such as likelihood or entropy, which become unreliable for RL-trained models since RL shapes behavior through trajectory-level rewards rather than token likelihoods. We propose LaRA, a layer-wise representation analysis framework for detecting contamination in RL post-trained LLMs. LaRA introduces three complementary metrics, measuring perturbation sensitivity, directional collapse, and local representation rigidity under controlled perturbations. We find that contamination produces progressive geometric deviations across layers, including amplified perturbation sensitivity, stronger directional collapse, and enhanced local rigidity. Based on our findings, we also develop a contamination detection protocol that aggregates representation-level deviations across layers and metrics. Experiments on RL-trained reasoning models show that our protocol outperforms existing output-level baselines for contamination detection.