Mascarado pelo Consenso: Desvendando o Conhecimento Privilegiado na Corretude de LLMs

Resumo

Os seres humanos utilizam a introspecção para avaliar a sua própria compreensão através de estados internos privados, inacessíveis a observadores externos. Investigamos se os grandes modelos de linguagem possuem um conhecimento privilegiado semelhante sobre a correção de respostas, uma informação indisponível através da observação externa. Treinamos classificadores de correção com base em representações de perguntas derivadas tanto dos estados internos de um modelo como de modelos externos, testando se as autorrepresentações conferem uma vantagem de desempenho. Na avaliação padrão, não encontramos qualquer vantagem: as sondagens internas ("self-probes") têm um desempenho comparável às sondagens de modelos pares. A nossa hipótese é que isto se deve ao elevado consenso entre modelos sobre a correção das respostas. Para isolar um genuíno conhecimento privilegiado, avaliamos subconjuntos de discordância, onde os modelos produzem previsões conflituosas. Aqui, descobrimos um conhecimento privilegiado específico do domínio: as autorrepresentações superam consistentemente as representações de pares em tarefas de conhecimento factual, mas não mostram vantagem em raciocínio matemático. Localizamos ainda esta assimetria de domínio através das camadas do modelo, constatando que a vantagem factual emerge progressivamente a partir das camadas iniciais e intermédias, consistente com a recuperação de memória específica do modelo, enquanto o raciocínio matemático não mostra uma vantagem consistente em qualquer profundidade.

English

Humans use introspection to evaluate their understanding through private internal states inaccessible to external observers. We investigate whether large language models possess similar privileged knowledge about answer correctness, information unavailable through external observation. We train correctness classifiers on question representations from both a model's own hidden states and external models, testing whether self-representations provide a performance advantage. On standard evaluation, we find no advantage: self-probes perform comparably to peer-model probes. We hypothesize this is due to high inter-model agreement of answer correctness. To isolate genuine privileged knowledge, we evaluate on disagreement subsets, where models produce conflicting predictions. Here, we discover domain-specific privileged knowledge: self-representations consistently outperform peer representations in factual knowledge tasks, but show no advantage in math reasoning. We further localize this domain asymmetry across model layers, finding that the factual advantage emerges progressively from early-to-mid layers onward, consistent with model-specific memory retrieval, while math reasoning shows no consistent advantage at any depth.

Mascarado pelo Consenso: Desvendando o Conhecimento Privilegiado na Corretude de LLMs

Masked by Consensus: Disentangling Privileged Knowledge in LLM Correctness

Resumo

Support