Seleção de Dados de Pré-treinamento Orientada a Alvos via Grafo Ativado por Neurônios

Resumo

As tarefas diárias possuem um objetivo, e pré-treinar modelos em torno desse objetivo é o que os transforma em especialistas. Neste artigo, estudamos o pré-treinamento de modelos de linguagem (LM) orientado a objetivos através da introdução do *Ranking baseado em Grafos de Neurónios Ativados* (NAG-based Ranking), uma estrutura isenta de treino e interpretável para a seleção de dados de pré-treinamento orientada a um objetivo. Em vez de usar representações de "caixa preta", a nossa abordagem caracteriza diretamente cada entrada de objetivo por um conjunto esparso de neurónios de alto impacto em qualquer LLM (*Large Language Model*) disponível. Concretamente, quantificamos o impacto dos neurónios e selecionamos os neurónios mais influentes através das camadas num *Gráfico de Neurónios Ativados* (NAG) compacto, e classificamos os dados candidatos pela similaridade do NAG com os exemplos de objetivo. Realizamos experiências em seis *benchmarks*, onde o nosso *Ranking* baseado em NAG melhorou o pré-treinamento orientado a objetivos em 4,9% em média face a uma amostragem aleatória, e também superou as linhas de base (*baselines*) mais avançadas (*state-of-the-art*) em 5,3% de precisão no HellaSwag. A abordagem também se mantém eficaz num cenário mais aplicável de múltiplos objetivos, onde a nossa melhor configuração supera duas linhas de base em 1,1% e 4,1%, respetivamente. Além disso, fornecemos uma análise abrangente sobre o porquê e o como do nosso NAG funcionar; por exemplo, desativar os neurónios selecionados pelo NAG (apenas 0,12% do total) provoca um colapso de desempenho de 23,5%, e restringir o NAG à camada final acarreta uma queda média de 4,1%, indicando que o NAG captura uma "espinha dorsal funcional" esparsa para a aprendizagem de características do objetivo. O código está disponível em https://github.com/asillycat/NAG.

English

Everyday tasks come with a target, and pretraining models around this target is what turns them into experts. In this paper, we study target-oriented language model (LM) pretraining by introducing Neuron-Activated Graph Ranking (NAG-based Ranking), a training-free and interpretable framework for target pretraining data selection. Rather than using black-box representations, our approach directly characterizes each target input by a sparse set of high-impact neurons in any off-the-shelf LLMs. Concretely, we quantify neuron impact and select the most influential neurons across layers into a compact Neuron-Activated Graph (NAG), and rank candidate data by NAG similarity to target examples. We conduct experiments across six benchmarks, where our NAG-based Ranking improves target-oriented pretraining by 4.9% on average over random sampling, and also outperforms state-of-the-art baselines by 5.3% accuracy on HellaSwag. It also remains effective under a more applicable multi-target setting, where our best setup surpasses two baselines by 1.1% and 4.1%, respectively. Furthermore, we provide a comprehensive analysis on why and how our NAG works, e.g., deactivating NAG-selected neurons (only 0.12% of all) causes a 23.5% performance collapse, and restricting NAG to the final layer incurs a 4.1% average drop, indicating that NAG captures a sparse "functional backbone" for learning target features. We release the code at https://github.com/asillycat/NAG.

Seleção de Dados de Pré-treinamento Orientada a Alvos via Grafo Ativado por Neurônios

Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Resumo

Support