MEG-XL: Brain-to-Text Eficiente em Dados via Pré-treinamento de Contexto Longo

Resumo

As interfaces clínicas cérebro-texto são projetadas para pacientes paralisados que não podem fornecer gravações extensas de treinamento. O pré-treinamento melhora a generalização com uso eficiente de dados ao aprender prioridades estatísticas entre sujeitos, mas essas prioridades dependem criticamente do contexto. Embora a fala natural possa se desenrolar gradualmente ao longo de minutos, a maioria dos métodos utiliza pré-treinamento com apenas alguns segundos de contexto. Assim, propomos o MEG-XL, um modelo pré-treinado com 2,5 minutos de contexto de MEG por amostra, 5 a 300 vezes maior que trabalhos anteriores, equivalente a 191 mil tokens, capturando contexto neural estendido. Ao ajustar fino na tarefa de decodificação de palavras a partir de dados cerebrais, o MEG-XL iguala o desempenho supervisionado com uma fração dos dados (ex: 1h vs 50h) e supera modelos base de fundação cerebral. Descobrimos que modelos pré-treinados com contextos mais longos aprendem representações que transferem melhor para a decodificação de palavras. Nossos resultados indicam que o pré-treinamento de longo contexto ajuda a explorar contextos neurais estendidos que outros métodos descartam desnecessariamente. Código, pesos do modelo e instruções estão disponíveis em https://github.com/neural-processing-lab/MEG-XL.

English

Clinical brain-to-text interfaces are designed for paralysed patients who cannot provide extensive training recordings. Pre-training improves data-efficient generalisation by learning statistical priors across subjects, but these priors critically depend on context. While natural speech might unfold gradually over minutes, most methods pre-train with only a few seconds of context. Thus, we propose MEG-XL, a model pre-trained with 2.5 minutes of MEG context per sample, 5-300x longer than prior work, and equivalent to 191k tokens, capturing extended neural context. Fine-tuning on the task of word decoding from brain data, MEG-XL matches supervised performance with a fraction of the data (e.g. 1hr vs 50hrs) and outperforms brain foundation models. We find that models pre-trained with longer contexts learn representations that transfer better to word decoding. Our results indicate that long-context pre-training helps exploit extended neural context that other methods unnecessarily discard. Code, model weights, and instructions are available at https://github.com/neural-processing-lab/MEG-XL .

MEG-XL: Brain-to-Text Eficiente em Dados via Pré-treinamento de Contexto Longo

MEG-XL: Data-Efficient Brain-to-Text via Long-Context Pre-Training

Resumo

Support