GPT ou BERT: por que não ambos?
GPT or BERT: why not both?
October 31, 2024
Autores: Lucas Georges Gabriel Charpentier, David Samuel
cs.AI
Resumo
Apresentamos uma maneira simples de mesclar modelagem de linguagem mascarada com modelagem de linguagem causal. Esse objetivo de treinamento híbrido resulta em um modelo que combina as vantagens de ambos os paradigmas de modelagem dentro de uma única pilha de transformadores: GPT-BERT pode ser usado de forma transparente como qualquer modelo de linguagem causal ou mascarado padrão. Testamos o processo de pré-treinamento que possibilita esse comportamento flexível no Desafio BabyLM 2024. Os resultados mostram que o pré-treinamento híbrido supera os modelos apenas mascarados ou apenas causais. Disponibilizamos abertamente os modelos, corpora de treinamento e código.
English
We present a simple way to merge masked language modeling with causal
language modeling. This hybrid training objective results in a model that
combines the strengths of both modeling paradigms within a single transformer
stack: GPT-BERT can be transparently used like any standard causal or masked
language model. We test the pretraining process that enables this flexible
behavior on the BabyLM Challenge 2024. The results show that the hybrid
pretraining outperforms masked-only or causal-only models. We openly release
the models, training corpora and code.Summary
AI-Generated Summary