Escalonando MLPs: Uma História de Viés Indutivo
Scaling MLPs: A Tale of Inductive Bias
June 23, 2023
Autores: Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
cs.AI
Resumo
Neste trabalho, revisitamos o bloco fundamental mais básico do aprendizado profundo, o perceptron multicamadas (MLP), e estudamos os limites de seu desempenho em tarefas visuais. Insights empíricos sobre MLPs são importantes por múltiplas razões. (1) Dada a narrativa recente de que "menos viés indutivo é melhor", popularizada devido aos transformers superarem modelos convolucionais, é natural explorar os limites dessa hipótese. Para isso, os MLPs oferecem um campo de testes ideal, sendo completamente livres de qualquer viés indutivo. (2) Os MLPs têm sido quase exclusivamente os protagonistas principais na literatura teórica do aprendizado profundo devido à sua simplicidade matemática, servindo como um proxy para explicar fenômenos empíricos observados em arquiteturas mais complexas. Surpreendentemente, pontos de dados experimentais para MLPs são muito difíceis de encontrar na literatura, especialmente quando combinados com protocolos de pré-treinamento em larga escala. Essa discrepância entre prática e teoria é preocupante: os MLPs refletem os avanços empíricos exibidos por modelos práticos? Ou os teóricos precisam repensar o papel dos MLPs como um proxy? Fornecemos insights sobre ambos os aspectos. Mostramos que o desempenho dos MLPs melhora drasticamente com a escala (93% no CIFAR10, 79% no CIFAR100, 69% no TinyImageNet), destacando que a falta de viés indutivo pode de fato ser compensada. Observamos que os MLPs imitam fielmente o comportamento de seus equivalentes modernos, com alguns componentes no cenário de aprendizado, no entanto, exibindo comportamentos mais fortes ou inesperados. Devido à sua eficiência computacional inerente, experimentos de pré-treinamento em larga escala tornam-se mais acessíveis para pesquisadores acadêmicos. Todos os nossos experimentos foram executados em uma única GPU.
English
In this work we revisit the most fundamental building block in deep learning,
the multi-layer perceptron (MLP), and study the limits of its performance on
vision tasks. Empirical insights into MLPs are important for multiple reasons.
(1) Given the recent narrative "less inductive bias is better", popularized due
to transformers eclipsing convolutional models, it is natural to explore the
limits of this hypothesis. To that end, MLPs offer an ideal test bed, being
completely free of any inductive bias. (2) MLPs have almost exclusively been
the main protagonist in the deep learning theory literature due to their
mathematical simplicity, serving as a proxy to explain empirical phenomena
observed for more complex architectures. Surprisingly, experimental datapoints
for MLPs are very difficult to find in the literature, especially when coupled
with large pre-training protocols. This discrepancy between practice and theory
is worrying: Do MLPs reflect the empirical advances exhibited by practical
models? Or do theorists need to rethink the role of MLPs as a proxy? We provide
insights into both these aspects. We show that the performance of MLPs
drastically improves with scale (93% on CIFAR10, 79% on CIFAR100, 69% on
TinyImageNet), highlighting that lack of inductive bias can indeed be
compensated. We observe that MLPs mimic the behaviour of their modern
counterparts faithfully, with some components in the learning setting however
surprisingly exhibiting stronger or unexpected behaviours. Due to their
inherent computational efficiency, large pre-training experiments become more
accessible for academic researchers. All of our experiments were run on a
single GPU.