Escalonando MLPs: Uma História de Viés Indutivo

Resumo

Neste trabalho, revisitamos o bloco fundamental mais básico do aprendizado profundo, o perceptron multicamadas (MLP), e estudamos os limites de seu desempenho em tarefas visuais. Insights empíricos sobre MLPs são importantes por múltiplas razões. (1) Dada a narrativa recente de que "menos viés indutivo é melhor", popularizada devido aos transformers superarem modelos convolucionais, é natural explorar os limites dessa hipótese. Para isso, os MLPs oferecem um campo de testes ideal, sendo completamente livres de qualquer viés indutivo. (2) Os MLPs têm sido quase exclusivamente os protagonistas principais na literatura teórica do aprendizado profundo devido à sua simplicidade matemática, servindo como um proxy para explicar fenômenos empíricos observados em arquiteturas mais complexas. Surpreendentemente, pontos de dados experimentais para MLPs são muito difíceis de encontrar na literatura, especialmente quando combinados com protocolos de pré-treinamento em larga escala. Essa discrepância entre prática e teoria é preocupante: os MLPs refletem os avanços empíricos exibidos por modelos práticos? Ou os teóricos precisam repensar o papel dos MLPs como um proxy? Fornecemos insights sobre ambos os aspectos. Mostramos que o desempenho dos MLPs melhora drasticamente com a escala (93% no CIFAR10, 79% no CIFAR100, 69% no TinyImageNet), destacando que a falta de viés indutivo pode de fato ser compensada. Observamos que os MLPs imitam fielmente o comportamento de seus equivalentes modernos, com alguns componentes no cenário de aprendizado, no entanto, exibindo comportamentos mais fortes ou inesperados. Devido à sua eficiência computacional inerente, experimentos de pré-treinamento em larga escala tornam-se mais acessíveis para pesquisadores acadêmicos. Todos os nossos experimentos foram executados em uma única GPU.

English

In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative "less inductive bias is better", popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, being completely free of any inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (93% on CIFAR10, 79% on CIFAR100, 69% on TinyImageNet), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however surprisingly exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU.

Escalonando MLPs: Uma História de Viés Indutivo

Scaling MLPs: A Tale of Inductive Bias

Resumo

Support