Repensando a convenção de forma de uma MLP
Rethinking the shape convention of an MLP
October 2, 2025
Autores: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI
Resumo
Perceptrons multicamadas (MLPs) convencionalmente seguem um design estreito-amplo-estreito, onde as conexões de salto operam nas dimensões de entrada/saída enquanto o processamento ocorre em espaços ocultos expandidos. Desafiamos essa convenção propondo blocos MLP amplo-estreito-amplo (Hourglass), onde as conexões de salto operam em dimensões expandidas enquanto o fluxo residual de computação passa por gargalos estreitos. Essa inversão aproveita espaços de maior dimensão para refinamento incremental, mantendo a eficiência computacional por meio de designs com parâmetros equivalentes. A implementação de MLPs Hourglass requer uma projeção inicial para elevar os sinais de entrada a dimensões expandidas. Propomos que essa projeção pode permanecer fixa na inicialização aleatória durante todo o treinamento, permitindo implementações eficientes de treinamento e inferência. Avaliamos ambas as arquiteturas em tarefas generativas sobre conjuntos de dados de imagens populares, caracterizando fronteiras de Pareto de desempenho-parâmetro por meio de buscas arquitetônicas sistemáticas. Os resultados mostram que as arquiteturas Hourglass consistentemente alcançam fronteiras de Pareto superiores em comparação com designs convencionais. À medida que os orçamentos de parâmetros aumentam, as configurações ótimas de Hourglass favorecem redes mais profundas com conexões de salto mais amplas e gargalos mais estreitos - um padrão de escalonamento distinto dos MLPs convencionais. Nossas descobertas sugerem reconsiderar o posicionamento das conexões de salto em arquiteturas modernas, com potenciais aplicações estendendo-se a Transformers e outras redes residuais.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow
design where skip connections operate at the input/output dimensions while
processing occurs in expanded hidden spaces. We challenge this convention by
proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections
operate at expanded dimensions while residual computation flows through narrow
bottlenecks. This inversion leverages higher-dimensional spaces for incremental
refinement while maintaining computational efficiency through parameter-matched
designs. Implementing Hourglass MLPs requires an initial projection to lift
input signals to expanded dimensions. We propose that this projection can
remain fixed at random initialization throughout training, enabling efficient
training and inference implementations. We evaluate both architectures on
generative tasks over popular image datasets, characterizing
performance-parameter Pareto frontiers through systematic architectural search.
Results show that Hourglass architectures consistently achieve superior Pareto
frontiers compared to conventional designs. As parameter budgets increase,
optimal Hourglass configurations favor deeper networks with wider skip
connections and narrower bottlenecks-a scaling pattern distinct from
conventional MLPs. Our findings suggest reconsidering skip connection placement
in modern architectures, with potential applications extending to Transformers
and other residual networks.