Het vormconventie van een MLP heroverwegen
Rethinking the shape convention of an MLP
October 2, 2025
Auteurs: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI
Samenvatting
Multi-layer perceptrons (MLPs) volgen conventioneel een smal-breed-smal ontwerp waarbij skip-verbindingen werken op de in-/uitvoerdimensies terwijl verwerking plaatsvindt in uitgebreide verborgen ruimtes. Wij dagen deze conventie uit door brede-smal-brede (Hourglass) MLP-blokken voor te stellen waarbij skip-verbindingen werken op uitgebreide dimensies terwijl restberekeningen door smalle bottlenecks stromen. Deze omkering benut hogerdimensionale ruimtes voor incrementele verfijning terwijl rekenefficiëntie wordt behouden door parameter-afgestemde ontwerpen. Het implementeren van Hourglass MLPs vereist een initiële projectie om ingangssignalen naar uitgebreide dimensies te tillen. Wij stellen voor dat deze projectie vast kan blijven op willekeurige initialisatie gedurende de training, wat efficiënte trainings- en inferentie-implementaties mogelijk maakt. Wij evalueren beide architecturen op generatieve taken over populaire beelddatasets, waarbij we prestatie-parameter Pareto-fronten karakteriseren door systematische architectuurzoektochten. Resultaten tonen aan dat Hourglass-architecturen consistent superieure Pareto-fronten bereiken in vergelijking met conventionele ontwerpen. Naarmate parameterbudgetten toenemen, geven optimale Hourglass-configuraties de voorkeur aan diepere netwerken met bredere skip-verbindingen en smallere bottlenecks—een schaalpatroon dat verschilt van conventionele MLPs. Onze bevindingen suggereren een heroverweging van de plaatsing van skip-verbindingen in moderne architecturen, met mogelijke toepassingen die zich uitstrekken tot Transformers en andere restnetwerken.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow
design where skip connections operate at the input/output dimensions while
processing occurs in expanded hidden spaces. We challenge this convention by
proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections
operate at expanded dimensions while residual computation flows through narrow
bottlenecks. This inversion leverages higher-dimensional spaces for incremental
refinement while maintaining computational efficiency through parameter-matched
designs. Implementing Hourglass MLPs requires an initial projection to lift
input signals to expanded dimensions. We propose that this projection can
remain fixed at random initialization throughout training, enabling efficient
training and inference implementations. We evaluate both architectures on
generative tasks over popular image datasets, characterizing
performance-parameter Pareto frontiers through systematic architectural search.
Results show that Hourglass architectures consistently achieve superior Pareto
frontiers compared to conventional designs. As parameter budgets increase,
optimal Hourglass configurations favor deeper networks with wider skip
connections and narrower bottlenecks-a scaling pattern distinct from
conventional MLPs. Our findings suggest reconsidering skip connection placement
in modern architectures, with potential applications extending to Transformers
and other residual networks.