Neubewertung der Formkonvention eines MLP
Rethinking the shape convention of an MLP
October 2, 2025
papers.authors: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI
papers.abstract
Multilayer-Perceptrons (MLPs) folgen konventionell einem schmal-breit-schmal-Design, bei dem Skip-Verbindungen auf den Ein- und Ausgabedimensionen operieren, während die Verarbeitung in erweiterten verborgenen Räumen stattfindet. Wir stellen diese Konvention in Frage, indem wir breit-schmal-breit (Hourglass) MLP-Blöcke vorschlagen, bei denen Skip-Verbindungen in erweiterten Dimensionen operieren, während der Rest der Berechnung durch schmale Engpässe fließt. Diese Umkehrung nutzt höherdimensionale Räume für inkrementelle Verfeinerungen, während sie durch parameterangepasste Designs die Recheneffizienz beibehält. Die Implementierung von Hourglass-MLPs erfordert eine anfängliche Projektion, um Eingangssignale in erweiterte Dimensionen zu heben. Wir schlagen vor, dass diese Projektion während des gesamten Trainings auf einer zufälligen Initialisierung fixiert bleiben kann, was effiziente Trainings- und Inferenzimplementierungen ermöglicht. Wir bewerten beide Architekturen anhand generativer Aufgaben über gängige Bilddatensätze und charakterisieren Performance-Parameter-Pareto-Grenzen durch systematische Architektursuche. Die Ergebnisse zeigen, dass Hourglass-Architekturen durchweg überlegene Pareto-Grenzen im Vergleich zu konventionellen Designs erreichen. Mit zunehmenden Parameterbudgets bevorzugen optimale Hourglass-Konfigurationen tiefere Netzwerke mit breiteren Skip-Verbindungen und schmaleren Engpässen – ein Skalierungsmuster, das sich von konventionellen MLPs unterscheidet. Unsere Ergebnisse legen nahe, die Platzierung von Skip-Verbindungen in modernen Architekturen zu überdenken, mit potenziellen Anwendungen, die sich auf Transformer und andere Residualnetzwerke erstrecken.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow
design where skip connections operate at the input/output dimensions while
processing occurs in expanded hidden spaces. We challenge this convention by
proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections
operate at expanded dimensions while residual computation flows through narrow
bottlenecks. This inversion leverages higher-dimensional spaces for incremental
refinement while maintaining computational efficiency through parameter-matched
designs. Implementing Hourglass MLPs requires an initial projection to lift
input signals to expanded dimensions. We propose that this projection can
remain fixed at random initialization throughout training, enabling efficient
training and inference implementations. We evaluate both architectures on
generative tasks over popular image datasets, characterizing
performance-parameter Pareto frontiers through systematic architectural search.
Results show that Hourglass architectures consistently achieve superior Pareto
frontiers compared to conventional designs. As parameter budgets increase,
optimal Hourglass configurations favor deeper networks with wider skip
connections and narrower bottlenecks-a scaling pattern distinct from
conventional MLPs. Our findings suggest reconsidering skip connection placement
in modern architectures, with potential applications extending to Transformers
and other residual networks.