ChatPaper.aiChatPaper

Repenser la convention de forme d'un MLP

Rethinking the shape convention of an MLP

October 2, 2025
papers.authors: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI

papers.abstract

Les perceptrons multicouches (MLP) suivent conventionnellement une conception étroite-large-étroite où les connexions résiduelles opèrent aux dimensions d'entrée/sortie tandis que le traitement s'effectue dans des espaces cachés élargis. Nous remettons en question cette convention en proposant des blocs MLP large-étroit-large (en forme de sablier) où les connexions résiduelles opèrent à des dimensions élargies tandis que le calcul résiduel traverse des goulots d'étranglement étroits. Cette inversion exploite des espaces de plus haute dimension pour un raffinement incrémental tout en maintenant l'efficacité computationnelle grâce à des conceptions à paramètres équivalents. La mise en œuvre des MLP en sablier nécessite une projection initiale pour élever les signaux d'entrée à des dimensions élargies. Nous proposons que cette projection puisse rester fixe à l'initialisation aléatoire tout au long de l'entraînement, permettant des implémentations efficaces pour l'entraînement et l'inférence. Nous évaluons les deux architectures sur des tâches génératives sur des ensembles de données d'images populaires, en caractérisant les frontières de Pareto performance-paramètres grâce à une recherche architecturale systématique. Les résultats montrent que les architectures en sablier atteignent systématiquement des frontières de Pareto supérieures par rapport aux conceptions conventionnelles. À mesure que les budgets de paramètres augmentent, les configurations optimales en sablier privilégient des réseaux plus profonds avec des connexions résiduelles plus larges et des goulots d'étranglement plus étroits—un modèle de mise à l'échelle distinct des MLP conventionnels. Nos résultats suggèrent de reconsidérer le placement des connexions résiduelles dans les architectures modernes, avec des applications potentielles s'étendant aux Transformers et autres réseaux résiduels.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow design where skip connections operate at the input/output dimensions while processing occurs in expanded hidden spaces. We challenge this convention by proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections operate at expanded dimensions while residual computation flows through narrow bottlenecks. This inversion leverages higher-dimensional spaces for incremental refinement while maintaining computational efficiency through parameter-matched designs. Implementing Hourglass MLPs requires an initial projection to lift input signals to expanded dimensions. We propose that this projection can remain fixed at random initialization throughout training, enabling efficient training and inference implementations. We evaluate both architectures on generative tasks over popular image datasets, characterizing performance-parameter Pareto frontiers through systematic architectural search. Results show that Hourglass architectures consistently achieve superior Pareto frontiers compared to conventional designs. As parameter budgets increase, optimal Hourglass configurations favor deeper networks with wider skip connections and narrower bottlenecks-a scaling pattern distinct from conventional MLPs. Our findings suggest reconsidering skip connection placement in modern architectures, with potential applications extending to Transformers and other residual networks.
PDF32October 3, 2025