ChatPaper.aiChatPaper

Ripensare la convenzione strutturale di un MLP

Rethinking the shape convention of an MLP

October 2, 2025
Autori: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI

Abstract

I perceptroni multistrato (MLP) seguono convenzionalmente un design stretto-ampio-stretto in cui le connessioni skip operano alle dimensioni di input/output mentre l'elaborazione avviene in spazi nascosti espansi. Sfidiamo questa convenzione proponendo blocchi MLP ampio-stretto-ampio (Hourglass) in cui le connessioni skip operano a dimensioni espansive mentre il flusso residuo di calcolo passa attraverso colli di bottiglia stretti. Questa inversione sfrutta spazi a dimensioni più elevate per un affinamento incrementale mantenendo l'efficienza computazionale attraverso design bilanciati nei parametri. L'implementazione di MLP Hourglass richiede una proiezione iniziale per elevare i segnali di input a dimensioni espansive. Proponiamo che questa proiezione possa rimanere fissa all'inizializzazione casuale durante l'addestramento, consentendo implementazioni efficienti per training e inferenza. Valutiamo entrambe le architetture su task generativi su popolari dataset di immagini, caratterizzando i fronti di Pareto prestazioni-parametri attraverso una ricerca architetturale sistematica. I risultati mostrano che le architetture Hourglass raggiungono costantemente fronti di Pareto superiori rispetto ai design convenzionali. All'aumentare del budget di parametri, le configurazioni ottimali Hourglass favoriscono reti più profonde con connessioni skip più ampie e colli di bottiglia più stretti - uno schema di scalabilità distinto dai MLP convenzionali. I nostri risultati suggeriscono di riconsiderare il posizionamento delle connessioni skip nelle architetture moderne, con potenziali applicazioni che si estendono ai Transformer e ad altre reti residue.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow design where skip connections operate at the input/output dimensions while processing occurs in expanded hidden spaces. We challenge this convention by proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections operate at expanded dimensions while residual computation flows through narrow bottlenecks. This inversion leverages higher-dimensional spaces for incremental refinement while maintaining computational efficiency through parameter-matched designs. Implementing Hourglass MLPs requires an initial projection to lift input signals to expanded dimensions. We propose that this projection can remain fixed at random initialization throughout training, enabling efficient training and inference implementations. We evaluate both architectures on generative tasks over popular image datasets, characterizing performance-parameter Pareto frontiers through systematic architectural search. Results show that Hourglass architectures consistently achieve superior Pareto frontiers compared to conventional designs. As parameter budgets increase, optimal Hourglass configurations favor deeper networks with wider skip connections and narrower bottlenecks-a scaling pattern distinct from conventional MLPs. Our findings suggest reconsidering skip connection placement in modern architectures, with potential applications extending to Transformers and other residual networks.
PDF32October 3, 2025