ChatPaper.aiChatPaper

Replanteando la convención de la forma de una MLP

Rethinking the shape convention of an MLP

October 2, 2025
Autores: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI

Resumen

Los perceptrones multicapa (MLP, por sus siglas en inglés) tradicionalmente siguen un diseño estrecho-ancho-estrecho, donde las conexiones de salto operan en las dimensiones de entrada/salida mientras que el procesamiento ocurre en espacios ocultos expandidos. Desafiamos esta convención al proponer bloques MLP de tipo ancho-estrecho-ancho (Hourglass), donde las conexiones de salto operan en dimensiones expandidas mientras que el flujo residual de cálculo pasa a través de cuellos de botella estrechos. Esta inversión aprovecha espacios de mayor dimensión para el refinamiento incremental mientras mantiene la eficiencia computacional mediante diseños con parámetros equilibrados. La implementación de MLP Hourglass requiere una proyección inicial para elevar las señales de entrada a dimensiones expandidas. Proponemos que esta proyección puede permanecer fija en una inicialización aleatoria durante todo el entrenamiento, permitiendo implementaciones eficientes tanto en entrenamiento como en inferencia. Evaluamos ambas arquitecturas en tareas generativas sobre conjuntos de datos de imágenes populares, caracterizando las fronteras de Pareto de rendimiento-parámetro mediante búsquedas arquitectónicas sistemáticas. Los resultados muestran que las arquitecturas Hourglass logran consistentemente fronteras de Pareto superiores en comparación con los diseños convencionales. A medida que aumenta el presupuesto de parámetros, las configuraciones óptimas de Hourglass favorecen redes más profundas con conexiones de salto más anchas y cuellos de botella más estrechos, un patrón de escalado distinto al de los MLP convencionales. Nuestros hallazgos sugieren reconsiderar la ubicación de las conexiones de salto en arquitecturas modernas, con aplicaciones potenciales que se extienden a Transformers y otras redes residuales.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow design where skip connections operate at the input/output dimensions while processing occurs in expanded hidden spaces. We challenge this convention by proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections operate at expanded dimensions while residual computation flows through narrow bottlenecks. This inversion leverages higher-dimensional spaces for incremental refinement while maintaining computational efficiency through parameter-matched designs. Implementing Hourglass MLPs requires an initial projection to lift input signals to expanded dimensions. We propose that this projection can remain fixed at random initialization throughout training, enabling efficient training and inference implementations. We evaluate both architectures on generative tasks over popular image datasets, characterizing performance-parameter Pareto frontiers through systematic architectural search. Results show that Hourglass architectures consistently achieve superior Pareto frontiers compared to conventional designs. As parameter budgets increase, optimal Hourglass configurations favor deeper networks with wider skip connections and narrower bottlenecks-a scaling pattern distinct from conventional MLPs. Our findings suggest reconsidering skip connection placement in modern architectures, with potential applications extending to Transformers and other residual networks.
PDF32October 3, 2025