ChatPaper.aiChatPaper

Переосмысление стандартной архитектуры многослойного перцептрона

Rethinking the shape convention of an MLP

October 2, 2025
Авторы: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI

Аннотация

Многослойные перцептроны (MLP) традиционно следуют узко-широко-узкой архитектуре, где пропускные соединения работают на уровнях входных/выходных измерений, а обработка происходит в расширенных скрытых пространствах. Мы бросаем вызов этой традиции, предлагая широко-узко-широкие (Hourglass) блоки MLP, где пропускные соединения работают на расширенных измерениях, а остаточные вычисления проходят через узкие "узкие места". Эта инверсия использует пространства более высокой размерности для постепенного уточнения, сохраняя при этом вычислительную эффективность за счет параметрически сбалансированных конструкций. Реализация Hourglass MLP требует начальной проекции для поднятия входных сигналов до расширенных измерений. Мы предлагаем, чтобы эта проекция могла оставаться фиксированной на случайной инициализации на протяжении всего обучения, что позволяет реализовать эффективное обучение и вывод. Мы оцениваем обе архитектуры на генеративных задачах с использованием популярных наборов изображений, характеризуя границы Парето производительности-параметров через систематический поиск архитектур. Результаты показывают, что Hourglass архитектуры последовательно достигают превосходных границ Парето по сравнению с традиционными конструкциями. По мере увеличения бюджетов параметров оптимальные конфигурации Hourglass предпочитают более глубокие сети с более широкими пропускными соединениями и более узкими "узкими местами" — шаблон масштабирования, отличный от традиционных MLP. Наши результаты предполагают пересмотр размещения пропускных соединений в современных архитектурах, с потенциальными приложениями, распространяющимися на Transformers и другие остаточные сети.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow design where skip connections operate at the input/output dimensions while processing occurs in expanded hidden spaces. We challenge this convention by proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections operate at expanded dimensions while residual computation flows through narrow bottlenecks. This inversion leverages higher-dimensional spaces for incremental refinement while maintaining computational efficiency through parameter-matched designs. Implementing Hourglass MLPs requires an initial projection to lift input signals to expanded dimensions. We propose that this projection can remain fixed at random initialization throughout training, enabling efficient training and inference implementations. We evaluate both architectures on generative tasks over popular image datasets, characterizing performance-parameter Pareto frontiers through systematic architectural search. Results show that Hourglass architectures consistently achieve superior Pareto frontiers compared to conventional designs. As parameter budgets increase, optimal Hourglass configurations favor deeper networks with wider skip connections and narrower bottlenecks-a scaling pattern distinct from conventional MLPs. Our findings suggest reconsidering skip connection placement in modern architectures, with potential applications extending to Transformers and other residual networks.
PDF32October 3, 2025