MLP의 형태 관행 재고하기
Rethinking the shape convention of an MLP
October 2, 2025
저자: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu
cs.AI
초록
기존의 다층 퍼셉트론(MLP)은 일반적으로 좁은-넓은-좁은 설계를 따르며, 스킵 연결(skip connection)은 입력/출력 차원에서 작동하는 반면 처리는 확장된 은닉 공간에서 이루어집니다. 우리는 이러한 관례에 도전하여, 스킵 연결이 확장된 차원에서 작동하고 잔차 계산이 좁은 병목(bottleneck)을 통해 흐르는 넓은-좁은-넓은(모래시계형, Hourglass) MLP 블록을 제안합니다. 이러한 역전은 점진적 정제를 위해 고차원 공간을 활용하면서도 매개변수 일치 설계를 통해 계산 효율성을 유지합니다. 모래시계형 MLP를 구현하려면 입력 신호를 확장된 차원으로 끌어올리는 초기 투영(projection)이 필요합니다. 우리는 이 투영이 훈련 과정 내내 무작위 초기화 상태로 고정될 수 있다고 제안하며, 이를 통해 효율적인 훈련 및 추론 구현이 가능하다고 주장합니다. 우리는 두 가지 아키텍처를 인기 있는 이미지 데이터셋에 대한 생성 작업에서 평가하고, 체계적인 아키텍처 탐색을 통해 성능-매개변수 파레토 프론티어(Pareto frontier)를 특성화합니다. 결과는 모래시계형 아키텍처가 기존 설계에 비해 일관되게 우수한 파레토 프론티어를 달성함을 보여줍니다. 매개변수 예산이 증가함에 따라, 최적의 모래시계형 구성은 더 깊은 네트워크와 더 넓은 스킵 연결, 더 좁은 병목을 선호하는데, 이는 기존 MLP와 구별되는 확장 패턴입니다. 우리의 연구 결과는 현대 아키텍처에서 스킵 연결 배치를 재고할 필요성을 시사하며, 트랜스포머(Transformer) 및 기타 잔차 네트워크로의 잠재적 응용 가능성을 제시합니다.
English
Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow
design where skip connections operate at the input/output dimensions while
processing occurs in expanded hidden spaces. We challenge this convention by
proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections
operate at expanded dimensions while residual computation flows through narrow
bottlenecks. This inversion leverages higher-dimensional spaces for incremental
refinement while maintaining computational efficiency through parameter-matched
designs. Implementing Hourglass MLPs requires an initial projection to lift
input signals to expanded dimensions. We propose that this projection can
remain fixed at random initialization throughout training, enabling efficient
training and inference implementations. We evaluate both architectures on
generative tasks over popular image datasets, characterizing
performance-parameter Pareto frontiers through systematic architectural search.
Results show that Hourglass architectures consistently achieve superior Pareto
frontiers compared to conventional designs. As parameter budgets increase,
optimal Hourglass configurations favor deeper networks with wider skip
connections and narrower bottlenecks-a scaling pattern distinct from
conventional MLPs. Our findings suggest reconsidering skip connection placement
in modern architectures, with potential applications extending to Transformers
and other residual networks.