ChatPaper.aiChatPaper

순환 신경망에서의 이중 선형 상태 전이 재고찰

Revisiting Bi-Linear State Transitions in Recurrent Neural Networks

May 27, 2025
저자: M. Reza Ebrahimi, Roland Memisevic
cs.AI

초록

순환 신경망에서 은닉 유닛의 역할은 일반적으로 메모리 모델링으로 간주되며, 연구는 게이트 메커니즘을 통해 정보 보존을 강화하는 데 초점을 맞추고 있습니다. 덜 탐구된 관점은 은닉 유닛을 수동적인 메모리 저장소가 아니라 네트워크가 수행하는 계산에 능동적으로 참여하는 주체로 보는 것입니다. 본 연구에서는 은닉 유닛과 입력 임베딩 간의 곱셈적 상호작용을 포함하는 이중 선형 연산을 재조명합니다. 우리는 이론적 및 실증적으로 이러한 연산이 상태 추적 작업에서 은닉 상태의 진화를 표현하기 위한 자연스러운 귀납적 편향을 구성함을 보여줍니다. 이러한 작업은 은닉 유닛이 네트워크의 동작에 능동적으로 기여해야 하는 가장 단순한 유형의 작업입니다. 또한, 이중 선형 상태 업데이트가 복잡성이 증가하는 상태 추적 작업에 대응하는 자연스러운 계층 구조를 형성하며, Mamba와 같은 인기 있는 선형 순환 네트워크가 이 계층 구조의 가장 낮은 복잡성 중심에 위치함을 보여줍니다.
English
The role of hidden units in recurrent neural networks is typically seen as modeling memory, with research focusing on enhancing information retention through gating mechanisms. A less explored perspective views hidden units as active participants in the computation performed by the network, rather than passive memory stores. In this work, we revisit bi-linear operations, which involve multiplicative interactions between hidden units and input embeddings. We demonstrate theoretically and empirically that they constitute a natural inductive bias for representing the evolution of hidden states in state tracking tasks. These are the simplest type of task that require hidden units to actively contribute to the behavior of the network. We also show that bi-linear state updates form a natural hierarchy corresponding to state tracking tasks of increasing complexity, with popular linear recurrent networks such as Mamba residing at the lowest-complexity center of that hierarchy.
PDF42June 2, 2025