언어 모델을 위한 체인-오브-모델 학습Chain-of-Model Learning for Language Model
본 논문에서는 각 계층의 은닉 상태에 인과 관계를 체인 형태로 통합하여 모델 학습의 확장 효율성과 배치 시의 추론 유연성을 크게 향상시키는 새로운 학습 패러다임인 Chain-of-Model(CoM)을 제안한다. 여기서는 Chain-of-Representation(CoR) 개념을 소개하며, 이는 각 계층의 은닉 상태를 은닉 차원 수준에서 다수의 하위 표현(즉, 체인)의 조합으로 형식화한다. 각 계층에서 출력 표현의 각 체인은 입력 표현의 선행 체인들만을 볼 수 있다. 결과적으로, CoM 프레임워크에 기반한 모델은 이전 모델(즉, 체인)을 기반으로 체인을 증가시켜 모델 크기를 점진적으로 확장할 수 있으며, 다양한 체인 수를 사용하여 탄력적 추론을 위한 다수의 하위 모델을 제공할 수 있다. 이 원리를 바탕으로, Transformer 아키텍처의 각 계층에 CoM 아이디어를 통합한 Chain-of-Language-Model(CoLM)을 설계한다. CoLM을 기반으로, 첫 번째 체인 내에서 모든 키와 값을 계산한 후 이를 모든 체인에 공유하는 KV 공유 메커니즘을 도입하여 CoLM-Air를 추가로 소개한다. 이 설계는 원활한 언어 모델 전환, 프리필링 가속화 등과 같은 추가적인 확장성을 보여준다. 실험 결과는 CoLM 계열이 표준 Transformer와 비슷한 성능을 달성하면서도, 학습 효율성을 개선하기 위한 점진적 확장 및 탄력적 추론을 위한 다양한 모델 크기 제공과 같은 더 큰 유연성을 동시에 가능하게 함을 보여준다. 이를 통해 언어 모델 구축을 위한 새로운 방향을 제시한다. 본 연구의 코드는 향후 https://github.com/microsoft/CoLM에서 공개될 예정이다.