번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델은 자연어 처리의 핵심 요소로 자리 잡았지만, 이러한 모델의 사용은 컴퓨팅 및 메모리 자원 측면에서 상당한 비용을 수반한다. 희소화(Sparsification)는 이러한 자원 제약을 완화하기 위한 해결책을 제공하며, 최근 연구에서는 훈련된 모델을 사후에 희소화할 수 있음이 입증되었다. 기존의 희소화 기술은 추가적인 데이터 구조가 필요하고 현재 하드웨어에서 제한된 속도 향상만을 제공한다는 점에서 어려움에 직면해 있다. 본 논문에서는 각 가중치 행렬을 더 작은 (밀집) 행렬로 대체하여 네트워크의 임베딩 차원을 줄이는 새로운 사후 훈련 희소화 기법인 SliceGPT를 제안한다. 광범위한 실험을 통해 SliceGPT가 LLAMA2-70B, OPT 66B, Phi-2 모델에서 각각 99%, 99%, 90%의 제로샷 작업 성능을 유지하면서 모델 파라미터(임베딩 포함)의 최대 25%를 제거할 수 있음을 보여준다. 우리의 슬라이스된 모델은 추가적인 코드 최적화 없이도 더 적은 GPU에서 실행되며 더 빠르게 동작한다: 24GB 소비자용 GPU에서 LLAMA2-70B 추론을 위한 총 컴퓨팅 비용을 밀집 모델 대비 64%로 줄였고, 40GB A100 GPU에서는 66%로 감소시켰다. 우리는 SliceGPT를 가능하게 하는 트랜스포머 네트워크의 계산적 불변성(computational invariance)에 대한 새로운 통찰을 제시하며, 이를 통해 사전 훈련된 모델의 메모리 및 계산 요구 사항을 줄이기 위한 미래의 연구 방향에 영감을 주고 가능성을 열어주기를 기대한다. 코드는 https://github.com/microsoft/TransformerCompression에서 확인할 수 있다.
메타러닝은 제한된 데이터로부터 새로운 작업을 빠르게 학습하도록 신경망을 훈련시키는 강력한 접근법으로 부상했다. 다양한 작업에 대한 광범위한 노출은 일반적인 문제 해결을 가능하게 하는 다재다능한 표현을 이끌어낸다. 그러나 메타러닝의 한계는 무엇인가? 본 연구에서는 가장 강력한 범용 예측기인 솔로모노프 인덕션(Solomonoff Induction, SI)을 메타러닝의 한계까지 활용하여 신경망에 분할 적용하는 가능성을 탐구한다. 우리는 범용 튜링 머신(Universal Turing Machines, UTMs)을 사용하여 네트워크가 다양한 패턴에 노출될 수 있도록 훈련 데이터를 생성한다. UTM 데이터 생성 과정과 메타 훈련 프로토콜에 대한 이론적 분석을 제공한다. 또한, 다양한 복잡성과 보편성을 가진 알고리즘 데이터 생성기와 신경망 아키텍처(예: LSTM, 트랜스포머)를 활용한 포괄적인 실험을 수행한다. 우리의 결과는 UTM 데이터가 메타러닝에 있어 가치 있는 자원이며, 이를 통해 범용 예측 전략을 학습할 수 있는 신경망을 훈련시키는 데 사용될 수 있음을 시사한다.
자동 회귀 디코딩은 대형 언어 모델(LLM)의 추론 과정을 시간 소모적으로 만듭니다. 본 연구에서는 무손실 가속을 위한 간단한 프레임워크인 EAGLE(Extrapolation Algorithm for Greater Language-model Efficiency)를 제안합니다. 기존의 추측적 샘플링 방법과 달리, EAGLE는 더 규칙적인(두 번째 상위 계층) 특징 수준에서 자동 회귀적으로 드래프팅 프로세스를 운영하며, 다음 특징 예측 문제에서의 샘플링 불확실성 문제를 한 단계 앞선 토큰을 통합하여 해결합니다. EAGLE가 제공하는 가속은 무손실입니다: 대상 LLM의 미세 조정이 필요 없으며, 생성된 텍스트는 일반적인 자동 회귀 디코딩과 동일한 분포를 유지합니다. 본 논문 제출 시점 기준으로, EAGLE는 추측적 샘플링 계열에서 가장 빠른 것으로 알려진 프레임워크입니다. MT-bench에서 EAGLE는 일반 디코딩보다 3배 빠르며, Lookahead보다 2배, Medusa보다 1.6배 빠릅니다. gpt-fast를 사용하여 EAGLE는 단일 RTX 3090 GPU에서 LLaMA2-Chat 13B를 기준으로 평균 160 토큰/초를 달성하며, 이는 Huggingface의 구현에서의 24 토큰/초와 비교됩니다.
최근 텍스트-이미지 모델의 발전으로 이미지 생성 능력이 크게 향상되었지만, 여전히 중국어를 포함한 다국어 지원을 제공하는 오픈소스 모델의 공백이 두드러집니다. 이러한 필요를 해결하기 위해, 우리는 CLIP과 Stable-Diffusion-XL의 기능을 확장하여 개발한 새로운 중국어-영어 이중언어 텍스트-이미지 모델인 Taiyi-Diffusion-XL을 소개합니다. 이 접근 방식은 CLIP의 토크나이저와 임베딩 레이어에 가장 빈번히 사용되는 한자 문자를 통합하여 어휘를 효율적으로 확장하고, 절대 위치 인코딩 확장을 결합합니다. 또한, 대규모 시각-언어 모델을 통해 텍스트 프롬프트를 풍부하게 하여 더 나은 이미지 캡션과 더 높은 시각적 품질을 확보합니다. 이러한 개선 사항은 이후 다운스트림 텍스트-이미지 모델에 적용됩니다. 우리의 실험 결과는 개발된 CLIP 모델이 이중언어 이미지-텍스트 검색에서 탁월한 성능을 보인다는 것을 나타냅니다. 더 나아가, Taiyi-Diffusion-XL의 이중언어 이미지 생성 능력은 이전 모델들을 능가합니다. 이 연구는 특히 중국어 애플리케이션을 위한 이미지 생성 분야에서 주목할 만한 발전을 이룬 Taiyi-Diffusion-XL 모델의 개발과 오픈소스화로 이어졌습니다. 이 기여는 다중모달 연구에서 더 다양한 언어 지원의 필요를 해결하기 위한 한 걸음입니다. 이 모델과 데모는 https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{이 URL}에서 공개되어, 이 분야의 추가 연구와 협력을 촉진합니다.
텍스트 기반 3D 장면 편집은 편리성과 사용자 친화성으로 인해 상당한 주목을 받고 있다. 그러나 기존 방법들은 텍스트 설명의 본질적인 한계로 인해 편집 결과의 세부적인 외관과 위치를 정확하게 제어하는 데 어려움을 겪고 있다. 이를 해결하기 위해, 본 연구에서는 텍스트와 이미지 프롬프트, 그리고 편집 영역을 지정하기 위한 3D 경계 상자를 모두 입력으로 받는 3D 장면 편집 프레임워크인 TIP-Editor를 제안한다. 이미지 프롬프트를 통해 사용자는 텍스트 설명을 보완하여 대상 콘텐츠의 세부적인 외관/스타일을 편리하게 지정할 수 있으며, 이를 통해 외관을 정확하게 제어할 수 있다. 구체적으로, TIP-Editor는 기존 장면과 참조 이미지의 표현을 더 잘 학습하기 위해 단계적 2D 개인화 전략을 채택하며, 이 과정에서 경계 상자로 지정된 위치에 객체를 정확하게 배치하도록 유도하는 위치 지정 손실을 제안한다. 또한, TIP-Editor는 명시적이고 유연한 3D 가우시안 스플래팅을 3D 표현으로 활용하여 배경을 변경하지 않고도 지역적 편집을 용이하게 한다. 다양한 실험을 통해 TIP-Editor가 지정된 경계 상자 영역 내에서 텍스트와 이미지 프롬프트에 따라 정확한 편집을 수행하며, 편집 품질과 프롬프트 정렬 측면에서 정성적 및 정량적으로 기준 방법들을 일관되게 능가함을 입증하였다.
사람들은 다른 사람들과 효과적으로 의사소통하고 행동을 조율하기 위해 표현적 행동을 사용합니다. 예를 들어, 자신을 바라보는 사람을 인정하기 위해 고개를 끄덕이거나 혼잡한 복도에서 사람들 사이를 지나가기 위해 "실례합니다"라고 말하는 것과 같은 행동입니다. 우리는 인간-로봇 상호작용에서도 로봇이 이러한 표현적 행동을 보여주기를 원합니다. 기존 연구에서는 새로운 의사소통 방식이나 사회적 상황에 확장하기 어려운 규칙 기반 방법을 제안했으며, 데이터 기반 방법은 로봇이 사용되는 각 사회적 상황에 대해 특화된 데이터셋을 필요로 합니다. 우리는 대규모 언어 모델(LLM)에서 제공되는 풍부한 사회적 맥락과 지시나 사용자 선호에 기반하여 동작을 생성할 수 있는 능력을 활용하여, 적응 가능하고 조합 가능한 표현적 로봇 동작을 생성하는 방법을 제안합니다. 우리의 접근 방식은 퓨샷 사고 연쇄(few-shot chain-of-thought) 프롬프팅을 사용하여 인간 언어 지시를 로봇의 사용 가능하고 학습된 기술을 활용한 파라미터화된 제어 코드로 변환합니다. 사용자 연구와 시뮬레이션 실험을 통해, 우리의 접근 방식이 사용자들이 유능하고 이해하기 쉬운 행동을 생성한다는 것을 입증했습니다. 추가 자료는 https://generative-expressive-motion.github.io/에서 확인할 수 있습니다.