번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델의 규모가 점점 커짐에 따라 배포에 어려움이 발생하고, 높은 에너지 소비로 인한 환경적 영향에 대한 우려가 제기되고 있습니다. 본 연구에서는 대규모 언어 모델을 위해 설계된 확장 가능하고 안정적인 1비트 Transformer 아키텍처인 BitNet을 소개합니다. 구체적으로, 1비트 가중치를 처음부터 학습시키기 위해 nn.Linear 레이어를 대체할 수 있는 BitLinear를 도입했습니다. 언어 모델링 실험 결과, BitNet은 최신 8비트 양자화 방법 및 FP16 Transformer 기준 모델과 비교하여 경쟁력 있는 성능을 유지하면서도 메모리 사용량과 에너지 소비를 크게 줄이는 것으로 나타났습니다. 또한, BitNet은 완전 정밀도 Transformer와 유사한 스케일링 법칙을 보여주며, 이는 효율성과 성능 이점을 유지하면서 더 큰 언어 모델로 효과적으로 확장할 수 있는 잠재력을 시사합니다.
본 논문은 4K 해상도의 동적 3D 장면에 대한 고품질 실시간 뷰 합성을 목표로 한다. 최근 동적 뷰 합성을 위한 일부 방법들이 인상적인 렌더링 품질을 보여주고 있지만, 고해상도 이미지를 렌더링할 때의 속도는 여전히 제한적이다. 이 문제를 해결하기 위해, 본 논문에서는 하드웨어 래스터화를 지원하고 전례 없는 렌더링 속도를 가능하게 하는 4D 포인트 클라우드 표현인 4K4D를 제안한다. 우리의 표현은 4D 특징 그리드 위에 구축되어 포인트들이 자연스럽게 정규화되고 견고하게 최적화될 수 있도록 한다. 또한, 효율성을 유지하면서 렌더링 품질을 크게 향상시키는 새로운 하이브리드 외관 모델을 설계하였다. 더 나아가, RGB 비디오로부터 제안된 모델을 효과적으로 학습하기 위해 미분 가능한 깊이 필링 알고리즘을 개발하였다. 실험 결과, 우리의 표현은 RTX 4090 GPU를 사용하여 DNA-Rendering 데이터셋에서 1080p 해상도로 400 FPS 이상, ENeRF-Outdoor 데이터셋에서 4K 해상도로 80 FPS로 렌더링될 수 있으며, 이는 기존 방법보다 30배 빠른 속도로 최신의 렌더링 품질을 달성한다. 재현성을 위해 코드를 공개할 예정이다.
저순위 적응(LoRA)은 대규모 언어 모델을 미세 조정할 때 학습 가능한 매개변수의 수를 줄이는 인기 있는 방법이지만, 더 큰 모델로 확장하거나 사용자별 또는 작업별로 적응된 모델을 다수 배포할 때 심각한 저장 공간 문제에 직면합니다. 본 연구에서는 Vector-based Random Matrix Adaptation(VeRA)을 제안하며, 이는 LoRA 대비 학습 가능한 매개변수를 10배 줄이면서도 동일한 성능을 유지합니다. 이를 위해 모든 계층에서 공유되는 단일 쌍의 저순위 행렬을 사용하고, 대신 작은 스케일링 벡터를 학습합니다. 우리는 GLUE 및 E2E 벤치마크에서 VeRA의 효과를 입증하고, Llama2 7B 모델을 사용하여 단 1.4M 매개변수로 지시 따르기 작업에 적용한 사례를 보여줍니다.
우리는 GPT-4V와 같은 대규모 멀티모달 모델(LMM)의 시각적 기반 능력을 발휘할 수 있는 새로운 시각적 프롬프팅 방법인 Set-of-Mark(SoM)을 제안합니다. 그림 1(오른쪽)에서 보여주듯, 우리는 SAM과 같은 기성 상호작용적 분할 모델을 사용하여 이미지를 다양한 세분화 수준의 영역으로 나누고, 이러한 영역 위에 알파벳, 숫자, 마스크, 박스 등의 마크 세트를 오버레이합니다. 마크가 적용된 이미지를 입력으로 사용하여 GPT-4V는 시각적 기반이 필요한 질문에 답할 수 있습니다. 우리는 SoM의 효과를 검증하기 위해 다양한 세분화된 시각 및 멀티모달 작업에 대한 포괄적인 실증 연구를 수행했습니다. 예를 들어, 우리의 실험은 SoM을 적용한 GPT-4V가 제로샷 설정에서 RefCOCOg에서 최신의 완전히 미세 조정된 참조 분할 모델을 능가하는 것을 보여줍니다.
최근 비전 및 언어 생성 모델이 급격히 발전했습니다. 비디오 생성 분야에서는 고화질 비디오를 생성하기 위한 다양한 오픈소스 모델과 공개 서비스가 출시되었습니다. 그러나 이러한 방법들은 종종 FVD나 IS와 같은 몇 가지 학문적 지표를 사용하여 성능을 평가합니다. 우리는 이러한 간단한 지표로 대규모 조건부 생성 모델을 판단하기 어렵다고 주장합니다. 왜냐하면 이러한 모델들은 대규모 데이터셋에서 훈련되어 다방면의 능력을 갖추고 있기 때문입니다. 따라서 우리는 생성된 비디오의 성능을 철저히 평가하기 위한 새로운 프레임워크와 파이프라인을 제안합니다. 이를 위해 먼저 대규모 언어 모델의 도움을 받아 실제 세계의 프롬프트 목록을 분석하여 텍스트-투-비디오 생성을 위한 새로운 프롬프트 목록을 구성합니다. 그런 다음, 우리가 신중하게 설계한 벤치마크에서 최신 비디오 생성 모델들을 시각적 품질, 콘텐츠 품질, 모션 품질, 그리고 텍스트-캡션 정렬 등 약 18개의 객관적 지표를 통해 평가합니다. 모델들의 최종 리더보드를 얻기 위해, 우리는 또한 사용자 의견과 객관적 지표를 일치시키기 위해 일련의 계수를 적합시킵니다. 제안된 의견 정렬 방법을 기반으로, 우리의 최종 점수는 단순히 지표를 평균내는 것보다 더 높은 상관관계를 보여, 제안된 평가 방법의 효과성을 입증합니다.
ChatGPT와 같은 대형 언어 모델(Large Language Models)은 미세 조정 없이도 추론 과정에서 새로운 개념을 학습하는 놀라운 능력을 보여줍니다. 그러나 추론 중에 새로운 객체를 탐지하도록 훈련된 시각 모델들은 이러한 능력을 재현하지 못하고, 대신 성능이 저하되거나 유사한 객체에 대한 메타 학습 및/또는 미세 조정이 필요합니다. 본 연구에서는 미세 조정 없이 추론 과정에서 새로운 시각 개념을 학습함으로써 대형 언어 모델을 모방하는 메타 학습 알고리즘을 제안합니다. 우리의 접근 방식은 고정된 사전 훈련된 특징 추출기를 활용하며, 문맥 내 학습(in-context learning)과 유사하게, 알려진 레이블이 있는 데이터 포인트와 알려지지 않은 레이블이 있는 테스트 데이터 포인트에 대한 시퀀스 모델링으로 메타 학습을 재구성합니다. 11개의 메타 학습 벤치마크 중 8개에서, 우리의 접근 방식은 메타 학습이나 미세 조정 없이도 이러한 벤치마크에서 메타 학습된 최신 알고리즘인 P>M>F를 능가하거나 동등한 성능을 보였습니다.
신경망(NNs)의 계산 및 메모리 요구량을 성능 저하 없이 어떻게 줄일 수 있을까? 최근 많은 연구들이 희소 전문가 혼합 모델(MoEs)을 사용하여 자원 효율적인 대규모 언어 모델(LMs)을 구축하고 있다. 본 논문에서는 MoEs에 대한 여러 새로운 관점을 소개하며, 트랜스포머의 피드포워드 블록과 같은 2층 신경망을 근사화하는 다양한 방법(예: 제품 키 메모리(PKMs))을 통합하는 일반적인 프레임워크를 제시한다. 이 프레임워크에서 얻은 통찰을 바탕으로, MoEs와 PKMs를 모두 개선하는 방법을 제안한다. 기존 연구들이 계산량이 동일한 조건에서 MoEs를 밀집 모델과 비교한 것과 달리, 본 연구에서는 매개변수가 동일한 조건에서 평가를 진행하며, 이는 언어 모델을 적절히 평가하는 데 중요하다. 우리의 MoEs가 두 가지 다른 규모에서 WikiText-103 및 enwiki8 데이터셋에서 밀집 Transformer-XL과 경쟁력을 유지하면서도 훨씬 더 자원 효율적임을 보여준다. 이는 MoEs가 극단적으로 큰 언어 모델뿐만 아니라 모든 규모의 자원 효율적인 언어 모델에도 적합함을 입증한다. 본 연구의 코드는 공개되어 있다.
대규모 언어 모델(LLM)이 점점 더 보편화됨에 따라, 이러한 현대적 아키텍처의 계산적 요구를 충족시키면서도 정확도를 유지할 수 있는 새로운 양자화 방법의 필요성이 커지고 있습니다. 본 논문에서는 FP32 정밀도를 유지하면서도 저정밀도 양자화, 특히 3비트 및 4비트 가중치 전용 양자화의 이점을 활용할 수 있는 학습 가능한 등가 변환인 TEQ를 제안합니다. 학습 과정은 경량화되어 있으며, 단 1,000단계와 원본 모델의 학습 가능한 매개변수의 0.1% 미만만 필요합니다. 또한, 이 변환은 추론 과정에서 어떠한 계산적 오버헤드도 추가하지 않습니다. 우리의 결과는 일반적인 LLM에서 최신 기술(SOTA) 방법과 동등한 수준입니다. 우리의 접근 방식은 다른 방법과 결합하여 더 나은 성능을 달성할 수 있습니다. 코드는 https://github.com/intel/neural-compressor에서 확인할 수 있습니다.
확산 기반 텍스트-이미지 생성 기술의 놀라운 발전과 함께, 이러한 강력한 생성 능력을 텍스트-비디오 생성으로 확장하는 것은 큰 관심을 끌고 있다. 기존 방법들은 대규모 텍스트-비디오 쌍과 방대한 학습 자원을 요구하거나, 템플릿 비디오와 정확히 정렬된 움직임을 학습한다. 비디오 생성에서 생성 자유도와 자원 비용 간의 균형을 맞추는 것은 사소한 문제가 아니다. 본 연구에서는 단일 GPU에서 8~16개의 비디오로 텍스트-이미지 확산 모델이 특정 움직임 패턴(Learn A specific Motion Pattern, LAMP)을 학습할 수 있는 소수 샷 기반 튜닝 프레임워크를 제안한다. 구체적으로, 우리는 오프-더-셸프 텍스트-이미지 모델을 사용하여 콘텐츠 생성을 위한 첫 프레임 조건 파이프라인을 설계함으로써, 튜닝된 비디오 확산 모델이 주로 움직임 학습에 집중할 수 있도록 한다. 잘 개발된 텍스트-이미지 기술은 시각적으로 만족스럽고 다양한 콘텐츠를 생성 조건으로 제공할 수 있어, 비디오 품질과 생성 자유도를 크게 향상시킨다. 시간 차원의 특징을 포착하기 위해, 우리는 T2I 모델의 사전 학습된 2D 컨볼루션 레이어를 새로운 시간-공간 움직임 학습 레이어로 확장하고, 어텐션 블록을 시간 수준으로 수정한다. 또한, 계산 비용을 들여 비디오의 안정성을 향상시킬 수 있는 효과적인 추론 트릭인 공유 노이즈 샘플링을 개발했다. 우리의 방법은 실제 이미지 애니메이션 및 비디오 편집과 같은 다른 작업에도 유연하게 적용될 수 있다. 광범위한 실험을 통해 LAMP가 제한된 데이터에서 움직임 패턴을 효과적으로 학습하고 고품질 비디오를 생성할 수 있음을 입증했다. 코드와 모델은 https://rq-wu.github.io/projects/LAMP에서 확인할 수 있다.
코드 완성 모델은 최근 몇 년 동안 상당한 발전을 이루었지만, 현재 널리 사용되는 평가 데이터셋인 HumanEval과 MBPP는 주로 단일 파일 내의 코드 완성 작업에 초점을 맞추고 있습니다. 이러한 지나치게 단순화된 설정은 여러 파일로 구성되고 수많은 파일 간 의존성을 가지며, 코드를 정확히 완성하기 위해 파일 간 문맥에 접근하고 이해하는 것이 필요한 실제 소프트웨어 개발 시나리오를 충분히 반영하지 못합니다. 이러한 격차를 메우기 위해, 우리는 파일 간 문맥을 깊이 있게 이해해야만 코드를 정확히 완성할 수 있는 다양하고 다국어적인 코드 완성 벤치마크인 CrossCodeEval을 제안합니다. CrossCodeEval은 Python, Java, TypeScript, C#이라는 네 가지 인기 프로그래밍 언어로 작성된 다양한 실제 오픈 소스, 허가된 라이선스의 저장소들을 기반으로 구축되었습니다. 정확한 완성을 위해 파일 간 문맥이 엄격히 필요한 예제를 생성하기 위해, 우리는 현재 파일 내에서 파일 간 문맥의 사용을 정확히 찾아내는 간단하면서도 효율적인 정적 분석 기반 접근 방식을 제안합니다. CodeGen과 StarCoder와 같은 최첨단 코드 언어 모델에 대한 광범위한 실험을 통해, CrossCodeEval은 관련 파일 간 문맥이 없을 때 매우 도전적임을 보여주며, 이러한 문맥을 프롬프트에 추가할 때 명확한 개선이 관찰됩니다. 그러나 이러한 개선에도 불구하고, 가장 성능이 뛰어난 모델을 사용하더라도 최고 성능에 도달하지 못함을 보여주며, 이는 CrossCodeEval이 광범위한 문맥을 활용하여 더 나은 코드 완성을 수행하는 모델의 능력을 평가할 수 있음을 나타냅니다. 마지막으로, 우리는 파일 간 문맥을 검색하는 다양한 방법을 벤치마킹하고, CrossCodeEval이 코드 검색기의 능력을 측정하는 데에도 사용될 수 있음을 보여줍니다.