번역이 포함된 일일 선별된 AI 연구 논문
최근 머신러닝 분야에서의 획기적인 성공은 주로 규모의 확장에 기인한다. 즉, 대규모 어텐션 기반 아키텍처와 전례 없는 규모의 데이터셋이 그 원인이다. 본 논문은 체스에서의 대규모 훈련의 영향을 조사한다. 복잡한 휴리스틱, 명시적 탐색 또는 이 둘의 조합에 의존하는 전통적인 체스 엔진과 달리, 우리는 10백만 개의 체스 게임 데이터셋을 사용하여 2억 7천만 개의 파라미터를 가진 트랜스포머 모델을 지도 학습으로 훈련시켰다. 데이터셋의 각 보드는 강력한 Stockfish 16 엔진이 제공한 행동 가치로 주석 처리되었으며, 이는 약 150억 개의 데이터 포인트로 이어진다. 우리의 가장 큰 모델은 인간 상대와의 Lichess 블리츠 Elo에서 2895를 달성했으며, 도메인 특화적인 조정이나 명시적 탐색 알고리즘 없이도 일련의 도전적인 체스 퍼즐을 성공적으로 해결했다. 또한, 우리의 모델은 AlphaZero의 정책 및 가치 네트워크(MCTS 없이)와 GPT-3.5-turbo-instruct를 능가함을 보여준다. 모델 및 데이터셋 크기에 대한 체계적인 조사를 통해 강력한 체스 성능은 충분한 규모에서만 발생함을 확인했다. 결과를 검증하기 위해, 설계 선택과 하이퍼파라미터에 대한 광범위한 제거 실험을 수행했다.
스크린 사용자 인터페이스(UI)와 인포그래픽은 유사한 시각적 언어와 디자인 원칙을 공유하며, 인간 커뮤니케이션과 인간-기계 상호작용에서 중요한 역할을 합니다. 본 연구에서는 UI와 인포그래픽 이해에 특화된 비전-언어 모델인 ScreenAI를 소개합니다. 우리의 모델은 PaLI 아키텍처를 기반으로 pix2struct의 유연한 패칭 전략을 도입하여 개선되었으며, 독특한 데이터셋 조합으로 학습되었습니다. 이 조합의 핵심은 모델이 UI 요소의 유형과 위치를 식별해야 하는 새로운 스크린 주석 작업입니다. 이러한 텍스트 주석을 사용하여 대형 언어 모델에 스크린을 설명하고, 질문-응답(QA), UI 탐색, 요약 훈련 데이터셋을 대규모로 자동 생성합니다. 이러한 설계 선택의 영향을 입증하기 위해 제거 실험을 수행합니다. 단 50억 개의 파라미터로 ScreenAI는 UI 및 인포그래픽 기반 작업(Multi-page DocVQA, WebSRC, MoTIF 및 Widget Captioning)에서 새로운 최첨단 결과를 달성하고, 유사한 크기의 모델과 비교하여 다른 작업(Chart QA, DocVQA, InfographicVQA)에서 최고 수준의 성능을 보입니다. 마지막으로, 스크린 주석 작업에 초점을 맞춘 하나의 데이터셋과 질문-응답에 초점을 맞춘 두 개의 새로운 데이터셋을 공개합니다.
선호도로부터의 직접 정렬(Direct Alignment from Preferences, DAP) 방법들, 예를 들어 DPO(Data Preference Optimization)는 최근 인간 피드백을 통한 강화 학습(Reinforcement Learning from Human Feedback, RLHF)의 효율적인 대안으로 등장하였으며, 별도의 보상 모델을 필요로 하지 않는다. 그러나 DAP 방법에서 사용되는 선호도 데이터셋은 일반적으로 훈련 전에 수집되며 업데이트되지 않기 때문에 피드백은 순수하게 오프라인으로 제공된다. 또한, 이러한 데이터셋의 응답은 정렬 대상이 되는 언어 모델과는 다른 모델에서 샘플링되는 경우가 많으며, 모델은 훈련 과정에서 진화하기 때문에 정렬 단계는 필연적으로 오프-정책(off-policy) 상태가 된다. 본 연구에서는 온라인 피드백이 핵심이며 DAP 방법을 개선할 수 있다고 주장한다. 우리의 방법인 온라인 AI 피드백(Online AI Feedback, OAIF)은 LLM(Large Language Model)을 주석자로 사용한다: 각 훈련 반복에서 현재 모델로부터 두 개의 응답을 샘플링하고 LLM 주석자에게 어느 것이 선호되는지 선택하도록 요청함으로써 온라인 피드백을 제공한다. 간단함에도 불구하고, 여러 작업에서의 인간 평가를 통해 OAIF가 오프라인 DAP 및 RLHF 방법을 모두 능가함을 입증한다. 또한, LLM 주석자에게 지시 프롬프트를 통해 OAIF에서 활용되는 피드백이 쉽게 제어 가능함을 보여준다.
3D 콘텐츠 생성은 품질과 속도 측면에서 상당한 진전을 이루어 왔습니다. 현재의 피드포워드 모델은 몇 초 만에 3D 객체를 생성할 수 있지만, 그 해상도는 학습 과정에서 요구되는 집약적인 계산으로 인해 제한적입니다. 본 논문에서는 텍스트 프롬프트나 단일 뷰 이미지로부터 고해상도 3D 모델을 생성하기 위해 설계된 새로운 프레임워크인 Large Multi-View Gaussian Model(LGM)을 소개합니다. 우리의 주요 통찰은 두 가지입니다: 1) 3D 표현: 우리는 효율적이면서도 강력한 표현으로 다중 뷰 가우시안 특징을 제안하며, 이를 융합하여 미분 가능한 렌더링을 수행할 수 있습니다. 2) 3D 백본: 우리는 다중 뷰 이미지에서 작동하는 고처리량 백본으로 비대칭 U-Net을 제시하며, 이는 다중 뷰 확산 모델을 활용하여 텍스트나 단일 뷰 이미지 입력으로부터 생성될 수 있습니다. 광범위한 실험을 통해 우리의 접근 방식이 높은 충실도와 효율성을 보여줌을 입증했습니다. 특히, 우리는 3D 객체를 5초 이내에 생성하는 빠른 속도를 유지하면서 학습 해상도를 512로 향상시켜 고해상도 3D 콘텐츠 생성을 달성했습니다.
본 논문에서는 새로운 가속화된 세그먼트 애니싱(segment anything) 모델 패밀리인 EfficientViT-SAM을 소개한다. 우리는 SAM의 경량 프롬프트 인코더와 마스크 디코더를 유지하면서, 무거운 이미지 인코더를 EfficientViT로 대체하였다. 학습 과정에서는 먼저 SAM-ViT-H 이미지 인코더로부터 EfficientViT로의 지식 증류(knowledge distillation)를 수행한 후, SA-1B 데이터셋에 대해 종단간(end-to-end) 학습을 진행하였다. EfficientViT의 효율성과 용량 덕분에, EfficientViT-SAM은 성능 저하 없이 A100 GPU에서 SAM-ViT-H 대비 48.9배의 TensorRT 속도 향상을 달성하였다. 본 연구의 코드와 사전 학습된 모델은 https://github.com/mit-han-lab/efficientvit에서 공개하였다.
Transformer 기반의 대규모 언어 모델(LLM)은 현재 수억 명의 사용자에게 배포되고 있다. LLM 추론은 일반적으로 몇 가지 예시나 챗봇 시스템 프롬프트와 같은 공통 접두사를 공유하는 시퀀스 배치에서 수행된다. 이러한 대규모 배치 설정에서 디코딩은 주의력 연산(attention operation)에 의해 병목 현상이 발생할 수 있으며, 이 연산은 메모리에서 대규모 키-값(KV) 캐시를 읽고 배치 내 모든 시퀀스에 대해 비효율적인 행렬-벡터 곱셈을 계산한다. 본 연구에서는 공유 접두사를 가진 주의력 연산을 하드웨어를 고려한 정확한 방식으로 구현한 Hydragen을 소개한다. Hydragen은 공유 접두사와 고유 접미사에 대한 주의력 연산을 별도로 계산한다. 이 분해는 시퀀스 간 쿼리를 함께 배치 처리함으로써 접두사 주의력 연산을 효율적으로 수행하며, 중복된 메모리 읽기를 줄이고 하드웨어 친화적인 행렬 곱셈을 가능하게 한다. 우리의 방법은 경쟁력 있는 기준선 대비 최대 32배까지 LLM의 종단 간 처리량을 향상시킬 수 있으며, 배치 크기와 공유 접두사 길이가 증가함에 따라 속도 향상이 커진다. Hydragen은 또한 매우 긴 공유 컨텍스트 사용을 가능하게 한다: 높은 배치 크기에서 접두사 길이를 1K 토큰에서 16K 토큰으로 증가시켰을 때, Hydragen의 처리량은 15% 미만으로 감소하는 반면, 기준선의 처리량은 90% 이상 감소한다. Hydragen은 단순한 접두사-접미사 분해를 넘어 트리 기반 프롬프트 공유 패턴에도 적용할 수 있어, 경쟁 프로그래밍 문제에서 추론 시간을 추가로 55% 줄일 수 있다.
대규모 언어 모델은 인간 수준의 추론 능력이 필요한 것으로 여겨지는 과제들을 점점 더 해결하고 있다. 그러나 이러한 모델들은 여전히 추상 및 추론 코퍼스(ARC)와 같은 일반 지능 벤치마크에서 매우 낮은 성능을 보인다. 본 논문에서는 ARC를 예제를 통한 프로그래밍 문제로 접근하고, 언어 모델의 자기 개선을 위한 새로운 확장 가능한 방법인 코드 반복(CodeIt)을 소개한다. 우리의 방법은 1) 프로그램 샘플링 및 사후 재라벨링과 2) 우선순위 경험 재생 학습 간의 반복을 통해 진행된다. 샘플링된 프로그램에 의해 생성된 실제 출력을 에피소드의 목표(즉, 입력에 대한 목표 프로그램 출력)로 재라벨링함으로써, 이 방법은 프로그램 합성에서의 극단적인 보상 희소성 문제를 효과적으로 해결한다. CodeIt을 ARC 데이터셋에 적용하여, 우선순위 사후 재생과 사전 학습 및 데이터 증강이 작업 간 일반화를 성공적으로 이끌어냄을 보여준다. CodeIt은 전체 ARC 평가 데이터셋에 확장 가능한 첫 번째 신경-기호 접근법이다. 우리의 방법은 ARC 평가 과제의 15%를 해결하며, 최첨단 성능을 달성하고 기존의 신경 및 기호 기반 방법들을 능가한다.
선형 어텐션(linear attention)은 Transformer의 효율성을 개선하고, 어텐션의 이차 복잡도를 시퀀스 길이에 대한 선형 복잡도로 줄이는 잠재력을 보여주었다. 이는 (1) 처음부터 선형 Transformer를 학습시키는 것, (2) 특정 작업에 맞게 미세 조정된 Transformer를 작업 성능을 회복하는 선형 버전으로 "미세 조정 변환"하는 것, (3) 대규모 언어 모델과 같은 Transformer를 다운스트림 작업에 대해 미세 조정 가능한 선형 버전으로 "사전 학습 변환"하는 것에 대한 흥미로운 가능성을 제시한다. 그러나 선형 어텐션은 종종 표준 소프트맥스 어텐션(softmax attention)보다 품질 면에서 뒤처진다. 이러한 성능 격차를 해소하기 위해, 우리는 기존의 선형 어텐션이 좋은 성능과 연결된 소프트맥스 어텐션의 핵심 속성인 낮은 엔트로피(또는 "스파이키"한) 가중치와 내적 단조성(dot-product monotonicity)을 결여하고 있음을 발견했다. 또한, 이러한 속성을 유지하면서 소프트맥스 성능과 일치하지만 선형 어텐션에서는 계산 비효율적인 놀라울 정도로 간단한 특징 맵(feature maps)을 관찰했다. 따라서 우리는 소프트맥스 어텐션의 스파이키하고 단조로운 속성을 유지하면서 선형 복잡도를 유지하는 학습 가능한 선형 어텐션인 Hedgehog를 제안한다. Hedgehog는 간단한 학습 가능한 MLP를 사용하여 소프트맥스 어텐션을 모방하는 어텐션 가중치를 생성한다. 실험 결과, Hedgehog는 처음부터 학습시키는 설정과 미세 조정 변환 설정에서 표준 Transformer 품질의 99% 이상을 회복하며, WikiText-103에서 인과적 GPT 모델에 대해 기존 선형 어텐션보다 최대 6 퍼플렉서티(perplexity) 포인트, 미세 조정된 양방향 BERT 모델에 대해 최대 8.7 GLUE 점수를 앞섰다. Hedgehog는 또한 사전 학습 변환을 가능하게 한다. 사전 학습된 GPT-2를 선형 어텐션 변형으로 변환하면 WikiText-103에서 125M 서브쿼드라틱 디코더 모델에 대해 최신의 16.7 퍼플렉서티를 달성했다. 마지막으로, 사전 학습된 Llama-2 7B를 실행 가능한 선형 어텐션 Llama로 변환했다. 저순위 적응(low-rank adaptation)을 통해 Hedgehog-Llama2 7B는 기본 표준 어텐션 모델보다 28.1 ROUGE-1 점수를 더 높였으며, 기존 선형 어텐션은 16.5 점 하락을 초래했다.
텍스트 프롬프트에서 44.1kHz 스테레오 오디오를 장편으로 생성하는 것은 계산적으로 많은 자원을 요구할 수 있습니다. 더욱이, 대부분의 기존 연구는 음악과 사운드 효과가 자연스럽게 다양한 길이를 가진다는 점을 다루지 않았습니다. 우리의 연구는 생성 모델을 사용하여 텍스트 프롬프트로부터 44.1kHz의 장편 및 가변 길이 스테레오 음악과 사운드를 효율적으로 생성하는 데 초점을 맞추고 있습니다. Stable Audio는 잠재 확산(latent diffusion)을 기반으로 하며, 이 잠재 공간은 완전 컨볼루션 변이형 오토인코더(fully-convolutional variational autoencoder)에 의해 정의됩니다. 이 모델은 텍스트 프롬프트와 타이밍 임베딩(timing embeddings)을 조건으로 하여 생성된 음악과 사운드의 내용과 길이를 세밀하게 제어할 수 있습니다. Stable Audio는 A100 GPU에서 최대 95초 길이의 44.1kHz 스테레오 신호를 8초 만에 렌더링할 수 있습니다. 계산 효율성과 빠른 추론 속도에도 불구하고, 이 모델은 두 가지 공개된 텍스트-투-뮤직 및 오디오 벤치마크에서 최고 수준의 성능을 보이며, 최첨단 모델과 달리 구조화된 음악과 스테레오 사운드를 생성할 수 있습니다.
본 논문에서는 대규모 언어 모델(LLM)의 분산 배포 시 모델 추론 지연 시간을 줄이는 새로운 방법을 제안한다. 우리의 기여는 텐서 병렬 처리(TP)와 함께 사용될 때 최신 양자화 커널의 현재 한계를 해결하는 최적화된 추론 배포 방식을 제시하는 것이다. 우리의 방법은 GPU 메모리 접근 패턴에서 데이터 지역성을 유지하고 TP에 대한 사전 지식을 활용하여 글로벌 통신을 줄인다. A100 및 H100 NVIDIA DGX 시스템에서 다양한 TP 설정에 대해 Llama-70B의 경우 기존 방법 대비 최대 1.81배, IBM WatsonX의 Granite-20B MLP 레이어 문제 크기에 대해 최대 1.78배의 속도 향상을 입증하였다.
N:M 구조화된 희소성은 비교적 적은 오버헤드와 향상된 효율성으로 인해 상당한 관심을 받고 있다. 또한, 이러한 형태의 희소성은 적은 표현 오버헤드로 인해 메모리 사용량을 줄이는 데 있어 상당한 매력을 지니고 있다. N:M 구조화된 희소성을 위한 훈련 방법을 개발하려는 노력이 있었으나, 이들은 주로 낮은 희소성 영역(약 50%)에 초점을 맞추고 있다. 그러나 이러한 접근법으로 훈련된 모델의 성능은 높은 희소성 영역(>80%)에서 감소하는 경향이 있다. 본 연구에서는 기존의 희소 훈련 방법이 높은 희소성 영역에서 효과적인지 조사하고, 이러한 방법들이 낮은 희소성 영역과 동등한 수준의 모델 품질을 유지하지 못한다는 점을 주장한다. 우리는 이러한 차이의 주요 원인이 그래디언트 크기에서 유발된 노이즈 수준이 높기 때문임을 보여준다. 이러한 바람직하지 않은 효과를 완화하기 위해, 우리는 가지치기된 요소로 향하는 그래디언트의 흐름을 점진적으로 제한하는 감쇠 메커니즘을 사용한다. 우리의 접근법은 높은 희소성 영역에서 시각 및 언어 모델의 품질을 각각 최대 2%와 5% 향상시킨다. 또한, 모델 정확도와 훈련 계산 비용 간의 트레이드오프를 FLOPs 측면에서 평가한다. 동일한 훈련 FLOPs에서, 우리의 방법은 기존의 희소 훈련 방법에 비해 더 나은 성능을 보이며, 최대 2%의 정확도 향상을 나타낸다. 소스 코드는 https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity에서 확인할 수 있다.