번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)을 학습시키는 것은 주로 가중치와 옵티마이저 상태의 크기가 증가함에 따라 상당한 메모리 문제를 야기합니다. 일반적인 메모리 절약 접근법인 저순위 적응(LoRA)은 각 레이어의 고정된 사전 학습 가중치에 학습 가능한 저순위 행렬을 추가하여 학습 가능한 매개변수와 옵티마이저 상태를 줄입니다. 그러나 이러한 접근법은 일반적으로 사전 학습 및 미세 조정 단계에서 전체 순위 가중치를 사용한 학습보다 성능이 떨어지는데, 이는 매개변수 탐색을 저순위 부분공간으로 제한하고 학습 역학을 변경하며, 추가로 전체 순역 웜 스타트가 필요할 수 있기 때문입니다. 본 연구에서는 전체 매개변수 학습을 허용하면서도 LoRA와 같은 일반적인 저순위 적응 방법보다 메모리 효율적인 학습 전략인 Gradient Low-Rank Projection(GaLore)을 제안합니다. 우리의 접근법은 C4 데이터셋에서 최대 19.7B 토큰으로 LLaMA 1B 및 7B 아키텍처를 사전 학습하고, GLUE 작업에서 RoBERTa를 미세 조정하는 동안 옵티마이저 상태 메모리 사용량을 최대 65.5%까지 줄이면서도 효율성과 성능을 유지합니다. 또한, 8비트 GaLore는 BF16 기준선에 비해 옵티마이저 메모리를 최대 82.5%, 전체 학습 메모리를 63.3%까지 추가로 절약합니다. 특히, 우리는 모델 병렬화, 체크포인팅 또는 오프로딩 전략 없이도 24GB 메모리를 가진 소비자용 GPU(예: NVIDIA RTX 4090)에서 7B 모델을 사전 학습하는 것이 가능함을 처음으로 입증했습니다.
본 논문에서는 법률 도메인에 특화된 대형 언어 모델(LLM)인 SaulLM-7B를 소개한다. 70억 개의 파라미터를 가진 SaulLM-7B는 법률 텍스트 이해 및 생성을 위해 명시적으로 설계된 최초의 LLM이다. Mistral 7B 아키텍처를 기반으로 구축된 SaulLM-7B는 300억 개 이상의 토큰으로 구성된 영어 법률 코퍼스로 학습되었다. SaulLM-7B는 법률 문서 이해 및 처리에 있어 최첨단 수준의 능력을 보여준다. 또한, 법률 데이터셋을 활용하여 SaulLM-7B의 법률 작업 성능을 더욱 향상시키는 새로운 지시적 미세 조정 방법을 제시한다. SaulLM-7B는 CC-BY-SA-4.0 라이선스 하에 공개되었다.
대규모 언어 모델(LLM)의 성능이 계속해서 향상됨에 따라, 그 규모도 크게 증가하여 현재의 LLM은 수십억에서 수조 개의 파라미터를 포함하고 있습니다. 그러나 본 연구에서 우리는 LLM의 많은 계층이 높은 유사성을 보이며, 일부 계층은 네트워크 기능에 거의 영향을 미치지 않는다는 사실을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 각 계층의 중요성을 측정하기 위해 블록 영향력(Block Influence, BI)이라는 지표를 정의했습니다. 그리고 이를 기반으로 LLM에서 중복된 계층을 직접 삭제하는 간단한 가지치기 접근법인 계층 제거를 제안합니다. 실험 결과, 우리가 ShortGPT라고 명명한 이 방법은 기존의 최신(SOTA) 가지치기 방법들을 크게 능가하는 성능을 보였습니다. 또한 ShortGPT는 양자화(quantization)와 같은 방법과 직교적(orthogonal)이어서 파라미터와 계산량을 더욱 줄일 수 있습니다. 복잡한 가지치기 기법 대신 단순한 계층 제거를 통해 더 나은 결과를 얻을 수 있다는 점은 모델 아키텍처에 높은 중복성이 존재함을 시사합니다.
본 논문에서는 4K 해상도의 이미지를 직접 생성할 수 있는 Diffusion Transformer 모델(DiT)인 PixArt-Σ를 소개한다. PixArt-Σ는 전작인 PixArt-α에 비해 현저히 향상된 화질과 텍스트 프롬프트와의 더 나은 정렬을 제공하며, 이는 큰 진전을 의미한다. PixArt-Σ의 주요 특징 중 하나는 학습 효율성이다. PixArt-α의 기초 사전 학습을 활용하여, 더 높은 품질의 데이터를 통합함으로써 '약한' 기준 모델에서 '강한' 모델로 진화하는 과정을 "약-강 학습(weak-to-strong training)"이라 명명한다. PixArt-Σ의 발전은 두 가지 측면에서 이루어졌다: (1) 고품질 학습 데이터: PixArt-Σ는 더 우수한 품질의 이미지 데이터와 더 정밀하고 상세한 이미지 캡션을 통합하였다. (2) 효율적인 토큰 압축: DiT 프레임워크 내에서 키와 값을 모두 압축하는 새로운 주의 모듈을 제안하여, 효율성을 크게 개선하고 초고해상도 이미지 생성을 용이하게 하였다. 이러한 개선 덕분에 PixArt-Σ는 SDXL(2.6B 매개변수) 및 SD Cascade(5.1B 매개변수)와 같은 기존의 텍스트-이미지 확산 모델보다 훨씬 작은 모델 크기(0.6B 매개변수)로도 우수한 이미지 품질과 사용자 프롬프트 준수 능력을 달성한다. 또한, PixArt-Σ의 4K 이미지 생성 기능은 고해상도 포스터 및 배경화면 제작을 지원하며, 영화 및 게임과 같은 산업에서 고품질 시각 콘텐츠 생산을 효율적으로 강화한다.
우리는 여러 대형 언어 모델(LLM)이 토큰 수준에서 생성 작업을 교차하며 협업하도록 가르치는 방법을 제안합니다. 다음 토큰을 생성할 LLM을 결정하는 문제를 잠재 변수로 모델링합니다. 잠재 변수 모델 하에서 훈련 세트의 주변 우도를 최적화함으로써, 기본 LLM은 직접적인 지도 없이도 언제 스스로 생성하고 언제 "보조" 언어 모델 중 하나를 호출하여 생성할지를 자동으로 학습합니다. 디코딩 과정에서의 토큰 수준 협업은 각 모델의 전문성을 특정 작업에 맞게 융합할 수 있게 합니다. 우리의 협업 디코딩은 특히 일반적인 기본 LLM이 도메인 전문가 모델을 호출하는 방법을 학습하는 크로스 도메인 설정에서 유용합니다. 지시 따르기, 도메인 특화 질의응답, 추론 작업에서 우리는 공동 시스템의 성능이 개별 모델의 성능을 능가함을 보여줍니다. 학습된 잠재 결정에 대한 질적 분석을 통해, 우리의 방법으로 훈련된 모델이 템플릿 채우기와 같은 여러 흥미로운 협업 패턴을 보임을 확인합니다. 우리의 코드는 https://github.com/clinicalml/co-llm에서 확인할 수 있습니다.
우리는 대규모 웹 스크린샷 렌더링 데이터를 활용한 비전-언어 모델을 위한 새로운 사전 학습 패러다임인 Strongly Supervised pre-training with ScreenShots(S4)를 제안합니다. 웹 스크린샷을 사용함으로써 이미지-텍스트 쌍에서는 얻을 수 없는 풍부한 시각적 및 텍스트 단서를 활용할 수 있습니다. S4에서는 HTML 요소의 고유한 트리 구조 계층과 공간적 위치 정보를 활용하여 대규모 주석 데이터를 기반으로 10가지 사전 학습 작업을 신중하게 설계했습니다. 이러한 작업들은 다양한 도메인에서의 다운스트림 작업과 유사하며, 주석을 얻는 데 드는 비용이 저렴합니다. 우리는 현재의 스크린샷 사전 학습 목표와 비교하여, 우리의 혁신적인 사전 학습 방법이 9가지 다양한 인기 다운스트림 작업에서 이미지-텍스트 모델의 성능을 크게 향상시킴을 입증했습니다. 특히, 테이블 탐지(Table Detection)에서는 최대 76.1%의 성능 향상을, 위젯 캡셔닝(Widget Captioning)에서는 최소 1%의 성능 향상을 보였습니다.
가치 함수는 심층 강화 학습(RL)의 핵심 구성 요소입니다. 신경망으로 매개변수화된 이러한 함수는 부트스트랩된 목표 값과 일치하도록 평균 제곱 오차 회귀 목표를 사용하여 학습됩니다. 그러나 회귀를 사용하는 가치 기반 RL 방법을 고용량 트랜스포머와 같은 대규모 네트워크로 확장하는 것은 어려운 것으로 입증되었습니다. 이러한 어려움은 지도 학습과는 대조적입니다: 지도 학습 방법은 교차 엔트로피 분류 손실을 활용하여 대규모 네트워크로 안정적으로 확장되었습니다. 이러한 차이를 관찰한 본 논문에서는 가치 함수 학습에 회귀 대신 분류를 사용함으로써 심층 RL의 확장성을 개선할 수 있는지 조사합니다. 우리는 범주형 교차 엔트로피로 학습된 가치 함수가 다양한 도메인에서 성능과 확장성을 크게 향상시킨다는 것을 입증합니다. 이에는 SoftMoE를 사용한 Atari 2600 게임의 단일 작업 RL, 대규모 ResNet을 사용한 Atari의 다중 작업 RL, Q-트랜스포머를 사용한 로봇 조작, 탐색 없이 체스 플레이, 고용량 트랜스포머를 사용한 언어 에이전트 Wordle 작업이 포함되며, 이러한 도메인에서 최첨단 결과를 달성합니다. 신중한 분석을 통해 범주형 교차 엔트로피의 이점이 주로 노이즈가 있는 목표와 비정상성과 같은 가치 기반 RL의 고유한 문제를 완화하는 능력에서 비롯된다는 것을 보여줍니다. 전반적으로, 우리는 가치 함수를 범주형 교차 엔트로피로 학습하는 간단한 전환이 거의 비용 없이 심층 RL의 확장성을 크게 개선할 수 있다고 주장합니다.
대규모 시퀀스 모델링은 생물학 및 유전체학 분야로 빠르게 확장되며 급속한 발전을 이끌고 있습니다. 그러나 유전체 시퀀스를 모델링할 때는 장거리 토큰 상호작용, 유전체의 상류 및 하류 영역의 영향, 그리고 DNA의 역상보성(RC)과 같은 문제를 해결해야 합니다. 본 연구에서는 이러한 문제를 해결하기 위해 장거리 Mamba 블록을 기반으로 한 아키텍처를 제안합니다. 이 아키텍처는 양방향성을 지원하는 BiMamba 컴포넌트와 RC 등변성을 추가로 지원하는 MambaDNA 블록으로 확장됩니다. 우리는 MambaDNA를 Caduceus의 기반으로 사용하며, Caduceus는 RC 등변성을 갖춘 양방향 장거리 DNA 언어 모델의 첫 번째 패밀리입니다. 또한, Caduceus DNA 파운데이션 모델을 위한 사전 학습 및 미세 조정 전략을 소개합니다. Caduceus는 다운스트림 벤치마크에서 기존의 장거리 모델을 능가하며, 특히 도전적인 장거리 변이 효과 예측 작업에서 양방향성이나 등변성을 활용하지 않는 10배 더 큰 모델의 성능을 뛰어넘습니다.
모방 학습은 로봇에게 정교한 기술을 가르치는 효율적인 방법을 제공하지만, 복잡한 기술을 견고하고 일반화 가능하게 학습하기 위해서는 대량의 인간 시연 데이터가 필요합니다. 이러한 어려운 문제를 해결하기 위해, 우리는 3D 시각적 표현의 힘을 확산 정책(diffusion policies)에 통합한 새로운 시각적 모방 학습 접근법인 3D Diffusion Policy(DP3)를 제안합니다. DP3의 핵심 설계는 효율적인 포인트 인코더를 통해 희소 포인트 클라우드에서 추출된 간결한 3D 시각적 표현을 활용하는 것입니다. 72개의 시뮬레이션 작업을 포함한 실험에서 DP3는 단 10개의 시연만으로 대부분의 작업을 성공적으로 처리했으며, 기준선 대비 55.3%의 상대적 개선을 달성했습니다. 4개의 실제 로봇 작업에서 DP3는 각 작업당 40개의 시연만으로도 85%의 높은 성공률로 정밀한 제어를 보여주었으며, 공간, 시점, 외관, 인스턴스 등 다양한 측면에서 우수한 일반화 능력을 입증했습니다. 흥미롭게도, 실제 로봇 실험에서 DP3는 안전 요구 사항을 거의 위반하지 않았는데, 이는 인간의 개입이 자주 필요한 기준선 방법과 대조적입니다. 우리의 광범위한 평가는 실제 세계의 로봇 학습에서 3D 표현의 중요성을 강조합니다. 비디오, 코드, 데이터는 https://3d-diffusion-policy.github.io에서 확인할 수 있습니다.
많은 온라인 콘텐츠 포털은 사용자가 자신의 이해를 보완하기 위해 질문을 할 수 있도록 허용합니다(예: 강의에 대한 질문). 정보 검색(IR) 시스템은 이러한 사용자 질문에 대한 답변을 제공할 수 있지만, 콘텐츠 개선을 원하는 강사와 같은 콘텐츠 제작자가 해당 질문을 _유발한_ 텍스트 세그먼트를 식별하는 데 직접적으로 도움을 주지는 않습니다. 우리는 사용자 질문을 가장 유발할 가능성이 높은 텍스트 세그먼트를 검색하는 작업인 백트레이싱(backtracing)을 소개합니다. 우리는 백트레이싱이 콘텐츠 전달과 커뮤니케이션 개선에 중요한 세 가지 실제 도메인을 공식화합니다: (a) 강의 도메인에서 학생의 혼란 원인 이해, (b) 뉴스 기사 도메인에서 독자의 호기심 원인 이해, (c) 대화 도메인에서 사용자의 감정 원인 이해. 우리는 인기 있는 정보 검색 방법과 언어 모델링 방법, 이중 인코더, 재순위 지정 및 가능성 기반 방법, 그리고 ChatGPT의 제로샷 성능을 평가합니다. 전통적인 IR 시스템은 의미적으로 관련된 정보를 검색하지만(예: "프로젝션 행렬"에 대한 세부 정보를 "여러 번 프로젝션해도 동일한 지점에 도달하는가?"라는 질문에 대해), 종종 인과적으로 관련된 맥락을 놓칩니다(예: 강사가 "두 번 프로젝션하면 한 번 프로젝션한 것과 동일한 답을 얻는다"고 언급한 부분). 우리의 결과는 백트레이싱에 개선의 여지가 있으며 새로운 검색 접근 방식이 필요함을 보여줍니다. 우리는 우리의 벤치마크가 향후 백트레이싱을 위한 검색 시스템을 개선하고, 콘텐츠 생성을 개선하고 사용자 질문에 영향을 미치는 언어적 트리거를 식별하는 시스템을 탄생시키는 데 기여하기를 바랍니다. 우리의 코드와 데이터는 오픈소스로 제공됩니다: https://github.com/rosewang2008/backtracing.