번역이 포함된 일일 선별된 AI 연구 논문
언어 모델은 실제로 개별 추론을 위해 뉴런의 지수적 비율만 사용하면 됩니다. 이를 증명하기 위해, 우리는 추론 과정에서 뉴런의 0.3%만 사용하면서도 유사한 BERT 모델과 동등한 성능을 보이는 FastBERT를 제시합니다. FastBERT는 각 계층 추론 시 4095개 뉴런 중 단 12개만 선택적으로 활성화합니다. 이는 피드포워드 네트워크를 고속 피드포워드 네트워크(FFFs)로 대체함으로써 달성됩니다. 조건부 신경 실행의 전체 가속 잠재력을 완전히 활용할 수 있는 진정한 효율적인 구현은 현재 존재하지 않지만, 우리는 최적화된 기본 피드포워드 구현 대비 78배의 속도 향상을 달성하는 고수준 CPU 코드와, 동등한 배치 처리 피드포워드 추론 대비 40배의 속도 향상을 제공하는 PyTorch 구현을 제공합니다. 우리는 학습 코드, 벤치마킹 설정, 그리고 모델 가중치를 공개합니다.
Orca 1은 설명 트레이스(explanation traces)와 같은 풍부한 신호를 학습하여 BigBench Hard 및 AGIEval과 같은 벤치마크에서 기존의 지시 튜닝(instruction-tuned) 모델을 능가합니다. Orca 2에서는 개선된 학습 신호가 더 작은 언어 모델(LM)의 추론 능력을 어떻게 향상시킬 수 있는지 계속 탐구합니다. 작은 LM을 훈련시키는 연구는 종종 더 강력한 모델의 출력을 복제하기 위한 모방 학습(imitation learning)에 의존해 왔습니다. 우리는 과도한 모방에 대한 강조가 작은 모델의 잠재력을 제한할 수 있다고 주장합니다. 우리는 작은 LM이 더 큰 모델이 사용하는 전략과는 다를 수 있는 다양한 작업에 대해 다른 해결 전략을 사용하도록 가르치고자 합니다. 예를 들어, 더 큰 모델이 복잡한 작업에 대해 직접적인 답을 제공할 수 있는 반면, 작은 모델은 동일한 능력을 갖추지 못할 수 있습니다. Orca 2에서는 모델에게 단계별 접근(step-by-step), 기억 후 생성(recall then generate), 기억-추론-생성(recall-reason-generate), 직접 답변(direct answer) 등 다양한 추론 기법을 가르칩니다. 더 중요한 것은, 모델이 각 작업에 가장 효과적인 해결 전략을 결정하는 방법을 학습하도록 돕는 것입니다. 우리는 약 100개의 작업과 36,000개 이상의 고유한 프롬프트에 해당하는 15개의 다양한 벤치마크를 사용하여 Orca 2를 평가합니다. Orca 2는 유사한 크기의 모델을 크게 능가하며, 제로샷(zero-shot) 설정에서 고급 추론 능력을 테스트하는 복잡한 작업에서 5-10배 더 큰 모델과 유사하거나 더 나은 성능을 달성합니다. 우리는 Orca 2를 오픈소스로 공개하여 작은 LM의 개발, 평가, 정렬에 대한 추가 연구를 장려합니다.
동작이 풍부한 액션과 정교한 시각 효과와 같은 고다이내믹 비디오를 생성하는 것은 인공지능 분야에서 상당한 도전 과제로 남아 있습니다. 불행히도, 현재 최첨단 비디오 생성 방법들은 주로 텍스트-투-비디오 생성에 초점을 맞추고 있어 높은 충실도를 유지하더라도 최소한의 움직임만을 보이는 비디오 클립을 생성하는 경향이 있습니다. 우리는 비디오 생성에 있어 텍스트 지시만을 의존하는 것이 불충분하며 최적이 아니라고 주장합니다. 본 논문에서는 확산 모델을 기반으로 한 새로운 접근법인 PixelDance를 소개합니다. 이 방법은 비디오 생성을 위해 첫 번째와 마지막 프레임에 대한 이미지 지시와 텍스트 지시를 결합합니다. 공개 데이터로 학습된 PixelDance는 복잡한 장면과 정교한 움직임을 가진 비디오를 합성하는 데 있어 훨씬 더 뛰어난 능력을 보여주며, 비디오 생성의 새로운 기준을 제시합니다.
트랜스포머 기반 대형 언어 모델(LLM)의 소프트 어텐션은 문맥에서 관련 없는 정보를 잠재 표현에 포함시키기 쉬워, 다음 토큰 생성에 부정적인 영향을 미칩니다. 이러한 문제를 해결하기 위해, 우리는 LLM의 자연어 추론 능력과 지시를 따르는 능력을 활용하여 주의를 기울일 대상을 결정하는 System 2 Attention(S2A)을 제안합니다. S2A는 최종 응답을 도출하기 전에 관련된 부분만 포함하도록 입력 문맥을 재생성한 후, 재생성된 문맥에 주의를 기울입니다. 실험에서 S2A는 의견이나 관련 없는 정보가 포함된 세 가지 작업(질의응답, 수학 단어 문제, 장문 생성)에서 표준 어텐션 기반 LLM을 능가하며, 사실성과 객관성을 높이고 아첨을 줄이는 것으로 나타났습니다.
LoRA는 특정 작업에 대형 언어 모델(LLM)을 적응시킬 때 뛰어난 자원 효율성과 비슷한 성능을 달성합니다. ChatGPT가 다양한 작업에서 우수한 성능을 보인 이후, 하나의 모델로 모든 작업을 수행하려는 요구가 증가했습니다. 그러나 LoRA의 명시적인 저차원 특성은 복잡한 다중 작업 시나리오에서의 적응 성능을 제한합니다. LoRA는 소수의 상위 특이 벡터에 의해 지배되는 반면, 미세 조정은 덜 중요한 유니터리 변환 집합으로 분해됩니다. 본 논문에서는 LoRA에서 관찰된 상위 특이 벡터의 지배를 줄여 더 나은 다중 작업 적응을 위한 MultiLoRA를 제안합니다. MultiLoRA는 LoRA 모듈을 수평적으로 확장하고 적응 행렬의 매개변수 초기화를 변경하여 매개변수 의존성을 줄임으로써 더 균형 잡힌 유니터리 부분 공간을 생성합니다. 우리는 지시 따르기, 자연어 이해, 세계 지식 등의 데이터셋을 혼합하여 의미론적 및 구문론적으로 다른 샘플을 포함하는 특수화된 학습 데이터를 전례 없이 구성했습니다. 단 2.5%의 추가 매개변수만으로 MultiLoRA는 단일 LoRA 대비 및 미세 조정을 여러 벤치마크와 모델 규모에서 능가합니다. MultiLoRA의 가중치 업데이트 행렬에 대한 추가 조사는 상위 특이 벡터에 대한 의존성이 줄어들고 더 민주적인 유니터리 변환 기여를 보여줍니다.
우리는 생물학, 물리학, 화학 분야의 전문가들이 작성한 448개의 객관식 질문으로 구성된 도전적인 데이터셋인 GPQA를 소개한다. 이 질문들은 고품질이며 극도로 어렵도록 설계되었는데, 해당 분야에서 박사 학위를 취득했거나 취득 중인 전문가들의 정확도가 65%(후회하며 확인한 명백한 실수를 제외하면 74%)에 불과한 반면, 고도로 숙련된 비전문가 검증자들은 웹에 무제한 접근하며 평균 30분 이상을 소비했음에도 불구하고 정확도가 34%에 그쳤다(즉, 이 질문들은 "구글 방어"가 가능하다). 또한 이 질문들은 최첨단 AI 시스템에게도 어려운데, 우리가 사용한 가장 강력한 GPT-4 기반 베이스라인의 정확도는 39%에 그쳤다. 만약 미래의 AI 시스템을 활용하여 매우 어려운 질문에 답하고자 한다면, 예를 들어 새로운 과학적 지식을 개발할 때, 인간이 그 출력을 감독할 수 있는 확장 가능한 감독 방법을 개발해야 한다. 이는 감독자 자신이 숙련되고 지식이 풍부하더라도 어려울 수 있다. GPQA의 난이도는 숙련된 비전문가와 최첨단 AI 시스템 모두에게 현실적인 확장 가능한 감독 실험을 가능하게 할 것이며, 우리는 이를 통해 인간 전문가들이 인간 능력을 초월하는 AI 시스템으로부터 신뢰할 수 있는 진실된 정보를 얻는 방법을 마련하는 데 도움이 되기를 바란다.
우리는 대규모 언어 모델에서 파라미터 효율적이고 모듈식 전이 학습을 통합하는 오픈소스 라이브러리인 Adapters를 소개합니다. Adapters는 10가지 다양한 어댑터 방법을 통합된 인터페이스로 제공하여 사용의 편의성과 유연한 구성을 가능하게 합니다. 본 라이브러리는 연구자와 실무자가 컴포지션 블록을 통해 어댑터의 모듈성을 활용할 수 있도록 하여 복잡한 어댑터 설정을 설계할 수 있게 합니다. 우리는 다양한 NLP 작업에서 전체 파인튜닝과의 성능 비교를 통해 라이브러리의 효용성을 입증합니다. Adapters는 기존 파인튜닝 패러다임의 문제를 해결하고 더 효율적이고 모듈식인 전이 학습을 촉진하는 강력한 도구를 제공합니다. 이 라이브러리는 https://adapterhub.ml/adapters에서 이용 가능합니다.
우리는 고도의 시각적 품질, 프롬프트 정렬 및 장면 다양성을 갖춘 특정 도메인에서 Latent Diffusion Models(LDMs)를 미세 조정하는 방법인 Style Tailoring을 소개합니다. 스티커 이미지 생성을 타겟 도메인으로 선택한 이유는, 대규모 LDMs가 일반적으로 생성하는 사실적인 샘플과 크게 다른 이미지이기 때문입니다. 우리는 Emu와 같은 유능한 텍스트-이미지 모델을 시작점으로 삼아, 사실적인 모델에 프롬프트 엔지니어링을 의존해 스티커를 생성할 경우 프롬프트 정렬과 장면 다양성이 저하됨을 보여줍니다. 이러한 단점을 극복하기 위해, 먼저 약한 감독을 통해 수집된 수백만 개의 스티커 형식 이미지로 Emu를 미세 조정하여 다양성을 유도합니다. 다음으로, 모델 생성물에서 인간 참여형(HITL) 정렬 및 스타일 데이터셋을 선별하고, 각각 프롬프트 정렬과 스타일 정렬을 개선하기 위해 미세 조정을 수행합니다. 이러한 데이터셋에 대한 순차적 미세 조정은 더 나은 스타일 정렬과 프롬프트 정렬 향상 사이의 트레이드오프를 야기합니다. 이 트레이드오프를 해결하기 위해, 우리는 콘텐츠와 스타일 분포를 공동으로 맞추어 최적의 트레이드오프를 달성하는 새로운 미세 조정 방법인 Style Tailoring을 제안합니다. 평가 결과는 우리의 방법이 기본 Emu 모델에 프롬프트 엔지니어링을 적용해 스티커를 생성하는 경우에 비해 시각적 품질을 14%, 프롬프트 정렬을 16.2%, 장면 다양성을 15.3% 개선함을 보여줍니다.
최근 텍스트-3D 생성 분야의 발전은 생성 모델에서 중요한 이정표를 세우며, 다양한 실제 시나리오에서 창의적인 3D 자산을 생성할 수 있는 새로운 가능성을 열어주고 있습니다. 텍스트-3D 생성 분야의 최근 발전은 유망한 결과를 보여주고 있지만, 여전히 세부적이고 고품질의 3D 모델을 렌더링하는 데 있어 한계를 보이고 있습니다. 이 문제는 특히 많은 방법들이 Score Distillation Sampling(SDS)에 기반을 두고 있기 때문에 더욱 두드러집니다. 본 논문은 SDS의 중요한 결함을 지적합니다. 즉, SDS가 3D 모델에 대해 일관성 없고 저품질의 업데이트 방향을 제공하여 과도한 평활화(over-smoothing) 효과를 초래한다는 점입니다. 이를 해결하기 위해, 우리는 Interval Score Matching(ISM)이라는 새로운 접근 방식을 제안합니다. ISM은 결정론적 확산 궤적을 사용하고, 구간 기반 점수 매칭을 활용하여 과도한 평활화를 방지합니다. 또한, 우리는 텍스트-3D 생성 파이프라인에 3D Gaussian Splatting을 통합했습니다. 광범위한 실험을 통해 우리의 모델이 품질과 학습 효율성 측면에서 최신 기술을 크게 능가함을 보여줍니다.
언어 모델의 파라미터 수를 확장하는 것이 성능 향상에 효과적인 접근 방식임이 입증되었습니다. 밀집 모델(dense model)의 경우, 모델 크기를 늘리면 모델의 계산 부하가 비례적으로 증가합니다. 본 연구에서는 대규모 지식 기반 어휘 라우팅 함수와 전문가(expert)를 활용한 전문가 혼합(Mixture-of-Experts, MoE) 스타일 모델을 통해 학습 용량과 FLOPs를 적극적으로 분리하는 방법을 탐구합니다. 우리가 제안한 접근 방식인 단어 전문가 혼합(Mixture of Word Experts, MoWE)은 대규모 단어별 전문가 집합이 희소 메모리(sparse memory)의 역할을 수행하는 메모리 증강 모델로 볼 수 있습니다. 우리는 MoWE가 다양한 NLP 작업에서 유사한 FLOPs 수를 가진 T5 모델군보다 훨씬 우수한 성능을 보임을 입증합니다. 또한, MoWE는 지식 집약적 작업에서 일반적인 MoE 모델을 능가하며, 희소 메모리를 검색하기 위해 사용자 정의 메커니즘을 호출해야 하는 더 복잡한 메모리 증강 접근 방식과 유사한 성능을 보입니다.
스토리 시각화는 텍스트로 기술된 이야기와 일치하는 일련의 이미지를 생성하는 것을 목표로 하며, 생성된 이미지가 높은 품질, 텍스트 설명과의 정렬, 그리고 캐릭터 정체성의 일관성을 충족해야 한다. 스토리 시각화의 복잡성으로 인해, 기존 방법들은 몇 가지 특정 캐릭터와 시나리오만을 고려하거나, 사용자에게 스케치와 같은 이미지별 제어 조건을 제공하도록 요구함으로써 문제를 극도로 단순화하였다. 그러나 이러한 단순화는 이러한 방법들이 실제 응용에 적합하지 않게 만든다. 이를 위해, 우리는 최소한의 인간 상호작용으로도 다양하고 고품질이며 일관된 스토리 이미지 세트를 효과적으로 생성할 수 있는 자동화된 스토리 시각화 시스템을 제안한다. 구체적으로, 우리는 레이아웃 계획을 위해 대규모 언어 모델의 이해 및 계획 능력을 활용하고, 레이아웃을 기반으로 정교한 스토리 이미지를 생성하기 위해 대규모 텍스트-이미지 모델을 활용한다. 우리는 경험적으로 경계 상자와 같은 희소 제어 조건이 레이아웃 계획에 적합한 반면, 스케치 및 키포인트와 같은 밀집 제어 조건은 고품질 이미지 콘텐츠 생성에 적합하다는 것을 발견했다. 두 가지의 장점을 모두 얻기 위해, 우리는 단순한 경계 상자 레이아웃을 최종 이미지 생성을 위한 스케치 또는 키포인트 제어 조건으로 변환하는 밀집 조건 생성 모듈을 고안하였으며, 이는 이미지 품질을 향상시킬 뿐만 아니라 쉽고 직관적인 사용자 상호작용을 가능하게 한다. 또한, 우리는 다중 뷰 일관성 캐릭터 이미지를 생성하기 위한 간단하지만 효과적인 방법을 제안하여, 캐릭터 이미지를 수집하거나 그리는 데 필요한 인간 노동에 대한 의존을 제거하였다.
고대의 물레방아에서 로봇 프로세스 자동화(RPA)에 이르기까지, 자동화 기술은 인간을 힘든 작업에서 해방시키기 위해 역사를 거쳐 발전해왔습니다. 그러나 RPA는 인간과 유사한 지능이 필요한 작업, 특히 워크플로우 구축의 정교한 설계와 워크플로우 실행 시의 동적 의사결정에서 어려움을 겪습니다. 대형 언어 모델(LLM)이 인간과 유사한 지능을 나타내며 등장함에 따라, 본 논문은 LLM 기반 에이전트를 활용한 혁신적인 자동화 패러다임인 에이전트 프로세스 자동화(APA)를 소개합니다. APA는 구축과 실행에 관련된 에이전트에게 인간의 노동을 위임함으로써 고급 자동화를 실현합니다. 이어서, 인간의 지시로부터 워크플로우를 설계하고 전문화된 에이전트들을 조율하여 복잡한 결정을 내리는 LLM 기반 에이전트인 ProAgent를 구현합니다. 실험을 통해 워크플로우의 구축 및 실행 절차를 상세히 설명하며, APA의 실현 가능성을 입증하고, 에이전트 주도의 새로운 자동화 패러다임의 가능성을 제시합니다. 우리의 코드는 https://github.com/OpenBMB/ProAgent에서 공개되어 있습니다.
대형 언어 모델(LLMs)은 작업 계획과 API와 같은 외부 도구 사용이 결합된 작업을 처리하는 데 능숙함을 보여주었습니다. 그러나 현실 세계의 복잡한 시스템은 작업 계획과 도구 사용과 관련하여 세 가지 주요 과제를 제시합니다: (1) 실제 시스템은 일반적으로 방대한 수의 API를 가지고 있어, 토큰 길이가 제한된 LLM의 프롬프트에 모든 API의 설명을 제공하는 것이 불가능합니다; (2) 실제 시스템은 복잡한 작업을 처리하도록 설계되어 있으며, 기본 LLM은 이러한 작업에 대한 올바른 하위 작업 순서와 API 호출 순서를 계획하기 어렵습니다; (3) 실제 시스템에서 API 간의 유사한 의미와 기능은 LLM뿐만 아니라 인간에게도 이를 구분하는 데 어려움을 초래합니다. 이에 대응하여, 본 논문은 현실 세계 시스템 내에서 작동하는 LLM 기반 에이전트의 작업 계획 및 도구 사용(TPTU) 능력을 향상시키기 위한 포괄적인 프레임워크를 소개합니다. 우리의 프레임워크는 이러한 과제를 해결하기 위해 설계된 세 가지 주요 구성 요소로 이루어져 있습니다: (1) API 검색기는 사용자 작업과 가장 관련성이 높은 API를 방대한 배열 중에서 선택합니다; (2) LLM 미세 조정기는 기본 LLM을 조정하여, 미세 조정된 LLM이 작업 계획과 API 호출에 더 능숙해지도록 합니다; (3) 데모 선택기는 구분하기 어려운 API와 관련된 다양한 데모를 적응적으로 검색하며, 이를 컨텍스트 학습에 추가 사용하여 최종 성능을 향상시킵니다. 우리는 실제 상용 시스템과 오픈소스 학술 데이터셋을 사용하여 우리의 방법을 검증하였으며, 그 결과는 각 개별 구성 요소와 통합 프레임워크의 효과를 명확히 보여줍니다.
우리는 인간의 행동 관찰을 통합하여 로봇 조작을 용이하게 하는 범용 비전 언어 모델인 GPT-4V(ision)를 강화하는 파이프라인을 소개합니다. 이 시스템은 인간이 작업을 수행하는 비디오를 분석하고, 어포던스 통찰을 포함한 실행 가능한 로봇 프로그램을 생성합니다. 계산은 GPT-4V를 사용하여 비디오를 분석하고 환경 및 행동 세부 사항을 텍스트로 변환하는 것으로 시작되며, 이어서 GPT-4로 강화된 작업 계획기가 이를 처리합니다. 이후 분석에서 비전 시스템은 작업 계획과 함께 비디오를 재분석합니다. 객체 이름은 개방형 어휘 객체 탐지기를 사용하여 고정되며, 손과 객체 간의 관계에 초점을 맞춰 잡고 놓는 순간을 감지합니다. 이러한 시공간적 고정을 통해 비전 시스템은 어포던스 데이터(예: 잡기 유형, 경유점, 신체 자세)를 추가로 수집할 수 있습니다. 다양한 시나리오에서의 실험은 이 방법이 제로샷 방식으로 인간의 시연에서 실제 로봇의 작동을 달성하는 데 효과적임을 입증합니다. GPT-4V/GPT-4의 프롬프트는 이 프로젝트 페이지에서 확인할 수 있습니다: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
현재 대규모 언어 모델(LLM)을 활용한 연구 동향은 급증하고 있습니다. 많은 연구들이 이러한 모델의 강력한 추론 능력을 활용하여 텍스트, 음성, 이미지, 비디오 등 다양한 양식을 이해하고 있습니다. 또한 LLM을 사용하여 인간의 의도를 이해하고 이미지, 비디오, 음악과 같은 원하는 출력물을 생성하기도 합니다. 그러나 LLM을 사용하여 이해와 생성을 모두 결합한 연구는 여전히 제한적이며 초기 단계에 있습니다. 이러한 격차를 해결하기 위해, 우리는 다양한 양식의 음악을 이해하고 생성할 수 있는 LLM의 능력을 통합한 다중 양식 음악 이해 및 생성(M^{2}UGen) 프레임워크를 소개합니다. M^{2}UGen 프레임워크는 사전 학습된 MERT, ViT, ViViT 모델을 각각 사용하여 음악, 이미지, 비디오를 포함한 다양한 영감의 원천에서 창의적 잠재력을 발휘하도록 특별히 설계되었습니다. 음악 생성을 위해 AudioLDM 2와 MusicGen의 사용을 탐구합니다. 다중 양식 이해와 음악 생성을 연결하는 것은 LLaMA 2 모델의 통합을 통해 이루어집니다. 또한, MU-LLaMA 모델을 사용하여 텍스트/이미지/비디오에서 음악으로의 생성을 지원하는 광범위한 데이터셋을 생성하여 M^{2}UGen 프레임워크의 학습을 용이하게 합니다. 우리는 제안된 프레임워크에 대한 철저한 평가를 수행합니다. 실험 결과는 우리 모델이 현재 최첨단 모델의 성능을 달성하거나 능가함을 보여줍니다.