번역이 포함된 일일 선별된 AI 연구 논문
스타크래프트 II는 가장 도전적인 시뮬레이션 강화 학습 환경 중 하나로, 부분 관찰 가능하며 확률적이고 다중 에이전트 시스템을 특징으로 합니다. 스타크래프트 II를 숙달하기 위해서는 장기적인 전략적 계획과 실시간의 세부 실행이 요구됩니다. 또한, 이 게임은 활발한 프로 경쟁 장면을 가지고 있습니다. 스타크래프트 II는 오프라인 강화 학습 알고리즘을 발전시키기에 특히 적합한데, 이는 그 도전적인 특성뿐만 아니라 블리자드가 인간 플레이어들이 플레이한 수백만 건의 스타크래프트 II 게임 데이터셋을 공개했기 때문입니다. 본 논문은 이를 활용하여 AlphaStar Unplugged라는 벤치마크를 설립하고, 오프라인 강화 학습에 있어 전례 없는 도전 과제를 소개합니다. 우리는 데이터셋(블리자드 공개 자료의 일부), 머신 러닝 방법을 위한 API를 표준화한 도구, 그리고 평가 프로토콜을 정의합니다. 또한, 행동 복제, 액터-크리틱 및 MuZero의 오프라인 변형을 포함한 베이스라인 에이전트를 제시합니다. 우리는 오프라인 데이터만을 사용하여 에이전트의 최신 기술을 개선하고, 이전에 발표된 AlphaStar 행동 복제 에이전트에 대해 90%의 승률을 달성합니다.
대형 언어 모델(LLMs)은 점점 더 지능적이고 자율적으로 발전하며, 전통적인 자연어 처리(NLP) 작업을 넘어 실용적인 현실 세계의 임무를 목표로 하고 있습니다. 이에 따라, 상호작용 환경에서의 도전적인 과제에 대한 에이전트로서의 LLMs 평가가 시급히 요구되고 있습니다. 본 논문에서는 다차원적이고 진화하는 벤치마크인 AgentBench를 소개합니다. 이 벤치마크는 현재 8개의 독특한 환경으로 구성되어 있으며, 다중 턴 오픈 엔드 생성 설정에서 LLM-as-Agent의 추론 및 의사 결정 능력을 평가합니다. 25개의 LLMs(API 및 오픈소스 모델 포함)에 대한 광범위한 테스트 결과, 최상위 상용 LLMs는 복잡한 환경에서 에이전트로서의 강력한 능력을 보여주지만, 이들과 오픈소스 경쟁 모델 간에는 상당한 성능 차이가 있음이 확인되었습니다. 또한, 이 연구는 체계적인 LLM 평가를 위한 더 넓은 범위와 깊은 고려를 포함하는 진행 중인 프로젝트의 일부로 기능합니다. AgentBench의 데이터셋, 환경, 통합 평가 패키지는 https://github.com/THUDM/AgentBench에서 공개되었습니다.
고도로 맞춤화된 텍스트 설명과 포즈 가이던스를 통해 표현력이 풍부하고 다양하며 고품질의 3D 아바타를 생성하는 것은, 세부 사항과 다양한 스타일(사실적, 가상적 등)을 보장하기 위한 3D 모델링과 텍스처링의 복잡성으로 인해 어려운 작업이다. 우리는 AvatarVerse를 제안하는데, 이는 텍스트 설명과 포즈 가이던스만으로부터 표현력이 뛰어난 고품질 3D 아바타를 생성하기 위한 안정적인 파이프라인이다. 구체적으로, 우리는 DensePose 신호에 기반한 2D 확산 모델을 도입하여 2D 이미지를 통해 3D 아바타의 포즈 제어를 가능하게 하여, 부분적으로 관찰된 시나리오에서의 뷰 일관성을 향상시킨다. 이는 악명 높은 야누스 문제(Janus Problem)를 해결하고 생성 과정을 크게 안정화한다. 또한, 우리는 점진적인 고해상도 3D 합성 전략을 제안하여, 생성된 3D 아바타의 품질을 크게 개선한다. 이를 통해, 제안된 AvatarVerse 파이프라인은 이전 작업들보다 더 표현력이 뛰어날 뿐만 아니라 더 높은 품질과 충실도를 가진 3D 아바타의 제로샷 3D 모델링을 달성한다. 엄격한 정성적 평가와 사용자 연구는 AvatarVerse가 고충실도 3D 아바타를 합성하는 데 있어 우수성을 보여주며, 고품질이고 안정적인 3D 아바타 생성의 새로운 표준을 제시한다. 우리의 프로젝트 페이지는 https://avatarverse3d.github.io이다.
최근 텍스트-이미지 생성 모델의 발전으로 우리는 단어를 생동감 있고 매혹적인 이미지로 변환할 수 있게 되었습니다. 이어지는 개인화 기술의 급증은 또한 새로운 장면에서 독특한 개념을 상상할 수 있게 해주었습니다. 그러나 흥미로운 질문이 남아 있습니다: 어떻게 이전에 본 적 없는 새로운 상상의 개념을 생성할 수 있을까요? 본 논문에서는 광범위한 범주의 새로운 구성원을 생성하는(예: 기존의 모든 애완동물과 다른 애완동물 생성) 창의적 텍스트-이미지 생성 작업을 제시합니다. 우리는 잘 연구되지 않은 Diffusion Prior 모델을 활용하고, 창의적 생성 문제를 Diffusion Prior의 출력 공간에 대한 최적화 과정으로 공식화하여 "사전 제약 조건" 집합을 도출할 수 있음을 보여줍니다. 생성된 개념이 기존 구성원으로 수렴하는 것을 방지하기 위해, 우리는 질의-응답 모델을 통합하여 최적화 문제에 새로운 제약 조건을 적응적으로 추가함으로써 모델이 점점 더 독창적인 창작물을 발견하도록 장려합니다. 마지막으로, 우리의 사전 제약 조건이 생성된 개념 간의 하이브리드를 생성할 수 있는 강력한 혼합 메커니즘으로도 작용하여 창의적 과정에 더 많은 유연성을 도입할 수 있음을 보여줍니다.
대규모 언어 모델(LLM)은 임의의 개체와 관계를 이해하는 등 놀라운 일반화 능력을 보여주고 있습니다. 명령어 튜닝(instruction tuning)은 LLM을 Alpaca나 Vicuna와 같은 더 비용 효율적인 모델로 정제하는 데 효과적임이 입증되었습니다. 그러나 이러한 학생 모델(student model)은 여전히 다운스트림 애플리케이션에서 원본 LLM에 비해 큰 격차를 보입니다. 본 논문에서는 특정 임무에 초점을 맞춘 명령어 튜닝을 통한 표적 정제(targeted distillation)를 탐구하여, 개방형 정보 추출(open information extraction)과 같은 광범위한 애플리케이션 클래스에서 뛰어난 성능을 발휘할 수 있는 학생 모델을 훈련하는 방법을 연구합니다. 사례 연구로 개체명 인식(NER)을 사용하여, ChatGPT를 개방형 NER을 위한 훨씬 더 작은 UniversalNER 모델로 정제하는 방법을 보여줍니다. 평가를 위해, 우리는 생물의학, 프로그래밍, 소셜 미디어, 법률, 금융 등 9개의 다양한 도메인에 걸친 43개의 데이터셋으로 구성된 역대 최대 규모의 NER 벤치마크를 구축했습니다. 어떠한 직접적인 지도 학습도 사용하지 않고, UniversalNER은 수만 개의 개체 유형에 걸쳐 놀라운 NER 정확도를 달성하며, Alpaca와 Vicuna와 같은 일반 명령어 튜닝 모델을 평균 30점 이상의 절대 F1 점수 차이로 능가했습니다. 매우 적은 수의 파라미터로, UniversalNER은 ChatGPT의 임의의 개체 유형 인식 능력을 획득할 뿐만 아니라, 평균 7-9점의 절대 F1 점수 차이로 ChatGPT의 NER 정확도를 능가했습니다. 특히, UniversalNER은 지도 학습된 NER 예제를 사용하는 InstructUIE와 같은 최신 다중 작업 명령어 튜닝 시스템도 큰 격차로 능가했습니다. 또한, 우리는 정제 접근법의 다양한 구성 요소의 영향을 평가하기 위해 철저한 제거 연구(ablation study)를 수행했습니다. 향후 표적 정제 연구를 촉진하기 위해 정제 레시피, 데이터 및 UniversalNER 모델을 공개할 예정입니다.
보는 것이 믿는 것이지만, 인간의 시각적 인식이 어떻게 우리의 인지와 얽혀 있는지에 대한 근본적인 메커니즘은 여전히 미스터리로 남아 있습니다. 최근 신경과학과 인공지능 분야의 발전 덕분에, 우리는 시각적으로 유발된 뇌 활동을 기록하고 계산적 접근을 통해 시각적 인식 능력을 모방할 수 있게 되었습니다. 본 논문에서는 휴대 가능한 뇌 신호, 즉 뇌전도(EEG) 데이터를 기반으로 관찰된 이미지를 재구성함으로써 시각적 자극 재구성에 주목합니다. EEG 신호는 시계열 형식으로 동적이며 노이즈가 많기 때문에, 유용한 정보를 처리하고 추출하기 위해서는 더 많은 노력이 필요합니다. 본 논문에서는 EEG 신호로부터 시각적 자극 이미지를 재구성하기 위한 포괄적인 파이프라인인 NeuroImagen을 제안합니다. 구체적으로, 우리는 새로운 다중 수준의 지각 정보 디코딩을 도입하여 주어진 EEG 데이터로부터 다양한 세분화된 출력을 도출합니다. 이후 잠재 확산 모델이 추출된 정보를 활용하여 고해상도 시각적 자극 이미지를 재구성합니다. 실험 결과는 이미지 재구성의 효과성과 제안된 방법의 우수한 정량적 성능을 입증하였습니다.
최근 자연어 처리 분야의 발전과 함께, 대규모 언어 모델(LLMs)은 다양한 실제 응용 프로그램에서 강력한 도구로 부상했습니다. 그러나 이러한 모델의 뛰어난 능력에도 불구하고, 복잡한 작업을 처리하기 위해서는 작업 계획과 외부 도구 사용의 조합이 필요한 경우, LLMs의 내재적 생성 능력만으로는 부족할 수 있습니다. 본 논문에서는 먼저 LLM 기반 AI 에이전트에 맞춤화된 구조화된 프레임워크를 제안하고, 복잡한 문제를 해결하기 위해 필요한 핵심 능력에 대해 논의합니다. 이 프레임워크 내에서, 우리는 추론 과정을 실행하기 위해 두 가지 유형의 에이전트(즉, 단일 단계 에이전트와 순차적 에이전트)를 설계합니다. 이후, 다양한 LLMs를 사용하여 이 프레임워크를 구체화하고, 전형적인 작업에 대한 작업 계획 및 도구 사용(TPTU) 능력을 평가합니다. 주요 발견과 도전 과제를 강조함으로써, 우리는 연구자와 실무자가 AI 응용 프로그램에서 LLMs의 힘을 활용할 수 있도록 유용한 자료를 제공하는 것을 목표로 합니다. 본 연구는 이러한 모델의 상당한 잠재력을 강조하는 동시에, 더 많은 조사와 개선이 필요한 영역을 식별합니다.
머신러닝 모델의 위험을 이해하고 완화하기 위해 모델의 내부를 더 잘 들여다보려 할 때, 잠재적으로 가치 있는 증거의 한 가지는 다음과 같습니다: 어떤 훈련 예제가 특정 행동에 가장 크게 기여하는가? 영향 함수(influence functions)는 다음과 같은 반사실적 질문에 답하고자 합니다: 주어진 시퀀스가 훈련 데이터셋에 추가된다면 모델의 파라미터(그리고 결과적으로 출력)는 어떻게 변할까? 영향 함수는 소규모 모델에 대한 통찰을 제공해왔지만, 역헤시안-벡터 곱(IHVP) 계산의 어려움으로 인해 대규모 언어 모델(LLM)로 확장하기가 어렵습니다. 우리는 Eigenvalue-corrected Kronecker-Factored Approximate Curvature(EK-FAC) 근사법을 사용해 최대 520억 개의 파라미터를 가진 LLM까지 영향 함수를 확장합니다. 실험에서 EK-FAC는 IHVP 계산이 기존 방법보다 수백 배 빠름에도 불구하고 전통적인 영향 함수 추정기와 유사한 정확도를 달성합니다. 우리는 후보 훈련 시퀀스의 그래디언트 계산 비용을 줄이기 위해 두 가지 알고리즘 기법(TF-IDF 필터링과 쿼리 배칭)을 탐구합니다. 영향 함수를 사용해 LLM의 일반화 패턴을 조사하며, 이는 영향 패턴의 희소성, 규모에 따른 추상화 증가, 수학 및 프로그래밍 능력, 교차 언어 일반화, 역할 수행 행동 등을 포함합니다. 많은 정교한 일반화 형태가 있음에도 불구하고, 우리는 놀라운 한계를 발견했습니다: 핵심 구문의 순서가 뒤바뀌면 영향이 거의 0으로 감소합니다. 전반적으로, 영향 함수는 LLM의 일반화 특성을 연구하는 강력한 새로운 도구를 제공합니다.
모션 확대 기술은 미세하고 인지하기 어려운 움직임을 시각적으로 확인할 수 있게 해줍니다. 그러나 기존 방법들은 고정된 카메라로 촬영된 2D 비디오에만 적용 가능했습니다. 본 연구에서는 움직이는 카메라로 촬영된 장면에서도 미세한 움직임을 확대할 수 있는 3D 모션 확대 방법을 제안하며, 새로운 시점 렌더링도 지원합니다. 우리는 시간에 따라 변화하는 광도 필드로 장면을 표현하고, 오일러 원리를 활용하여 고정된 점의 임베딩 변화를 추출하고 증폭합니다. 제안된 3D 모션 확대 원리를 검증하기 위해 내재적 광도 필드와 트라이플레인 기반 광도 필드를 기반으로 한 3D 장면 표현 방식을 연구하고 적용했습니다. 또한 다양한 카메라 설정으로 촬영된 합성 및 실제 장면에서 본 방법의 효과를 평가했습니다.
대규모 시각-언어 모델(LVLMs)의 최근 발전은 복잡한 다중모달 작업을 해결하는 데 있어 상당한 진전을 보여주었습니다. 이러한 최첨단 개발 중에서도 Google의 Bard는 다양한 영역에서 포괄적인 이해와 추론을 촉진하는 놀라운 다중모달 능력으로 두각을 나타내고 있습니다. 본 연구는 Tiny LVLM-eHub라는 LVLM-eHub의 경량화된 변형을 제안함으로써, 특히 Bard에 초점을 맞춰 LVLMs의 다중모달 능력에 대한 초기적이고 종합적인 평가를 제시합니다. 기존 버전과 비교하여 Tiny LVLM-eHub는 몇 가지 매력적인 특성을 가지고 있습니다. 첫째, 42개의 표준 텍스트 관련 시각 벤치마크를 통해 시각 인지, 시각 지식 습득, 시각 추론, 시각 상식, 객체 환각, 그리고 구현된 지능 등 6가지 범주의 다중모달 능력에 대한 체계적인 평가를 제공합니다. 둘째, ChatGPT 앙상블 평가(CEE)를 사용하여 LVLMs의 예측에 대한 심층 분석을 수행함으로써, 단어 매칭 접근 방식에 비해 더 강력하고 정확한 평가를 제공하며 인간 평가와의 일치도를 개선합니다. 셋째, 단 2.1K개의 이미지-텍스트 쌍으로 구성되어 있어 실무자가 자신의 오프라인 LVLMs를 쉽게 평가할 수 있도록 합니다. 광범위한 실험적 분석을 통해 본 연구는 Bard가 객체 환각을 제외한 대부분의 다중모달 능력에서 이전의 LVLMs를 능가한다는 것을 입증합니다. Tiny LVLM-eHub는 다양한 LVLMs에 대한 기준 평가를 제공하며 다중모달 기술을 발전시키기 위한 혁신적인 전략을 장려합니다. 우리의 프로젝트는 https://github.com/OpenGVLab/Multi-Modality-Arena에서 공개적으로 이용 가능합니다.
기존의 대규모 언어 모델은 K개의 토큰 시퀀스를 생성하기 위해 K번 실행되어야 합니다. 본 논문에서는 전체 모델을 여러 단계에 걸쳐 실행하지 않고 사전 생성된 모델 상태를 재활용함으로써 빠른 디코딩 속도를 달성한 생성 언어 모델인 RecycleGPT를 소개합니다. 우리의 접근 방식은 시퀀스 내 인접한 토큰들이 일반적으로 강한 상관관계를 가지며, 시퀀스의 다음 토큰은 앞선 토큰들을 기반으로 합리적으로 추측하거나 유추할 수 있다는 관찰에 기반합니다. 다운스트림 텍스트 생성 작업에 대한 이론적 평가와 실제 테스트를 통해, 우리는 이 접근 방식이 추론 지연 시간을 줄이고 높은 성능을 유지하면서 최대 1.4배의 속도 향상을 달성하는 데 효과적임을 입증합니다.
최근, 신경 방사장(Neural Radiance Fields, NeRF)은 새로운 시점 합성, 표면 재구성 등에서 상당한 성공을 거두었습니다. 그러나 NeRF의 렌더링 파이프라인에서는 물리적 반사가 고려되지 않아, 거울의 반사를 별도의 가상 장면으로 오인하여 거울의 부정확한 재구성과 다중 시점에서 일관되지 않은 반사를 초래합니다. 본 논문에서는 Mirror-NeRF라는 새로운 신경 렌더링 프레임워크를 제안합니다. 이 프레임워크는 거울의 정확한 기하학과 반사를 학습할 수 있으며, 새로운 물체나 거울을 장면에 추가하고 이러한 새로운 물체의 반사를 합성하거나 거울의 거칠기를 제어하는 등 다양한 장면 조작 애플리케이션을 지원합니다. 이를 위해, 우리는 반사 확률을 도입하고 Whitted Ray Tracing의 광선 전달 모델을 따라 광선을 추적함으로써 통합된 방사장을 제안하며, 학습 과정을 촉진하기 위한 여러 기술을 개발했습니다. 합성 및 실제 데이터셋에 대한 실험과 비교를 통해 우리 방법의 우수성을 입증했습니다. 코드와 보충 자료는 프로젝트 웹페이지에서 확인할 수 있습니다: https://zju3dv.github.io/Mirror-NeRF/.
산업 제어 분야에서는 적은 샘플과 낮은 기술 부채로 고성능 제어기를 개발하는 것이 매력적입니다. 인터넷 규모의 코퍼스로 사전 학습을 통해 얻은 풍부한 사전 지식을 갖춘 파운데이션 모델은 적절한 프롬프트를 통해 우수한 제어기가 될 잠재력을 가지고 있습니다. 본 논문에서는 HVAC(난방, 환기, 공조) 건물 제어를 예시로, 최상위 파운데이션 모델 중 하나인 GPT-4의 제어 능력을 검토합니다. HVAC를 제어하기 위해, 각 단계마다 작업에 대한 간단한 설명, 선택된 몇 가지 데모, 그리고 현재 관측값을 포함한 텍스트를 GPT-4에 제공하고, GPT-4가 응답한 동작을 실행하는 방식으로 작업을 언어 게임으로 포장합니다. 우리는 다음과 같은 질문에 답하기 위해 일련의 실험을 수행합니다: 1) GPT-4가 HVAC를 얼마나 잘 제어할 수 있는가? 2) GPT-4가 다양한 HVAC 제어 시나리오에 얼마나 잘 일반화할 수 있는가? 3) 텍스트 컨텍스트의 다른 부분이 성능에 어떻게 영향을 미치는가? 전반적으로, GPT-4는 적은 샘플과 낮은 기술 부채로 강화 학습 방법과 비슷한 성능을 달성하며, 이는 파운데이션 모델을 산업 제어 작업에 직접 적용할 가능성을 시사합니다.
딥러닝 소프트웨어 라이브러리의 발전은 사용자가 모델링에 집중할 수 있게 함으로써 해당 분야에서 상당한 진전을 이끌었으며, 라이브러리가 현대 하드웨어 가속기를 위한 실행 최적화라는 지루하고 시간 소모적인 작업을 처리하도록 했습니다. 그러나 이는 Transformer와 같이 기본 연산이 벡터화된 계산에 쉽게 매핑되는 특정 유형의 딥러닝 모델에만 혜택을 주었습니다. 트리나 세그멘테이션과 같은 구조화된 객체를 명시적으로 고려하는 모델들은 벡터화된 형태로 구현하기 어려운 맞춤형 알고리즘이 필요하기 때문에 동일한 혜택을 받지 못했습니다. SynJax는 이러한 문제를 직접 해결하기 위해 정렬, 태깅, 세그멘테이션, 구성 트리, 스패닝 트리를 포함한 구조화된 분포에 대한 추론 알고리즘의 효율적인 벡터화 구현을 제공합니다. SynJax를 사용하면 데이터의 구조를 명시적으로 모델링하는 대규모 미분 가능 모델을 구축할 수 있습니다. 코드는 https://github.com/deepmind/synjax에서 확인할 수 있습니다.
양자화(Quantization)는 현대 딥 뉴럴 네트워크(DNN)의 모델 크기, 계산 요구량, 에너지 소비를 줄이기 위한 주류 압축 기술로 자리 잡았습니다. 최근 하드웨어에서 정수 및 부동소수점의 다양한 변형을 포함한 개선된 수치 지원으로 인해, 낮은 모델 비용으로 고품질 결과를 달성하기 위해 혼합 정밀도(mixed-precision) 양자화가 필수적이 되었습니다. 기존의 혼합 정밀도 양자화 방법은 정확도를 희생하는 사후 학습 양자화 탐색을 수행하거나, 분기로 인해 높은 메모리 사용량을 초래하는 미분 가능한 양자화 탐색을 수행했습니다. 따라서 우리는 정수 및 저정밀도 부동소수점 모델 모두에서 재학습이 필요 없는 최초의 원샷(one-shot) 혼합 정밀도 양자화 탐색을 제안합니다. 우리는 부동소수점 및 정수 양자화 탐색(FLIQS)을 여러 컨볼루션 네트워크와 비전 트랜스포머 모델에서 평가하여 파레토 최적(Pareto-optimal) 모델을 발견합니다. 우리의 접근 방식은 균일 정밀도, 수동 혼합 정밀도, 최근의 정수 양자화 탐색 방법을 개선한 모델을 발견합니다. 제안된 정수 양자화 탐색을 통해, 이전 방법 대비 동일한 모델 비용으로 ImageNet에서 ResNet-18의 정확도를 1.31% 포인트, ResNet-50의 정확도를 0.90% 포인트 향상시켰습니다. 또한, 최초로 새로운 혼합 정밀도 부동소수점 탐색을 탐구하여, 이전 최신 FP8 모델 대비 MobileNetV2의 정확도를 최대 0.98% 포인트 향상시켰습니다. 마지막으로, FLIQS를 확장하여 양자화와 뉴럴 아키텍처 공간을 동시에 탐색하고, MobileNetV2 탐색 공간에서 유사한 모델 비용으로 ImageNet 정확도를 2.69% 포인트 향상시켰습니다.
딥 생성 모델은 다양한 유형의 표현(예: 멜-스펙트로그램, 멜-주파수 켑스트럼 계수(MFCC))을 조건으로 고품질 오디오를 생성할 수 있습니다. 최근에는 이러한 모델들이 고도로 압축된 표현을 조건으로 오디오 파형을 합성하는 데 사용되고 있습니다. 이러한 방법들은 인상적인 결과를 내지만, 조건이 결함이 있거나 불완전할 경우 들리는 아티팩트를 생성하기 쉽습니다. 대안적인 모델링 접근법으로는 확산 모델을 사용하는 것이 있습니다. 그러나 이들은 주로 음성 보코더(즉, 멜-스펙트로그램을 조건으로)로 사용되거나 상대적으로 낮은 샘플링 속도의 신호를 생성하는 데 사용되었습니다. 본 연구에서는 저비트레이트 이산 표현에서 모든 유형의 오디오 양식(예: 음성, 음악, 환경음)을 생성하는 고품질 다중 대역 확산 기반 프레임워크를 제안합니다. 동일한 비트레이트에서 제안된 접근법은 지각적 품질 측면에서 최첨단 생성 기술을 능가합니다. 학습 및 평가 코드와 오디오 샘플은 facebookresearch/audiocraft Github 페이지에서 확인할 수 있습니다.