번역이 포함된 일일 선별된 AI 연구 논문
단순히 샘플링 및 투표 방식을 통해 대규모 언어 모델(LLM)의 성능이 인스턴스화된 에이전트의 수에 따라 확장된다는 것을 발견하였다. 또한, 이 방법은 기존의 복잡한 방법들과 직교적이며, LLM을 더욱 향상시키는 데 있어서 그 정도는 작업의 난이도와 상관관계가 있다. 우리는 이러한 발견의 존재를 검증하고, 이를 촉진할 수 있는 특성을 연구하기 위해 다양한 LLM 벤치마크에 대한 포괄적인 실험을 수행하였다. 우리의 코드는 https://anonymous.4open.science/r/more_agent_is_all_you_need에서 공개적으로 이용 가능하다.
우리는 디지털 에이전트가 웹 브라우저를 제어하고 사용자 지시에 따라 다중 턴 대화 방식으로 실제 작업을 해결하는 대화형 웹 탐색 문제를 제안한다. 이 문제를 지원하기 위해, 우리는 2300개의 전문가 시연을 통해 100,000건의 상호작용을 포함한 대규모 벤치마크인 WEBLINX를 소개한다. 우리의 벤치마크는 150개 이상의 실제 웹사이트에서 다양한 패턴을 다루며, 다양한 시나리오에서 에이전트를 훈련하고 평가하는 데 사용할 수 있다. 대량의 정보로 인해 대형 언어 모델(LLM)은 실시간으로 전체 웹 페이지를 처리할 수 없다. 이러한 병목 현상을 해결하기 위해, 우리는 관련 요소를 순위별로 정리하여 HTML 페이지를 효율적으로 정제하는 검색 기반 모델을 설계했다. 선택된 요소와 스크린샷, 행동 이력을 사용하여 웹 탐색 시 인간의 행동을 모방하는 다양한 모델의 능력을 평가한다. 우리의 실험은 소규모 텍스트 전용 모델부터 독점적인 다중 모드 LLM까지 광범위하게 걸쳐 있다. 우리는 소규모로 미세 조정된 디코더가 최고의 제로샷 LLM(예: GPT-4V)을 능가할 뿐만 아니라, 스크린샷에 대해 명시적으로 사전 훈련된 더 큰 다중 모드 모델도 능가한다는 것을 발견했다. 그러나 모든 미세 조정된 모델은 보지 못한 웹사이트에 일반화하는 데 어려움을 겪는다. 우리의 연구 결과는 새로운 환경에 일반화할 수 있는 대형 다중 모드 모델의 필요성을 강조한다. 우리의 코드, 데이터 및 모델은 연구 목적으로 이용 가능하다: https://mcgill-nlp.github.io/weblinx
인공지능 시스템의 개발은 정적이고 특정 작업에 한정된 모델을 생성하는 단계에서, 다양한 응용 분야에서 우수한 성능을 발휘할 수 있는 동적이고 에이전트 기반의 시스템으로 전환되고 있다. 본 연구에서는 광범위한 도메인, 데이터셋, 그리고 작업에 걸쳐 AI 에이전트를 훈련시키기 위한 새로운 다중 작업 에이전트 훈련 패러다임을 사용하는 상호작용형 에이전트 기초 모델(Interactive Agent Foundation Model)을 제안한다. 우리의 훈련 패러다임은 시각적 마스크 자동 인코더, 언어 모델링, 그리고 다음 행동 예측을 포함한 다양한 사전 훈련 전략을 통합하여 다재다능하고 적응력 있는 AI 프레임워크를 가능하게 한다. 우리는 로보틱스, 게임 AI, 그리고 헬스케어라는 세 가지 별개의 도메인에서 우리 프레임워크의 성능을 입증한다. 우리의 모델은 각 영역에서 의미 있고 문맥적으로 적절한 출력을 생성할 수 있는 능력을 보여준다. 우리 접근법의 강점은 로보틱스 시퀀스, 게임플레이 데이터, 대규모 비디오 데이터셋, 그리고 텍스트 정보와 같은 다양한 데이터 소스를 활용하여 효과적인 다중 모달 및 다중 작업 학습을 가능하게 하는 일반성에 있다. 우리의 접근법은 일반적인 행동을 취하는 다중 모달 시스템을 개발하기 위한 유망한 방향을 제시한다.
대형 언어 모델(LLMs)은 자연어 이해 및 생성에서 뛰어난 능력을 보여주고 있다. 그러나 물리학 및 생물의학과 같이 사전 학습 코퍼스에서 충분히 다루어지지 않은 고도로 전문화된 분야에서는 그 성능이 저하된다. 본 연구는 일반적인 LLMs를 전문화된 분야의 효과적인 과제 해결자로 재활용하는 방법을 탐구한다. 우리는 LLM의 임베딩 층에 추가되는 연속 벡터로 매개변수화된 사용자 정의 입력 태그를 학습하기 위한 새로운 모델-불가지론적 프레임워크를 소개한다. 이 프레임워크는 LLM을 조건화하는 데 사용된다. 우리는 두 가지 유형의 입력 태그를 설계한다: 도메인 태그는 전문화된 표현(예: 화학식)을 구분하고 도메인 관련 컨텍스트를 제공하는 데 사용되며, 기능 태그는 특정 기능(예: 분자 특성 예측)을 나타내고 기능 해결 지침을 압축하는 데 사용된다. 우리는 보조 데이터와 도메인 지식을 사용하여 이러한 태그를 학습하기 위한 세 단계 프로토콜을 개발한다. 과제 도메인과 과제 기능을 명시적으로 분리함으로써, 우리의 방법은 입력 태그의 다양한 조합을 통해 보이지 않는 문제에 대한 제로샷 일반화를 가능하게 한다. 또한 이 방법은 단백질 또는 화학적 특성 예측 및 약물-표적 상호작용 모델링과 같은 다양한 전문화된 분야에서 LLM의 성능을 향상시키며, 이러한 과제에 맞춤화된 전문 모델을 능가한다.
본 기술 보고서는 2023년 중반에 공개된 오픈소스 다국어 E5 텍스트 임베딩 모델의 훈련 방법론과 평가 결과를 제시한다. 세 가지 크기(소형/기본/대형)의 임베딩 모델이 제공되며, 이는 추론 효율성과 임베딩 품질 간의 균형을 제공한다. 훈련 절차는 영어 E5 모델 레시피를 준수하며, 10억 개의 다국어 텍스트 쌍에 대한 대조적 사전 훈련과 레이블이 지정된 데이터셋의 조합에 대한 미세 조정을 포함한다. 또한, 최신 영어 전용 모델과 유사한 크기의 성능을 보이는 새로운 지시어 조정 임베딩 모델을 소개한다. 모델 공개에 관한 정보는 https://github.com/microsoft/unilm/tree/master/e5에서 확인할 수 있다.
최근 개인화된 텍스트-이미지(P-T2I) 생성 모델의 발전에도 불구하고, 주체 기반 T2I는 여전히 도전적인 과제로 남아 있습니다. 주요 병목 현상은 1) 집중적인 훈련 자원 요구, 2) 하이퍼파라미터 민감성으로 인한 일관성 없는 출력, 3) 새로운 시각적 개념과 구성 정렬의 복잡성 균형 맞추기 등입니다. 우리는 이러한 한계를 해결하기 위해 T2I 확산 모델의 핵심 철학을 재확인하는 것부터 시작합니다. 현대의 주체 기반 T2I 접근법은 주로 잠재 확산 모델(LDMs)에 의존하며, 이는 교차 주의 계층을 통해 T2I 매핑을 용이하게 합니다. LDMs는 뚜렷한 장점을 제공하지만, P-T2I 방법이 이러한 확산 모델의 잠재 공간에 의존함에 따라 자원 요구가 크게 증가하고, 일관성 없는 결과를 초래하며, 단일 원하는 이미지를 위해 수많은 반복이 필요합니다. 최근 ECLIPSE는 확산 텍스트-이미지 사전 없이도 UnCLIP 기반 T2I 모델을 훈련하는 더 자원 효율적인 경로를 보여주었습니다. 이를 기반으로 우리는 lambda-ECLIPSE를 소개합니다. 우리의 방법은 효과적인 P-T2I가 반드시 확산 모델의 잠재 공간에 의존할 필요가 없음을 보여줍니다. lambda-ECLIPSE는 단일, 다중 주체, 그리고 에지 가이드 T2I 개인화를 단 34M 파라미터와 1.6M 이미지-텍스트 인터리브 데이터를 사용하여 단 74 GPU 시간만으로 달성합니다. 광범위한 실험을 통해 우리는 lambda-ECLIPSE가 훨씬 낮은 자원 활용률로도 구성 정렬에서 기존 베이스라인을 능가하면서 개념 정렬 성능을 유지함을 입증했습니다.
컨텍스트 내 학습(In-context learning, ICL, 일명 퓨샷 프롬프팅)은 소수의 입력-출력 예제를 통해 대형 언어 모델(LLM)을 다운스트림 작업에 적응시키는 표준 방법으로 사용되어 왔다. 그러나 모든 ICL 기반 접근법은 정확한 입력-출력 쌍에서만 학습한다. 본 논문에서는 주어진 소수의 입력-출력 예제로부터 더 많은 것을 학습함으로써 이 패러다임을 재검토한다. 우리는 학습 원칙(Learning Principles, LEAP)을 소개한다: 먼저, 모델이 이 소수의 예제에서 실수를 하도록 의도적으로 유도한다; 그런 다음 이러한 실수를 반성하고, 이를 통해 명시적인 작업 특화 "원칙"을 학습하여 유사한 문제를 해결하고 일반적인 실수를 피할 수 있도록 한다; 마지막으로, 모델이 원래의 퓨샷 예제와 학습된 일반 원칙을 사용하여 보지 못한 테스트 질문에 답하도록 프롬프트한다. 우리는 LEAP를 다양한 벤치마크에서 평가했으며, 이 중 다중 홉 질문 응답(Hotpot QA), 텍스트 질문 응답(DROP), Big-Bench Hard 추론, 수학 문제(GSM8K 및 MATH)를 포함한다. 이러한 모든 벤치마크에서 LEAP는 GPT-3.5-turbo, GPT-4, GPT-4 turbo, Claude-2.1과 같은 가장 강력한 LLM을 개선한다. 예를 들어, LEAP는 GPT-4를 사용한 표준 퓨샷 프롬프팅보다 DROP에서 7.5%, HotpotQA에서 3.3% 향상된 성능을 보인다. 중요한 것은 LEAP가 표준 퓨샷 프롬프팅 설정보다 더 많은 입력이나 예제를 필요로 하지 않는다는 점이다.
본 논문에서는 SPHINX를 기반으로 개발된 광범위한 멀티모달리티 대형 언어 모델(MLLM) 시리즈인 SPHINX-X를 제안한다. 아키텍처 및 학습 효율성을 개선하기 위해, SPHINX 프레임워크를 수정하여 중복된 시각 인코더를 제거하고, 완전히 패딩된 부분 이미지를 스킵 토큰으로 우회하며, 다단계 학습을 단일 단계의 올인원 패러다임으로 단순화하였다. MLLM의 잠재력을 최대한 발휘하기 위해, 언어, 시각 및 시각-언어 작업에서 공개적으로 이용 가능한 리소스를 포함한 포괄적인 다중 도메인 및 다중 모달 데이터셋을 구축하였다. 또한, OCR 집중 및 Set-of-Mark 데이터셋을 추가하여 다양성과 일반성을 확장하였다. TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, Mixtral8x7B 등 다양한 기본 LLM을 통해 학습함으로써, 파라미터 크기와 다국어 능력이 다양한 MLLM 스펙트럼을 얻었다. 포괄적인 벤치마킹 결과, 다중 모달 성능과 데이터 및 파라미터 규모 간의 강한 상관관계가 확인되었다. 코드와 모델은 https://github.com/Alpha-VLLM/LLaMA2-Accessory에서 공개되었다.
우리는 텍스트와 음성을 자유롭게 혼합할 수 있는 기반 멀티모달 언어 모델인 SPIRIT-LM을 소개한다. 우리의 모델은 사전 훈련된 텍스트 언어 모델을 기반으로 하며, 텍스트와 음성 유닛에 대한 지속적인 학습을 통해 음성 모달리티로 확장했다. 음성과 텍스트 시퀀스는 단일 토큰 집합으로 연결되며, 자동으로 정제된 소규모 음성-텍스트 병렬 코퍼스를 사용한 단어 수준의 인터리빙 방법으로 훈련되었다. SPIRIT-LM은 두 가지 버전으로 제공된다: 음성 의미 유닛을 사용하는 BASE 버전과, 의미 유닛 외에도 피치와 스타일 유닛을 사용하여 표현성을 모델링하는 EXPRESSIVE 버전이다. 두 버전 모두 텍스트는 서브워드 BPE 토큰으로 인코딩된다. 결과적으로 이 모델은 텍스트 모델의 의미 능력과 음성 모델의 표현 능력을 모두 보여준다. 또한, SPIRIT-LM이 다양한 모달리티(예: ASR, TTS, 음성 분류)에서 소수 샷 방식으로 새로운 작업을 학습할 수 있음을 입증한다.
본 논문에서는 확산 모델(diffusion model)로 생성된 합성 데이터셋을 활용하여 객체 탐지기의 능력을 향상시키는 새로운 패러다임을 소개한다. 구체적으로, 사전 학습된 생성적 확산 모델에 인스턴스 수준의 그라운딩 헤드(grounding head)를 통합하여, 생성된 이미지 내 임의의 인스턴스를 위치 지정할 수 있는 능력을 부여한다. 이 그라운딩 헤드는 범주 이름의 텍스트 임베딩과 확산 모델의 지역적 시각적 특징을 정렬하도록 학습되며, 이는 기존의 객체 탐지기로부터의 지도와 탐지기가 다루지 않는 (새로운) 범주에 대한 새로운 자기 학습 기법을 통해 이루어진다. 이러한 개선된 확산 모델은 InstaGen으로 명명되며, 객체 탐지를 위한 데이터 합성기로 활용될 수 있다. 본 연구에서는 InstaGen으로부터 생성된 합성 데이터셋을 통해 객체 탐지기의 성능이 향상될 수 있음을 보여주는 철저한 실험을 수행하였으며, 이는 개방형 어휘(open-vocabulary) 시나리오에서 +4.5 AP, 데이터 희소(data-sparse) 시나리오에서 +1.2에서 5.2 AP의 성능 향상을 통해 기존의 최신 방법들을 능가함을 입증하였다.
대부분의 트랜스포머 기반 비디오 인코더는 2차 복잡도로 인해 짧은 시간적 문맥에 제한됩니다. 이러한 문맥을 확장하기 위한 다양한 시도가 있었지만, 이는 종종 개념적 및 계산적 복잡성의 증가를 수반했습니다. 우리는 대신 기존에 사전 학습된 비디오 트랜스포머를 재활용하여, 단순히 미세 조정을 통해 과거 활성화에서 비모수적으로 도출된 메모리에 주목하도록 제안합니다. 중복 감소를 활용함으로써, 우리의 메모리 통합 비전 트랜스포머(MC-ViT)는 과거로의 문맥을 손쉽게 확장하고 더 긴 비디오에서 학습할 때 우수한 확장성을 보여줍니다. 이를 통해 MC-ViT는 EgoSchema, Perception Test, 그리고 Diving48에서 장문맥 비디오 이해 분야의 새로운 최첨단 기술을 세우며, 훨씬 더 많은 매개변수를 사용하는 방법들보다 우수한 성능을 보입니다.
비전-언어(Vision-Language, VL) 모델은 다중 모드 추론(multimodal reasoning) 분야에서 주목할 만한 발전을 이끌며 상당한 연구 관심을 받고 있습니다. 이러한 아키�처는 일반적으로 비전 인코더, 대형 언어 모델(Large Language Model, LLM), 그리고 시각적 특징을 LLM의 표현 공간에 정렬하는 프로젝션 모듈로 구성됩니다. 이러한 성공에도 불구하고, 한 가지 중요한 한계점이 여전히 존재합니다: 비전 인코딩 프로세스는 사용자 쿼리(주로 이미지 관련 질문 형태)와 분리된 상태로 유지됩니다. 결과적으로 생성된 시각적 특징은 쿼리와 관련된 이미지 요소에 최적으로 맞춰지지 않을 수 있습니다. 이를 해결하기 위해, 우리는 질문 인식 비전 트랜스포머(Question Aware Vision Transformer, QA-ViT) 접근법을 제안합니다. 이 방법은 비전 인코더 내에 질문 인식을 직접 통합하여, 제기된 질문과 관련된 이미지 측면에 초점을 맞춘 동적 시각적 특징을 생성합니다. QA-ViT는 모델에 독립적이며, 어떤 VL 아키텍처에도 효율적으로 통합될 수 있습니다. 다양한 다중 모드 아키텍처에 우리의 방법을 적용한 광범위한 실험을 통해, 이 방법이 다양한 작업에서 일관된 성능 향상을 이끌어내며 시각적 및 장면 텍스트 이해를 강화할 수 있는 잠재력을 보여주었습니다.
우리는 매개변수화된 확률적 확산에 의해 암묵적으로 정의된 분포를 최적화하기 위한 새로운 알고리즘을 제안한다. 이를 통해 샘플링 과정의 결과 분포를 매개변수 최적화를 통해 수정할 수 있다. 우리는 이러한 과정의 1차 최적화를 위한 일반적인 프레임워크를 소개하며, 이는 최적화와 샘플링 단계를 단일 루프에서 동시에 수행한다. 이 접근법은 최근의 이중 수준 최적화 및 자동 암묵적 미분의 발전에서 영감을 받았으며, 확률 분포 공간에 대한 최적화로서의 샘플링 관점을 활용한다. 우리는 이 방법의 성능에 대한 이론적 보장을 제공하며, 실제 환경에서의 효과를 입증하는 실험 결과도 제시한다.
새로운 환경, 관습, 법규에 운전 행동을 적응시키는 것은 자율주행 분야에서 오랜 기간 해결되지 않은 문제로, 이로 인해 자율주행차(AVs)의 광범위한 상용화가 지연되고 있다. 본 논문에서는 인간 운전자와 자율주행차 모두가 새로운 지역의 교통 규칙에 따라 운전 작업과 모션 계획을 적응시켜 어디서나 운전할 수 있도록 돕는 간단하지만 강력한 도구인 LLaDA를 소개한다. LLaDA는 대규모 언어 모델(LLMs)의 뛰어난 제로샷 일반화 능력을 활용하여 현지 운전자 핸드북의 교통 규칙을 해석함으로써 이를 달성한다. 광범위한 사용자 연구를 통해 LLaDA의 지침이 예상치 못한 실제 상황에서의 모호성을 해소하는 데 유용함을 입증한다. 또한, LLaDA가 실제 데이터셋에서 자율주행차의 모션 계획 정책을 적응시키는 능력을 보여주며, 모든 평가 지표에서 기준선 계획 접근법을 능가하는 성과를 보인다. 자세한 내용은 웹사이트(https://boyiliee.github.io/llada)를 참조하시기 바란다.
오프라인 액터-크리틱 강화 학습이 트랜스포머와 같은 대형 모델로 확장 가능하며, 지도 학습과 유사한 스케일링 법칙을 따름을 보여준다. 우리는 132개의 연속 제어 작업에 대해 하위 최적 및 전문가 행동을 모두 포함한 대규모 데이터셋에서 다중 작업 학습을 위해 강력한 지도 학습 기반 행동 복제 베이스라인을 능가할 수 있음을 발견했다. 우리는 퍼시버 기반의 액터-크리틱 모델을 소개하고, 오프라인 강화 학습이 자기 주의 및 교차 주의 모듈과 함께 작동하도록 하는 데 필요한 주요 모델 특징을 설명한다. 전반적으로, 우리는 i) 단순한 오프라인 액터-크리틱 알고리즘이 현재 주류인 행동 복제 패러다임에서 점차 벗어나기 위한 자연스러운 선택이며, ii) 오프라인 강화 학습을 통해 하위 최적의 시연 또는 자체 생성 데이터로부터 실제 로봇 공학 작업을 포함한 여러 도메인을 동시에 마스터하는 다중 작업 정책을 학습할 수 있음을 발견했다.