번역이 포함된 일일 선별된 AI 연구 논문
우리는 코드 전용 새로운 대형 언어 모델인 phi-1을 소개합니다. 이 모델은 경쟁 모델들에 비해 상당히 작은 규모를 가지고 있습니다: phi-1은 1.3B 파라미터를 가진 Transformer 기반 모델로, 8개의 A100 GPU를 사용하여 4일 동안 학습되었으며, 웹에서 선별한 "교과서 수준" 데이터(6B 토큰)와 GPT-3.5로 생성된 합성 교과서 및 연습 문제(1B 토큰)를 사용했습니다. 이러한 작은 규모에도 불구하고, phi-1은 HumanEval에서 50.6%의 pass@1 정확도를, MBPP에서 55.5%의 정확도를 달성했습니다. 또한, 코딩 연습 문제 데이터셋에 대한 미세 조정 단계 이전의 모델인 phi-1-base와 동일한 파이프라인으로 학습된 350M 파라미터의 더 작은 모델인 phi-1-small(여전히 HumanEval에서 45% 달성)과 비교했을 때 놀라운 창발적 특성을 보여줍니다.
주어진 동작 설명으로부터 현실적인 인간 동작을 생성하는 기술은 디지털 휴먼에 대한 요구가 증가함에 따라 상당한 발전을 이루어 왔다. 최근 연구들은 텍스트 기반 동작 설명에서 직접 동작을 생성하는 데 있어 인상적인 결과를 달성했지만, 이러한 연구들은 종종 단일 형태의 제어 신호만을 지원하여 실제 디지털 휴먼 산업에서의 적용이 제한적이었다. 본 논문은 다중 모달 제어 신호(예: 텍스트 및 단일 프레임 포즈)를 활용하여 연속적인 인간 동작을 생성할 수 있는 Motion General-Purpose generaTor(MotionGPT)를 제안한다. 이를 위해 다중 모달 신호를 대형 언어 모델(LLM)의 특수 입력 토큰으로 처리한다. 구체적으로, 우리는 먼저 다중 모달 제어 신호를 이산 코드로 양자화한 후 이를 통합된 프롬프트 지시문으로 구성하여 LLM이 동작 답변을 생성하도록 요청한다. 우리의 MotionGPT는 LLM 매개변수의 단 0.4%만을 조정하여 다중 모달 제어 신호를 통합한 인간 동작 생성 모델을 보여준다. 우리가 아는 한, MotionGPT는 다중 모달 제어 신호를 통해 인간 동작을 생성하는 첫 번째 방법으로, 이 새로운 방향에 대한 통찰을 제공할 수 있기를 기대한다. 코드는 논문 수락 시 공개될 예정이다.
HomeRobot (명사): 가정 내에서 이동하며 다양한 물체를 조작하여 일상적인 작업을 완료할 수 있는 경제적이고 유연한 로봇. Open-Vocabulary Mobile Manipulation (OVMM)은 보지 못한 환경에서 어떤 물체든 선택하여 명령된 위치에 놓는 문제를 다룹니다. 이는 로봇이 인간 환경에서 유용한 조력자가 되기 위한 핵심 과제로, 로보틱스 전반의 하위 문제를 해결해야 합니다: 인지, 언어 이해, 탐색, 조작은 모두 OVMM에 필수적입니다. 또한, 이러한 하위 문제에 대한 해결책을 통합하는 것 자체도 상당한 도전 과제입니다. 이 분야의 연구를 촉진하기 위해, 우리는 HomeRobot OVMM 벤치마크를 소개합니다. 이 벤치마크에서는 에이전트가 가정 환경을 탐색하여 새로운 물체를 잡고 목표 수납 공간에 놓는 작업을 수행합니다. HomeRobot은 두 가지 구성 요소로 이루어져 있습니다: 첫째, 시뮬레이션 구성 요소로, 새로운 고품질의 다중 방 가정 환경에서 크고 다양한 물체 세트를 사용합니다. 둘째, 실제 세계 구성 요소로, 저비용 Hello Robot Stretch를 위한 소프트웨어 스택을 제공하여 실험실 간 실제 실험의 재현을 촉진합니다. 우리는 강화 학습과 휴리스틱(모델 기반) 베이스라인을 구현하고 시뮬레이션에서 실제로의 전이(sim-to-real transfer) 증거를 보여줍니다. 우리의 베이스라인은 실제 세계에서 20%의 성공률을 달성하며, 실험을 통해 향후 연구가 성능을 개선할 수 있는 방법을 확인했습니다. 자세한 내용은 웹사이트에서 확인하세요: https://ovmm.github.io/.
GitHub Copilot과 같은 코딩 보조 도구에서 대형 언어 모델(LLMs)이 큰 성공을 거두었음에도 불구하고, 이러한 모델들은 리포지토리에 존재하는 컨텍스트(예: 임포트, 부모 클래스, 유사한 이름의 파일 등)를 이해하는 데 어려움을 겪어 부정확한 코드 완성을 생성합니다. 이러한 효과는 모델이 학습 중에 접하지 못한 리포지토리, 예를 들어 독점 소프트웨어나 진행 중인 코드 프로젝트에서 이러한 보조 도구를 사용할 때 더욱 두드러집니다. 최근 연구에서는 추론 중에 리포지토리 컨텍스트를 사용하는 것이 유망함을 보여주었습니다. 본 연구에서는 이 아이디어를 확장하여 관련 리포지토리 컨텍스트를 통합하도록 모델을 훈련시키는 프레임워크인 RepoFusion을 제안합니다. 단일 라인 코드 완성 실험에서 리포지토리 컨텍스트로 훈련된 우리의 모델은 CodeGen-16B-multi(약 73배 더 큰 모델)와 같은 훨씬 더 큰 코드 모델을 크게 능가하며, Fill-in-the-Middle 목표로 훈련된 약 70배 더 큰 StarCoderBase 모델의 성능과 근접한 결과를 보여줍니다. 이러한 결과는 리포지토리 컨텍스트를 사용한 훈련이 가져올 수 있는 이점에 대한 새롭고 강력한 증명으로 여겨집니다. 우리는 컨텍스트 유형, 컨텍스트 수, 컨텍스트 길이, 초기화와 같은 설계 선택의 영향을 조사하기 위해 광범위한 절제 연구를 수행합니다. 마지막으로, 우리는 허가된 라이선스를 가진 200개의 Java 리포지토리와 세 가지 유형의 리포지토리 컨텍스트로 보강된 거의 중복 제거된 파일로 구성된 Stack-Repo 데이터셋을 공개합니다. 또한, 우리는 연구를 위한 코드와 훈련된 체크포인트를 공개합니다. 우리가 공개한 리소스는 https://huggingface.co/RepoFusion에서 확인할 수 있습니다.
실제 애플리케이션에서 수집된 포인트 클라우드 데이터는 종종 불완전합니다. 데이터가 누락되는 이유는 일반적으로 객체가 특정 관점이나 각도에서만 관찰되어 부분적인 시점만 캡처되기 때문입니다. 또한, 데이터는 가림 현상과 저해상도 샘플링으로 인해 불완전할 수 있습니다. 기존의 완성 방법들은 잡음이 많고 불완전한 포인트 클라우드를 완성하기 위해 미리 정의된 객체 데이터셋에 의존합니다. 그러나 이러한 방법들은 훈련 데이터셋에서 잘 표현되지 않은 분포 외(Out-Of-Distribution, OOD) 객체에 대해 테스트할 때 성능이 떨어집니다. 여기서 우리는 텍스트 기반 이미지 생성 분야의 최근 발전을 활용하여 텍스트 기반 형상 생성에 있어 주요 돌파구를 이룬 방법을 소개합니다. 우리는 사전 훈련된 텍스트-이미지 확산 모델을 사용하고, 주어진 불완전한 포인트 클라우드 객체의 텍스트 의미를 활용하여 완전한 표면 표현을 얻는 SDS-Complete라는 접근 방식을 설명합니다. SDS-Complete는 3D 정보의 비용이 많이 드는 수집 없이도 테스트 시간 최적화를 통해 다양한 객체를 완성할 수 있습니다. 우리는 실제 깊이 센서와 LiDAR 스캐너로 캡처된 불완전한 스캔 객체에 대해 SDS-Complete를 평가합니다. 이를 통해 일반 데이터셋에 포함되지 않은 객체를 효과적으로 재구성하며, 현재 방법 대비 평균 50%의 Chamfer 손실을 줄이는 것을 확인했습니다. 프로젝트 페이지: https://sds-complete.github.io/
노이즈 제거 확산 모델(Denoising Diffusion Models)은 현실 세계 신호의 복잡한 분포를 포착하는 데 사용되는 강력한 생성 모델의 한 유형입니다. 그러나 이러한 모델의 적용 가능성은 훈련 샘플이 쉽게 구할 수 있는 시나리오로 제한되는데, 이는 현실 세계 응용에서 항상 가능한 것은 아닙니다. 예를 들어, 역 그래픽스(inverse graphics)에서는 주어진 이미지와 일치하는 3D 장면의 분포에서 샘플을 생성하는 것이 목표이지만, 실제 3D 장면은 사용할 수 없고 2D 이미지만 접근 가능한 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 직접 관찰되지 않는 신호의 분포에서 샘플링하는 방법을 학습하는 새로운 유형의 노이즈 제거 확산 확률 모델을 제안합니다. 대신, 이러한 신호는 알려진 미분 가능한 순방향 모델(forward model)을 통해 간접적으로 측정되며, 이는 알려지지 않은 신호의 부분적인 관측값을 생성합니다. 우리의 접근 방식은 순방향 모델을 노이즈 제거 과정에 직접 통합하는 것을 포함합니다. 이 통합은 관측값의 생성 모델링과 기본 신호의 생성 모델링을 효과적으로 연결하여, 신호에 대한 조건부 생성 모델의 종단간(end-to-end) 훈련을 가능하게 합니다. 추론 과정에서 우리의 접근 방식은 주어진 부분 관측값과 일치하는 기본 신호의 분포에서 샘플링을 가능하게 합니다. 우리는 이 방법의 효과를 세 가지 도전적인 컴퓨터 비전 작업에서 입증합니다. 예를 들어, 역 그래픽스의 맥락에서 우리의 모델은 단일 2D 입력 이미지와 일치하는 3D 장면의 분포에서 직접 샘플링을 가능하게 합니다.
다양한 로봇과 작업에서 얻은 이질적인 로봇 경험을 활용하여 새로운 기술과 구현체를 빠르게 습득할 수 있는 능력은 로봇 학습을 혁신할 잠재력을 가지고 있다. 최근 비전 및 언어 분야의 기초 모델(foundation model) 발전에 영감을 받아, 우리는 로봇 매니픽레이션을 위한 기초 에이전트(foundation agent)를 제안한다. 이 에이전트는 RoboCat으로 명명되었으며, 다중 구현체(multi-embodiment) 동작 레이블이 달린 시각적 경험을 소비할 수 있는 시각적 목표 조건 결정 트랜스포머(visual goal-conditioned decision transformer)이다. 이 데이터는 다양한 관측 및 동작 세트를 가진 시뮬레이션 및 실제 로봇 암에서 얻은 광범위한 모터 제어 기술을 포함한다. RoboCat을 통해 우리는 새로운 작업과 로봇에 대해 제로샷(zero-shot) 방식뿐만 아니라 대상 작업에 대해 단 100~1000개의 예시만을 사용한 적응을 통해 일반화할 수 있는 능력을 입증한다. 또한, 훈련된 모델 자체가 후속 훈련 반복을 위한 데이터를 생성하는 데 사용될 수 있음을 보여주어, 자율적인 개선 루프를 위한 기본 구성 요소를 제공한다. 우리는 시뮬레이션과 세 가지 다른 실제 로봇 구현체에서 대규모 평가를 통해 에이전트의 능력을 조사한다. 훈련 데이터를 확장하고 다양화함에 따라 RoboCat은 작업 간 전이(cross-task transfer)의 징후를 보일 뿐만 아니라 새로운 작업에 적응하는 데 더 효율적이 된다는 것을 발견한다.
대규모 언어 모델(LLM)은 언어 이해와 생성 분야에서 놀라운 역량을 보여주고 있습니다. 기초 LLM에서 명령어 수행 LLM으로 발전하는 과정에서, 명령어 튜닝은 LLM을 인간의 선호에 맞추는 데 중요한 역할을 합니다. 그러나 기존의 LLM은 주로 영어에 초점이 맞춰져 있어, 비영어권 언어에서는 성능이 떨어지는 문제가 있습니다. 비영어권 언어의 성능을 개선하기 위해서는 기초 LLM을 위한 언어별 학습 데이터를 수집하고, 명령어 튜닝을 위한 언어별 명령어를 구성해야 하는데, 이는 상당한 부담이 됩니다. 이러한 인간의 작업 부담을 최소화하기 위해, 우리는 상호작용적 번역 작업을 통해 영어에서 다른 언어로의 언어 생성 및 명령어 수행 능력을 전이하는 방법을 제안합니다. 우리는 LLaMA를 기초 LLM으로 활용하고, 명령어 튜닝을 위한 상호작용적 번역 명령어를 자동으로 구성하여 BayLing이라는 명령어 수행 LLM을 개발했습니다. 광범위한 평가 결과, BayLing은 130억 개의 상대적으로 작은 파라미터 크기를 사용함에도 불구하고 GPT-3.5-turbo와 비슷한 성능을 달성했습니다. 번역 작업에 대한 실험 결과, BayLing은 자동 평가에서 GPT-4 대비 95%의 단일 턴 번역 능력을, 인간 평가에서는 GPT-3.5-turbo 대비 96%의 상호작용적 번역 능력을 보여주었습니다. 일반 작업에 대한 성능을 평가하기 위해, 우리는 BayLing-80이라는 다중 턴 명령어 테스트 세트를 생성했습니다. BayLing-80에 대한 실험 결과, BayLing은 GPT-3.5-turbo 대비 89%의 성능을 달성했습니다. 또한 BayLing은 중국의 고등학교 졸업 시험(GaoKao)과 미국의 SAT 지식 평가에서도 뛰어난 성능을 보여, 다양한 명령어 수행 LLM 중 GPT-3.5-turbo에 이어 두 번째로 높은 성적을 기록했습니다. BayLing의 데모, 홈페이지, 코드 및 모델은 공개되어 있습니다.
코드 언어 모델(LMs)은 생성 지점 주변의 코드가 충분한 맥락을 제공할 때 잘 작동합니다. 그러나 다른 모듈이나 라이브러리에 정의된 타입이나 기능을 사용해야 하는 경우, 특히 훈련 중에 접하지 않은 것들을 사용할 때는 이와 같은 상황이 적용되지 않습니다. LMs는 이러한 전역 맥락에 대한 제한된 인식으로 인해 환각(hallucination) 현상을 겪으며, 예를 들어 다른 파일에 정의된 타입을 잘못 사용하는 등의 문제가 발생합니다. 최근 연구에서는 전역 정보를 검색하여 지역 맥락을 보강함으로써 이 문제를 극복하려고 시도하고 있습니다. 그러나 이는 프롬프트를 비대하게 만들거나 아키텍처 수정 및 추가 훈련을 필요로 합니다. 통합 개발 환경(IDE)은 정적 분석을 통해 개발자에게 전역 맥락을 손쉽게 제공하여 개발을 지원합니다. 우리는 이러한 개발자들이 누리는 지원을 LMs로 확장합니다. 우리는 디코딩 과정을 안내하기 위해 백그라운드에서 정적 분석을 사용하는 모니터(monitor) 개념을 제안합니다. 사전 검색과 달리, 정적 분석은 전체 디코딩 과정 동안 반복적으로 호출되어 요청에 따라 가장 관련성 높은 제안을 제공합니다. 우리는 LMs가 객체 역참조를 위한 코드를 생성할 때마다 식별자의 타입 일관성을 모니터링함으로써 제안의 유용성을 입증합니다. 우리의 접근 방식을 평가하기 위해, 우리는 PragmaticCode라는 오픈소스 프로젝트와 그 개발 환경으로 구성된 데이터셋을 구축했습니다. 다양한 파라미터 규모의 모델에서, 모니터가 안내하는 디코딩은 LMs가 실제 값(ground truth)과 일치하는 식별자를 생성하는 능력을 꾸준히 향상시킬 뿐만 아니라 컴파일률과 실제 값과의 일치도도 개선함을 보여줍니다. 우리는 더 적은 파라미터를 가진 LMs가 우리의 모니터로 안내될 때 더 큰 LMs를 능가할 수 있음을 발견했습니다. 모니터가 안내하는 디코딩을 통해 SantaCoder-1.1B는 훨씬 더 큰 text-davinci-003 모델보다 더 나은 컴파일률과 다음 식별자 일치도를 달성했습니다. 데이터셋과 코드는 https://aka.ms/monitors4codegen 에서 공개될 예정입니다.
메모리 증강(Memory-augmentation)은 외부 정보를 언어 모델에 효율적으로 통합하는 강력한 접근 방식이지만, 텍스트 검색에 비해 성능이 저하되는 단점이 있습니다. 최근 연구에서는 LUMEN이라는 메모리-검색 하이브리드 방식을 제안했는데, 이는 메모리를 부분적으로 미리 계산하고 더 작은 실시간 인코더를 사용하여 메모리 표현을 즉시 업데이트합니다. 우리는 GLIMMER를 제안하며, 이는 1) 강력한 메모리 표현에 자유롭게 접근하여 메모리 상단에 얕은 리랭커(Shallow Reranker)를 적용함으로써 낮은 비용으로 검색 품질을 크게 향상시키고, 2) 다중 작업 학습(Multi-task Training)을 도입하여 더 일반적이고 고품질의 메모리와 실시간 인코더를 학습하는 방식으로 이 접근법을 개선합니다. GLIMMER는 지식 집약적 작업(KILT) 벤치마크에서 LUMEN 및 FiD에 비해 더 빠른 속도로 강력한 성능 향상을 달성합니다.
대규모 시각-언어 모델(VLM)은 언어 기반 검색 애플리케이션에서 인상적인 성과를 보여주고 있다. 이러한 모델들은 범주 수준의 질의를 가능하게 하지만, 현재로서는 "내 강아지 비스킷"과 같은 특정 객체 인스턴스가 등장하는 비디오의 순간을 찾는 개인화된 검색에는 어려움을 겪고 있다. 본 연구에서는 이 문제를 해결하기 위해 다음과 같은 세 가지 기여를 제안한다. 첫째, 사전 훈련된 VLM을 메타 개인화하는 방법, 즉 테스트 시점에 비디오 검색을 위해 VLM을 개인화하는 방법을 학습하는 방법을 기술한다. 우리의 방법은 각 인스턴스에 특화된 새로운 단어 임베딩을 학습함으로써 VLM의 토큰 어휘를 확장한다. 인스턴스 특정 기능만을 포착하기 위해, 각 인스턴스 임베딩을 공유된 전역 범주 기능과 학습된 전역 범주 기능의 조합으로 표현한다. 둘째, 명시적인 인간의 감독 없이 이러한 개인화를 학습하는 방법을 제안한다. 우리의 접근 방식은 VLM의 임베딩 공간에서의 트랜스크립트와 시각-언어 유사성을 이용하여 비디오에서 명명된 시각 인스턴스의 순간을 자동으로 식별한다. 마지막으로, 개인 비디오 인스턴스 검색 벤치마크인 This-Is-My를 소개한다. 우리는 This-Is-My와 DeepFashion2 데이터셋에서 우리의 접근 방식을 평가하고, 후자의 데이터셋에서 최신 기술 대비 15%의 상대적 개선을 달성함을 보여준다.
멀티트랙 음악 트랜스크립션은 음악 오디오 입력을 여러 악기의 악보로 동시에 변환하는 것을 목표로 합니다. 이는 매우 도전적인 과제로, 일반적으로 만족스러운 결과를 얻기 위해 더 복잡한 모델이 필요합니다. 또한, 기존 연구들은 주로 일반 악기의 트랜스크립션에 초점을 맞추어 왔으며, 음악에서 가장 중요한 신호원 중 하나인 보컬을 간과해 왔습니다. 본 논문에서는 멀티트랙 트랜스크립션을 위해 오디오 입력의 시간-주파수 표현을 모델링하는 새로운 심층 신경망 아키텍처인 Perceiver TF를 제안합니다. Perceiver TF는 Perceiver 아키텍처를 개선하여 시간적 일관성을 모델링하기 위해 추가적인 Transformer 계층을 도입한 계층적 확장을 제공합니다. 이에 따라, 우리의 모델은 더 나은 확장성을 갖춘 Perceiver의 장점을 계승하여 단일 모델에서 많은 악기의 트랜스크립션을 잘 처리할 수 있습니다. 실험에서는 Perceiver TF를 12개의 악기 클래스와 보컬을 다중 작업 학습 방식으로 모델링하도록 훈련시켰습니다. 우리의 결과는 제안된 시스템이 다양한 공개 데이터셋에서 최첨단 모델(예: MT3 및 SpecTNT)을 능가함을 보여줍니다.