번역이 포함된 일일 선별된 AI 연구 논문
우리는 약 1조 개의 토큰으로 대략 3 에포크 동안 사전 학습된 1.1B 규모의 컴팩트 언어 모델인 TinyLlama를 소개합니다. TinyLlama는 Llama 2의 아키텍처와 토크나이저를 기반으로 하며, 오픈소스 커뮤니티의 다양한 발전(예: FlashAttention)을 활용하여 더 나은 계산 효율성을 달성했습니다. 상대적으로 작은 크기에도 불구하고, TinyLlama는 일련의 다운스트림 작업에서 뛰어난 성능을 보여줍니다. 이는 비슷한 크기의 기존 오픈소스 언어 모델들을 크게 능가합니다. 우리의 모델 체크포인트와 코드는 https://github.com/jzhang38/TinyLlama에서 공개적으로 제공됩니다.
ChatGPT의 도입으로 인해 다운스트림 작업 해결을 위한 대규모 언어 모델(LLMs)의 활용이 크게 증가하였다. 이러한 맥락에서 비용 효율적인 훈련과 배포에 대한 관심이 점차 높아지고 있다. LLMs의 저비용 훈련 및 배포는 미래의 발전 트렌드를 대표한다. 본 논문은 이러한 신흥 트렌드에 부합하는 대규모 언어 모델 훈련 기술과 추론 배포 기술의 진화를 검토한다. 훈련에 대한 논의는 데이터 전처리, 훈련 아키텍처, 사전 훈련 작업, 병렬 훈련 및 모델 미세 조정과 관련된 내용을 포함한 다양한 측면을 다룬다. 추론 측면에서는 모델 압축, 병렬 계산, 메모리 스케줄링 및 구조 최적화와 같은 주제를 다룬다. 또한 LLMs의 활용을 탐구하고 미래 발전에 대한 통찰을 제공한다.
인간은 일반적으로 기존의 기술을 손상시키지 않고 새로운 기술을 습득한다. 그러나 대형 언어 모델(LLMs)의 경우, 예를 들어 LLaMA에서 CodeLLaMA로의 전환에서와 같이 그 반대의 현상이 발생한다. 이를 해결하기 위해, 우리는 Transformer 블록을 확장한 새로운 사전 학습 후(post-pretraining) 방법을 제안한다. 우리는 확장된 블록을 새로운 코퍼스만을 사용하여 조정함으로써, 모델의 지식을 효율적이고 효과적으로 개선하면서도 치명적인 망각(catastrophic forgetting)을 방지한다. 본 논문에서는 코드와 수학 코퍼스를 대상으로 실험을 진행하여, LLaMA2-7B로 초기화된 다목적 기반 모델인 LLaMA Pro-8.3B를 개발하였다. 이 모델은 일반 작업, 프로그래밍, 수학 등에서 뛰어난 성능을 보인다. LLaMA Pro와 그 지시 따르기 버전(LLaMA Pro-Instruct)은 다양한 벤치마크에서 선진적인 성능을 달성하며, LLaMA 계열의 기존 오픈 모델들을 능가하는 우수성을 보여준다. 또한, 이 모델은 지능형 에이전트로서의 추론 능력과 다양한 작업 처리 능력의 엄청난 잠재력을 입증한다. 우리의 연구 결과는 자연어와 프로그래밍 언어의 통합에 대한 귀중한 통찰을 제공하며, 다양한 환경에서 효과적으로 작동하는 고급 언어 에이전트 개발을 위한 견고한 기반을 마련한다.
수십억 개의 파라미터를 가진 기초 모델들은 대규모 데이터 코퍼스로 학습되어 다양한 도메인에서 상당한 능력을 보여주고 있습니다. 그러나 이러한 모델들은 단일 구조로 인해 새로운 기능을 추가하거나 새로운 기술을 가르치는 것이 어렵고 비용이 많이 듭니다. 반면, 이러한 모델들의 적응 능력 덕분에 새로운 도메인과 작업을 위해 여러 새로운 인스턴스가 학습되고 있습니다. 본 연구에서는 기존 기초 모델과 보다 특화된 모델을 효율적이고 실용적으로 결합하여 새로운 기능을 가능하게 하는 문제를 탐구합니다. 이를 위해 우리는 CALM(Composition to Augment Language Models)을 제안합니다. CALM은 모델 간의 교차 주의(cross-attention)를 도입하여 표현을 결합하고 새로운 기능을 가능하게 합니다. CALM의 주요 특징은 다음과 같습니다: (i) 기존 LLM(Large Language Model)을 '재사용'하고 몇 가지 추가 파라미터와 데이터를 통해 새로운 작업에서 LLM을 확장, (ii) 기존 모델 가중치를 그대로 유지하여 기존 기능 보존, (iii) 다양한 도메인과 설정에 적용 가능. 우리는 PaLM2-S를 저자원 언어에 대해 학습된 더 작은 모델로 보강했을 때, 저자원 언어에 대한 영어 번역 및 산술 추론 작업에서 최대 13%의 절대적 성능 향상을 보여줍니다. 마찬가지로, PaLM2-S를 코드 특화 모델로 보강했을 때, 코드 생성 및 설명 작업에서 기본 모델 대비 40%의 상대적 성능 향상을 보이며, 완전히 미세 조정된 모델과 동등한 성능을 달성합니다.
인간의 시연을 모방한 학습은 로봇 공학에서 인상적인 성능을 보여주고 있다. 그러나 대부분의 결과는 테이블 위 조작에 초점을 맞추고 있어, 일반적으로 유용한 작업을 수행하기 위해 필요한 이동성과 민첩성이 부족하다. 본 연구에서는 양손을 사용하며 전신 제어가 필요한 이동 조작 작업을 모방하기 위한 시스템을 개발한다. 먼저, 데이터 수집을 위한 저비용 전신 원격 조작 시스템인 Mobile ALOHA를 소개한다. 이 시스템은 ALOHA 시스템에 이동 베이스와 전신 원격 조작 인터페이스를 추가한 것이다. Mobile ALOHA로 수집한 데이터를 사용하여 지도 행동 복제를 수행하고, 기존의 정적 ALOHA 데이터셋과의 공동 학습이 이동 조작 작업의 성능을 향상시킨다는 것을 발견했다. 각 작업에 대해 50번의 시연 데이터를 사용한 공동 학습은 성공률을 최대 90%까지 높일 수 있으며, 이를 통해 Mobile ALOHA는 새우를 볶아 서빙하거나, 두 개의 문이 있는 벽장을 열어 무거운 요리 냄비를 보관하거나, 엘리베이터를 호출하고 탑승하거나, 주방 수도꼭지를 사용해 사용한 팬을 가볍게 헹구는 등 복잡한 이동 조작 작업을 자율적으로 완료할 수 있다. 프로젝트 웹사이트: https://mobile-aloha.github.io
본 논문은 이질적인 이미지 생성 작업을 다루며 보이지 않는 작업들에 대해 일반화할 수 있는 instruct-imagen 모델을 소개합니다. 우리는 정밀하게 다양한 생성 의도를 표현하는 작업 표현 방식인 *다중 모달 명령어*를 이미지 생성에 도입했습니다. 이는 텍스트, 윤곽선, 스타일, 주제 등과 같은 다양한 모달리티를 자연어로 통합하여, 풍부한 생성 의도를 균일한 형식으로 표준화할 수 있게 합니다. 이후, 사전 학습된 텍스트-이미지 확산 모델을 두 단계 프레임워크로 미세 조정하여 instruct-imagen을 구축했습니다. 먼저, 외부 다중 모달 컨텍스트를 기반으로 생성 능력을 강화하기 위해 검색 증강 학습을 통해 모델을 적응시켰습니다. 그런 다음, 시각-언어 이해가 필요한 다양한 이미지 생성 작업(예: 주제 기반 생성 등)에 대해 적응된 모델을 미세 조정했으며, 각 작업은 해당 작업의 본질을 담은 다중 모달 명령어와 짝을 이루었습니다. 다양한 이미지 생성 데이터셋에 대한 인간 평가 결과, instruct-imagen은 기존의 작업 특화 모델들과 동등하거나 더 나은 성능을 보였으며, 보이지 않거나 더 복잡한 작업에 대한 유망한 일반화 능력을 입증했습니다.
본 논문에서는 최근 개발된 소형 언어 모델인 Phi-2의 성능을 활용하여 다중 모달 대화를 가능하게 하는 효율적인 다중 모달 어시스턴트인 LLaVA-phi(LLaVA-Phi)를 소개한다. LLaVA-Phi는 소형 다중 모달 모델 분야에서 주목할 만한 진전을 이루었다. 이 모델은 단 27억 개의 파라미터만으로도 고품질 코퍼스로 훈련된 경우, 텍스트와 시각적 요소를 통합한 복잡한 대화에 효과적으로 참여할 수 있음을 보여준다. 우리의 모델은 시각적 이해, 추론, 지식 기반 인식을 포함한 공개 벤치마크에서 뛰어난 성능을 보인다. 다중 모달 대화 작업에서의 탁월한 성능 외에도, 이 모델은 실시간 상호작용이 필요한 시간 민감한 환경 및 시스템(예: 구체화된 에이전트)에서의 새로운 응용 가능성을 열어준다. 이는 소형 언어 모델이 더 높은 자원 효율성을 유지하면서도 정교한 수준의 이해와 상호작용을 달성할 수 있는 잠재력을 강조한다. 본 프로젝트는 {https://github.com/zhuyiche/llava-phi}에서 확인할 수 있다.
3D 인식 생성적 적대 신경망(GANs)은 신경 볼륨 렌더링을 통해 2D 이미지 컬렉션으로부터 다중 뷰 일관성 이미지와 장면의 3D 기하학을 생성하는 데 있어서 놀라운 진전을 보여왔습니다. 그러나 볼륨 렌더링에서의 밀집 샘플링이 요구하는 상당한 메모리와 계산 비용으로 인해, 3D GANs는 패치 기반 훈련을 채택하거나 저해상도 렌더링과 후처리 2D 초해상도를 사용함으로써 다중 뷰 일관성과 해결된 기하학의 품질을 희생해야 했습니다. 결과적으로, 3D GANs는 아직 2D 이미지에 존재하는 풍부한 3D 기하학을 완전히 해결하지 못하고 있습니다. 본 연구에서는 신경 볼륨 렌더링을 원본 2D 이미지의 훨씬 더 높은 해상도로 확장하여 전례 없는 세부 사항으로 미세한 3D 기하학을 해결하는 기술을 제안합니다. 우리의 접근 방식은 최대 5배 적은 깊이 샘플을 사용하여 3D GAN 훈련을 위한 신경 렌더링을 가속화하기 위한 학습 기반 샘플러를 사용합니다. 이를 통해 훈련 및 추론 중에 후처리 2D 초해상도 없이도 전체 해상도 이미지의 "모든 픽셀을 렌더링"할 수 있습니다. 고품질 표면 기하학을 학습하기 위한 우리의 전략과 함께, 우리의 방법은 후처리 초해상도에 의존하는 기준선과 동등한 이미지 품질을 유지하면서 고해상도 3D 기하학과 엄격한 뷰 일관성 이미지를 합성합니다. 우리는 FFHQ와 AFHQ에서 최첨단 3D 기하학적 품질을 입증하며, 3D GANs에서의 비지도 학습을 통한 3D 형태 학습에 새로운 기준을 제시합니다.
최신 3D 인식 벤치마크인 ScanNet에서 최첨단 모델들은 다중 뷰 RGB-D 이미지를 센싱한 후 후처리 과정을 통해 얻은 데이터셋 제공 3D 포인트 클라우드를 소비하고 레이블을 지정합니다. 이러한 모델들은 일반적으로 도메인 내에서 훈련되며, 대규모 2D 사전 훈련을 생략하고, 포즈가 지정된 RGB-D 다중 뷰 이미지를 특징화하는 대안들을 능가합니다. 포즈가 지정된 이미지를 소비하는 방법과 후처리된 3D 포인트 클라우드를 소비하는 방법 간의 성능 차이는 2D와 3D 인식이 별개의 모델 아키텍처를 필요로 한다는 믿음을 부추겼습니다. 본 논문에서는 이러한 관점에 도전하고, 2D RGB 이미지와 3D 포인트 클라우드를 모두 분할하고 레이블을 지정할 수 있는 ODIN(Omni-Dimensional INstance segmentation) 모델을 제안합니다. 이 모델은 2D 뷰 내 정보와 3D 뷰 간 정보 융합을 번갈아가며 수행하는 트랜스포머 아키텍처를 사용합니다. 우리의 모델은 2D 패치 토큰의 경우 픽셀 좌표를, 3D 특징 토큰의 경우 3D 좌표를 캡처하는 토큰의 위치 인코딩을 통해 2D와 3D 특징 연산을 구분합니다. ODIN은 ScanNet200, Matterport3D 및 AI2THOR 3D 인스턴스 분할 벤치마크에서 최첨단 성능을 달성했으며, ScanNet, S3DIS 및 COCO에서도 경쟁력 있는 성능을 보입니다. 이 모델은 3D 메시에서 샘플링된 포인트 클라우드 대신 센싱된 3D 포인트 클라우드를 사용할 때 모든 이전 작업들을 큰 차이로 능가합니다. 또한, 지시 가능한 구현 에이전트 아키텍처의 3D 인식 엔진으로 사용될 때, TEACh 대화 기반 행동 벤치마크에서 새로운 최첨단 성능을 설정합니다. 우리의 코드와 체크포인트는 프로젝트 웹사이트(https://odin-seg.github.io)에서 확인할 수 있습니다.
지구상의 모든 동물에 대한 3D 모델을 학습하기 위해서는 기존 솔루션을 대규모로 확장해야 합니다. 이러한 궁극적인 목표를 염두에 두고, 우리는 100종 이상의 동물 종을 공동으로 학습하는 범주별 변형 가능한 3D 동물 모델인 3D-Fauna를 개발했습니다. 동물 모델링의 중요한 병목 현상 중 하나는 훈련 데이터의 제한된 가용성인데, 우리는 이를 단순히 2D 인터넷 이미지로부터 학습함으로써 극복했습니다. 우리는 이전의 특정 범주에 한정된 시도들이 훈련 이미지가 제한된 희귀 종으로 일반화되지 못한다는 것을 보여줍니다. 우리는 이 문제를 해결하기 위해 기하학적 귀납적 사전 지식과 오프더셸프(self-supervised) 특징 추출기에 의해 암묵적으로 포착된 의미론적 지식을 결합하여 소수의 기본 동물 형태를 자동으로 발견하는 Semantic Bank of Skinned Models(SBSM)을 도입했습니다. 이러한 모델을 훈련시키기 위해, 우리는 또한 다양한 동물 종을 포함한 새로운 대규모 데이터셋을 제공합니다. 추론 시, 네 발 동물의 단일 이미지가 주어지면 우리의 모델은 몇 초 내에 관절형 3D 메쉬를 피드포워드 방식으로 재구성합니다.
ChatGPT와 LLaMA와 같은 대형 언어 모델(LLMs)의 등장은 도메인 특화 작업에서 한계에 부딪히며, 이러한 모델들은 특수 분야에서 깊이와 정확성이 부족하고, 특히 소규모 모델에서 분석 능력이 저하되는 경향을 보입니다. 이러한 격차를 해결하기 위해, 우리는 인간 피드백을 통한 강화 학습(RLHF)을 근간으로 한 Proximal Policy Optimization(PPO)을 활용한 ICE-GRT를 소개합니다. ICE-GRT는 일반 작업 성능을 저하시키지 않으면서도 도메인 내 시나리오에서 뛰어난 능력을 보여줍니다. ICE-GRT에 대한 탐구는 강력한 답변을 생성할 뿐만 아니라 답변의 이유에 대한 상세한 분석을 제공하는 이해 및 추론 능력을 강조하며, 이는 지도 미세 조정 모델의 범위를 넘어서는 중요한 진전을 나타냅니다. ICE-GRT의 성공은 적절한 데이터, 보상 크기 조정, KL 제어, 이점 정규화 등 여러 중요한 요소에 달려 있습니다. ICE-GRT 모델은 동일 규모 및 더 큰 규모의 LLMs에 비해 도메인 특화 작업과 12가지 일반 언어 작업에서 최첨단 성능을 보여주며, 우리의 접근 방식의 효과를 입증합니다. 우리는 ICE-GRT에 대한 포괄적인 분석을 제공하여, LLM 분야에 가져온 중요한 발전을 강조합니다.
확산 모델은 새로운 종류의 생성 모델로, 전례 없는 품질과 다양성으로 이미지 생성을 크게 촉진시켰다. 기존의 확산 모델은 주로 공간 축을 따라 픽셀 단위 또는 특징 단위의 제약 조건을 통해 손상된 입력 이미지를 재구성하려고 시도한다. 그러나 이러한 점 기반 재구성은 각 예측된 픽셀/특징이 주변 맥락을 완전히 보존하지 못할 가능성이 있어, 확산 기반 이미지 합성에 악영향을 미칠 수 있다. 자동 감독 신호의 강력한 원천으로서, 맥락은 표현 학습을 위해 잘 연구되어 왔다. 이를 영감으로, 우리는 맥락 예측을 통해 확산 기반 이미지 합성을 개선하기 위해 ConPreDiff를 처음으로 제안한다. 우리는 훈련 단계에서 확산 노이즈 제거 블록의 끝에 맥락 디코더를 추가하여 각 점이 주변 맥락(즉, 다중 스트라이드 특징/토큰/픽셀)을 예측하도록 명시적으로 강화하고, 추론 단계에서는 디코더를 제거한다. 이 방식으로 각 점은 주변 맥락과의 의미적 연결을 보존함으로써 스스로를 더 잘 재구성할 수 있다. ConPreDiff의 이 새로운 패러다임은 샘플링 과정에서 추가 매개변수를 도입하지 않고도 임의의 이산 및 연속 확산 백본에 일반화될 수 있다. 무조건 이미지 생성, 텍스트-이미지 생성, 이미지 인페인팅 작업에 대한 광범위한 실험이 수행되었다. 우리의 ConPreDiff는 이전 방법들을 일관되게 능가하며, MS-COCO에서 새로운 SOTA 텍스트-이미지 생성 결과를 달성했으며, 제로샷 FID 점수는 6.21이다.
실제 세계의 3차원 객체의 기하학적 및 의미론적 특성을 정확하게 인식하는 것은 증강 현실과 로봇 응용 프로그램의 지속적인 발전에 있어 매우 중요합니다. 이를 위해, 우리는 3D 가우시안 스플래팅(GS)에 기반 모델의 시각-언어 임베딩을 통합한 ()를 제안합니다. 이 연구의 주요 기여는 3D 시각-언어 모델을 재구성하고 표현하기 위한 효율적인 방법을 제시하는 것입니다. 이는 이미지 기반 기반 모델에서 생성된 특징 맵을 우리의 3D 모델에서 렌더링된 특징 맵으로 증류함으로써 달성됩니다. 고품질 렌더링과 빠른 학습을 보장하기 위해, 우리는 GS와 다중 해상도 해시 인코딩(MHE)의 강점을 통합한 새로운 장면 표현 방식을 도입했습니다. 또한, 우리의 효과적인 학습 절차는 픽셀 수준의 의미론적 경계를 따라 동일한 의미론적 개체의 렌더링된 특징 거리를 가깝게 만드는 픽셀 정렬 손실을 도입합니다. 우리의 결과는 다양한 다운스트림 작업을 용이하게 하는 놀라운 다중 뷰 의미론적 일관성을 보여주며, 개방형 어휘 기반 객체 탐지에서 최신 방법을 10.2% 앞서는 성능을 보였습니다. 또한, 우리의 방법은 추론 속도가 851배 더 빠릅니다. 이 연구는 시각, 언어, 3D 장면 표현의 교차점을 탐구하며, 통제되지 않은 실제 환경에서의 향상된 장면 이해를 위한 길을 열어줍니다. 논문 승인 시 코드를 공개할 계획입니다.
시각적 추론은 수십억 개의 모델 파라미터와 훈련 예제로 확장된 종단 간(end-to-end) 신경망이 주도하고 있습니다. 그러나 가장 큰 모델들조차도 조합적 추론, 일반화, 세밀한 공간 및 시간적 추론, 그리고 계수(counting)에 어려움을 겪습니다. 대형 언어 모델(LLMs)을 컨트롤러로 활용한 시각적 추론은 원칙적으로 이러한 한계를 해결할 수 있는데, 이는 작업을 분해하고 (시각적) 도구 세트를 조율하여 하위 작업을 해결함으로써 가능합니다. 최근 이러한 모델들은 조합적 시각 질의응답, 시각적 그라운딩, 비디오 시간적 추론과 같은 작업에서 뛰어난 성능을 달성했습니다. 그럼에도 불구하고, 현재 형태에서는 이러한 모델들이 프롬프트 내의 문맥 내 예제(contextual examples)에 대한 인간의 엔지니어링에 크게 의존하며, 이는 종종 데이터셋 및 작업에 특화되어 있고 숙련된 프로그래머의 상당한 노력을 요구합니다. 본 연구에서는 이러한 문제를 완화하기 위해 공간적 및 시간적으로 추상화된 루틴을 도입하고 소량의 레이블된 예제를 활용하여 문맥 내 예제를 자동으로 생성함으로써 인간이 만든 문맥 내 예제를 피하는 프레임워크를 제시합니다. 여러 시각적 추론 작업에서 우리의 프레임워크가 성능의 일관된 향상을 이끌어내고, LLM을 컨트롤러로 설정하는 방식을 더 견고하게 만들며, 문맥 내 예제에 대한 인간의 엔지니어링 필요성을 제거함을 보여줍니다.