번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)과 명령어 튜닝의 부상은 현재 명령어 튜닝된 대규모 언어 및 비전 모델(LLVM)의 트렌드로 이어졌습니다. 이 트렌드는 특정 목표에 맞춰 수많은 명령어 튜닝 데이터셋을 세심하게 선별하거나, 방대한 양의 비전 언어(VL) 데이터를 처리하기 위해 LLVM의 규모를 확장하는 것을 포함합니다. 그러나 현재의 LLVM은 세분화, 탐지, 장면 그래프 생성(SGG), 광학 문자 인식(OCR)과 같은 시각 인식 작업에서 전문 컴퓨터 비전(CV) 모델로부터 얻을 수 있는 세부적이고 포괄적인 실세계 장면 이해를 간과하고 있습니다. 대신, 기존의 LLVM은 주로 LLM 백본의 대규모 용량과 부상하는 능력에 의존하고 있습니다. 따라서 우리는 외부 세분화, 탐지, SGG, OCR 모델의 출력에서 얻은 보조 시각 정보를 활용하는 새로운 LLVM인 '모든 지능의 혼합(MoAI)'을 제안합니다. MoAI는 새롭게 도입된 두 가지 모듈인 MoAI-Compressor와 MoAI-Mixer를 통해 작동합니다. 외부 CV 모델의 출력을 언어화한 후, MoAI-Compressor는 이를 정렬하고 압축하여 VL 작업에 관련된 보조 시각 정보를 효율적으로 사용합니다. MoAI-Mixer는 '전문가 혼합(Mixture of Experts)' 개념을 활용하여 (1) 시각 특징, (2) 외부 CV 모델의 보조 특징, (3) 언어 특징이라는 세 가지 유형의 지능을 혼합합니다. 이러한 통합을 통해 MoAI는 모델 크기를 확장하거나 추가적인 시각 명령어 튜닝 데이터셋을 선별하지 않고도, 특히 객체 존재, 위치, 관계, OCR과 같은 실세계 장면 이해와 관련된 다양한 제로샷 VL 작업에서 오픈소스 및 클로즈드소스 LLVM을 크게 능가합니다.
우리는 사전 학습된 확률적 시계열 모델을 위한 간단하지만 효과적인 프레임워크인 Chronos를 소개합니다. Chronos는 스케일링과 양자화를 통해 시계열 값을 고정된 어휘 집합으로 토큰화하고, 이러한 토큰화된 시계열 데이터에 대해 교차 엔트로피 손실을 사용하여 기존의 트랜스포머 기반 언어 모델 아키텍처를 학습시킵니다. 우리는 T5 패밀리(2천만에서 7억 1천만 개의 파라미터 범위)를 기반으로 한 Chronos 모델을 공개적으로 이용 가능한 대규모 데이터셋 컬렉션에 대해 사전 학습시켰으며, 일반화 성능을 향상시키기 위해 가우시안 프로세스를 통해 생성한 합성 데이터셋을 보완했습니다. 42개의 데이터셋으로 구성된 포괄적인 벤치마크에서, 기존의 클래식 로컬 모델과 딥러닝 방법을 모두 포함하여, Chronos 모델은 다음과 같은 결과를 보여주었습니다: (a) 학습 코퍼스에 포함된 데이터셋에서 다른 방법들을 크게 능가하며; (b) 새로운 데이터셋에서 특별히 해당 데이터셋에 대해 학습된 방법들에 비해 비슷하거나 때로는 더 우수한 제로샷 성능을 보입니다. 우리의 결과는 Chronos 모델이 다양한 도메인의 시계열 데이터를 활용하여 보지 못한 예측 작업에서의 제로샷 정확도를 향상시킬 수 있음을 보여주며, 사전 학습된 모델이 예측 파이프라인을 크게 단순화할 수 있는 실용적인 도구로 자리 잡을 수 있음을 입증합니다.
우리는 대규모 언어 모델(LLM)이 코딩, 수학적 추론, 세계 지식과 같은 여러 전문 분야에서의 역량을 갖추도록 효율적으로 훈련하는 방법을 연구합니다. 우리의 방법인 Branch-Train-MiX(BTX)는 시드 모델에서 시작하여, 병렬 처리 방식으로 전문가 모델을 분기하여 높은 처리량과 낮은 통신 비용으로 훈련합니다. 개별 전문가 모델이 비동기적으로 훈련된 후, BTX는 이들의 피드포워드 파라미터를 Mixture-of-Expert(MoE) 레이어의 전문가로 통합하고 나머지 파라미터를 평균화한 다음, 토큰 수준의 라우팅을 학습하기 위한 MoE 미세 조정 단계를 진행합니다. BTX는 두 가지 특수한 경우를 일반화합니다: 하나는 라우팅 학습을 위한 MoE 미세 조정 단계가 없는 Branch-Train-Merge 방법이고, 다른 하나는 전문가 모델을 비동기적으로 훈련하는 단계를 생략한 sparse upcycling입니다. 대안적인 접근법과 비교했을 때, BTX는 정확도와 효율성 간의 최적의 균형을 달성합니다.
고품질의 인간이 라벨링한 이미지-캡션 데이터셋의 생성은 시각-언어 모델(VLM) 개발에 있어 상당한 병목 현상을 야기합니다. 본 연구에서는 대규모 언어 모델(LLM)과 이미지 생성 모델의 강점을 활용하여 합성 이미지-텍스트 쌍을 생성함으로써 효율적이고 효과적인 VLM 학습을 위한 새로운 접근 방식을 제안합니다. 우리의 방법은 LLM이 생성한 캡션을 시작점으로 텍스트-이미지 모델을 사전 학습하여 이미지 임베딩을 합성하는 방식입니다. 이러한 합성 쌍은 VLM을 학습시키는 데 사용됩니다. 광범위한 실험을 통해 합성 데이터로 학습된 VLM이 이미지 캡셔닝 작업에서 인간이 주석을 단 데이터만으로 학습된 모델과 비슷한 성능을 보이면서도 훨씬 적은 데이터를 필요로 한다는 것을 입증했습니다. 특히, 합성 데이터셋을 활용한 증강을 통해 기준 모델보다 17% 더 나은 성능을 달성했습니다. 또한, 이미지 임베딩 공간에서 합성하는 것이 픽셀 공간에서 합성하는 것보다 25% 더 빠르다는 것을 보여줍니다. 이 연구는 대규모의 맞춤형 이미지 데이터셋을 생성하는 유망한 기술을 소개함으로써 데이터 효율성과 자원 활용성을 개선하고, 다양한 도메인에서 VLM의 성능과 적용 범위를 확장할 수 있는 가능성을 제시합니다.
인간 동작 생성은 생성적 컴퓨터 비전 분야에서 중요한 과제로 자리 잡고 있으며, 긴 시퀀스와 효율적인 동작 생성을 달성하는 것은 여전히 도전적인 과제로 남아 있습니다. 최근 상태 공간 모델(SSMs), 특히 Mamba의 발전은 효율적인 하드웨어 인식 설계를 통해 긴 시퀀스 모델링에서 상당한 가능성을 보여주었으며, 이는 동작 생성 모델을 구축하기 위한 유망한 방향으로 보입니다. 그러나 SSMs를 동작 생성에 적용하는 것은 동작 시퀀스를 모델링하기 위한 전문화된 설계 아키텍처의 부재로 인해 어려움에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 Motion Mamba를 제안합니다. 이는 SSMs를 활용한 선구적인 동작 생성 모델을 제시하는 간단하고 효율적인 접근 방식입니다. 구체적으로, 우리는 프레임 간의 동작 일관성을 유지하기 위해 대칭적인 U-Net 아키텍처를 통해 다양한 수의 독립적인 SSM 모듈을 앙상블하여 시간적 데이터를 처리하는 Hierarchical Temporal Mamba(HTM) 블록을 설계했습니다. 또한, 시간적 프레임 내에서 정확한 동작 생성을 강화하기 위해 잠재 포즈를 양방향으로 처리하는 Bidirectional Spatial Mamba(BSM) 블록을 설계했습니다. 우리가 제안한 방법은 이전의 최고의 확산 기반 방법과 비교하여 HumanML3D 및 KIT-ML 데이터셋에서 최대 50%의 FID 개선과 최대 4배 빠른 속도를 달성하며, 고품질의 긴 시퀀스 동작 모델링과 실시간 인간 동작 생성의 강력한 능력을 입증했습니다. 프로젝트 웹사이트를 참조하십시오: https://steve-zeyu-zhang.github.io/MotionMamba/
우리는 DragAnything을 소개하며, 이는 엔티티 표현을 활용하여 제어 가능한 비디오 생성에서 모든 객체의 움직임 제어를 달성합니다. 기존의 움직임 제어 방법과 비교하여 DragAnything은 몇 가지 장점을 제공합니다. 첫째, 궤적 기반 방식은 다른 지시 신호(예: 마스크, 깊이 맵)를 획득하는 것이 노동 집약적인 경우에 사용자 상호작용에 더 친화적입니다. 사용자는 상호작용 중에 단순히 선(궤적)을 그리기만 하면 됩니다. 둘째, 우리의 엔티티 표현은 모든 객체를 표현할 수 있는 오픈 도메인 임베딩으로 작동하며, 배경을 포함한 다양한 엔티티의 움직임 제어를 가능하게 합니다. 마지막으로, 우리의 엔티티 표현은 여러 객체에 대해 동시적이고 독립적인 움직임 제어를 허용합니다. 광범위한 실험을 통해 DragAnything이 FVD, FID 및 사용자 연구에서 최신 기술을 달성하며, 특히 객체 움직임 제어에서 이전 방법(예: DragNUWA)보다 26% 더 높은 인간 투표율을 보여줌을 입증했습니다.
우리는 데이터 센터 및 크로스 디바이스 애플리케이션에서 대규모 분산 및 연합 계산을 지원하기 위해 설계된 JAX 기반 라이브러리인 FAX를 소개합니다. FAX는 JAX의 샤딩 메커니즘을 활용하여 TPU 및 Pathways와 같은 최신 JAX 런타임을 네이티브로 타겟팅할 수 있도록 합니다. FAX는 연합 계산을 위한 빌딩 블록을 JAX의 기본 요소로 내장하고 있습니다. 이를 통해 세 가지 주요 이점을 제공합니다. 첫째, FAX 계산은 XLA HLO로 변환될 수 있습니다. 둘째, FAX는 연합 자동 미분의 완전한 구현을 제공하여 연합 계산의 표현을 크게 단순화합니다. 마지막으로, FAX 계산은 기존의 생산용 크로스 디바이스 연합 계산 시스템으로 해석될 수 있습니다. 우리는 FAX가 데이터 센터에서의 연합 계산을 위해 쉽게 프로그래밍 가능하고, 성능이 뛰어나며, 확장 가능한 프레임워크를 제공함을 보여줍니다. FAX는 https://github.com/google-research/google-research/tree/master/fax 에서 이용 가능합니다.
모바일 매니퓰레이션 분야에서의 미해결 문제 중 하나는 로봇이 환경 내에서의 탐색과 물체 조작 모두에 활용할 수 있도록 객체와 장면을 통합적으로 표현하는 방법입니다. 후자의 경우 복잡한 기하학적 구조를 포착하면서도 세밀한 의미를 이해해야 하는 반면, 전자는 광범위한 물리적 규모에 내재된 복잡성을 포착해야 합니다. 본 연구에서는 탐색과 조작 모두를 위한 통합 표현으로 실시간으로 동작하는 장면 수준의 일반화 가능한 신경망 특징 필드인 GeFF(Generalizable Feature Fields)를 제안합니다. 이를 위해 생성적 신시점 합성(generative novel view synthesis)을 사전 학습 작업으로 간주하고, 그 결과로 얻은 풍부한 장면 사전 지식을 CLIP 특징 증류를 통해 자연어와 정렬합니다. 우리는 매니퓰레이터가 장착된 사족 보행 로봇에 GeFF를 배치하여 이 접근법의 효과를 입증합니다. 동적 장면에서 개방형 어휘 모바일 매니퓰레이션을 수행할 때 GeFF의 개방형 객체에 대한 일반화 능력과 실행 시간을 평가합니다.