번역이 포함된 일일 선별된 AI 연구 논문
우리는 현실적이고 다양하며 일관된 동작을 묘사하는 비디오를 합성하기 위해 설계된 텍스트-투-비디오 확산 모델인 Lumiere를 소개한다. 이는 비디오 합성에서 중요한 과제이다. 이를 위해, 우리는 모델을 통해 단일 패스로 비디오의 전체 시간적 지속 시간을 한 번에 생성하는 Space-Time U-Net 아키텍처를 제안한다. 이는 기존의 비디오 모델들이 먼 키프레임을 합성한 후 시간적 초해상도를 수행하는 방식과 대조적이며, 이러한 접근법은 전역적인 시간적 일관성을 달성하기 어렵게 만든다. 공간적 및 (중요하게도) 시간적 다운샘플링과 업샘플링을 모두 배치하고, 사전 훈련된 텍스트-투-이미지 확산 모델을 활용함으로써, 우리의 모델은 다중 시공간 스케일에서 처리하여 전체 프레임 속도의 저해상도 비디오를 직접 생성하는 방법을 학습한다. 우리는 최첨단 텍스트-투-비디오 생성 결과를 보여주며, 우리의 설계가 이미지-투-비디오, 비디오 인페인팅, 스타일화된 생성 등 다양한 콘텐츠 생성 작업과 비디오 편집 애플리케이션을 쉽게 지원함을 입증한다.
2023년 AI 커뮤니티에서 대형 시각 언어 모델(LVLMs)을 활용하는 것은 트렌디한 주제이다. 그러나 인기 있는 LVLM들은 상대적으로 많은 파라미터 수(7B 이상)를 가지고 있어, 소비자용 GPU에서의 학습 및 배포가 어려워 자원이 제한된 많은 연구자들을 좌절시키고 있다. 오래된 GTX1080ti(우리가 가진 유일한 게임용 그래픽 카드)에서도 현재의 LVLM의 모든 기능을 경험할 수 있다면 얼마나 멋질지 상상해 보라. 이에 따라, 본 보고서에서는 Qwen-1.8B를 기본 "대형" 언어 모델로 사용한 소형 Vary인 Vary-toy를 소개한다. Vary-toy에서는 개선된 시각 어휘를 도입하여 모델이 Vary의 모든 기능을 갖추는 동시에 더 많은 일반성을 확보할 수 있도록 하였다. 구체적으로, 시각 어휘 생성 과정에서 자연 이미지의 부정 샘플을 객체 탐지에 의해 추출된 긍정 샘플 데이터로 대체함으로써, 어휘 네트워크의 용량을 더 충분히 활용하고 자연 객체에 해당하는 시각 정보를 효율적으로 인코딩할 수 있도록 하였다. 실험 결과, Vary-toy는 DocVQA에서 65.6% ANLS, ChartQA에서 59.1% 정확도, RefCOCO에서 88.1% 정확도, MMVet에서 29%의 성능을 달성할 수 있었다. 코드는 홈페이지에 공개될 예정이다.
언어, 시각, 그리고 최근에는 동작을 통합한 파운데이션 모델은 인터넷 규모의 데이터를 활용하여 유용한 작업에 대해 추론하는 능력을 혁신적으로 변화시켰다. 그러나 구체화된 파운데이션 모델을 훈련하는 데 있어 주요한 과제 중 하나는 물리적 세계에 기반한 데이터의 부족이다. 본 논문에서는 기존 파운데이션 모델을 활용하여 완전히 새로운 시나리오에서 운영 로봇의 배치를 최소한의 인간 감독 하에 확장할 수 있는 AutoRT 시스템을 제안한다. AutoRT는 장면 이해와 기반 작업을 위해 시각-언어 모델(VLM)을 활용하고, 더 나아가 대규모 언어 모델(LLM)을 사용하여 로봇 군단이 수행할 다양한 새로운 지시를 제안한다. 파운데이션 모델의 지식을 활용하여 데이터 수집을 안내함으로써, AutoRT는 자율성과 안전성 간의 균형을 효과적으로 추론하면서 로봇 학습을 위한 데이터 수집을 크게 확장할 수 있다. 우리는 AutoRT가 여러 건물에 걸쳐 20대 이상의 로봇에게 지시를 제안하고, 원격 조작 및 자율 로봇 정책을 통해 77,000개의 실제 로봇 에피소드를 수집하는 것을 시연한다. 실험적으로, AutoRT에 의해 수집된 이러한 "야생" 데이터가 훨씬 더 다양하며, AutoRT의 LLM 사용이 인간의 선호도에 부합하는 지시 수행 데이터 수집 로봇을 가능하게 함을 보여준다.
대형 언어 모델(LLMs)은 일반적으로 추론 과정에서 자기회귀적 생성을 사용하여 높은 메모리 대역폭 요구량과 이로 인한 지연 시간 증가를 초래합니다. 이러한 비효율성을 완화하기 위해, 우리는 Bi-directional Tuning for lossless Acceleration (BiTA)라는 혁신적인 방법을 제안합니다. 이 방법은 간소화된 준-자기회귀적 생성과 초안 검증을 통해 LLMs의 속도를 향상시킵니다. 프롬프트 튜닝 개념에서 영감을 받아, 우리는 준-자기회귀적 생성 능력을 위한 매개변수 효율적 설계인 양방향 튜닝을 LLMs에 적용합니다. 효율적인 트리 기반 디코딩을 사용하여 모델은 초안 후보 생성과 검증을 병렬로 수행하며, 탐욕적 샘플링 하에서 자기회귀적 생성과 동일한 출력을 보장합니다. BiTA는 경량 플러그인 모듈로 작동하여, 추가적인 보조 모델이나 상당한 추가 메모리 비용 없이 기존 LLMs의 추론 효율성을 원활하게 향상시킵니다. 제안된 BiTA를 적용한 LLaMA-2-70B-Chat은 MT-Bench 벤치마크에서 2.7배의 속도 향상을 달성했습니다. 광범위한 실험을 통해 우리의 방법이 최첨단 가속 기술을 능가함을 확인하였습니다.
우리는 단일 층의 옷을 입은 3D 인간 메시를 입력으로 받아 완전한 다층 3D 자산으로 분해하는 프레임워크인 GALA를 소개합니다. 이 출력물은 다른 자산과 결합되어 어떤 포즈든 새로운 옷을 입은 인간 아바타를 생성할 수 있습니다. 기존의 재구성 접근법은 종종 옷을 입은 인간을 단일 층의 기하학으로 취급하고, 헤어스타일, 의상, 액세서리와 같은 인간의 내재적 구성성을 간과하여, 메시의 다운스트림 애플리케이션에서의 유용성을 제한합니다. 단일 층 메시를 별도의 층으로 분해하는 것은 심각하게 가려진 영역에 대한 그럴듯한 기하학과 텍스처를 합성해야 하기 때문에 어려운 작업입니다. 더욱이, 성공적인 분해가 이루어졌더라도, 메시는 포즈와 신체 형태 측면에서 정규화되지 않아 새로운 신원과 포즈와의 일관된 구성에 실패합니다. 이러한 문제를 해결하기 위해, 우리는 사전 훈련된 2D 확산 모델의 일반 지식을 인간 및 기타 자산에 대한 기하학 및 외관 사전 지식으로 활용할 것을 제안합니다. 먼저, 다중 뷰 2D 세분화에서 추출한 3D 표면 세분화를 사용하여 입력 메시를 분리합니다. 그런 다음, 새로운 포즈 가이드 스코어 증류 샘플링(SDS) 손실을 사용하여 포즈된 공간과 정규 공간에서 다양한 층의 누락된 기하학을 합성합니다. 고화질 3D 기하학의 인페인팅이 완료되면, 동일한 SDS 손실을 텍스처에 적용하여 초기에 가려진 영역을 포함한 완전한 외관을 얻습니다. 일련의 분해 단계를 통해, 포즈와 인간 형태 측면에서 정규화된 공유 정규 공간에서 다층 3D 자산을 얻으며, 이는 새로운 신원과 포즈와의 쉬운 구성 및 재생성을 지원합니다. 우리의 실험은 기존 솔루션과 비교하여 분해, 정규화, 구성 작업에 대한 우리의 접근법의 효과를 입증합니다.
대형 모델 시대에서 디코딩의 자기회귀적 특성은 종종 지연 시간을 주요 병목 현상으로 초래합니다. 본 연구에서는 가속기 하드웨어의 병렬화 능력을 효과적으로 활용하는 비자기회귀적 LM-융합 ASR 시스템을 제안합니다. 우리의 접근 방식은 Universal Speech Model(USM)과 PaLM 2 언어 모델을 세그먼트별 채점 모드로 결합하여, FLEURS 데이터셋에서 평균 10.8%, YouTube 자막 생성에서 3.6%의 상대적 WER(Word Error Rate) 개선을 달성했습니다. 또한, 본 연구는 LLM 크기, 컨텍스트 길이, 어휘 크기, 융합 방법론과 같은 주요 매개변수를 분석하는 포괄적인 절제 연구를 수행했습니다. 예를 들어, 128M에서 340B 파라미터에 이르는 LLM 크기가 ASR 성능에 미치는 영향을 탐구했습니다. 이 연구는 실용적인 대규모 LM-융합 음성 인식 시스템의 효과에 영향을 미치는 요인에 대한 유용한 통찰을 제공합니다.