번역이 포함된 일일 선별된 AI 연구 논문
사용자의 요구를 충족하는 시각적 콘텐츠를 합성하기 위해서는 생성된 객체의 포즈, 형태, 표정, 레이아웃에 대한 유연하고 정밀한 제어가 종종 필요합니다. 기존의 접근 방식은 수동으로 주석이 달린 훈련 데이터나 사전 3D 모델을 통해 생성적 적대 신경망(GAN)의 제어성을 확보하지만, 이는 종종 유연성, 정밀성, 일반성이 부족합니다. 본 연구에서는 GAN을 제어하는 강력하지만 훨씬 덜 탐구된 방법, 즉 사용자와 상호작용하는 방식으로 이미지의 임의의 점을 '드래그'하여 정확히 목표 지점에 도달하도록 하는 방법을 연구합니다(Fig.1 참조). 이를 위해 우리는 DragGAN을 제안하며, 이는 두 가지 주요 구성 요소로 이루어져 있습니다: 1) 핸들 포인트가 목표 위치로 이동하도록 하는 특징 기반 모션 감독, 2) 핸들 포인트의 위치를 계속 추적하기 위해 판별적 생성기 특징을 활용하는 새로운 포인트 추적 접근법. DragGAN을 통해 누구나 픽셀이 이동할 위치를 정밀하게 제어하며 이미지를 변형할 수 있어, 동물, 자동차, 인간, 풍경 등 다양한 범주의 포즈, 형태, 표정, 레이아웃을 조작할 수 있습니다. 이러한 조작은 GAN의 학습된 생성적 이미지 매니폴드에서 수행되기 때문에, 가려진 콘텐츠를 환상적으로 생성하거나 객체의 강성을 일관되게 따르는 형태 변형과 같은 어려운 시나리오에서도 현실적인 출력을 생성하는 경향이 있습니다. 정성적 및 정량적 비교를 통해 DragGAN이 이미지 조작 및 포인트 추적 작업에서 기존 접근 방식보다 우수함을 입증합니다. 또한 GAN 역변환을 통해 실제 이미지의 조작을 보여줍니다.
언어 모델은 다양한 작업에 걸쳐 일반적인 문제 해결을 위해 점점 더 많이 배포되고 있지만, 여전히 추론 과정에서 토큰 수준의 좌에서 우로의 의사결정 프로세스에 국한되어 있다. 이는 탐색, 전략적 예측, 또는 초기 결정이 중추적인 역할을 하는 작업에서 부족함을 보일 수 있음을 의미한다. 이러한 문제를 극복하기 위해, 우리는 언어 모델 추론을 위한 새로운 프레임워크인 '생각의 나무(Tree of Thoughts, ToT)'를 소개한다. 이는 언어 모델 프롬프팅에 널리 사용되는 '생각의 사슬(Chain of Thought)' 접근법을 일반화하고, 문제 해결을 위한 중간 단계로 기능하는 일관된 텍스트 단위(생각)에 대한 탐색을 가능하게 한다. ToT는 언어 모델이 여러 다른 추론 경로를 고려하고, 자기 평가를 통해 선택을 결정하며, 필요한 경우 예측 또는 역추적을 통해 전역적 선택을 할 수 있도록 의도적인 의사결정을 수행할 수 있게 한다. 우리의 실험은 ToT가 사소하지 않은 계획 또는 탐색이 필요한 세 가지 새로운 작업(24 게임, 창의적 글쓰기, 미니 크로스워드)에서 언어 모델의 문제 해결 능력을 크게 향상시킴을 보여준다. 예를 들어, 24 게임에서 생각의 사슬 프롬프팅을 사용한 GPT-4는 작업의 4%만 해결했지만, 우리의 방법은 74%의 성공률을 달성했다. 모든 프롬프트가 포함된 코드 저장소: https://github.com/ysymyth/tree-of-thought-llm.
본 연구 논문은 주어진 텍스트 프롬프트에서 이미지와 깊이 맵 데이터를 모두 생성하는 3D 잠재 확산 모델(Latent Diffusion Model for 3D, LDM3D)을 제안하며, 이를 통해 사용자가 텍스트 프롬프트로부터 RGBD 이미지를 생성할 수 있도록 합니다. LDM3D 모델은 RGB 이미지, 깊이 맵, 캡션으로 구성된 튜플 데이터셋에 대해 미세 조정되었으며, 광범위한 실험을 통해 검증되었습니다. 또한, 생성된 RGB 이미지와 깊이 맵을 활용하여 TouchDesigner를 사용한 몰입적이고 상호작용 가능한 360도 뷰 경험을 생성하는 DepthFusion이라는 애플리케이션을 개발했습니다. 이 기술은 엔터테인먼트와 게임부터 건축 및 디자인에 이르기까지 다양한 산업 분야를 혁신할 잠재력을 가지고 있습니다. 전반적으로, 이 논문은 생성 AI 및 컴퓨터 비전 분야에 중요한 기여를 하며, LDM3D와 DepthFusion이 콘텐츠 제작과 디지털 경험을 혁신할 가능성을 보여줍니다. 해당 접근법을 요약한 짧은 동영상은 https://t.ly/tdi2에서 확인할 수 있습니다.
본 논문에서는 텍스트, 이미지, 그리고 포인트 클라우드의 다중 모달 결합 표현을 학습하기 위한 OpenShape 방법을 소개한다. 우리는 표현 정렬을 위해 널리 사용되는 다중 모달 대조 학습 프레임워크를 채택하되, 특히 오픈 월드 3D 형태 이해를 가능하게 하기 위해 3D 표현의 규모 확장에 초점을 맞췄다. 이를 위해 여러 3D 데이터셋을 앙상블하여 훈련 데이터의 규모를 확장하고, 노이즈가 있는 텍스트 설명을 자동으로 필터링하고 풍부하게 하는 여러 전략을 제안한다. 또한 3D 백본 네트워크의 규모 확장 전략을 탐구하고 비교하며, 보다 효율적인 훈련을 위한 새로운 하드 네거티브 마이닝 모듈을 도입한다. OpenShape은 제로샷 3D 분류 벤치마크에서 평가되었으며, 오픈 월드 인식에서의 우수한 능력을 입증한다. 구체적으로, OpenShape은 1,156개 카테고리의 Objaverse-LVIS 벤치마크에서 46.8%의 제로샷 정확도를 달성했으며, 이는 기존 방법의 10% 미만과 비교된다. 또한 ModelNet40에서 85.3%의 정확도를 달성하여, 이전의 제로샷 베이스라인 방법보다 20% 우수한 성능을 보였으며, 일부 완전 지도 학습 방법과도 비슷한 성능을 보였다. 더 나아가, 우리가 학습한 임베딩은 다양한 시각적 및 의미적 개념(예: 하위 카테고리, 색상, 형태, 스타일)을 인코딩하며, 세밀한 텍스트-3D 및 이미지-3D 상호작용을 촉진한다. CLIP 임베딩과의 정렬 덕분에, 우리가 학습한 형태 표현은 포인트 클라우드 캡셔닝 및 포인트 클라우드 조건 이미지 생성과 같은 다양한 응용 프로그램에서 기성 CLIP 기반 모델과 통합될 수 있다.
멀티모달 대규모 언어 모델은 인공 일반 지능(AGI)으로 나아가는 중요한 단계로 간주되며, ChatGPT의 등장과 함께 상당한 관심을 끌고 있습니다. 그러나 현재의 음성-언어 모델은 일반적으로 캐스케이드 패러다임을 채택하여 모달 간 지식 전달을 방해하고 있습니다. 본 논문에서는 크로스모달 대화 능력을 내재한 대규모 언어 모델인 SpeechGPT를 제안합니다. 이 모델은 멀티모달 콘텐츠를 인지하고 생성할 수 있습니다. 이산적 음성 표현을 사용하여, 우리는 먼저 대규모 크로스모달 음성 명령 데이터셋인 SpeechInstruct를 구축했습니다. 또한, 모달 적응 사전 학습, 크로스모달 명령 미세 조정, 그리고 모달 체인 명령 미세 조정을 포함한 3단계 학습 전략을 채택했습니다. 실험 결과는 SpeechGPT가 멀티모달 인간 명령을 따르는 인상적인 능력을 보여주며, 하나의 모델로 여러 모달리티를 처리할 수 있는 잠재력을 강조합니다. 데모는 https://0nutation.github.io/SpeechGPT.github.io/에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 사용자 맞춤형 작업에 대한 인상적인 제로샷 능력으로 인해 인공 일반 지능(AGI)으로의 진전을 크게 가속화했으며, 다양한 응용 분야에서 막대한 잠재력을 지니고 있습니다. 그러나 컴퓨터 비전 분야에서는 강력한 비전 기반 모델(VFMs)이 많이 존재함에도 불구하고, 이러한 모델들은 여전히 미리 정의된 형태의 작업에 제한되어 있으며, LLMs의 개방형 작업 능력을 따라가기 어려운 상황입니다. 본 연구에서는 비전 중심 작업을 위한 LLM 기반 프레임워크인 VisionLLM을 제시합니다. 이 프레임워크는 이미지를 외국어로 간주하고 비전 중심 작업을 언어 작업과 정렬함으로써 비전과 언어 작업에 대한 통합된 관점을 제공합니다. 이를 통해 언어 지시를 사용하여 유연하게 정의하고 관리할 수 있는 작업에 대해 LLM 기반 디코더가 적절한 예측을 수행할 수 있습니다. 광범위한 실험을 통해 제안된 VisionLLM이 언어 지시를 통해 세밀한 객체 수준에서부터 거친 작업 수준까지 다양한 수준의 작업 맞춤화를 달성할 수 있으며, 모두 좋은 결과를 보여줌을 확인했습니다. 특히, 일반적인 LLM 기반 프레임워크를 사용하여 우리의 모델이 COCO 데이터셋에서 60% 이상의 mAP를 달성할 수 있었으며, 이는 탐지 전용 모델과 동등한 성능입니다. 우리는 이 모델이 일반적인 비전과 언어 모델에 대한 새로운 기준을 제시할 수 있기를 바랍니다. 데모는 https://github.com/OpenGVLab/InternGPT를 기반으로 공개될 예정이며, 코드는 https://github.com/OpenGVLab/VisionLLM에서 공개될 예정입니다.
기계 자율성과 인간 제어의 달성은 상호작용형 AI 시스템 설계에서 종종 상반된 목표로 나타납니다. Stable Diffusion과 같은 시각적 생성 기반 모델은 이러한 목표를 조율하는 데 유망한 가능성을 보여주며, 특히 임의의 언어로 프롬프트를 제공할 때 더욱 그러합니다. 그러나 이러한 모델들은 공간적, 구조적 또는 기하학적 제어를 통해 이미지를 생성하는 데 있어 종종 한계를 보입니다. 다양한 시각적 조건을 단일 통합 모델에서 수용할 수 있는 이러한 제어의 통합은 아직 해결되지 않은 과제로 남아 있습니다. 이에 대응하여, 우리는 UniControl이라는 새로운 생성 기반 모델을 소개합니다. UniControl은 다양한 제어 가능한 조건-이미지(C2I) 작업을 단일 프레임워크 내에서 통합하면서도 임의의 언어 프롬프트를 허용합니다. UniControl은 픽셀 수준의 정밀한 이미지 생성을 가능하게 하며, 시각적 조건은 주로 생성된 구조에 영향을 미치고 언어 프롬프트는 스타일과 맥락을 안내합니다. UniControl이 다양한 시각적 조건을 처리할 수 있는 능력을 갖추도록 하기 위해, 우리는 사전 훈련된 텍스트-이미지 확산 모델을 강화하고, 다양한 C2I 작업에 동시에 적응할 수 있도록 확산 모델을 조절하는 작업 인식형 HyperNet을 도입했습니다. 9가지 독특한 C2I 작업에 대해 훈련된 UniControl은 보지 못한 시각적 조건에서도 인상적인 제로샷 생성 능력을 보여줍니다. 실험 결과는 UniControl이 비슷한 모델 크기의 단일 작업 제어 방법들의 성능을 종종 능가함을 보여줍니다. 이러한 제어의 다양성은 UniControl을 제어 가능한 시각적 생성 분야에서 중요한 진보로 자리매김하게 합니다.
디퓨전 모델은 인상적인 생성 능력으로 점점 더 많은 관심을 받고 있지만, 현재까지는 정확하고 일관된 텍스트를 렌더링하는 데 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 배경과 조화를 이루는 시각적으로 매력적인 텍스트를 포함한 이미지를 생성하는 데 초점을 맞춘 TextDiffuser를 소개합니다. TextDiffuser는 두 단계로 구성됩니다: 첫째, 트랜스포머 모델이 텍스트 프롬프트에서 추출한 키워드의 레이아웃을 생성하고, 둘째, 디퓨전 모델이 텍스트 프롬프트와 생성된 레이아웃을 조건으로 이미지를 생성합니다. 또한, 우리는 OCR 주석이 포함된 최초의 대규모 텍스트 이미지 데이터셋인 MARIO-10M을 공개합니다. 이 데이터셋은 텍스트 인식, 탐지 및 문자 수준 분할 주석이 포함된 1천만 개의 이미지-텍스트 쌍으로 구성되어 있습니다. 더 나아가, 텍스트 렌더링 품질을 평가하기 위한 포괄적인 도구로 MARIO-Eval 벤치마크를 수집했습니다. 실험과 사용자 연구를 통해, TextDiffuser가 텍스트 프롬프트만으로 또는 텍스트 템플릿 이미지와 함께 사용하여 고품질의 텍스트 이미지를 생성할 수 있을 뿐만 아니라, 텍스트 인페인팅을 통해 텍스트가 포함된 불완전한 이미지를 재구성할 수 있는 유연성과 제어 가능성을 입증했습니다. 코드, 모델 및 데이터셋은 https://aka.ms/textdiffuser에서 확인할 수 있습니다.
표현력 있는 텍스트-음성 변환(TTS)을 달성하기 위해 텍스트 표현 개선에 많은 관심이 집중되고 있다. 그러나 기존 연구들은 마스크된 토큰 재구성 작업을 통해 간접적으로 운율을 학습함으로써 낮은 학습 효율성과 운율 모델링의 어려움을 초래한다. 본 연구에서는 다양한 문맥에서 동일한 텍스트 토큰의 운율 변화를 명시적으로 학습하는 교차 모달 대조 사전 학습 프레임워크인 CLAPSpeech를 제안한다. 구체적으로, 1) 인코더 입력과 대조 손실의 정교한 설계를 통해 모델이 텍스트 문맥과 해당 운율 패턴을 다중 모달 공간에서 연결하도록 유도하며, 2) 다중 수준에서 운율 패턴을 포착하기 위한 다중 스케일 사전 학습 파이프라인을 도입한다. CLAPSpeech를 기존 TTS 모델에 통합하여 더 나은 운율을 구현하는 방법을 제시한다. 세 가지 데이터셋에 대한 실험을 통해 CLAPSpeech가 기존 TTS 방법의 운율 예측을 개선할 수 있을 뿐만 아니라, 다국어 및 다중 화자 TTS에 적응할 수 있는 일반화 능력을 보여준다. 또한 CLAPSpeech의 성능 배후 원리를 심층적으로 분석한다. 각 구성 요소의 필요성을 입증하기 위해 제거 연구를 수행하였다. 소스 코드와 오디오 샘플은 https://clapspeech.github.io에서 확인할 수 있다.
Stable Diffusion과 같은 디퓨전 모델은 텍스트-이미지 생성에서 놀라운 성능을 보여주고 있습니다. 텍스트-이미지 생성은 종종 텍스트 프롬프트에 지정된 세부 사항과 속성을 가진 시각적 개념을 생성해야 하므로, 사전 학습된 디퓨전 모델이 학습한 강력한 표현을 이미지-텍스트 매칭과 같은 판별 작업에 활용할 수 있을까요? 이 질문에 답하기 위해, 우리는 사전 학습된 텍스트-이미지 디퓨전 모델을 소수 샷(few-shot) 판별 학습자로 전환하는 새로운 접근 방식인 Discriminative Stable Diffusion(DSD)을 제안합니다. 우리의 접근 방식은 Stable Diffusion 모델의 교차 주의력(cross-attention) 점수를 사용하여 시각적 정보와 텍스트 정보 간의 상호 영향을 포착하고, 주의력 기반 프롬프트 학습을 통해 모델을 미세 조정하여 이미지-텍스트 매칭을 수행합니다. 여러 벤치마크 데이터셋에서 DSD를 최신 방법들과 비교함으로써, 우리는 사전 학습된 디퓨전 모델을 판별 작업에 사용할 때 소수 샷 이미지-텍스트 매칭에서 우수한 결과를 보여줄 수 있는 잠재력을 입증합니다.
객체 탐지는 제한된 범주의 수에서 오픈 보컬러리로 확장되었습니다. 앞으로 완전한 지능형 비전 시스템은 더 세분화된 객체 설명과 객체 부위를 이해해야 합니다. 본 논문에서는 오픈 보컬러리 객체와 그 부위 분할을 모두 예측할 수 있는 탐지기를 제안합니다. 이 능력은 두 가지 설계에서 비롯됩니다. 첫째, 부위 수준, 객체 수준, 이미지 수준 데이터를 결합하여 탐지기를 학습시켜 언어와 이미지 간의 다중 세분화 정렬을 구축합니다. 둘째, 새로운 객체를 기본 객체와의 밀집된 의미적 대응을 통해 부위로 파싱합니다. 이 두 설계는 탐지기가 다양한 데이터 소스와 기초 모델로부터 크게 이점을 얻을 수 있게 합니다. 오픈 보컬러리 부위 분할 실험에서, 우리의 방법은 PartImageNet에서의 데이터셋 간 일반화에서 기준선보다 3.3~7.3 mAP 우수한 성능을 보였으며, Pascal Part에서의 범주 간 일반화에서 기준선보다 7.3 novel AP_{50}를 개선했습니다. 마지막으로, 우리는 다양한 부위 분할 데이터셋에 일반화되면서 데이터셋 특화 학습보다 더 나은 성능을 달성하는 탐지기를 학습시켰습니다.
사실 일관성 평가는 종종 자연어 추론(NLI) 모델을 사용하여 수행되지만, 이러한 모델들은 요약 평가에서 제한된 성공을 보여줍니다. 기존 연구에서는 합성 훈련 데이터를 통해 이러한 모델을 개선했습니다. 그러나 이 데이터는 일반적으로 인간이 작성한 요약을 변형한 것으로, 실제 모델 생성 요약과는 특성이 다르며 가능한 사실 오류를 제한적으로 다룹니다. 반면, 최근 대규모 언어 모델(LLM)은 생성 작업을 직접 평가하는 데 유망한 결과를 보여주었지만, 실용적인 사용에는 계산 비용이 너무 높습니다. 이러한 한계를 고려하여, 우리는 LLM을 사용하여 다양한 모델 생성 요약에 주석을 달아 합성 데이터를 생성하는 TrueTeacher 방법을 소개합니다. 기존 연구와 달리, TrueTeacher는 인간이 작성한 요약에 의존하지 않으며, 본질적으로 다국어를 지원합니다. TRUE 벤치마크에서의 실험 결과, 우리의 데이터로 훈련된 학생 모델은 유사한 용량의 최첨단 모델과 LLM 교사 모델 모두를 상당히 능가하는 성능을 보여줍니다. 체계적인 연구에서, 우리는 TrueTeacher를 기존의 합성 데이터 생성 방법과 비교하고, 그 우수성과 도메인 변화에 대한 견고성을 입증합니다. mFACE 데이터셋을 사용하여, 우리의 방법이 다국어 시나리오로도 일반화됨을 보여줍니다. 마지막으로, 우리는 TrueTeacher를 사용하여 생성된 140만 개의 예시로 구성된 대규모 합성 데이터셋을 공개합니다.
우리는 긴 입력을 처리하는 데 적합한 다국어적이며 효율적인 텍스트 간 변환기(transformer)를 개발한 연구를 소개한다. 이 모델은 mLongT5라고 명명되었으며, LongT5의 아키텍처를 기반으로 하면서도 mT5의 사전 학습에 사용된 다국어 데이터셋과 UL2의 사전 학습 과제들을 활용한다. 우리는 이 모델을 다양한 다국어 요약 및 질의응답 과제에서 평가했으며, 그 결과 mLongT5가 mBART나 M-BERT와 같은 기존의 다국어 모델들에 비해 더 강력한 성능을 보임을 확인했다.
심볼릭 음악 생성은 사용자가 음악을 작곡하는 데 도움을 줄 수 있는 악보를 생성하는 것을 목표로 합니다. 이는 사용자가 제공한 소스 트랙을 기반으로 하거나 처음부터 타겟 악기 트랙을 생성하는 등의 작업을 포함합니다. 소스 트랙과 타겟 트랙 간의 다양하고 유연한 조합을 고려할 때, 임의의 트랙을 생성할 수 있는 통합 모델은 매우 중요합니다. 기존 연구들은 음악 표현과 모델 아키텍처의 내재적 제약으로 인해 이러한 요구를 충족하지 못했습니다. 이러한 요구를 해결하기 위해, 우리는 GETMusic(`GET'은 GEnerate music Tracks의 약자)이라는 통합 표현 및 확산 프레임워크를 제안합니다. 이 프레임워크는 GETScore라는 새로운 음악 표현과 GETDiff라는 확산 모델을 포함합니다. GETScore는 음표를 토큰으로 표현하고, 트랙을 수직으로 쌓고 시간에 따라 수평으로 진행되는 2D 구조로 조직합니다. 학습 과정에서 트랙은 무작위로 타겟 또는 소스로 선택됩니다. 순방향 과정에서 타겟 트랙의 토큰은 마스킹되어 손상되며, 소스 트랙은 그대로 유지됩니다. 노이즈 제거 과정에서 GETDiff는 소스 트랙을 조건으로 하여 마스킹된 타겟 토큰을 예측하는 방법을 학습합니다. GETScore의 분리된 트랙과 모델의 비자기회귀적 특성을 통해, GETMusic은 처음부터 또는 소스 트랙을 조건으로 하여 임의의 타겟 트랙의 생성을 명시적으로 제어할 수 있습니다. 우리는 6개의 악기 트랙을 포함한 음악 생성 실험을 수행하여 총 665가지 조합을 테스트했습니다. GETMusic은 다양한 조합에서 높은 품질의 결과를 제공하며, 특정 조합을 위해 제안된 기존 연구들을 능가합니다.
시각적 텍스트는 사람의 마음속에 이미지를 불러일으키는 반면, 비시각적 텍스트는 그렇지 못합니다. 텍스트의 시각성을 자동으로 감지하는 방법은 관련 이미지로 텍스트를 보강할 수 있는 능력을 제공할 것입니다. 신경망 기반 텍스트-이미지 생성 및 검색 모델은 입력 텍스트가 본질적으로 시각적이라는 암묵적인 가정 하에 작동하기 때문입니다. 우리는 3,620개의 영어 문장과 다수의 인간 주석자가 제공한 시각성 점수로 구성된 데이터셋을 구축했습니다. 또한, 텍스트와 시각적 자산을 포함한 문서를 사용하여 문서 텍스트와 관련 이미지로 구성된 원격 감독 코퍼스를 생성했습니다. 또한, 텍스트와 이미지 간의 일대일 대응을 가정하는 CLIP과 같은 대규모 시각-언어 모델을 텍스트 입력만으로 시각성을 점수화하는 작업에 적응시키는 미세 조정 전략을 제안합니다. 우리의 전략은 모델의 대조 학습 목표를 수정하여 비시각적 텍스트를 공통의 NULL 이미지에 매핑하고, 시각적 텍스트를 문서 내 해당 이미지와 매칭시키는 것을 포함합니다. 우리는 제안된 접근법이 (i) 시각적 및 비시각적 텍스트를 정확하게 분류하는 능력과 (ii) 심리언어학 연구에서 시각적이라고 식별된 단어에 주의를 기울이는 능력을 평가합니다. 실험적 평가는 우리의 접근법이 제안된 작업에 대해 여러 휴리스틱 및 베이스라인 모델보다 더 나은 성능을 보인다는 것을 나타냅니다. 또한, 텍스트의 시각성을 모델링하는 것의 중요성을 강조하기 위해 DALL-E와 같은 텍스트-이미지 생성 시스템에 대한 질적 분석을 수행합니다.
우리는 제어를 위한 동역학 모델(TDMs)로서 트랜스포머 시퀀스 모델의 활용을 연구한다. DeepMind 제어 스위트에서 진행한 여러 실험을 통해, 첫째, TDMs가 단일 환경 학습 설정에서 기준 모델들과 비교했을 때 우수한 성능을 보인다는 것을 확인했다. 둘째, TDMs는 새로운 환경에 대한 강력한 일반화 능력을 보여주었는데, 이는 소량의 대상 환경 데이터로 일반화 모델을 미세 조정하는 few-shot 설정과 추가 학습 없이 일반화 모델을 새로운 환경에 적용하는 zero-shot 설정 모두에서 나타났다. 또한, 시스템 동역학을 일반화하는 것이 최적의 행동을 직접 정책으로 일반화하는 것보다 훨씬 더 효과적일 수 있음을 보여준다. 이는 TDMs가 제어를 위한 기초 모델의 유망한 구성 요소가 될 수 있음을 시사한다.
우리는 고품질의 개방형 도메인 비디오 생성을 위한 혁신적인 프레임워크인 VideoFactory를 소개합니다. VideoFactory는 워터마크 없는 고화질(1376x768), 와이드스크린(16:9) 비디오를 생성하여 몰입적인 사용자 경험을 제공합니다. 텍스트 지시에 따라 비디오를 생성하는 것은 공간과 시간 간의 복잡한 관계를 모델링해야 하고, 대규모 텍스트-비디오 짝 데이터가 부족하다는 점에서 상당한 어려움을 겪습니다. 기존 접근 방식은 비디오 생성을 위해 시간적 1D 컨볼루션/어텐션 모듈을 추가하여 사전 학습된 텍스트-이미지 생성 모델을 확장했습니다. 그러나 이러한 접근 방식은 공간과 시간을 함께 모델링하는 중요성을 간과했기 때문에 필연적으로 시간적 왜곡과 텍스트-비디오 간의 불일치를 초래했습니다. 본 논문에서는 공간적 인식과 시간적 인식 간의 상호작용을 강화하는 새로운 접근 방식을 제안합니다. 특히, 3D 윈도우에서 공간 블록과 시간 블록 간에 "쿼리" 역할을 교체하는 교차 어텐션 메커니즘을 활용하여 서로를 상호 강화할 수 있도록 합니다. 고품질 비디오 생성을 위한 모델의 잠재력을 최대한 발휘하기 위해, 우리는 HD-VG-130M이라는 대규모 비디오 데이터셋을 구축했습니다. 이 데이터셋은 개방형 도메인에서 수집된 1억 3천만 개의 텍스트-비디오 짝으로 구성되어 있으며, 고화질, 와이드스크린, 워터마크 없는 특성을 보장합니다. 객관적 지표와 사용자 연구를 통해 우리의 접근 방식이 프레임별 품질, 시간적 상관관계, 텍스트-비디오 정렬 측면에서 명확한 차이로 우수함을 입증했습니다.
생성적 사전 학습 트랜스포머(Generative Pre-trained Transformer, GPT)는 자연어 처리 분야에서 큰 성공을 거두었으며, 관련 기술들은 분자 모델링에도 적용되고 있습니다. 텍스트가 과학적 발견을 기록하는 가장 중요한 매체임을 고려하여, 본 논문에서는 텍스트와 분자를 통합한 언어 모델인 MolXPT를 제안합니다. 이 모델은 텍스트로 감싸진 SMILES(분자의 시퀀스 표현)를 기반으로 사전 학습되었습니다. 간단히 설명하면, 각 시퀀스에서 분자 이름을 감지하고 이를 해당 SMILES로 대체합니다. 이를 통해 SMILES는 주변 텍스트의 정보를 활용할 수 있고, 반대로 텍스트도 SMILES의 정보를 활용할 수 있습니다. 위와 같이 감싸진 시퀀스와 PubMed의 텍스트 시퀀스, PubChem의 SMILES 시퀀스 모두 언어 모델에 입력되어 사전 학습됩니다. 실험 결과, MolXPT는 MoleculeNet에서 분자 특성 예측 강력한 베이스라인을 능가하며, 텍스트-분자 번역에서 최고의 모델과 비슷한 성능을 보이면서도 매개변수 수를 절반 이하로 사용합니다. 또한, 미세 조정 없이도 제로샷 분자 생성을 가능하게 합니다.
확산 모델을 사용하여 고품질 이미지를 생성하는 데 있어 엄청난 진전이 있었음에도 불구하고, 사실적이면서도 시간적으로 일관된 애니메이션 프레임 시퀀스를 합성하는 기술은 아직 초기 단계에 머물러 있습니다. 이미지 생성을 위한 수십억 규모의 데이터셋은 쉽게 구할 수 있지만, 동일한 규모의 비디오 데이터를 수집하는 것은 여전히 어려운 과제입니다. 또한, 비디오 확산 모델을 학습시키는 것은 이미지 모델에 비해 훨씬 더 많은 계산 비용을 요구합니다. 본 연구에서는 비디오 합성 작업을 위해 사전 학습된 이미지 확산 모델을 비디오 데이터로 미세 조정하는 실용적인 해결책을 탐구합니다. 우리는 비디오 확산에서 이미지 노이즈 사전을 비디오 노이즈 사전으로 단순히 확장하는 것이 최적의 성능을 내지 못한다는 것을 발견했습니다. 우리가 신중하게 설계한 비디오 노이즈 사전은 훨씬 더 나은 성능을 보여줍니다. 광범위한 실험 검증을 통해 우리의 모델인 Preserve Your Own Correlation(PYoCo)이 UCF-101 및 MSR-VTT 벤치마크에서 SOTA(State-of-the-Art) 제로샷 텍스트-투-비디오 결과를 달성함을 보여줍니다. 또한, 이 모델은 소규모 UCF-101 벤치마크에서 기존 기술보다 10배 더 작은 모델과 상당히 적은 계산량으로 SOTA 비디오 생성 품질을 달성합니다.