번역이 포함된 일일 선별된 AI 연구 논문
우리는 잠재 확산(latent diffusion) 기반의 대규모 텍스트-이미지 생성 모델인 Kandinsky 3.0을 소개합니다. 이 모델은 Kandinsky 시리즈의 텍스트-이미지 모델을 계승하며, 더 높은 품질과 사실감을 갖춘 이미지 생성을 달성하기 위한 우리의 진전을 반영합니다. Kandinsky 2.x 이전 버전과 비교하여, Kandinsky 3.0은 두 배 더 큰 U-Net 백본, 열 배 더 큰 텍스트 인코더를 활용하며 확산 매핑(diffusion mapping)을 제거했습니다. 우리는 모델의 아키텍처, 데이터 수집 절차, 훈련 기법, 그리고 사용자 상호작용을 위한 프로덕션 시스템을 설명합니다. 또한, 대규모 실험을 통해 확인한 주요 구성 요소들에 초점을 맞추어, 이들이 다른 모델 대비 우리 모델의 품질 향상에 가장 큰 영향을 미쳤음을 강조합니다. 우리의 병렬 비교를 통해 Kandinsky는 텍스트 이해 능력이 개선되었으며, 특정 도메인에서 더 나은 성능을 보임을 확인했습니다. 프로젝트 페이지: https://ai-forever.github.io/Kandinsky-3
텍스트-투-스피치(TTS) 합성 분야에서 확산 모델(diffusion models)은 뛰어난 생성 품질을 보여왔습니다. 그러나 사전 정의된 데이터-투-노이즈(datato-noise) 확산 과정으로 인해, 이들의 사전 분포(prior distribution)는 노이즈가 포함된 표현으로 제한되며, 이는 생성 목표에 대한 정보를 거의 제공하지 못합니다. 본 연구에서는 기존의 확산 기반 TTS 방법에서 노이즈가 포함된 가우시안 사전 분포를 깨끗하고 결정론적인 사전 분포로 대체하는 첫 시도인 Bridge-TTS라는 새로운 TTS 시스템을 제안합니다. 이는 목표에 대한 강력한 구조적 정보를 제공합니다. 구체적으로, 우리는 텍스트 입력에서 얻은 잠재 표현(latent representation)을 사전 분포로 활용하고, 이를 실제 멜-스펙트로그램(ground-truth mel-spectrogram)과 연결하는 완전히 추적 가능한 슈뢰딩거 브리지(Schrodinger bridge)를 구축하여 데이터-투-데이터(data-to-data) 과정을 이끌어냅니다. 또한, 우리의 공식화(formulation)의 추적 가능성과 유연성은 노이즈 스케줄(noise schedules)과 같은 설계 공간을 실험적으로 연구하고, 확률적 및 결정론적 샘플러를 개발할 수 있게 합니다. LJ-Speech 데이터셋에서의 실험 결과는 우리의 방법이 합성 품질과 샘플링 효율성 측면에서 모두 효과적임을 보여주며, 50단계/1000단계 합성에서 확산 기반 모델인 Grad-TTS를 크게 능가하고, 소수 단계 시나리오에서 강력한 고속 TTS 모델들보다 우수한 성능을 보입니다. 프로젝트 페이지: https://bridge-tts.github.io/
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 다양한 작업에서 이미지로부터 유용한 콘텐츠 정보를 추출하는 데 핵심적인 역할을 합니다. 이는 텍스트와 시각적 모달리티를 정렬하여 특정 작업과 무관한 세부 사항을 포함한 전체 이미지를 이해합니다. 그러나 이미지를 더 세밀하게 이해하고 제어된 편집을 수행하기 위해서는 인간이나 인지 모델이 지정한 점, 마스크, 또는 박스와 같은 특정 관심 영역에 초점을 맞추는 것이 중요합니다. 이러한 요구를 충족시키기 위해, 우리는 Alpha-CLIP을 소개합니다. 이는 CLIP의 향상된 버전으로, 주의 영역을 제안하기 위한 보조 알파 채널을 포함하며, 수백만 개의 RGBA 영역-텍스트 쌍으로 미세 조정되었습니다. Alpha-CLIP은 CLIP의 시각적 인식 능력을 유지하면서도 이미지 콘텐츠의 강조를 정밀하게 제어할 수 있습니다. 이는 개방형 세계 인식, 멀티모달 대형 언어 모델, 조건부 2D/3D 생성 등 다양한 작업에서 효과를 입증하였으며, 이미지 관련 작업을 위한 다목적 도구로서의 강력한 잠재력을 가지고 있습니다.
코드는 코드 인터프리터와 결합할 때 복잡한 프로그램을 구축하고 정밀한 계산을 수행하기 위한 일반적인 구문 구조를 제공합니다. 우리는 언어 모델(LM)이 코드 작성 능력을 활용하여 논리 및 산술 작업뿐만 아니라 언어적 작업(특히 둘을 혼합한 작업)에 대한 Chain of Thought(CoT) 추론을 개선할 수 있다고 가정합니다. 예를 들어, LM에게 에세이에서 감지된 풍자의 횟수를 세는 코드를 작성하도록 요청하는 경우를 생각해 보겠습니다. LM은 인터프리터가 실행할 수 있는 "detect_sarcasm(string)"의 구현을 작성하는 데 어려움을 겪을 수 있습니다(예외 상황을 처리하는 것은 불가능할 수 있음). 그러나 LM이 코드를 작성하는 데만 사용되는 것이 아니라 "detect_sarcasm(string)" 및 기타 코드 라인의 예상 출력을 생성하여 인터프리터를 선택적으로 "에뮬레이트"하는 데 사용된다면 여전히 유효한 솔루션을 생성할 수 있습니다(예: 인터프리터가 컴파일할 수 없는 코드). 본 연구에서는 LM의 코드 기반 추론을 개선하는 간단하지만 놀라울 정도로 효과적인 확장인 Chain of Code(CoT)를 제안합니다. 핵심 아이디어는 LM이 프로그램 내의 언어적 하위 작업을 유연한 의사코드로 포맷화하도록 장려하여 컴파일러가 명시적으로 정의되지 않은 동작을 포착하고 이를 LM(즉, "LMulator")로 시뮬레이션할 수 있도록 하는 것입니다. 실험 결과, Chain of Code는 다양한 벤치마크에서 Chain of Thought 및 기타 베이스라인을 능가하는 것으로 나타났습니다. BIG-Bench Hard에서 Chain of Code는 84%를 달성했으며, 이는 Chain of Thought 대비 12%의 향상입니다. CoT는 대형 및 소형 모델 모두에서 잘 확장되며, LM이 "코드로 생각"함으로써 올바르게 답변할 수 있는 추론 질문의 범위를 넓힙니다. 프로젝트 웹페이지: https://chain-of-code.github.io/.
고품질 3D 헤드 아바타 생성은 항상 연구의 핫스팟이었지만, 경량화된 희소 뷰 설정에서는 여전히 큰 도전 과제로 남아 있습니다. 본 논문에서는 고품질 헤드 아바타 모델링을 위해 제어 가능한 3D 가우시안으로 표현된 가우시안 헤드 아바타를 제안합니다. 우리는 중립 3D 가우시안과 완전히 학습된 MLP 기반 변형 필드를 최적화하여 복잡한 표정을 포착합니다. 이 두 부분은 서로 상호 보완적이어서, 우리의 방법은 표현 정확도를 보장하면서도 미세한 동적 디테일을 모델링할 수 있습니다. 또한, 학습 과정의 안정성과 수렴을 위해 암묵적 SDF와 딥 마칭 테트라헤드라 기반의 잘 설계된 기하학적 초기화 전략을 고안했습니다. 실험 결과, 우리의 접근 방식은 다른 최신 희소 뷰 방법들을 능가하며, 과장된 표정에서도 2K 해상도에서 초고품질 렌더링 품질을 달성함을 보여줍니다.
비디오 내의 움직임은 주로 카메라 움직임에 의해 유발되는 카메라 모션과 객체 움직임에 의해 발생하는 객체 모션으로 구성됩니다. 비디오 생성에 있어서 카메라와 객체 모션 모두를 정확하게 제어하는 것은 필수적입니다. 그러나 기존 연구들은 주로 한 가지 유형의 모션에 초점을 맞추거나 두 가지를 명확히 구분하지 않아 제어 능력과 다양성이 제한되었습니다. 따라서 본 논문에서는 카메라와 객체 모션을 효과적이고 독립적으로 제어할 수 있도록 설계된 통합적이고 유연한 모션 컨트롤러인 MotionCtrl을 제안합니다. MotionCtrl의 아키텍처와 학습 전략은 카메라 모션, 객체 모션, 그리고 불완전한 학습 데이터의 고유한 특성을 고려하여 신중하게 설계되었습니다. 기존 방법과 비교하여 MotionCtrl은 다음과 같은 세 가지 주요 장점을 제공합니다: 1) 카메라 모션과 객체 모션을 효과적이고 독립적으로 제어하여 더 세밀한 모션 제어가 가능하며, 두 유형의 모션을 유연하고 다양하게 조합할 수 있습니다. 2) 모션 조건이 외형과 무관한 카메라 포즈와 궤적에 의해 결정되므로 생성된 비디오에서 객체의 외형이나 형태에 미치는 영향이 최소화됩니다. 3) 학습 후 다양한 카메라 포즈와 궤적에 적응할 수 있는 비교적 일반화 가능한 모델입니다. MotionCtrl의 우수성을 입증하기 위해 광범위한 정성적 및 정량적 실험이 수행되었습니다.
본 논문은 자연어 처리 분야에서 주목받는 오픈소스 기초 모델인 LLaMA를 중심으로 대규모 언어 모델(LLMs)에 대한 심층 분석을 제시한다. LLaMA를 생성적 출력을 통해 평가하는 대신, 우리는 추론 및 계산과 같은 고차원적 과제에서 모델의 내재적 이해를 탐구하기 위해 다중 선택 과제를 설계하였다. 우리는 모델을 수평적으로(다양한 크기 비교)와 수직적으로(다른 계층 평가) 조사하였다. 설계된 탐구 과제를 기반으로 몇 가지 주요하고 독특한 발견을 밝혀냈다: (1) 수평적으로, 모델 크기를 키우는 것이 추가적인 지식이나 계산 능력을 자동으로 부여하지는 못한다. 대신, 특히 수학 문제 해결에서 추론 능력을 향상시키고, 특정 크기 임계값을 넘어서야 환각 현상을 줄이는 데 도움을 준다; (2) 수직적 분석에서, LLaMA의 하위 계층은 산술 및 사실적 지식이 부족하지만 논리적 사고, 다국어 및 인식 능력을 보여주며, 상위 계층은 대부분의 계산 능력과 실세계 지식을 담고 있다.
최근 사진처럼 사실적인 인간 모델링과 렌더링 기술에서 엄청난 진전이 있었습니다. 그러나 사실적인 인간 동작을 효율적으로 렌더링하고 이를 래스터화 파이프라인에 통합하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 고밀도 영상에서 고해상도 인간 동작 렌더링을 위한 명시적이고 간결한 가우시안 기반 접근법인 HiFi4G를 제안합니다. 우리의 핵심 직관은 3D 가우시안 표현과 비강체 추적을 결합하여 간결하고 압축에 적합한 표현을 달성하는 것입니다. 먼저, 효과적인 초기화를 위한 거친 변형 그래프와 후속 제약 조건을 강제하기 위한 세분화된 가우시안 그래프로 구성된 이중 그래프 메커니즘을 제안합니다. 그런 다음, 비강체 사전 정보와 가우시안 업데이트를 효과적으로 균형 잡기 위해 적응형 시공간 정규화를 포함한 4D 가우시안 최적화 기법을 활용합니다. 또한, 다양한 플랫폼에서 몰입형 경험을 제공하기 위한 잔차 보상을 포함한 압축 기법도 제시합니다. 이 기법은 프레임당 2MB 미만의 저장 공간으로 약 25배의 상당한 압축률을 달성합니다. 광범위한 실험을 통해 우리의 접근법이 최적화 속도, 렌더링 품질, 저장 오버헤드 측면에서 기존 방법들을 크게 능가하는 효과를 입증했습니다.
우리는 컨텍스트로 제시된 시각적 예제로부터 학습할 수 있는 이미지 생성 모델을 가능하게 하는 확산 기반 프레임워크인 Context Diffusion을 제안합니다. 최근 연구에서는 컨텍스트 예제와 텍스트 프롬프트와 함께 쿼리 이미지가 제공되는 이미지 생성을 위한 컨텍스트 내 학습을 다루고 있습니다. 그러나 이러한 모델들은 프롬프트가 없을 때 생성된 이미지의 품질과 충실도가 저하되는 것으로 나타나, 이들이 시각적 컨텍스트로부터 진정으로 학습하지 못함을 보여줍니다. 이를 해결하기 위해, 우리는 시각적 컨텍스트의 인코딩과 쿼리 이미지의 구조 보존을 분리하는 새로운 프레임워크를 제안합니다. 이는 시각적 컨텍스트와 텍스트 프롬프트로부터 학습할 뿐만 아니라, 둘 중 하나로부터도 학습할 수 있는 능력을 제공합니다. 또한, 우리는 다양한 컨텍스트 내 학습 시나리오를 효과적으로 처리하기 위해 모델이 소수 샷 설정을 다룰 수 있도록 합니다. 우리의 실험과 사용자 연구는 Context Diffusion이 도메인 내 및 도메인 외 작업 모두에서 우수하며, 대조 모델들과 비교하여 전반적인 이미지 품질과 충실도가 향상됨을 보여줍니다.
ChatGPT와 같은 대형 언어 모델(LLMs)은 일반적인 언어 이해 능력과 특히 고품질의 텍스트나 컴퓨터 코드를 생성하는 능력으로 인해 엄청난 관심을 받고 있습니다. 많은 직업군에서 LLMs는 작업 속도를 높이고 품질을 개선할 수 있는 귀중한 도구로 여겨집니다. 이 글에서는 이러한 LLMs가 전문 수학자들을 어느 정도 도울 수 있는지에 대해 논의합니다. 먼저, 모든 현대 언어 모델에서 사용되는 트랜스포머 모델에 대한 수학적 설명을 제공합니다. 최근 연구를 바탕으로, 우리는 최선의 실천 방법과 잠재적인 문제점을 개괄하고 언어 모델의 수학적 능력에 대해 보고합니다. 마지막으로, LLMs가 수학자들의 작업 방식을 어떻게 바꿀 수 있는지에 대한 잠재력을 조명합니다.
텍스트 기반 비디오 편집은 최근 스타일 변경이나 유사한 구조의 객체 교체에 상당한 관심을 끌고 있습니다. 이를 넘어서, 우리는 비디오에서 모양, 크기, 위치, 움직임 등의 속성도 편집할 수 있음을 보여줍니다. 우리의 핵심 통찰은 특정 내부 특징(예: 객체의 에지 맵 또는 인간 포즈)의 키프레임 변환이 다른 프레임으로 쉽게 전파되어 생성 지침을 제공할 수 있다는 것입니다. 따라서 우리는 추출된 내부 제어 신호에 대한 변환을 활용하여 비디오 속성을 편집하는 제어 가능한 비디오 편집 방법인 MagicStick을 제안합니다. 구체적으로, 외관을 유지하기 위해 사전 훈련된 이미지 확산 모델과 ControlNet을 시간 차원으로 확장하고 특정 장면에 맞도록 저순위 적응( LoRA) 레이어를 훈련시킵니다. 그런 다음 편집 과정에서 역변환 및 편집 프레임워크를 수행합니다. 다르게, 미세 조정된 ControlNet은 역변환과 생성 모두에서 제안된 주의 혼합을 통해 역변환과 편집의 공간 주의 맵 간의 주의 지침을 위해 도입됩니다. 간결하지만, 우리의 방법은 사전 훈련된 텍스트-이미지 모델에서 비디오 속성 편집 능력을 보여주는 첫 번째 방법입니다. 우리는 통합 프레임워크 내에서 다양한 예제에 대한 실험을 제시합니다. 또한 모양 인식 텍스트 기반 편집 및 수작업 모션 비디오 생성과 비교하여, 우리의 방법이 이전 작업보다 우수한 시간적 일관성과 편집 능력을 보여줍니다. 코드와 모델은 공개될 예정입니다.
우리는 사용자의 요구에 맞춰진 시각적 지침서, 즉 '일러스트레이티드 인스트럭션(Illustrated Instructions)'을 생성하는 새로운 과제를 소개합니다. 이 과제에 고유한 요구 사항들을 식별하고, 생성물의 타당성, 일관성, 효용성을 측정하기 위한 자동 및 인간 평가 지표 세트를 통해 이를 공식화했습니다. 우리는 대규모 언어 모델(LLM)의 강점과 강력한 텍스트-이미지 생성 확산 모델을 결합하여, 텍스트 입력을 기반으로 이러한 일러스트레이티드 인스트럭션을 생성하는 '스택드디퓨전(StackedDiffusion)'이라는 간단한 접근 방식을 제안합니다. 결과적으로 이 모델은 기준 접근 방식과 최신 멀티모달 LLM을 크게 능가하며, 30%의 경우 사용자들은 이를 인간이 작성한 문서보다 더 선호하기도 합니다. 특히, 이 모델은 웹상의 정적 문서가 제공할 수 있는 범위를 훨씬 넘어서는 다양한 새롭고 흥미로운 응용 프로그램을 가능하게 합니다. 예를 들어, 사용자의 개별 상황에 맞춰 중간 단계와 그림이 포함된 맞춤형 지침서를 생성하는 등의 기능이 있습니다.
본 논문은 클래스 무조건 이미지 생성 분야에서 새로운 벤치마크를 제시하는 간단하지만 효과적인 이미지 생성 프레임워크인 Representation-Conditioned Image Generation (RCG)을 소개합니다. RCG는 어떠한 인간 주석에도 의존하지 않습니다. 대신, 사전 학습된 인코더를 사용하여 이미지 분포에서 매핑된 자기 지도 표현 분포에 조건을 둡니다. 생성 과정에서 RCG는 표현 확산 모델(RDM)을 사용하여 이러한 표현 분포에서 샘플링하고, 샘플링된 표현에 조건을 둔 픽셀 생성기를 사용하여 이미지 픽셀을 생성합니다. 이러한 설계는 생성 과정에서 상당한 지침을 제공하여 고품질의 이미지 생성을 가능하게 합니다. ImageNet 256×256에서 테스트한 결과, RCG는 Frechet Inception Distance (FID) 3.31과 Inception Score (IS) 253.4를 달성했습니다. 이러한 결과는 클래스 무조건 이미지 생성의 최신 기술을 크게 개선할 뿐만 아니라, 클래스 조건 이미지 생성의 선두 방법들과도 경쟁할 만한 성능을 보여주며, 이 두 작업 간의 오랜 성능 격차를 해소했습니다. 코드는 https://github.com/LTH14/rcg에서 확인할 수 있습니다.
사전 학습된 2D 대규모 생성 모델을 활용하여 최근 연구들은 단일 실세계 이미지에서 고품질의 새로운 뷰를 생성할 수 있게 되었습니다. 그러나 다중 뷰에서의 정보 부족으로 인해, 이러한 연구들은 제어 가능한 새로운 뷰를 생성하는 데 어려움을 겪고 있습니다. 본 논문에서는 다중 뷰 조건을 주입하여 기존의 뷰 인식 확산 모델을 향상시킬 수 있는 유연하고 확장 가능한 프레임워크인 DreamComposer를 제안합니다. 구체적으로, DreamComposer는 먼저 뷰 인식 3D 리프팅 모듈을 사용하여 다중 뷰에서 객체의 3D 표현을 획득합니다. 그런 다음, 다중 뷰 특징 융합 모듈을 통해 3D 표현에서 목표 뷰의 잠재 특징을 렌더링합니다. 마지막으로, 다중 뷰 입력에서 추출된 목표 뷰 특징을 사전 학습된 확산 모델에 주입합니다. 실험 결과, DreamComposer는 제로샷 새로운 뷰 합성을 위한 최첨단 확산 모델과 호환되며, 다중 뷰 조건을 통해 고품질의 새로운 뷰 이미지를 생성하여 제어 가능한 3D 객체 재구성 및 다양한 다른 응용 프로그램에 적합하게 만드는 것을 보여줍니다.
우리는 수치적으로 안정적이고 편향되지 않은 단조 정렬 추정을 갖춘 최첨단 동시 번역 모델인 Efficient Monotonic Multihead Attention(EMMA)을 소개한다. 또한, 오프라인 번역 모델로부터의 동시 미세 조정 및 단조 정렬 분산 감소를 포함한 개선된 학습 및 추론 전략을 제시한다. 실험 결과는 제안된 모델이 스페인어-영어 번역 작업에서 동시 음성-텍스트 번역 분야의 최첨단 성능을 달성함을 보여준다.
인간의 일상 행동을 에고센트릭(egocentric) 시점에서의 교육용 이미지를 생성하는 것은 효율적인 기술 전달을 위한 핵심 단계로 작용합니다. 본 논문에서는 에고센트릭 액션 프레임 생성이라는 새로운 문제를 소개합니다. 이 문제의 목표는 사용자 프롬프트 질문과 사용자 환경을 포착한 입력 에고센트릭 이미지를 조건으로 하여 액션 프레임을 합성하는 것입니다. 특히, 기존의 에고센트릭 데이터셋은 행동 실행을 상세히 설명하는 주석이 부족합니다. 또한, 확산 기반 이미지 조작 모델들은 해당 에고센트릭 이미지 픽셀 공간 내에서 행동의 상태 변화를 제어하는 데 실패합니다. 이를 해결하기 위해, 우리는 시각적 대형 언어 모델(VLLM)을 시각적 지침 튜닝을 통해 미세 조정하여 풍부한 행동 설명을 구축하고자 합니다. 더 나아가, VLLM에서 추출한 이미지와 텍스트 임베딩을 추가 조건으로 사용하여 에고센트릭(LEGO) 액션 프레임 생성을 학습하는 방법을 제안합니다. 우리는 제안된 모델을 Ego4D와 Epic-Kitchens 두 가지 에고센트릭 데이터셋에서 검증합니다. 실험 결과, 기존의 이미지 조작 모델들에 비해 양적 및 질적 평가에서 뚜렷한 개선을 보여줍니다. 또한, 우리는 방법론에 대한 통찰을 제공하기 위해 상세한 어블레이션 연구와 분석을 수행합니다.
신경 방사 필드(Neural Radiance Fields)는 최첨단의 뷰 합성 품질을 제공하지만 렌더링 속도가 느린 경향이 있습니다. 그 이유 중 하나는 볼륨 렌더링을 사용하기 때문에 렌더링 시 각 광선마다 많은 샘플(및 모델 쿼리)이 필요하기 때문입니다. 이 표현 방식은 유연하고 최적화하기 쉽지만, 대부분의 실제 물체는 볼륨 대신 표면으로 더 효율적으로 모델링될 수 있으며, 이 경우 광선당 필요한 샘플 수가 훨씬 적습니다. 이러한 관찰은 부호 거리 함수(signed distance functions)와 같은 표면 표현 방식에서 상당한 진전을 이끌어냈지만, 이러한 방식은 반투명 및 얇은 구조를 모델링하는 데 어려움을 겪을 수 있습니다. 우리는 HybridNeRF라는 방법을 제안하며, 이 방법은 대부분의 물체를 표면으로 렌더링하면서도 (일반적으로) 어려운 영역의 작은 부분을 볼륨으로 모델링함으로써 두 표현 방식의 장점을 모두 활용합니다. 우리는 HybridNeRF를 도전적인 Eyeful Tower 데이터셋과 다른 일반적으로 사용되는 뷰 합성 데이터셋에 대해 평가합니다. 최신 래스터화 기반 접근법을 포함한 최첨단 베이스라인과 비교할 때, 우리는 오류율을 15-30% 개선하면서도 가상 현실 해상도(2Kx2K)에서 실시간 프레임 속도(최소 36 FPS)를 달성합니다.