번역이 포함된 일일 선별된 AI 연구 논문
본 연구에서는 도전적인 인간 댄스 비디오에서 2D 인간 동작과 표정 전이를 위한 확산 기반 모델인 MagicDance를 제안합니다. 구체적으로, 우리는 새로운 포즈 시퀀스에 의해 구동되는 임의의 대상 신원의 인간 댄스 비디오를 생성하면서도 신원을 변경하지 않는 것을 목표로 합니다. 이를 위해, 우리는 인간 동작과 외모(예: 표정, 피부톤, 의상)를 분리하기 위한 두 단계의 학습 전략을 제안합니다. 이 전략은 외모 제어 블록의 사전 학습과 동일한 데이터셋의 인간 댄스 포즈에 대한 외모-포즈-결합 제어 블록의 미세 조정으로 구성됩니다. 우리의 새로운 설계는 시간적으로 일관된 상체, 얼굴 속성, 심지어 배경까지 견고한 외모 제어를 가능하게 합니다. 또한, 이 모델은 이미지 확산 모델의 사전 지식을 활용하여 다양한 인간 속성을 가진 추가 데이터의 미세 조정 없이도 보이지 않는 인간 신원과 복잡한 동작 시퀀스에 대해 잘 일반화됩니다. 더욱이, 제안된 모델은 사용하기 쉬우며 Stable Diffusion의 플러그인 모듈/확장으로 간주될 수 있습니다. 우리는 또한 이 모델의 제로샷 2D 애니메이션 생성 능력을 입증하여, 한 신원에서 다른 신원으로의 외모 전이뿐만 아니라 포즈 입력만으로도 만화 같은 스타일화를 가능하게 합니다. 광범위한 실험을 통해 TikTok 데이터셋에서의 우수한 성능을 입증합니다.
대규모 언어 모델(LLM) 기반 음성 합성은 제로샷 음성 합성에서 널리 채택되고 있습니다. 그러나 이러한 모델은 대규모 데이터를 필요로 하며, 느린 추론 속도와 견고성 부족 등 이전의 자기회귀적 음성 모델과 동일한 한계를 가지고 있습니다. 본 논문은 텍스트-음성 변환(TTS) 및 음성 변환(VC)을 위한 빠르고 강력한 제로샷 음성 합성기인 HierSpeech++를 제안합니다. 우리는 계층적 음성 합성 프레임워크가 합성 음성의 견고성과 표현력을 크게 향상시킬 수 있음을 검증했습니다. 또한, 제로샷 음성 합성 시나리오에서도 합성 음성의 자연스러움과 화자 유사성을 크게 개선했습니다. 텍스트-음성 변환의 경우, 텍스트 표현과 운율 프롬프트를 기반으로 자기 지도 학습 음성 표현과 F0 표현을 생성하는 텍스트-벡터 프레임워크를 채택했습니다. 그런 다음, HierSpeech++는 생성된 벡터, F0, 그리고 음성 프롬프트로부터 음성을 생성합니다. 또한, 16 kHz에서 48 kHz로의 고효율 음성 초해상도 프레임워크를 도입했습니다. 실험 결과, 계층적 변분 자동인코더가 LLM 기반 및 확산 기반 모델을 능가하는 강력한 제로샷 음성 합성기가 될 수 있음을 입증했습니다. 더 나아가, 우리는 최초로 인간 수준의 품질을 가진 제로샷 음성 합성을 달성했습니다. 오디오 샘플과 소스 코드는 https://github.com/sh-lee-prml/HierSpeechpp에서 확인할 수 있습니다.
3D 가우시안 스플래팅(Gaussian Splatting)으로부터 정밀하고 극도로 빠른 메시 추출을 가능하게 하는 방법을 제안합니다. 가우시안 스플래팅은 최근 NeRF보다 훨씬 빠르게 학습하면서도 사실적인 렌더링 결과를 제공하여 큰 인기를 끌고 있습니다. 그러나 수백만 개의 작은 3D 가우시안으로부터 메시를 추출하는 것은 매우 어려운 과제입니다. 이 가우시안들은 최적화 후에 무질서하게 배열되는 경향이 있으며, 지금까지 이를 해결할 방법이 제안된 바 없습니다. 우리의 첫 번째 주요 기여는 가우시안이 장면의 표면과 잘 정렬되도록 유도하는 정규화 항입니다. 그런 다음 이 정렬을 활용하여 푸아송 재구성(Poisson reconstruction)을 통해 가우시안으로부터 메시를 추출하는 방법을 소개합니다. 이 방법은 기존의 Neural SDF에서 메시를 추출하는 데 주로 사용되는 Marching Cubes 알고리즘과 달리 빠르고 확장 가능하며 디테일을 보존합니다. 마지막으로, 선택적인 정제 전략을 도입하여 가우시안을 메시 표면에 결합시키고, 가우시안 스플래팅 렌더링을 통해 이 가우시안과 메시를 공동으로 최적화합니다. 이를 통해 가우시안 자체를 조작하는 대신 메시를 조작하여 전통적인 소프트웨어를 사용해 가우시안을 쉽게 편집, 조각, 리깅, 애니메이션, 합성 및 재조명할 수 있습니다. 우리의 방법을 사용하면 사실적인 렌더링을 위한 편집 가능한 메시를 최신 Neural SDF 방법에 비해 몇 시간이 아닌 몇 분 안에 얻을 수 있으며, 더 나은 렌더링 품질을 제공합니다.
텍스트-이미지 확산 모델의 최근 놀라운 발전에도 불구하고, 고품질 이미지를 얻기 위해서는 해당 모델 사용에 전문성을 갖춘 인간의 프롬프트 엔지니어링이 필요한 경우가 많습니다. 본 연구에서는 NeuroPrompts를 제안합니다. 이는 사용자의 프롬프트를 자동으로 개선하여 텍스트-이미지 모델이 생성하는 결과물의 품질을 높이는 적응형 프레임워크입니다. 우리의 프레임워크는 사전 훈련된 언어 모델을 활용한 제약 텍스트 디코딩을 사용하며, 이 모델은 인간 프롬프트 엔지니어가 생성한 것과 유사한 프롬프트를 생성하도록 조정되었습니다. 이 접근 방식은 더 높은 품질의 텍스트-이미지 생성을 가능하게 하고, 제약 조건 집합을 통해 사용자가 스타일리시한 특징을 제어할 수 있도록 합니다. 우리는 Stable Diffusion을 사용하여 프롬프트 개선 및 이미지 생성을 위한 인터랙티브 애플리케이션을 개발함으로써 이 프레임워크의 유용성을 입증합니다. 또한, 텍스트-이미지 생성을 위해 인간이 엔지니어링한 대규모 데이터셋을 활용한 실험을 수행하고, 우리의 접근 방식이 자동으로 개선된 프롬프트를 생성하여 더 우수한 이미지 품질을 이끌어냄을 보여줍니다. 우리는 NeuroPrompts의 코드, 스크린캐스트 데모 비디오 및 라이브 데모 인스턴스를 공개적으로 제공합니다.
우리는 확산 모델(diffusion model)을 통해 생성된 이미지의 속성을 정밀하게 제어할 수 있는 해석 가능한 개념 슬라이더(concept slider)를 생성하는 방법을 제안합니다. 우리의 접근 방식은 하나의 개념에 해당하는 저차원 매개변수 방향을 식별하면서 다른 속성과의 간섭을 최소화합니다. 슬라이더는 소수의 프롬프트 또는 샘플 이미지를 사용하여 생성되므로, 텍스트 기반 또는 시각적 개념 모두에 대해 슬라이더 방향을 생성할 수 있습니다. 개념 슬라이더는 플러그 앤 플레이(plug-and-play) 방식으로 작동하며, 효율적으로 조합되고 연속적으로 조절될 수 있어 이미지 생성에 대한 정밀한 제어를 가능하게 합니다. 기존 편집 기술과 비교한 정량적 실험에서, 우리의 슬라이더는 더 강력한 목표 편집과 더 낮은 간섭을 보여줍니다. 우리는 날씨, 나이, 스타일, 표정 등의 슬라이더와 슬라이더 조합을 시연합니다. 또한, 슬라이더가 StyleGAN의 잠재 공간(latent space)을 전이하여 텍스트로 설명하기 어려운 시각적 개념을 직관적으로 편집할 수 있음을 보여줍니다. 또한, 우리의 방법이 Stable Diffusion XL의 지속적인 품질 문제, 예를 들어 객체 변형 수정과 왜곡된 손 고치기 등을 해결하는 데 도움을 줄 수 있음을 발견했습니다. 우리의 코드, 데이터, 훈련된 슬라이더는 https://sliders.baulab.info/에서 확인할 수 있습니다.
본 논문에서는 물리적으로 근거를 둔 뉴턴 역학을 3D 가우시안에 원활하게 통합하여 고품질의 새로운 동작 합성을 달성하는 새로운 방법인 PhysGaussian을 소개한다. 맞춤형 Material Point Method(MPM)를 사용하여, 우리의 접근 방식은 연속체 역학 원칙에 따라 진화하는 물리적으로 의미 있는 운동학적 변형 및 기계적 응력 속성으로 3D 가우시안 커널을 풍부하게 한다. 우리 방법의 특징은 물리 시뮬레이션과 시각적 렌더링 간의 원활한 통합이다: 두 구성 요소 모두 동일한 3D 가우시안 커널을 이산 표현으로 사용한다. 이는 삼각형/사면체 메싱, 마칭 큐브, "케이지 메시" 또는 기타 기하학적 임베딩의 필요성을 없애며, "보는 것이 시뮬레이션하는 것이다(WS^2)"라는 원칙을 강조한다. 우리의 방법은 탄성체, 금속, 비뉴턴 유체, 입자 재료 등 다양한 재료에 걸쳐 탁월한 다양성을 보여주며, 새로운 시점과 움직임으로 다양한 시각적 콘텐츠를 생성하는 강력한 능력을 입증한다. 우리의 프로젝트 페이지는 https://xpandora.github.io/PhysGaussian/에서 확인할 수 있다.
우리는 시각적 중첩이 거의 없는 소수의 비정렬(unposed) 이미지들로부터 3D 객체를 재구성하고, 동시에 상대적 카메라 포즈를 단일 A100 GPU에서 약 1.3초 내에 추정하는 Pose-Free Large Reconstruction Model (PF-LRM)을 제안합니다. PF-LRM은 3D 객체 토큰과 2D 이미지 토큰 간의 정보 교환을 위해 self-attention 블록을 활용하는 고도로 확장 가능한 방법으로, 각 뷰에 대한 대략적인 포인트 클라우드를 예측한 후 미분 가능한 Perspective-n-Point (PnP) 솔버를 사용하여 카메라 포즈를 얻습니다. 약 100만 개의 객체에 대한 다량의 다중 뷰 정렬 데이터로 학습된 PF-LRM은 강력한 데이터셋 간 일반화 능력을 보여주며, 다양한 평가 데이터셋에서 포즈 예측 정확도와 3D 재구성 품질 측면에서 기준 방법들을 큰 차이로 능가합니다. 또한, 우리는 빠른 순방향 추론(feed-forward inference)을 통해 텍스트/이미지에서 3D로의 다운스트림 작업에서 모델의 적용 가능성을 입증합니다. 프로젝트 웹사이트는 https://totoro97.github.io/pf-lrm 에서 확인할 수 있습니다.
텍스트-투-비디오 생성 분야의 최근 발전은 확산 모델의 힘을 활용하여 텍스트 프롬프트에 기반한 시각적으로 매력적인 콘텐츠를 만들어내고 있습니다. 그러나 이러한 방법들은 일반적으로 높은 계산 비용을 수반하며, 물리적으로 일관된 동작을 가진 비디오를 생성하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 GPT4Motion을 제안합니다. 이는 GPT와 같은 대형 언어 모델의 계획 능력, Blender의 물리 시뮬레이션 강점, 그리고 텍스트-투-이미지 확산 모델의 우수한 이미지 생성 능력을 활용하여 비디오 합성의 품질을 향상시키는 학습이 필요 없는 프레임워크입니다. 구체적으로, GPT4Motion은 GPT-4를 사용하여 사용자 텍스트 프롬프트를 기반으로 Blender 스크립트를 생성합니다. 이 스크립트는 Blender의 내장 물리 엔진을 명령하여 프레임 간에 일관된 물리적 동작을 포함하는 기본적인 장면 구성 요소를 만듭니다. 그런 다음 이러한 구성 요소는 Stable Diffusion에 입력되어 텍스트 프롬프트와 일치하는 비디오를 생성합니다. 강체 물체의 낙하 및 충돌, 천의 드레이핑과 흔들림, 액체 흐름을 포함한 세 가지 기본 물리적 동작 시나리오에 대한 실험 결과는 GPT4Motion이 동작 일관성과 개체 일관성을 유지하면서 고품질 비디오를 효율적으로 생성할 수 있음을 보여줍니다. GPT4Motion은 텍스트-투-비디오 연구에 새로운 통찰을 제공하며, 그 품질을 향상시키고 미래 탐구를 위한 지평을 넓힙니다.