번역이 포함된 일일 선별된 AI 연구 논문
우리는 MUSE를 기반으로 한 오픈소스 경량 마스크 이미지 모델(MIM)인 aMUSEd를 소개합니다. aMUSEd는 MUSE의 매개변수 중 10%만을 사용하며, 빠른 이미지 생성에 초점을 맞추고 있습니다. 우리는 텍스트-이미지 생성의 주류 접근법인 잠재 확산(latent diffusion)에 비해 MIM이 상대적으로 덜 탐구되었다고 믿습니다. 잠재 확산과 비교했을 때, MIM은 더 적은 추론 단계를 필요로 하며 해석 가능성이 더 높습니다. 또한, MIM은 단일 이미지로도 추가 스타일을 학습하도록 미세 조정(fine-tuning)할 수 있습니다. 우리는 대규모 텍스트-이미지 생성에서의 효과성을 입증하고 재현 가능한 학습 코드를 공개함으로써 MIM에 대한 추가 탐구를 촉진하고자 합니다. 또한, 256x256 및 512x512 해상도의 이미지를 직접 생성하는 두 모델의 체크포인트도 공개합니다.
우리는 대화적 상호작용의 역동성에 따라 제스처를 취하는 완전한 몸체의 사실적인 아바타를 생성하기 위한 프레임워크를 제시합니다. 음성 오디오를 입력으로 받아, 개인의 얼굴, 몸, 손을 포함한 다양한 제스처 동작의 가능성을 출력합니다. 우리 방법의 핵심은 벡터 양자화로부터 얻은 샘플 다양성의 이점과 확산을 통해 얻은 고주파 세부 정보를 결합하여 더욱 역동적이고 표현력 있는 동작을 생성하는 데 있습니다. 생성된 동작은 미세한 제스처(예: 비웃음과 씩 웃음)를 표현할 수 있는 고도로 사실적인 아바타를 통해 시각화됩니다. 이러한 연구를 촉진하기 위해, 사실적인 재구성을 가능하게 하는 최초의 다중 시점 대화 데이터셋을 소개합니다. 실험 결과, 우리 모델은 적절하고 다양한 제스처를 생성하며, 확산 및 VQ 전용 방법을 모두 능가하는 성능을 보입니다. 또한, 우리의 지각 평가는 대화적 제스처에서 미세한 동작 세부 사항을 정확히 평가하는 데 있어 사실성(메시 대비)의 중요성을 강조합니다. 코드와 데이터셋은 온라인에서 이용 가능합니다.
우리는 3D 기하학 및 그래픽 도구를 통합하여 2D 이미지를 편집하는 새로운 프레임워크인 Image Sculpting을 소개한다. 이 접근 방식은 2D 공간에 국한되고 일반적으로 텍스트 지침에 의존하여 모호성과 제한된 제어를 초래하는 기존 방법과는 현저히 다르다. Image Sculpting은 2D 객체를 3D로 변환하여 그들의 3D 기하학과 직접 상호작용할 수 있게 한다. 편집 후, 이러한 객체는 2D로 다시 렌더링되어 원본 이미지에 통합되며, coarse-to-fine 개선 과정을 통해 고품질 결과를 생성한다. 이 프레임워크는 포즈 편집, 회전, 이동, 3D 구성, 조각, 그리고 연속 추가와 같은 정밀하고 정량적이며 물리적으로 타당한 편집 옵션을 지원한다. 이는 생성 모델의 창의적 자유와 그래픽 파이프라인의 정밀성을 결합하기 위한 초기 단계를 표시한다.
이미지 확산 모델의 발전은 최근 고품질 이미지 생성에서 주목할 만한 개선을 이끌어냈습니다. 신경 방사 필드(NeRF)와 결합하여, 이들은 3D 생성 분야에서 새로운 기회를 열었습니다. 그러나 대부분의 생성적 3D 접근법은 객체 중심적이며, 이를 기존의 사실적인 장면 편집에 적용하는 것은 간단하지 않습니다. 우리는 SIGNeRF를 제안합니다. 이는 빠르고 제어 가능한 NeRF 장면 편집 및 장면 통합 객체 생성을 위한 새로운 접근법입니다. 새로운 생성적 업데이트 전략은 반복적인 최적화 없이도 편집된 이미지 간의 3D 일관성을 보장합니다. 우리는 깊이 조건화된 확산 모델이 단일 뷰 대신 이미지 그리드를 요청함으로써 3D 일관된 뷰를 생성할 수 있는 능력을 내재하고 있음을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 수정된 이미지의 다중 뷰 참조 시트를 도입합니다. 우리의 방법은 참조 시트를 기반으로 이미지 컬렉션을 일관되게 업데이트하고, 새로 생성된 이미지 세트로 원래의 NeRF를 한 번에 정제합니다. 이미지 확산 모델의 깊이 조건화 메커니즘을 활용함으로써, 우리는 편집의 공간적 위치에 대한 세밀한 제어를 얻고, 선택된 영역 또는 외부 메시에 의해 형상 가이드를 강제합니다.
확산 기반의 노래 목소리 변환(Singing Voice Conversion, SVC) 방법은 목표 음색과 높은 유사성을 가진 자연스러운 오디오를 생성하며 뛰어난 성능을 달성했습니다. 그러나 반복적인 샘플링 과정으로 인해 추론 속도가 느려지며, 이에 대한 가속화가 중요해졌습니다. 본 논문에서는 고품질 생성과 고속 샘플링을 동시에 달성하기 위해 CoMoSVC라는 일관성 모델 기반의 SVC 방법을 제안합니다. 먼저 SVC를 위해 특별히 설계된 확산 기반의 교사 모델을 사용하고, 자기 일관성 속성 하에서 학생 모델을 추가로 증류하여 단일 단계 샘플링을 달성합니다. 단일 NVIDIA GTX4090 GPU에서의 실험 결과, CoMoSVC는 최신 확산 기반 SVC 시스템보다 훨씬 빠른 추론 속도를 보이면서도 주관적 및 객관적 지표 모두에서 비슷하거나 더 우수한 변환 성능을 달성함을 확인했습니다. 오디오 샘플과 코드는 https://comosvc.github.io/에서 확인할 수 있습니다.
병렬 텍스트-음성 변환 모델은 실시간 음성 합성에 널리 적용되어 왔으며, 기존의 자기회귀 모델에 비해 더 높은 제어 가능성과 훨씬 빠른 합성 프로세스를 제공합니다. 병렬 모델은 여러 측면에서 장점이 있지만, 트랜스포머와 같은 완전 병렬 아키텍처로 인해 점진적 합성에는 자연스럽게 적합하지 않습니다. 본 연구에서는 청크 기반 FFT 블록을 통해 아키텍처를 개선하고, 수용 영역이 제한된 청크 주의 마스크로 학습하며, 고정 크기의 과거 모델 상태를 사용하여 추론하는 새로운 FastPitch 변형인 Incremental FastPitch를 제안합니다. 실험 결과는 제안 모델이 병렬 FastPitch와 비슷한 음질을 생성하면서도 실시간 음성 응용 프로그램에 더 낮은 응답 시간을 허용하는 상당히 낮은 지연 시간을 달성할 수 있음을 보여줍니다.
DSLR 카메라는 렌즈 거리 조정이나 렌즈 교체를 통해 다양한 줌 레벨을 구현할 수 있습니다. 그러나 스마트폰 기기에서는 공간 제약으로 인해 이러한 기술을 적용할 수 없습니다. 대부분의 스마트폰 제조사는 하이브리드 줌 시스템을 채택하고 있습니다: 일반적으로 낮은 줌 레벨에서는 와이드(W) 카메라를, 높은 줌 레벨에서는 텔레포토(T) 카메라를 사용합니다. W와 T 사이의 줌 레벨을 시뮬레이션하기 위해, 이러한 시스템은 W에서 촬영된 이미지를 크롭하고 디지털 업샘플링을 수행하지만, 이로 인해 상당한 디테일 손실이 발생합니다. 본 논문에서는 모바일 기기에서 하이브리드 줌 초해상도를 위한 효율적인 시스템을 제안합니다. 이 시스템은 W와 T의 동기화된 쌍을 캡처하고, 머신 러닝 모델을 활용하여 T의 디테일을 W로 정렬 및 전달합니다. 또한, 피사계 심도 불일치, 장면 가림, 흐름 불확실성, 정렬 오류를 고려한 적응형 블렌딩 방법을 개발합니다. 도메인 격차를 최소화하기 위해, 실제 입력과 지상 실측 데이터를 캡처하기 위한 듀얼 폰 카메라 장치를 설계하여 지도 학습을 수행합니다. 우리의 방법은 모바일 플랫폼에서 500ms 내에 12메가픽셀 이미지를 생성하며, 실제 시나리오에서의 광범위한 평가를 통해 최신 기술과 비교하여 우수한 성능을 보입니다.