번역이 포함된 일일 선별된 AI 연구 논문
최근 확산 모델을 이용한 개인화 이미지 생성 분야에서의 진전은 상당히 두드러졌습니다. 그러나 개방형 도메인 및 미세 조정이 필요 없는 개인화 이미지 생성 영역의 발전은 상대적으로 더디게 진행되고 있습니다. 본 논문에서는 테스트 시점의 미세 조정이 필요 없으며, 단일 참조 이미지만으로도 어떤 도메인에서든 단일 또는 다중 주체의 개인화된 이미지 생성을 지원하는 새로운 개방형 도메인 개인화 이미지 생성 모델인 Subject-Diffusion을 제안합니다. 먼저, 자동 데이터 라벨링 도구를 구축하고 LAION-Aesthetics 데이터셋을 활용하여 7,600만 개의 이미지와 해당 주체 탐지 바운딩 박스, 세그멘테이션 마스크, 텍스트 설명으로 구성된 대규모 데이터셋을 구축했습니다. 둘째, 주체 충실도와 일반화를 극대화하기 위해 대략적인 위치 정보와 세밀한 참조 이미지 제어를 통합하여 텍스트와 이미지 의미를 결합한 새로운 통합 프레임워크를 설계했습니다. 또한, 다중 주체 생성을 지원하기 위해 주의 제어 메커니즘을 도입했습니다. 광범위한 정성적 및 정량적 실험 결과는 우리의 방법이 단일, 다중, 그리고 인간 맞춤형 이미지 생성에서 다른 최첨단 프레임워크들을 능가함을 보여줍니다. 자세한 내용은 https://oppo-mente-lab.github.io/subject_diffusion/{프로젝트 페이지}를 참조하십시오.
Neural Radiance Fields(NeRF)는 미디어의 주요 표현 방식으로 자리 잡을 잠재력을 가지고 있습니다. NeRF 모델 학습이 결코 쉬운 작업이 아니었던 만큼, 그 모델의 저작권 보호는 우선적으로 고려되어야 합니다. 본 논문에서는 가능한 저작권 보호 솔루션의 장단점을 분석함으로써, NeRF 모델의 저작권을 보호하기 위해 NeRF의 원래 색상 표현을 워터마크가 적용된 색상 표현으로 대체하는 방안을 제안합니다. 이어서, NeRF의 2D 렌더링에서 강력한 메시지 추출을 보장하기 위해 왜곡에 강건한 렌더링 기법을 설계하였습니다. 우리가 제안한 방법은 다양한 선택지 중에서도 높은 렌더링 품질과 비트 정확도를 유지하면서 NeRF 모델의 저작권을 직접적으로 보호할 수 있습니다.
최근 Neural Radiance Fields(NeRF)의 발전으로 고품질 3D 얼굴 재구성과 새로운 시점 합성이 가능해지면서, 이를 조작하는 것도 3D 비전 분야에서 필수적인 과제가 되었습니다. 그러나 기존의 조작 방법들은 사용자가 제공한 시맨틱 마스크나 수동 속성 탐색과 같은 광범위한 인력이 필요하여 비전문가 사용자에게는 적합하지 않았습니다. 대신, 우리의 접근 방식은 NeRF로 재구성된 얼굴을 조작하기 위해 단일 텍스트만을 요구하도록 설계되었습니다. 이를 위해, 우리는 먼저 동적 장면 위에서 장면 조작기(latent code-conditional deformable NeRF)를 학습시켜 latent code를 사용하여 얼굴 변형을 제어합니다. 그러나 단일 latent code로 장면 변형을 표현하는 것은 서로 다른 인스턴스에서 관찰된 지역적 변형을 합성하기에는 불리합니다. 따라서, 우리가 제안한 Position-conditional Anchor Compositor(PAC)는 공간적으로 변화하는 latent code를 사용하여 조작된 장면을 표현하도록 학습합니다. 그런 다음, 장면 조작기를 통해 렌더링된 결과는 CLIP 임베딩 공간에서 목표 텍스트와 높은 코사인 유사도를 가지도록 최적화되어 텍스트 기반 조작을 가능하게 합니다. 우리가 알고 있는 한, 우리의 접근 방식은 NeRF로 재구성된 얼굴의 텍스트 기반 조작을 다룬 첫 번째 사례입니다. 광범위한 결과, 비교 및 ablation 연구를 통해 우리 접근 방식의 효과성을 입증합니다.
확산 모델(diffusion model)이 이미지 생성 분야에서 놀라운 성공을 거두었음에도 불구하고, 느린 샘플링 속도는 여전히 지속적인 문제로 남아 있습니다. 샘플링 과정을 가속화하기 위해, 기존 연구들은 확산 샘플링을 ODE/SDE로 재구성하고 고차 수치적 방법을 도입했습니다. 그러나 이러한 방법들은 특히 샘플링 단계 수가 적을 때 발산 아티팩트(divergence artifact)를 생성하는 경우가 많아, 달성 가능한 가속화에 제한을 가합니다. 본 논문에서는 이러한 아티팩트의 잠재적 원인을 조사하고, 이러한 방법들의 작은 안정성 영역이 주요 원인일 수 있다고 제안합니다. 이 문제를 해결하기 위해, 우리는 두 가지 새로운 기법을 제안합니다. 첫 번째 기법은 최적화 개선을 위해 잘 알려진 Heavy Ball(HB) 모멘텀을 기존의 확산 수치적 방법에 통합하여 안정성 영역을 확장하는 것입니다. 또한, 결과적으로 얻은 방법들이 1차 수렴성을 가짐을 증명합니다. 두 번째 기법인 Generalized Heavy Ball(GHVB)은 정확도와 아티팩트 억제 사이의 가변적 균형을 제공하는 새로운 고차 방법을 구성합니다. 실험 결과는 우리의 기법들이 아티팩트를 줄이고 이미지 품질을 개선하는 데 매우 효과적이며, 저단계 샘플링에서 픽셀 기반 및 잠재 기반 확산 모델 모두에서 최신 확산 솔버를 능가함을 보여줍니다. 우리의 연구는 향후 확산 작업을 위한 수치적 방법 설계에 새로운 통찰을 제공합니다.