번역이 포함된 일일 선별된 AI 연구 논문
최근 텍스트-이미지 생성 분야에서 주어진 텍스트 프롬프트를 기반으로 현실적인 인간 사진을 합성하는 데 있어 놀라운 진전이 이루어졌습니다. 그러나 기존의 개인화된 생성 방법들은 높은 효율성, 우수한 신원(ID) 충실도, 그리고 유연한 텍스트 제어 가능성이라는 요구사항을 동시에 충족시키지 못하고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 PhotoMaker를 소개합니다. 이는 주어진 여러 ID 이미지를 스택 ID 임베딩으로 인코딩하여 ID 정보를 보존하는 효율적인 개인화 텍스트-이미지 생성 방법입니다. 이러한 임베딩은 통합된 ID 표현으로서, 동일한 입력 ID의 특성을 포괄적으로 담아낼 뿐만 아니라, 다른 ID들의 특성도 수용하여 후속 통합을 가능하게 합니다. 이는 더 흥미롭고 실질적으로 가치 있는 응용 프로그램을 위한 길을 열어줍니다. 또한, 우리의 PhotoMaker의 학습을 촉진하기 위해, ID 지향 데이터 구성 파이프라인을 제안하여 학습 데이터를 조립합니다. 제안된 파이프라인을 통해 구성된 데이터셋의 지원 하에, 우리의 PhotoMaker는 테스트 시간 미세 조정 기반 방법들보다 더 나은 ID 보존 능력을 보여주며, 동시에 상당한 속도 개선, 고품질 생성 결과, 강력한 일반화 능력, 그리고 다양한 응용 범위를 제공합니다. 우리의 프로젝트 페이지는 https://photo-maker.github.io/에서 확인할 수 있습니다.
의미적으로 인식 가능하고 장기적인 인간-객체 상호작용을 합성하는 것은 현실적인 인간 행동을 시뮬레이션하는 데 중요합니다. 본 연구에서는 3D 장면에서 언어 설명에 따라 동기화된 객체 운동과 인간 운동을 생성하는 어려운 문제를 다룹니다. 우리는 언어 설명, 초기 객체 및 인간 상태, 그리고 희소 객체 웨이포인트가 주어졌을 때 조건부 확산 모델을 사용하여 객체 운동과 인간 운동을 동시에 생성하는 Controllable Human-Object Interaction Synthesis (CHOIS) 접근법을 제안합니다. 언어 설명은 스타일과 의도를 알려주는 반면, 웨이포인트는 장면 내에서 운동을 기반으로 하며 고수준 계획 방법을 통해 효과적으로 추출될 수 있습니다. 확산 모델을 단순히 적용하는 경우 입력 웨이포인트와 정렬된 객체 운동을 예측하지 못하며, 정확한 손-객체 접촉과 바닥에 기반한 적절한 접촉이 필요한 상호작용의 현실성을 보장할 수 없습니다. 이러한 문제를 극복하기 위해, 우리는 생성된 객체 운동과 입력 객체 웨이포인트 간의 일치를 개선하기 위해 객체 기하학적 손실을 추가적인 감독으로 도입합니다. 또한, 훈련된 확산 모델의 샘플링 과정 동안 접촉 제약을 강제하기 위한 가이던스 항을 설계합니다.
단일 이미지로부터 3D 콘텐츠를 생성하는 것은 오랜 역사를 가진 동시에 매우 바람직한 과제입니다. 최근의 발전은 2D 확산 사전 지식을 도입하여 합리적인 결과를 얻고 있습니다. 그러나 기존 방법들은 생성 후 사용에 충분히 초현실적이지 않아, 사용자가 결과물인 3D 콘텐츠를 전 방위에서 보고, 렌더링하고, 편집할 수 없습니다. 이러한 문제를 해결하기 위해, 우리는 몇 가지 핵심 설계와 매력적인 특성을 가진 HyperDreamer를 소개합니다: 1) 관측 가능: 고해상도 텍스처를 갖춘 360도 메쉬 모델링을 통해 전 방위 관측점에서 시각적으로 매력적인 3D 모델을 생성할 수 있습니다. 2) 렌더링 가능: 세밀한 의미론적 분할과 데이터 기반 사전 지식을 통합하여 재료의 합리적인 알베도, 거칠기, 반사 특성을 학습함으로써, 의미론적 인식을 바탕으로 한 임의의 재료 추정이 가능합니다. 3) 편집 가능: 생성된 모델이나 사용자 자신의 데이터에 대해, 사용자는 몇 번의 클릭으로 원하는 영역을 선택하고 텍스트 기반 지도를 통해 텍스처를 효율적으로 편집할 수 있습니다. 광범위한 실험을 통해 HyperDreamer가 고해상도 텍스처를 가진 영역 인식 재료 모델링과 사용자 친화적인 편집을 가능하게 하는 데 효과적임을 입증했습니다. 우리는 HyperDreamer가 3D 콘텐츠 생성의 발전과 다양한 분야에서의 응용 가능성을 열어줄 것으로 기대합니다.
대규모 텍스트-투-비디오(T2V) 확산 모델은 최근 몇 년 동안 시각적 품질, 움직임 및 시간적 일관성 측면에서 큰 발전을 이루었습니다. 그러나 생성 과정은 여전히 블랙박스 상태로, 모든 속성(예: 외관, 움직임)이 대략적인 텍스트 설명 외에는 정밀한 제어 능력 없이 공동으로 학습되고 생성됩니다. 이미지 애니메이션에서 영감을 받아 비디오를 특정 외관과 해당 움직임으로 분리하는 방식을 차용하여, 우리는 사전 훈련된 텍스트-투-비디오 확산 모델인 AnimateDiff를 해체하고 더 정밀한 외관 및 움직임 제어 능력을 제공하는 AnimateZero를 제안합니다. 외관 제어를 위해, 우리는 텍스트-투-이미지(T2I) 생성에서 중간 잠재 변수와 그 특징을 차용하여 생성된 첫 번째 프레임이 주어진 생성 이미지와 동일하도록 보장합니다. 시간적 제어를 위해, 원래 T2V 모델의 전역 시간적 주의 메커니즘을 우리가 제안한 위치 보정 윈도우 주의 메커니즘으로 대체하여 다른 프레임들이 첫 번째 프레임과 잘 정렬되도록 합니다. 제안된 방법을 통해, AnimateZero는 추가 훈련 없이도 생성 과정을 성공적으로 제어할 수 있습니다. 주어진 이미지에 대한 제로샷 이미지 애니메이터로서, AnimateZero는 또한 인터랙티브 비디오 생성 및 실제 이미지 애니메이션을 포함한 여러 새로운 응용 프로그램을 가능하게 합니다. 상세한 실험은 제안된 방법이 T2V 및 관련 응용 프로그램에서의 효과를 입증합니다.
강화 학습(Reinforcement Learning, RL)은 장기적인 목표를 달성하기 위한 다재다능한 프레임워크를 제공합니다. 그 일반성 덕분에 지연된 보상 처리, 부분 관측성 대응, 탐색과 활용의 딜레마 해결, 오프라인 데이터를 활용한 온라인 성능 개선, 안전 제약 조건 충족 등 현실 세계의 지능형 시스템이 마주하는 다양한 문제를 공식화할 수 있습니다. RL 연구 커뮤니티가 이러한 문제들을 해결하기 위해 상당한 진전을 이루었음에도 불구하고, 기존의 오픈소스 RL 라이브러리들은 RL 솔루션 파이프라인의 일부에만 초점을 맞추고 있어 다른 측면들은 크게 간과되고 있습니다. 본 논문은 이러한 도전 과제들을 모듈 방식으로 수용하도록 명시적으로 설계된 프로덕션 준비 RL 에이전트 소프트웨어 패키지인 Pearl을 소개합니다. 예비 벤치마크 결과를 제시하는 것 외에도, 본 논문은 Pearl의 산업 도입 사례를 강조하여 프로덕션 사용 준비 상태를 입증합니다. Pearl은 Github( github.com/facebookresearch/pearl )에서 오픈소스로 제공되며, 공식 웹사이트는 pearlagent.github.io 에서 확인할 수 있습니다.
최근 디퓨전 모델은 텍스트-이미지(T2I) 생성 분야에서 높은 충실도와 다양한 콘텐츠를 가진 이미지를 합성하며 눈부신 발전을 이루었습니다. 그러나 이러한 발전에도 불구하고, 디퓨전 모델 내의 잠재 공간의 매끄러움에 대한 연구는 여전히 미흡한 상태입니다. 매끄러운 잠재 공간은 입력 잠재 변수에 대한 미세한 변화가 출력 이미지에서도 일관된 변화로 이어지도록 보장합니다. 이러한 특성은 이미지 보간, 역변환, 편집 등의 다운스트림 작업에서 유용하게 활용될 수 있습니다. 본 연구에서는 미세한 잠재 변동으로 인해 발생하는 뚜렷한 시각적 변동을 관찰함으로써 디퓨전 잠재 공간의 비매끄러움을 밝혔습니다. 이 문제를 해결하기 위해, 우리는 높은 성능과 매끄러움을 동시에 달성할 수 있는 새로운 범주의 디퓨전 모델인 Smooth Diffusion을 제안합니다. 구체적으로, 우리는 Step-wise Variation Regularization을 도입하여 임의의 입력 잠재 변수와 출력 이미지의 변동 비율이 디퓨전 훈련 과정의 모든 단계에서 일정하도록 강제합니다. 또한, 디퓨전 모델의 잠재 공간 매끄러움을 효과적으로 평가하기 위해 보간 표준 편차(ISTD) 지표를 고안했습니다. 다양한 정량적 및 정성적 실험을 통해 Smooth Diffusion이 T2I 생성뿐만 아니라 다양한 다운스트림 작업에서도 더 바람직한 솔루션으로 두각을 나타냄을 입증했습니다. Smooth Diffusion은 다양한 커뮤니티 모델과 함께 작동할 수 있는 플러그 앤 플레이 방식의 Smooth-LoRA로 구현되었습니다. 코드는 https://github.com/SHI-Labs/Smooth-Diffusion에서 확인할 수 있습니다.
본 연구에서는 이미지 및 비디오 생성을 위한 Transformer 기반 확산 모델을 탐구합니다. Transformer 아키텍처가 유연성과 확장성으로 인해 다양한 분야에서 주도적인 위치를 차지하고 있음에도 불구하고, 시각적 생성 분야에서는 주로 CNN 기반 U-Net 아키텍처, 특히 확산 기반 모델이 활용되고 있습니다. 이러한 격차를 해결하기 위해 우리는 Transformer 기반 확산을 사용하는 생성 모델 패밀리인 GenTron을 소개합니다. 첫 번째 단계로, 우리는 클래스 조건에서 텍스트 조건으로 Diffusion Transformers(DiTs)를 적용하는 과정을 통해 조건 메커니즘에 대한 철저한 실험적 탐구를 수행했습니다. 이후 GenTron을 약 900M에서 3B 이상의 파라미터로 확장하면서 시각적 품질의 상당한 개선을 관찰했습니다. 더 나아가, 우리는 GenTron을 텍스트-투-비디오 생성으로 확장하고, 비디오 품질을 향상시키기 위한 새로운 모션-프리 가이던스를 도입했습니다. SDXL과의 인간 평가에서 GenTron은 시각적 품질에서 51.1%의 승률(19.8% 무승부)을, 텍스트 정렬에서 42.3%의 승률(42.9% 무승부)을 달성했습니다. 또한 GenTron은 T2I-CompBench에서도 우수한 성능을 보이며, 구성적 생성에서의 강점을 입증했습니다. 우리는 이 연구가 의미 있는 통찰을 제공하고 향후 연구에 귀중한 참고 자료가 될 것이라고 믿습니다.
우리는 기존의 2D 시각 생성 모델을 활용하여 3D 캡처에서 누락된 부분을 생성적 3D 인페인팅으로 완성하는 NeRFiller 접근법을 제안합니다. 종종 3D 장면이나 객체의 일부는 메쉬 재구성 실패나 관측 부족(예: 물체의 바닥과 같은 접촉 영역이나 접근하기 어려운 부분)으로 인해 누락됩니다. 우리는 이 어려운 3D 인페인팅 문제를 해결하기 위해 2D 인페인팅 확산 모델을 활용합니다. 우리는 이러한 모델이 이미지가 2x2 그리드를 형성할 때 더 3D 일관된 인페인팅을 생성한다는 놀라운 특성을 발견했으며, 이를 네 개 이상의 이미지로 일반화하는 방법을 보여줍니다. 그런 다음, 이러한 인페인팅된 영역을 단일 일관된 3D 장면으로 정제하는 반복적 프레임워크를 제시합니다. 관련 연구들과 달리, 우리는 전경 객체를 삭제하는 대신 장면을 완성하는 데 초점을 맞추며, 우리의 접근법은 엄격한 2D 객체 마스크나 텍스트를 필요로 하지 않습니다. 우리는 다양한 장면에서 우리의 설정에 맞게 조정된 관련 베이스라인과 우리의 접근법을 비교하며, NeRFiller가 가장 3D 일관되고 그럴듯한 장면 완성을 만들어냄을 보여줍니다. 우리의 프로젝트 페이지는 https://ethanweber.me/nerfiller에서 확인할 수 있습니다.
최근 확산 모델(diffusion model)은 합성 이미지 품질의 향상과 더불어 생성 과정에서의 제어 능력도 개선되었습니다. 본 논문에서는 최신의 접지된 이미지 생성 방법을 활용하여 객체 탐지를 위한 합성 학습 데이터를 무료로 생성하는 간단하고 모듈화된 파이프라인인 Gen2Det을 제안합니다. 기존 연구들이 개별 객체 인스턴스를 생성하고 전경을 식별한 후 다른 이미지에 붙여넣는 방식을 사용한 것과 달리, 우리는 장면 중심의 이미지를 직접 생성하는 방식으로 단순화했습니다. 합성 데이터 외에도, Gen2Det은 생성된 데이터를 최적으로 활용하기 위한 일련의 기법을 제안합니다. 여기에는 이미지 수준 필터링, 인스턴스 수준 필터링, 그리고 생성 과정의 불완전성을 고려한 개선된 학습 레시피가 포함됩니다. Gen2Det을 사용하여 다양한 설정과 탐지 방법에 구애받지 않고 객체 탐지 및 세분화 작업에서 상당한 개선을 보여줍니다. LVIS 데이터셋에서의 장기 꼬리(long-tailed) 탐지 설정에서, Gen2Det은 희귀 카테고리의 성능을 크게 향상시키는 동시에 다른 카테고리의 성능도 크게 개선했습니다. 예를 들어, Mask R-CNN을 사용한 LVIS 데이터셋에서 실제 데이터만으로 학습한 경우보다 Box AP가 2.13, Mask AP가 1.84 향상되었습니다. COCO 데이터셋에서의 저데이터(low-data) 설정에서는 Box AP와 Mask AP가 각각 2.27점과 1.85점 향상되었습니다. 가장 일반적인 탐지 설정에서도 Gen2Det은 견고한 성능 향상을 보여주었으며, COCO 데이터셋에서 Box AP와 Mask AP가 각각 0.45점과 0.32점 향상되었습니다.
디퓨전 모델을 활용한 맞춤형 생성은 이미지 생성 분야에서 인상적인 진전을 보였지만, 주제와 동작 모두에 대한 제어가 요구되는 까다로운 비디오 생성 작업에서는 여전히 만족스럽지 못한 상황입니다. 이를 위해 우리는 원하는 주체의 정적 이미지 몇 장과 목표 동작의 비디오 몇 개로부터 개인화된 비디오를 생성하는 새로운 접근법인 DreamVideo를 제안합니다. DreamVideo는 사전 훈련된 비디오 디퓨전 모델을 활용하여 이 작업을 주체 학습과 동작 학습 두 단계로 분리합니다. 주체 학습은 제공된 이미지로부터 주체의 세밀한 외관을 정확히 포착하는 것을 목표로 하며, 이는 텍스트 인버전과 우리가 신중하게 설계한 아이덴티티 어댑터의 미세 조정을 결합하여 달성됩니다. 동작 학습에서는 주어진 비디오에 대해 미세 조정된 모션 어댑터를 설계하여 목표 동작 패턴을 효과적으로 모델링합니다. 이 두 가지 가볍고 효율적인 어댑터를 결합함으로써 어떤 주체라도 어떤 동작으로도 유연하게 맞춤 설정할 수 있습니다. 광범위한 실험 결과는 맞춤형 비디오 생성에 있어 우리의 DreamVideo가 최신 방법들을 능가하는 우수한 성능을 보여줍니다. 우리의 프로젝트 페이지는 https://dreamvideo-t2v.github.io에서 확인할 수 있습니다.
최근 텍스트-이미지 모델의 중요한 발전으로 인해 합성 이미지를 사용하여 시각 시스템을 훈련시킬 가능성이 열렸으며, 이는 대규모로 정제된 데이터를 수집하는 어려움을 잠재적으로 극복할 수 있는 방법으로 여겨진다. 그러나 이러한 모델들이 더 많은 합성 데이터가 훈련 세트에 추가됨에 따라 대규모로 어떻게 동작하는지는 명확하지 않다. 본 논문에서는 최첨단 텍스트-이미지 모델로 생성된 합성 이미지의 스케일링 법칙을 연구하며, 지도 학습 모델(레이블 지도가 있는 이미지 분류기 및 언어 지도가 있는 CLIP)의 훈련에 초점을 맞춘다. 우리는 텍스트 프롬프트, 분류기 없는 지도 스케일, 텍스트-이미지 모델 유형 등이 스케일링 행동에 상당한 영향을 미치는 여러 요인을 확인했다. 이러한 요인들을 조정한 후, 합성 이미지가 CLIP 훈련에서 실제 이미지와 유사하지만 약간 덜 효과적인 스케일링 경향을 보이는 반면, 지도 이미지 분류기 훈련에서는 스케일링 성능이 크게 떨어지는 것을 관찰했다. 우리의 분석은 기성 텍스트-이미지 모델이 특정 개념을 생성하지 못하는 것이 이러한 성능 저하의 주요 원인이며, 이는 이미지 분류기 훈련에 상당한 영향을 미치는 한계로 나타났다. 또한 우리의 연구 결과는 합성 데이터의 스케일링이 다음과 같은 시나리오에서 특히 효과적일 수 있음을 시사한다: (1) 지도 학습 문제에 대해 실제 이미지 공급이 제한된 경우(예: ImageNet에서 50만 장 미만의 이미지), (2) 평가 데이터셋이 훈련 데이터와 크게 달라 분포 외 시나리오를 나타내는 경우, 또는 (3) 합성 데이터가 실제 이미지와 함께 사용되는 경우(CLIP 모델 훈련에서 입증된 바와 같이).
확산 모델이 사실적인 이미지를 생성하는 강력한 능력을 보여주었음에도 불구하고, 현실적이고 다양한 비디오를 생성하는 것은 여전히 초기 단계에 머물러 있습니다. 주요 이유 중 하나는 현재의 방법들이 공간적 내용과 시간적 동역학을 서로 얽히게 하여 텍스트-비디오 생성(T2V)의 복잡성이 크게 증가하기 때문입니다. 본 연구에서는 HiGen이라는 확산 모델 기반 방법을 제안하며, 이는 구조적 수준과 내용적 수준 두 가지 관점에서 비디오의 공간적 및 시간적 요소를 분리함으로써 성능을 향상시킵니다. 구조적 수준에서는 T2V 작업을 공간적 추론과 시간적 추론 두 단계로 분해하며, 이를 위해 통합된 디노이저를 사용합니다. 구체적으로, 공간적 추론 단계에서 텍스트를 사용하여 공간적으로 일관된 사전 정보를 생성하고, 시간적 추론 단계에서 이러한 사전 정보로부터 시간적으로 일관된 움직임을 생성합니다. 내용적 수준에서는 입력 비디오의 내용에서 움직임과 외관 변화를 각각 표현할 수 있는 두 가지 미묘한 단서를 추출합니다. 이 두 단서는 비디오 생성을 위한 모델의 학습을 안내하여 유연한 내용 변화를 가능하게 하고 시간적 안정성을 강화합니다. 이러한 분리된 패러다임을 통해 HiGen은 이 작업의 복잡성을 효과적으로 줄이고 의미적 정확성과 움직임 안정성을 갖춘 현실적인 비디오를 생성할 수 있습니다. 광범위한 실험을 통해 HiGen이 최신 T2V 방법들을 능가하는 우수한 성능을 보여줌을 입증합니다.