번역이 포함된 일일 선별된 AI 연구 논문
최근 드래그 기반 이미지 편집은 상호 작용성과 정밀성으로 인해 인기를 얻고 있습니다. 그러나 텍스트에서 이미지를 생성하는 모델이 1초 이내에 샘플을 생성할 수 있는 능력에도 불구하고, 드래그 편집은 사용자 상호 작용을 정확하게 반영하면서 이미지 콘텐츠를 유지하는 것이 어려운 점으로 인해 여전히 뒤쳐지고 있습니다. 기존 접근 방식 중 일부는 이미지 당 최적화에 의존하거나 복잡한 가이드 기반 방법을 사용하여 이동 가능한 영역과 텍스트 프롬프트와 같은 추가 입력이 필요하며, 이는 편집 프로세스의 상호 작용성을 저해할 수 있습니다. 우리는 InstantDrag를 소개합니다. InstantDrag는 최적화 없이 상호 작용성과 속도를 향상시키는 파이프라인으로, 이미지와 드래그 명령만을 입력으로 필요로 합니다. InstantDrag는 두 가지 신중하게 설계된 네트워크로 구성되어 있습니다: 드래그 조건부 광학 흐름 생성기(FlowGen)와 광학 흐름 조건부 확산 모델(FlowDiffusion). InstantDrag는 실제 비디오 데이터셋에서 드래그 기반 이미지 편집을 위한 움직임 동역학을 학습함으로써 작업을 움직임 생성과 움직임 조건부 이미지 생성으로 분해합니다. 우리는 InstantDrag가 마스크나 텍스트 프롬프트 없이 얼굴 비디오 데이터셋 및 일반 장면에서의 실험을 통해 빠르고 사실적인 편집을 수행하는 능력을 증명합니다. 이러한 결과는 드래그 기반 이미지 편집을 처리하는 우리의 방법의 효율성을 강조하며, 상호 작용적이고 실시간 응용 프로그램에 대한 유망한 솔루션이 될 것으로 기대됩니다.
다양한 캐릭터 드로잉을 애니메이션화하는 것은 매력적인 시각적 콘텐츠 작업입니다. 단일 캐릭터 드로잉을 고려할 때, 기존의 애니메이션 방법은 평면 2D 동작에 제한되어 3D 효과가 부족합니다. 대안적인 해결책은 캐릭터 드로잉으로부터 3D 모델을 대리로 재구성한 다음 3D 동작 데이터를 이에 다시 할당하는 것입니다. 그러나 기존의 이미지-3D 방법은 외모와 기하학적 측면에서 아마추어 캐릭터 드로잉에 대해 잘 작동하지 않았습니다. 우리는 캐릭터 드로잉에서 흔히 나타나는 윤곽선이 텍스처 합성에서 그들의 시점 의존성으로 인해 상당한 모호성을 도입할 것이라고 관찰했습니다. 게다가, 단일 선 윤곽으로 표현된 얇은 영역(예: 막대 모양의 팔다리)은 그들의 섬세한 구조 때문에 재구성하기 어렵습니다. 이러한 문제를 해결하기 위해 우리는 DrawingSpinUp이라는 새로운 시스템을 제안하여 가능성 있는 3D 애니메이션을 생성하고 캐릭터 드로잉에 생명을 불어넣어 자유롭게 회전하고 뛰어오르며 힙합 댄스까지 수행할 수 있도록 합니다. 외모 개선을 위해, 우리는 뷰-의존적 윤곽선을 먼저 제거한 다음 재구성된 캐릭터에 다시 렌더링하는 전략을 채택합니다. 기하학적 정제를 위해, 우리는 단일 선 윤곽으로 표현된 얇은 구조물을 정제하기 위한 스켈레톤 기반 얇게 만드는 변형 알고리즘을 개발합니다. 실험적 평가 및 지각적 사용자 연구 결과, 우리의 제안된 방법이 기존의 2D 및 3D 애니메이션 방법을 능가하며 단일 캐릭터 드로잉으로부터 고품질 3D 애니메이션을 생성한다는 것을 보여줍니다. 코드 및 생성된 애니메이션에 대해서는 저희 프로젝트 페이지(https://lordliang.github.io/DrawingSpinUp)를 참조해주시기 바랍니다.
오픈 어휘 감지 (OVD)는 미리 정의된 범주 집합을 넘어 객체를 감지하는 것을 목표로 합니다. YOLO 시리즈를 통합한 선도적인 모델인 YOLO-World은 속도와 효율성을 우선시하는 시나리오에 적합합니다. 그러나 그 성능은 목 feature 퓨전 메커니즘에 의해 제약을 받는데, 이는 이차 복잡성과 제한된 유도 수용 영역을 유발합니다. 이러한 한계를 극복하기 위해 우리는 MambaFusion Path Aggregation Network (MambaFusion-PAN)을 목 구조로 채택한 새로운 YOLO 기반 OVD 모델인 Mamba-YOLO-World를 제안합니다. 구체적으로, 우리는 병렬-유도 선택 스캔 알고리즘과 직렬-유도 선택 스캔 알고리즘으로 구성된 혁신적인 상태 공간 모델 기반 특징 퓨전 메커니즘을 소개합니다. 이는 선형 복잡성과 전역적으로 유도된 수용 영역을 가지고 있습니다. 이 모델은 다중 모달 입력 시퀀스와 맘바 숨겨진 상태를 활용하여 선택적 스캔 프로세스를 안내합니다. 실험 결과는 우리의 모델이 COCO 및 LVIS 벤치마크에서 원래의 YOLO-World를 제로샷 및 파인튜닝 설정에서 능가하면서 비슷한 매개변수와 FLOPs를 유지한다는 것을 보여줍니다. 게다가, 이는 기존 최첨단 OVD 방법들을 더 적은 매개변수와 FLOPs로 능가합니다.
멀티뷰 데이터에 대한 조명 재조명 방법은 심각하게 미제약되어 있습니다. 이는 대부분의 경우 단일 조명 조건 하에 캡처된 데이터에 적용됩니다. 특히 여러 객체를 포함하는 전체 장면에 대해서는 특히 어렵습니다. 우리는 2D 이미지 확산 모델에서 추출된 사전 정보를 활용하여 이러한 단일 조명 데이터를 사용하여 재조명 가능한 광도 필드를 생성하는 방법을 제안합니다. 먼저, 조명 방향에 따라 조건이 설정된 멀티 조명 데이터셋에서 2D 확산 모델을 세밀하게 조정하여, 직접 정의된 조명 방향에서 현실적이지만 일관성이 없을 수 있는 멀티 조명 데이터셋으로 단일 조명 캡처를 보강할 수 있습니다. 이 보강된 데이터를 사용하여 3D 가우시안 스플랫으로 표현된 재조명 가능한 광도 필드를 생성합니다. 저주파 조명에 대한 직접적인 제어를 허용하기 위해 외형을 조명 방향에 매개변수화된 멀티 레이어 퍼셉트론으로 표현합니다. 멀티뷰 일관성을 강제하고 부정확성을 극복하기 위해 이미지당 보조 특징 벡터를 최적화합니다. 우리는 단일 조명 하의 합성 및 실제 멀티뷰 데이터에 대한 결과를 보여주며, 2D 확산 모델 사전 정보를 성공적으로 활용하여 완전한 장면에 대한 현실적인 3D 재조명을 가능케 하는 것을 입증합니다. 프로젝트 사이트: https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
부피 비디오는 시각 미디어에서 혁명적인 발전을 나타내며 사용자가 몰입형 가상 경험을 자유롭게 탐색하고 디지털과 현실 세계 사이의 간극을 좁히는 기능을 제공합니다. 그러나 기존 워크플로우에서 메쉬 시퀀스를 안정화하고 과도하게 큰 에셋을 생성하기 위해 방대한 수동 개입이 필요한 점이 널리 채택을 방해합니다. 본 논문에서는 복잡한 인간 퍼포먼스의 실시간 및 고품질 재생을 위한 새로운 가우시안 기반 접근 방식인 DualGS를 제안합니다. DualGS의 주요 아이디어는 해당 피부 및 관절 가우시안을 사용하여 동작과 외관을 별도로 표현하는 것입니다. 이러한 명시적 분리는 동작 중복성을 크게 줄이고 시간적 일관성을 향상시킬 수 있습니다. 우리는 DualGS를 초기화하고 첫 번째 프레임에서 피부 가우시안을 관절 가우시안에 고정시키는 것으로 시작합니다. 이후, 우리는 프레임별 인간 퍼포먼스 모델링을 위해 세밀한 정련 및 고품질 렌더링을 위한 대략적인 정렬 단계를 포함한 세밀한 최적화를 사용합니다. 부피 비디오를 VR 환경에 원활하게 통합하기 위해 우리는 엔트로피 부호화를 사용하여 동작을 효율적으로 압축하고 코덱 압축을 사용하여 외관을 압축하며 지속적인 코드북을 결합합니다. 우리의 접근 방식은 프레임 당 약 350KB 정도의 저장 공간만 필요로 하는 최대 120배의 압축 비율을 달성합니다. 우리는 VR 헤드셋에서 사진과 같은 자유로운 경험을 통해 사용자가 퍼포머의 손끝에서 음표의 리듬을 느끼며 음악가의 공연을 몰입적으로 감상할 수 있도록 우리의 표현의 효과를 입증합니다.
현대 사회에서 오디오 복원은 점점 더 중요해지고 있습니다. 이는 고급 재생 장치에 의해 가능한 고품질 청각 경험에 대한 수요 뿐만 아니라 생성 오디오 모델의 성능 향상으로 인해 고품질 오디오가 필요하기 때문입니다. 일반적으로 오디오 복원은 손상된 입력으로부터 왜곡되지 않은 오디오를 예측하는 작업으로 정의되며, 종종 GAN 프레임워크를 사용하여 지각과 왜곡을 균형있게 조절하도록 훈련됩니다. 오디오 손상은 주로 중고주파 범위에 집중되어 있으며, 특히 코덱 때문에 주로 발생합니다. 이에 관련된 주요 과제는 저주파 정보를 보존하면서 고품질 중고주파 콘텐츠를 정확하게 재구성할 수 있는 생성기를 설계하는 것에 있습니다. 최근 고음질 음악 분리, 음성 개선 및 오디오 코덱 모델의 발전을 영감으로 삼아, 우리는 고음질 오디오 복원을 위해 설계된 생성 모델인 Apollo을 제안합니다. Apollo은 서로 다른 주파수 대역 간의 관계를 모델링하기 위한 명시적 주파수 대역 분할 모듈을 사용하여, 더 일관되고 고품질의 복원된 오디오를 가능하게 합니다. MUSDB18-HQ 및 MoisesDB 데이터셋에서 평가한 결과, Apollo은 다양한 비트율과 음악 장르에서 기존 SR-GAN 모델을 일관되게 능가하며, 특히 여러 악기와 보컬이 혼합된 복잡한 시나리오에서 뛰어난 성과를 보입니다. Apollo은 음악 복원 품질을 크게 향상시키면서도 계산 효율성을 유지합니다. Apollo의 소스 코드는 https://github.com/JusperLee/Apollo에서 공개적으로 제공됩니다.
최근 생성 모델의 발전은 이미지 생성 및 편집을 혁신적으로 바꿔놓았으며, 이러한 작업들을 비전문가에게 접근 가능하게 만들었습니다. 본 논문은 로컬 이미지 편집에 초점을 맞추며, 특히 느슨하게 지정된 영역에 새로운 콘텐츠를 추가하는 작업에 대해 다룹니다. 기존 방법들은 종종 정확한 마스크나 위치에 대한 상세한 설명을 요구하는데, 이는 번거롭고 오류를 유발할 수 있습니다. 본 연구에서는 Click2Mask를 제안하는데, 이는 로컬 편집 과정을 단일 참조점만 필요로 하도록 단순화하는 혁신적인 방법입니다 (콘텐츠 설명에 추가로). 마스크는 Blended Latent Diffusion (BLD) 과정 중에 이 참조점 주변에서 동적으로 확장되며, 마스크된 CLIP 기반 의미 손실에 의해 안내됩니다. Click2Mask는 세분화 기반 및 미세 조정에 의존하는 방법들의 제약을 뛰어넘으며, 더 사용자 친화적이고 맥락에 맞는 정확한 해결책을 제공합니다. 실험 결과는 Click2Mask가 사용자의 노력을 최소화할 뿐만 아니라, SoTA 방법들과 비교했을 때 인간 판단 및 자동 측정에 따라 경쟁력 있는 또는 우수한 로컬 이미지 조작 결과를 제공함을 입증합니다. 주요 기여로는 사용자 입력의 단순화, 기존 세그먼트에 제약받지 않고 자유롭게 객체를 추가할 수 있는 능력, 그리고 우리의 동적 마스크 접근법을 다른 편집 방법 내에서 통합할 수 있는 잠재력이 있습니다.