번역이 포함된 일일 선별된 AI 연구 논문
NeRF로 표현된 3D 장면에서 특정 지역이나 객체를 편집하는 것은 주로 장면 표현의 암묵적 특성으로 인해 어려운 과제입니다. 새로운 사실적인 객체를 장면에 자연스럽게 혼합하는 것은 추가적인 난이도를 더합니다. 우리는 텍스트 프롬프트나 이미지 패치와 함께 3D ROI 박스를 기반으로 기존 NeRF 장면의 특정 관심 영역을 편집하기 위한 강력하고 유연한 프레임워크인 Blended-NeRF를 제안합니다. 우리의 방법은 사용자가 제공한 텍스트 프롬프트나 이미지 패치를 통해 합성을 유도하기 위해 사전 훈련된 언어-이미지 모델을 활용하며, 기존 NeRF 장면에서 초기화된 3D MLP 모델을 사용하여 객체를 생성하고 원본 장면의 지정된 영역에 혼합합니다. 입력 장면에서 3D ROI 박스를 지역화하여 로컬 편집을 허용하고, 새로운 볼류메트릭 혼합 기술을 사용하여 ROI 내부에서 합성된 콘텐츠를 기존 장면과 자연스럽게 혼합합니다. 자연스럽고 시점 일관성 있는 결과를 얻기 위해, 우리는 기존 및 새로운 기하학적 사전 지식과 3D 증강 기술을 활용하여 최종 결과의 시각적 충실도를 개선합니다. 우리는 다양한 실제 3D 장면과 텍스트 프롬프트에 대해 우리의 프레임워크를 정성적 및 정량적으로 테스트하여, 베이스라인과 비교하여 훨씬 더 유연하고 다양한 사실적인 다중 시점 일관성 결과를 보여줍니다. 마지막으로, 우리는 새로운 객체를 장면에 추가하거나, 기존 객체를 제거/교체/변경하고, 텍스처 변환을 포함한 여러 3D 편집 애플리케이션에 대한 우리 프레임워크의 적용 가능성을 보여줍니다.
딥러닝 기반 얼굴 인식 시스템의 성공은 디지털 세계에서 사용자의 무단 추적을 가능하게 하는 능력으로 인해 심각한 프라이버시 문제를 야기하고 있습니다. 기존의 프라이버시 강화 방법들은 사용자 경험을 저해하지 않으면서도 얼굴 프라이버시를 보호할 수 있는 자연스러운 이미지를 생성하는 데 실패하고 있습니다. 본 연구에서는 사전 훈련된 생성 모델의 저차원 매니폴드 내에서 적대적 잠재 코드를 찾는 방식에 기반한 새로운 2단계 얼굴 프라이버시 보호 접근법을 제안합니다. 첫 번째 단계에서는 주어진 얼굴 이미지를 잠재 공간으로 역변환하고, 생성 모델을 미세 조정하여 잠재 코드로부터 주어진 이미지를 정확하게 재구성합니다. 이 단계는 주어진 신원과 유사한 고품질 얼굴을 생성하는 데 도움이 되는 좋은 초기화를 제공합니다. 이후, 사용자 정의 메이크업 텍스트 프롬프트와 신원 보존 정규화를 사용하여 잠재 공간 내에서 적대적 코드를 탐색합니다. 광범위한 실험을 통해, 본 접근법으로 생성된 얼굴들이 얼굴 검증 작업에서 최신 얼굴 프라이버시 보호 접근법 대비 12.06%의 절대적 성능 향상을 보이는 강력한 블랙박스 전이 가능성을 가짐을 입증했습니다. 마지막으로, 상용 얼굴 인식 시스템에서 제안된 접근법의 효과성을 입증합니다. 본 연구의 코드는 https://github.com/fahadshamshad/Clip2Protect에서 확인할 수 있습니다.