번역이 포함된 일일 선별된 AI 연구 논문
단일 이미지로부터 옷을 입은 인간을 재구성하는 최근 연구 발전에도 불구하고, 높은 수준의 디테일로 "보이지 않는 영역"을 정확하게 복원하는 것은 여전히 주목받지 못한 해결되지 않은 과제로 남아 있습니다. 기존 방법들은 종종 지나치게 매끄러운 뒷면 표면과 흐릿한 텍스처를 생성합니다. 그러나 단일 이미지로부터 개인의 모든 시각적 속성을 효과적으로 포착하여 보이지 않는 영역(예: 뒷모습)을 재구성할 수 있는 방법은 무엇일까요? TeCH는 파운데이션 모델의 힘에 영감을 받아, 1) 의류 파싱 모델과 시각적 질의응답(VQA)을 통해 자동 생성된 설명적 텍스트 프롬프트(예: 의복, 색상, 헤어스타일)와 2) "설명할 수 없는" 외관을 학습하는 개인 맞춤형 텍스트-이미지 확산 모델(T2I)을 활용하여 3D 인간을 재구성합니다. 고해상도 3D 옷 입은 인간을 경제적으로 표현하기 위해, 우리는 명시적 신체 형태 그리드와 암묵적 거리 필드로 구성된 DMTet 기반의 하이브리드 3D 표현을 제안합니다. 설명적 프롬프트와 개인 맞춤형 T2I 확산 모델의 지도 하에, 3D 인간의 기하학적 구조와 텍스처는 다중 뷰 점수 증류 샘플링(SDS)과 원본 관측을 기반으로 한 재구성 손실을 통해 최적화됩니다. TeCH는 일관되고 섬세한 텍스처와 상세한 전신 기하학적 구조를 가진 고품질 3D 옷 입은 인간을 생성합니다. 정량적 및 정성적 실험은 TeCH가 재구성 정확도와 렌더링 품질 측면에서 최신 방법들을 능가함을 보여줍니다. 코드는 연구 목적으로 https://huangyangyi.github.io/tech에서 공개될 예정입니다.
자기 지도 및 언어 지도 이미지 모델은 일반화에 중요한 세계에 대한 풍부한 지식을 포함하고 있습니다. 그러나 많은 로봇 작업은 3D 기하학에 대한 세부적인 이해를 필요로 하는데, 이는 2D 이미지 특징에서는 종종 부족합니다. 본 연구는 정확한 3D 기하학과 2D 기반 모델의 풍부한 의미론을 결합하기 위해 증류된 특징 필드를 활용하여 로봇 조작을 위한 2D에서 3D 간의 격차를 해소합니다. 우리는 강력한 공간적 및 의미론적 사전 지식을 활용하여 보지 못한 물체에 대한 야외 일반화를 달성하는 6자유도 그랩핑 및 배치를 위한 소수 샷 학습 방법을 제시합니다. 비전-언어 모델인 CLIP에서 증류된 특징을 사용하여, 자유 텍스트 자연어를 통해 조작할 새로운 물체를 지정하는 방법을 제시하고, 보지 못한 표현과 새로운 범주의 물체에 대한 일반화 능력을 입증합니다.
일반적이고 비강체적으로 변형되는 객체의 4D 재구성을 위한 기존 방법들은 새로운 시점 합성에 초점을 맞추고 대응 관계를 소홀히 해왔습니다. 그러나 시간 일관성은 3D 편집, 동작 분석 또는 가상 자산 생성과 같은 고급 하위 작업을 가능하게 합니다. 우리는 시간적으로 일관된 방식으로 일반적인 비강체 장면을 재구성하기 위해 SceNeRFlow를 제안합니다. 우리의 동적-NeRF 방법은 알려진 카메라 파라미터를 가진 정적 카메라로부터 다중 시점 RGB 비디오와 배경 이미지를 입력으로 받습니다. 그런 다음, 기하학적 구조와 외관의 추정된 표준 모델의 변형을 온라인 방식으로 재구성합니다. 이 표준 모델은 시간 불변이므로 장기적이고 장거리 동작에 대해서도 대응 관계를 얻을 수 있습니다. 우리는 방법의 구성 요소를 매개변수화하기 위해 신경망 장면 표현을 사용합니다. 기존의 동적-NeRF 방법과 마찬가지로, 우리는 역방향 변형 모델을 사용합니다. 우리는 더 큰 동작을 처리하기 위해 이 모델의 중요한 적응이 필요함을 발견했습니다: 우리는 변형을 강하게 정규화된 거친 구성 요소와 약하게 정규화된 세밀한 구성 요소로 분해하며, 여기서 거친 구성 요소는 객체 주변 공간으로 변형 필드를 확장하여 시간에 따른 추적을 가능하게 합니다. 우리는 실험적으로, 작은 동작만을 처리하는 기존 작업과 달리 우리의 방법이 스튜디오 규모의 동작 재구성을 가능하게 함을 보여줍니다.