번역이 포함된 일일 선별된 AI 연구 논문
단일 이미지로부터 옷을 입은 인간을 재구성하는 최근 연구 발전에도 불구하고, 높은 수준의 디테일로 "보이지 않는 영역"을 정확하게 복원하는 것은 여전히 주목받지 못한 해결되지 않은 과제로 남아 있습니다. 기존 방법들은 종종 지나치게 매끄러운 뒷면 표면과 흐릿한 텍스처를 생성합니다. 그러나 단일 이미지로부터 개인의 모든 시각적 속성을 효과적으로 포착하여 보이지 않는 영역(예: 뒷모습)을 재구성할 수 있는 방법은 무엇일까요? TeCH는 파운데이션 모델의 힘에 영감을 받아, 1) 의류 파싱 모델과 시각적 질의응답(VQA)을 통해 자동 생성된 설명적 텍스트 프롬프트(예: 의복, 색상, 헤어스타일)와 2) "설명할 수 없는" 외관을 학습하는 개인 맞춤형 텍스트-이미지 확산 모델(T2I)을 활용하여 3D 인간을 재구성합니다. 고해상도 3D 옷 입은 인간을 경제적으로 표현하기 위해, 우리는 명시적 신체 형태 그리드와 암묵적 거리 필드로 구성된 DMTet 기반의 하이브리드 3D 표현을 제안합니다. 설명적 프롬프트와 개인 맞춤형 T2I 확산 모델의 지도 하에, 3D 인간의 기하학적 구조와 텍스처는 다중 뷰 점수 증류 샘플링(SDS)과 원본 관측을 기반으로 한 재구성 손실을 통해 최적화됩니다. TeCH는 일관되고 섬세한 텍스처와 상세한 전신 기하학적 구조를 가진 고품질 3D 옷 입은 인간을 생성합니다. 정량적 및 정성적 실험은 TeCH가 재구성 정확도와 렌더링 품질 측면에서 최신 방법들을 능가함을 보여줍니다. 코드는 연구 목적으로 https://huangyangyi.github.io/tech에서 공개될 예정입니다.
개인화된 텍스트 생성은 최근 많은 관심을 받고 있는 신흥 연구 분야입니다. 이 방향의 대부분의 연구는 특정 도메인에 초점을 맞추어 맞춤형 기능이나 모델을 설계하는 데 주력해 왔습니다. 본 연구에서는 대규모 언어 모델(LLM)을 활용한 개인화된 텍스트 생성을 위한 일반적인 접근 방식을 제안합니다. 글쓰기 교육의 실제 사례에서 영감을 받아, LLM을 개인화된 생성을 위해 가르치는 다단계 및 다중 작업 프레임워크를 개발했습니다. 글쓰기 교육에서 출처를 바탕으로 글을 쓰는 작업은 종종 정보를 찾고, 평가하고, 요약하고, 종합하고, 통합하는 여러 단계로 분해됩니다. 이와 유사하게, 우리의 개인화된 텍스트 생성 접근 방식은 검색, 순위 지정, 요약, 종합, 생성의 여러 단계로 구성됩니다. 또한, 교육에서 학생의 읽기 능력과 글쓰기 능력이 종종 상관관계가 있다는 관찰에서 영감을 받아, 모델의 생성 능력을 더욱 향상시키는 다중 작업 설정을 도입했습니다. 우리는 이 접근 방식을 서로 다른 대표적인 도메인을 다루는 세 가지 공개 데이터셋에서 평가했습니다. 그 결과, 다양한 베이스라인 대비 상당한 개선을 확인할 수 있었습니다.
최근 확산 모델의 등장과 함께 텍스트-투-비디오 생성이 점점 더 많은 관심을 받고 있습니다. 그러나 중요한 문제점은 생성된 비디오가 종종 깜빡임과 아티팩트를 포함한다는 것입니다. 본 연구에서는 비디오 생성 시 내용 변화의 일관성을 개선하기 위해 이중 스트림 확산 네트워크(DSDN)를 제안합니다. 특히, 설계된 두 개의 확산 스트림인 비디오 콘텐츠와 모션 브랜치는 각자의 독립적인 공간에서 개별적으로 실행되어 개인화된 비디오 변형과 콘텐츠를 생성할 뿐만 아니라, 우리가 설계한 크로스-트랜스포머 상호작용 모듈을 통해 콘텐츠와 모션 도메인 간에 잘 정렬되어 생성된 비디오의 부드러움을 향상시킵니다. 또한, 비디오 모션 조작을 용이하게 하기 위해 모션 분해기와 결합기를 도입했습니다. 정성적 및 정량적 실험을 통해 우리의 방법이 더 적은 깜빡임으로 놀라운 연속 비디오를 생성할 수 있음을 입증했습니다.
제어 가능한 비디오 생성은 최근 몇 년 동안 상당한 관심을 받아왔습니다. 그러나 두 가지 주요 한계점이 여전히 존재합니다: 첫째, 대부분의 기존 연구는 텍스트, 이미지 또는 궤적 기반 제어에 초점을 맞추고 있어 비디오에서 세밀한 제어를 달성하지 못하고 있습니다. 둘째, 궤적 제어 연구는 아직 초기 단계에 있으며, 대부분의 실험이 Human3.6M과 같은 간단한 데이터셋에서 수행되고 있습니다. 이러한 제약은 모델이 오픈 도메인 이미지를 처리하고 복잡한 곡선 궤적을 효과적으로 다루는 능력을 제한합니다. 본 논문에서는 오픈 도메인 기반의 확산 모델인 DragNUWA를 제안합니다. 기존 연구에서의 제어 세분화 부족 문제를 해결하기 위해, 우리는 텍스트, 이미지, 궤적 정보를 동시에 도입하여 비디오 콘텐츠를 의미론적, 공간적, 시간적 관점에서 세밀하게 제어할 수 있도록 합니다. 현재 연구에서의 제한된 오픈 도메인 궤적 제어 문제를 해결하기 위해, 우리는 세 가지 측면의 궤적 모델링을 제안합니다: 임의의 궤적을 오픈 도메인에서 제어할 수 있는 Trajectory Sampler(TS), 다양한 세분화 수준에서 궤적을 제어할 수 있는 Multiscale Fusion(MF), 그리고 궤적을 따라 일관된 비디오를 생성하기 위한 Adaptive Training(AT) 전략입니다. 우리의 실험은 DragNUWA의 효과성을 검증하며, 비디오 생성에서의 세밀한 제어에서 우수한 성능을 입증합니다. 홈페이지 링크는 https://www.microsoft.com/en-us/research/project/dragnuwa/ 입니다.
자기 지도 및 언어 지도 이미지 모델은 일반화에 중요한 세계에 대한 풍부한 지식을 포함하고 있습니다. 그러나 많은 로봇 작업은 3D 기하학에 대한 세부적인 이해를 필요로 하는데, 이는 2D 이미지 특징에서는 종종 부족합니다. 본 연구는 정확한 3D 기하학과 2D 기반 모델의 풍부한 의미론을 결합하기 위해 증류된 특징 필드를 활용하여 로봇 조작을 위한 2D에서 3D 간의 격차를 해소합니다. 우리는 강력한 공간적 및 의미론적 사전 지식을 활용하여 보지 못한 물체에 대한 야외 일반화를 달성하는 6자유도 그랩핑 및 배치를 위한 소수 샷 학습 방법을 제시합니다. 비전-언어 모델인 CLIP에서 증류된 특징을 사용하여, 자유 텍스트 자연어를 통해 조작할 새로운 물체를 지정하는 방법을 제시하고, 보지 못한 표현과 새로운 범주의 물체에 대한 일반화 능력을 입증합니다.
일반적이고 비강체적으로 변형되는 객체의 4D 재구성을 위한 기존 방법들은 새로운 시점 합성에 초점을 맞추고 대응 관계를 소홀히 해왔습니다. 그러나 시간 일관성은 3D 편집, 동작 분석 또는 가상 자산 생성과 같은 고급 하위 작업을 가능하게 합니다. 우리는 시간적으로 일관된 방식으로 일반적인 비강체 장면을 재구성하기 위해 SceNeRFlow를 제안합니다. 우리의 동적-NeRF 방법은 알려진 카메라 파라미터를 가진 정적 카메라로부터 다중 시점 RGB 비디오와 배경 이미지를 입력으로 받습니다. 그런 다음, 기하학적 구조와 외관의 추정된 표준 모델의 변형을 온라인 방식으로 재구성합니다. 이 표준 모델은 시간 불변이므로 장기적이고 장거리 동작에 대해서도 대응 관계를 얻을 수 있습니다. 우리는 방법의 구성 요소를 매개변수화하기 위해 신경망 장면 표현을 사용합니다. 기존의 동적-NeRF 방법과 마찬가지로, 우리는 역방향 변형 모델을 사용합니다. 우리는 더 큰 동작을 처리하기 위해 이 모델의 중요한 적응이 필요함을 발견했습니다: 우리는 변형을 강하게 정규화된 거친 구성 요소와 약하게 정규화된 세밀한 구성 요소로 분해하며, 여기서 거친 구성 요소는 객체 주변 공간으로 변형 필드를 확장하여 시간에 따른 추적을 가능하게 합니다. 우리는 실험적으로, 작은 동작만을 처리하는 기존 작업과 달리 우리의 방법이 스튜디오 규모의 동작 재구성을 가능하게 함을 보여줍니다.