번역이 포함된 일일 선별된 AI 연구 논문
우리는 새로운 시기로 언어 모델을 맞춤화할 수 있는 간단한 도구인 시간 벡터(time vectors)를 제안합니다. 시간 벡터는 단일 시기(예: 연도 또는 월)의 데이터로 언어 모델을 미세 조정한 후, 원래 사전 학습된 모델의 가중치를 빼서 생성됩니다. 이 벡터는 가중치 공간에서 특정 방향을 지정하며, 우리의 실험 결과에 따르면 해당 시기의 텍스트에 대한 성능을 향상시킵니다. 인접한 시기에 특화된 시간 벡터들은 매니폴드 상에서 서로 가까이 위치하는 것으로 보입니다. 이 구조를 활용하여, 우리는 시간 벡터 사이를 보간하여 추가 학습 없이도 중간 및 미래 시기에 대해 더 나은 성능을 보이는 새로운 모델을 유도합니다. 우리는 다양한 작업, 도메인, 모델 크기 및 시간 척도에 걸쳐 이러한 발견의 일관성을 입증합니다. 우리의 결과는 미세 조정된 모델의 가중치 공간에 시간이 인코딩되어 있음을 시사합니다.
텍스트-이미지 확산 모델의 전례 없는 성공을 기반으로 한 텍스트 기반 이미지 인페인팅의 최근 발전은 매우 사실적이고 시각적으로 그럴듯한 결과를 이끌어냈습니다. 그러나 현재의 텍스트-이미지 인페인팅 모델은 여전히 개선의 여지가 많으며, 특히 인페인팅된 영역을 사용자 프롬프트와 더 잘 맞추고 고해상도 인페인팅을 수행하는 데 있어서 더 나은 성과를 보여줄 필요가 있습니다. 따라서 본 논문에서는 프롬프트를 정확히 따르고 고해상도 이미지 인페인팅으로 원활하게 확장할 수 있는 완전히 학습이 필요 없는 접근 방식인 HD-Painter를 소개합니다. 이를 위해, 프롬프트 정보를 통해 자기 주의 점수를 향상시키고 더 나은 텍스트 정렬 생성을 이끌어내는 프롬프트 인식 내향적 주의(PAIntA) 계층을 설계했습니다. 프롬프트 일관성을 더욱 개선하기 위해, 일반적인 DDIM 형태에 사후 샘플링 전략을 원활하게 통합하여 분포 외 잠재적 변화를 방지하는 재가중 주의 점수 안내(RASG) 메커니즘을 도입했습니다. 또한, HD-Painter는 인페인팅에 맞춤화된 특수한 초해상도 기술을 도입하여 최대 2K 해상도의 이미지에서 누락된 영역을 완성할 수 있도록 확장성을 제공합니다. 우리의 실험 결과, HD-Painter는 기존의 최첨단 접근 방식을 질적 및 양적으로 능가하며, 51.9% 대비 61.4%라는 인상적인 생성 정확도 향상을 달성했습니다. 코드는 https://github.com/Picsart-AI-Research/HD-Painter에서 공개될 예정입니다.
텍스트-3D 작업의 최근 발전은 파인튠된 텍스트-이미지 확산 모델을 활용하여 다중 뷰 이미지를 생성한 후 NeRF 재구성을 수행하는 방식으로 이루어졌습니다. 그러나 기존의 지도 학습 파인튠(SFT) 확산 모델은 여전히 다중 뷰 불일치와 그로 인한 NeRF 아티팩트 문제를 겪고 있습니다. SFT를 더 오래 학습시키면 일관성이 개선되지만, 이는 분포 이동을 초래하여 다양성과 현실적인 디테일을 감소시킵니다. 우리는 다중 뷰 확산 모델의 SFT가 LLM 정렬 파이프라인의 지시 파인튠 단계와 유사하며, RL 파인튠(RLFT) 방법으로부터 이점을 얻을 수 있다고 주장합니다. 본질적으로, RLFT 방법은 모델의 SFT 데이터 분포를 넘어서 모델 자체의 출력을 사용하여 분포 이동을 효과적으로 완화합니다. 이를 위해, 우리는 다중 뷰 확산 모델의 일관성을 개선하기 위해 Multi-view Reconstruction Consistency (MRC) 메트릭과 결합된 RLFT 방법인 Carve3D를 소개합니다. 다중 뷰 이미지 세트에 대해 MRC를 계산하기 위해, 우리는 동일한 시점에서 재구성된 NeRF의 렌더링과 비교합니다. 우리는 통제된 불일치 수준에서 수행된 광범위한 실험을 통해 MRC의 견고성을 검증합니다. 우리는 기본 RLFT 알고리즘을 개선하여 학습 과정을 안정화하고, 분포 이동을 줄이며, 스케일링 법칙을 식별합니다. 정성적 및 정량적 실험과 사용자 연구를 통해, 우리는 Carve3D가 더 긴 SFT에 비해 개선된 다중 뷰 일관성, 우수한 NeRF 재구성 품질, 그리고 최소한의 분포 이동을 달성함을 입증합니다. 프로젝트 웹페이지: https://desaixie.github.io/carve-3d.
우리는 텍스트로부터 고품질의 3D 방 규모 장면을 생성하기 위한 3단계 접근법인 ShowRoom3D를 소개합니다. 이전의 방법들은 2D 확산 사전 지식을 사용하여 뉴럴 레디언스 필드(NeRF)를 최적화하여 방 규모 장면을 생성했지만, 만족스럽지 못한 품질을 보였습니다. 이는 주로 3D 인식이 부족한 2D 사전 지식의 한계와 훈련 방법론의 제약 때문입니다. 본 논문에서는 3D 확산 사전 지식인 MVDiffusion을 활용하여 3D 방 규모 장면을 최적화합니다. 우리의 기여는 두 가지 측면에 있습니다. 첫째, NeRF를 최적화하기 위해 점진적인 뷰 선택 과정을 제안합니다. 이는 훈련 과정을 세 단계로 나누고, 점차적으로 카메라 샘플링 범위를 확장하는 것을 포함합니다. 둘째, 두 번째 단계에서 포즈 변환 방법을 제안합니다. 이는 MVDiffusion이 정확한 뷰 지도를 제공하도록 보장할 것입니다. 결과적으로, ShowRoom3D는 구조적 무결성이 개선되고, 모든 뷰에서 선명도가 향상되며, 콘텐츠 반복이 줄어들고, 다양한 관점 간의 일관성이 높은 방을 생성할 수 있게 합니다. 광범위한 실험을 통해 우리의 방법이 사용자 연구 측면에서 최신 접근법들을 큰 차이로 능가함을 입증했습니다.
현재 인간 두부 모델링의 발전으로 신경망 표현을 통해 사실적인 3D 두부 모델을 생성할 수 있게 되었습니다. 그러나 명시적으로 제어 가능한 애니메이션과 함께 완전한 고해상도 두부 모델을 구축하는 것은 여전히 문제로 남아 있습니다. 또한, 깊이 센서와 같은 부분적 관측을 기반으로 세부 사항을 보존하면서 두부 형상을 완성하는 것은 기존 방법들에 있어서 종종 문제가 됩니다. 우리는 명시적 애니메이션과 고해상도 세부 사항 보존을 동시에 가능하게 하는 관절형 3DMM(3D Morphable Model) 위에 세부적인 3D 두부 메쉬를 위한 생성 모델을 소개합니다. 우리의 방법은 두 단계로 학습됩니다. 먼저, 정확한 3D 두부 스캔 데이터셋인 NPHM 데이터셋의 각 메쉬에 정점 변위를 가진 파라메트릭 두부 모델을 등록합니다. 추정된 변위는 수작업으로 제작된 UV 레이아웃에 적용됩니다. 두 번째로, 변위 UV 맵을 일반화하기 위해 StyleGAN 모델을 학습시킵니다. 파라메트릭 모델과 고품질 정점 변위의 분해를 통해 모델을 애니메이션화하고 의미적으로 수정할 수 있습니다. 우리는 무조건적 생성 및 전체 또는 부분 관측에 대한 피팅 결과를 보여줍니다. 프로젝트 페이지는 https://seva100.github.io/headcraft에서 확인할 수 있습니다.