번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 언어 모델(LLM)의 발전으로 복잡한 작업을 수행할 수 있는 지능형 에이전트가 등장했습니다. 본 논문은 스마트폰 애플리케이션을 운영하도록 설계된 새로운 LLM 기반 멀티모달 에이전트 프레임워크를 소개합니다. 우리의 프레임워크는 에이전트가 탭이나 스와이프와 같은 인간과 유사한 상호작용을 통해 단순화된 액션 공간에서 스마트폰 애플리케이션을 작동할 수 있게 합니다. 이 새로운 접근 방식은 시스템 백엔드 접근의 필요성을 우회함으로써 다양한 앱에 걸쳐 적용 범위를 확장합니다. 우리 에이전트의 기능성에서 핵심은 혁신적인 학습 방법입니다. 에이전트는 자율 탐색 또는 인간의 데모를 관찰함으로써 새로운 앱을 탐색하고 사용하는 방법을 학습합니다. 이 과정은 에이전트가 다양한 애플리케이션에서 복잡한 작업을 실행하기 위해 참조하는 지식 기반을 생성합니다. 우리 에이전트의 실용성을 입증하기 위해 소셜 미디어, 이메일, 지도, 쇼핑, 정교한 이미지 편집 도구 등 10개의 서로 다른 애플리케이션에서 50개의 작업에 대한 광범위한 테스트를 수행했습니다. 결과는 우리 에이전트가 다양한 고수준 작업을 처리하는 데 능숙함을 확인시켜 줍니다.
본 논문은 텍스트 또는 이미지 입력을 조건으로 하여 텍스처가 없는 3D 메시에 대해 고해상도, 조명 정보가 없는 다양한 2K UV 텍스처 맵을 생성할 수 있는 새로운 coarse-to-fine 생성 프레임워크인 Paint3D를 소개합니다. 이 연구에서 해결한 핵심 과제는 내장된 조명 정보 없이 고품질 텍스처를 생성하는 것으로, 이를 통해 현대 그래픽 파이프라인 내에서 텍스처를 재조명하거나 재편집할 수 있습니다. 이를 달성하기 위해, 우리의 방법은 먼저 사전 학습된 깊이 인식 2D 확산 모델을 활용하여 뷰 조건부 이미지를 생성하고 다중 뷰 텍스처 융합을 수행하여 초기 coarse 텍스처 맵을 생성합니다. 그러나 2D 모델은 3D 형태를 완전히 표현할 수 없고 조명 효과를 비활성화할 수 없기 때문에, coarse 텍스처 맵은 불완전한 영역과 조명 아티팩트를 보입니다. 이를 해결하기 위해, 우리는 불완전한 영역의 형태 인식 정제와 조명 아티팩트 제거에 특화된 별도의 UV 인페인팅 및 UVHD 확산 모델을 학습합니다. 이러한 coarse-to-fine 프로세스를 통해 Paint3D는 조명 정보가 없으면서도 의미론적 일관성을 유지하는 고품질 2K UV 텍스처를 생성할 수 있으며, 이는 3D 객체 텍스처링의 최신 기술을 크게 발전시킵니다.
우리는 새로운 시기로 언어 모델을 맞춤화할 수 있는 간단한 도구인 시간 벡터(time vectors)를 제안합니다. 시간 벡터는 단일 시기(예: 연도 또는 월)의 데이터로 언어 모델을 미세 조정한 후, 원래 사전 학습된 모델의 가중치를 빼서 생성됩니다. 이 벡터는 가중치 공간에서 특정 방향을 지정하며, 우리의 실험 결과에 따르면 해당 시기의 텍스트에 대한 성능을 향상시킵니다. 인접한 시기에 특화된 시간 벡터들은 매니폴드 상에서 서로 가까이 위치하는 것으로 보입니다. 이 구조를 활용하여, 우리는 시간 벡터 사이를 보간하여 추가 학습 없이도 중간 및 미래 시기에 대해 더 나은 성능을 보이는 새로운 모델을 유도합니다. 우리는 다양한 작업, 도메인, 모델 크기 및 시간 척도에 걸쳐 이러한 발견의 일관성을 입증합니다. 우리의 결과는 미세 조정된 모델의 가중치 공간에 시간이 인코딩되어 있음을 시사합니다.
최근 개인화된 텍스트-이미지(T2I) 모델의 발전은 콘텐츠 제작에 혁신을 가져왔으며, 비전문가들도 독특한 스타일의 멋진 이미지를 생성할 수 있게 되었습니다. 그러나 이러한 개인화된 이미지에 텍스트를 통해 현실적인 동작을 추가하는 것은 독특한 스타일을 유지하고, 높은 충실도의 디테일을 보존하며, 텍스트에 의한 동작 제어성을 달성하는 데 있어 상당한 어려움을 안고 있습니다. 본 논문에서는 조건 이미지와의 정렬, 텍스트에 의한 동작 제어성, 그리고 특별한 튜닝 없이 다양한 개인화된 T2I 모델과의 호환성을 우수하게 달성하는 PIA(Personalized Image Animator)를 소개합니다. 이러한 목표를 달성하기 위해 PIA는 잘 훈련된 시간적 정렬 레이어를 기반으로 한 기본 T2I 모델을 구축하여, 모든 개인화된 T2I 모델을 이미지 애니메이션 모델로 원활하게 변환할 수 있도록 합니다. PIA의 핵심 구성 요소는 조건 모듈의 도입으로, 이 모듈은 조건 프레임과 프레임 간 유사성을 입력으로 사용하여, 잠재 공간에서 개별 프레임 합성을 위한 유사성 힌트에 따라 외관 정보를 전달합니다. 이 설계는 외관 관련 이미지 정렬의 어려움을 완화하고, 동작 관련 지침과의 정렬에 더 집중할 수 있도록 합니다.
텍스트-이미지 확산 모델의 전례 없는 성공을 기반으로 한 텍스트 기반 이미지 인페인팅의 최근 발전은 매우 사실적이고 시각적으로 그럴듯한 결과를 이끌어냈습니다. 그러나 현재의 텍스트-이미지 인페인팅 모델은 여전히 개선의 여지가 많으며, 특히 인페인팅된 영역을 사용자 프롬프트와 더 잘 맞추고 고해상도 인페인팅을 수행하는 데 있어서 더 나은 성과를 보여줄 필요가 있습니다. 따라서 본 논문에서는 프롬프트를 정확히 따르고 고해상도 이미지 인페인팅으로 원활하게 확장할 수 있는 완전히 학습이 필요 없는 접근 방식인 HD-Painter를 소개합니다. 이를 위해, 프롬프트 정보를 통해 자기 주의 점수를 향상시키고 더 나은 텍스트 정렬 생성을 이끌어내는 프롬프트 인식 내향적 주의(PAIntA) 계층을 설계했습니다. 프롬프트 일관성을 더욱 개선하기 위해, 일반적인 DDIM 형태에 사후 샘플링 전략을 원활하게 통합하여 분포 외 잠재적 변화를 방지하는 재가중 주의 점수 안내(RASG) 메커니즘을 도입했습니다. 또한, HD-Painter는 인페인팅에 맞춤화된 특수한 초해상도 기술을 도입하여 최대 2K 해상도의 이미지에서 누락된 영역을 완성할 수 있도록 확장성을 제공합니다. 우리의 실험 결과, HD-Painter는 기존의 최첨단 접근 방식을 질적 및 양적으로 능가하며, 51.9% 대비 61.4%라는 인상적인 생성 정확도 향상을 달성했습니다. 코드는 https://github.com/Picsart-AI-Research/HD-Painter에서 공개될 예정입니다.
텍스트-3D 작업의 최근 발전은 파인튠된 텍스트-이미지 확산 모델을 활용하여 다중 뷰 이미지를 생성한 후 NeRF 재구성을 수행하는 방식으로 이루어졌습니다. 그러나 기존의 지도 학습 파인튠(SFT) 확산 모델은 여전히 다중 뷰 불일치와 그로 인한 NeRF 아티팩트 문제를 겪고 있습니다. SFT를 더 오래 학습시키면 일관성이 개선되지만, 이는 분포 이동을 초래하여 다양성과 현실적인 디테일을 감소시킵니다. 우리는 다중 뷰 확산 모델의 SFT가 LLM 정렬 파이프라인의 지시 파인튠 단계와 유사하며, RL 파인튠(RLFT) 방법으로부터 이점을 얻을 수 있다고 주장합니다. 본질적으로, RLFT 방법은 모델의 SFT 데이터 분포를 넘어서 모델 자체의 출력을 사용하여 분포 이동을 효과적으로 완화합니다. 이를 위해, 우리는 다중 뷰 확산 모델의 일관성을 개선하기 위해 Multi-view Reconstruction Consistency (MRC) 메트릭과 결합된 RLFT 방법인 Carve3D를 소개합니다. 다중 뷰 이미지 세트에 대해 MRC를 계산하기 위해, 우리는 동일한 시점에서 재구성된 NeRF의 렌더링과 비교합니다. 우리는 통제된 불일치 수준에서 수행된 광범위한 실험을 통해 MRC의 견고성을 검증합니다. 우리는 기본 RLFT 알고리즘을 개선하여 학습 과정을 안정화하고, 분포 이동을 줄이며, 스케일링 법칙을 식별합니다. 정성적 및 정량적 실험과 사용자 연구를 통해, 우리는 Carve3D가 더 긴 SFT에 비해 개선된 다중 뷰 일관성, 우수한 NeRF 재구성 품질, 그리고 최소한의 분포 이동을 달성함을 입증합니다. 프로젝트 웹페이지: https://desaixie.github.io/carve-3d.
우리는 텍스트로부터 고품질의 3D 방 규모 장면을 생성하기 위한 3단계 접근법인 ShowRoom3D를 소개합니다. 이전의 방법들은 2D 확산 사전 지식을 사용하여 뉴럴 레디언스 필드(NeRF)를 최적화하여 방 규모 장면을 생성했지만, 만족스럽지 못한 품질을 보였습니다. 이는 주로 3D 인식이 부족한 2D 사전 지식의 한계와 훈련 방법론의 제약 때문입니다. 본 논문에서는 3D 확산 사전 지식인 MVDiffusion을 활용하여 3D 방 규모 장면을 최적화합니다. 우리의 기여는 두 가지 측면에 있습니다. 첫째, NeRF를 최적화하기 위해 점진적인 뷰 선택 과정을 제안합니다. 이는 훈련 과정을 세 단계로 나누고, 점차적으로 카메라 샘플링 범위를 확장하는 것을 포함합니다. 둘째, 두 번째 단계에서 포즈 변환 방법을 제안합니다. 이는 MVDiffusion이 정확한 뷰 지도를 제공하도록 보장할 것입니다. 결과적으로, ShowRoom3D는 구조적 무결성이 개선되고, 모든 뷰에서 선명도가 향상되며, 콘텐츠 반복이 줄어들고, 다양한 관점 간의 일관성이 높은 방을 생성할 수 있게 합니다. 광범위한 실험을 통해 우리의 방법이 사용자 연구 측면에서 최신 접근법들을 큰 차이로 능가함을 입증했습니다.
시맨틱 이미지 합성, 즉 사용자가 제공한 시맨틱 레이블 맵에서 이미지를 생성하는 작업은 생성된 이미지의 내용과 공간적 배치를 모두 제어할 수 있게 해주는 중요한 조건부 이미지 생성 작업입니다. 확산 모델(diffusion models)이 생성적 이미지 모델링 분야에서 최첨단을 달리고 있지만, 그들의 반복적인 추론 프로세스는 계산적으로 많은 부담을 줍니다. GAN(Generative Adversarial Networks)과 같은 다른 접근 방식은 단일 순방향 전달만으로 생성이 가능해 더 효율적이지만, 대규모 및 다양한 데이터셋에서 이미지 품질이 저하되는 경향이 있습니다. 본 연구에서는 이미지 분류와 같은 작업을 위해 사전 훈련된 특징 백본 네트워크를 활용하여 매우 사실적인 이미지를 생성하는 새로운 클래스의 GAN 판별기를 제안합니다. 또한, 더 나은 컨텍스트 모델링과 잠재 변수에 노이즈를 주입하기 위해 교차 주의(cross-attention)를 사용하는 새로운 생성기 아키텍처를 도입하여 더 다양한 이미지를 생성합니다. 우리는 이 모델을 DP-SIMS라고 명명했으며, ADE-20K, COCO-Stuff, Cityscapes 데이터셋에서 입력 레이블 맵과의 일관성 및 이미지 품질 측면에서 최첨단 결과를 달성했습니다. 이는 최근의 확산 모델을 능가하면서도 추론에 필요한 계산량을 두 자릿수로 줄였습니다.
현재 인간 두부 모델링의 발전으로 신경망 표현을 통해 사실적인 3D 두부 모델을 생성할 수 있게 되었습니다. 그러나 명시적으로 제어 가능한 애니메이션과 함께 완전한 고해상도 두부 모델을 구축하는 것은 여전히 문제로 남아 있습니다. 또한, 깊이 센서와 같은 부분적 관측을 기반으로 세부 사항을 보존하면서 두부 형상을 완성하는 것은 기존 방법들에 있어서 종종 문제가 됩니다. 우리는 명시적 애니메이션과 고해상도 세부 사항 보존을 동시에 가능하게 하는 관절형 3DMM(3D Morphable Model) 위에 세부적인 3D 두부 메쉬를 위한 생성 모델을 소개합니다. 우리의 방법은 두 단계로 학습됩니다. 먼저, 정확한 3D 두부 스캔 데이터셋인 NPHM 데이터셋의 각 메쉬에 정점 변위를 가진 파라메트릭 두부 모델을 등록합니다. 추정된 변위는 수작업으로 제작된 UV 레이아웃에 적용됩니다. 두 번째로, 변위 UV 맵을 일반화하기 위해 StyleGAN 모델을 학습시킵니다. 파라메트릭 모델과 고품질 정점 변위의 분해를 통해 모델을 애니메이션화하고 의미적으로 수정할 수 있습니다. 우리는 무조건적 생성 및 전체 또는 부분 관측에 대한 피팅 결과를 보여줍니다. 프로젝트 페이지는 https://seva100.github.io/headcraft에서 확인할 수 있습니다.
비디오 뷰 합성은 임의의 시점과 시간에서 시각적으로 매력적인 프레임을 생성함으로써 몰입형 시청 경험을 제공합니다. 정적 장면을 위해 초기에 개발된 신경 방사 필드(NeRF)는 특히 비디오 뷰 합성을 위한 다양한 방법의 개발을 촉진했습니다. 그러나 비디오 뷰 합성의 도전 과제는 노출 중 객체 또는 카메라 이동으로 인해 발생하는 모션 블러로, 이는 선명한 시공간적 뷰의 정확한 합성을 방해합니다. 이에 대응하여, 우리는 블러 모노큘러 비디오를 위한 새로운 동적 디블러링 NeRF 프레임워크인 DyBluRF를 제안합니다. 이 프레임워크는 Interleave Ray Refinement (IRR) 단계와 Motion Decomposition-based Deblurring (MDD) 단계로 구성됩니다. 우리의 DyBluRF는 블러 모노큘러 비디오를 위한 새로운 뷰 합성을 처음으로 다루고 처리합니다. IRR 단계는 동적 3D 장면을 재구성하고 주어진 블러 프레임에서 추출된 부정확한 카메라 포즈 정보를 개선하여 부정확한 포즈 정보를 해결합니다. MDD 단계는 블러 모노큘러 비디오 프레임을 위한 새로운 증분 잠재 선명 광선 예측(ILSP) 접근 방식으로, 잠재 선명 광선을 전역 카메라 모션과 지역 객체 모션 구성 요소로 분해합니다. 광범위한 실험 결과는 우리의 DyBluRF가 최신 최첨단 방법들을 질적 및 양적으로 능가함을 보여줍니다. 우리의 프로젝트 페이지는 소스 코드와 사전 훈련된 모델을 포함하여 공개적으로 이용 가능하며, https://kaist-viclab.github.io/dyblurf-site/에서 확인할 수 있습니다.