번역이 포함된 일일 선별된 AI 연구 논문
최근 대규모 언어 모델(LLM)의 발전으로 복잡한 작업을 수행할 수 있는 지능형 에이전트가 등장했습니다. 본 논문은 스마트폰 애플리케이션을 운영하도록 설계된 새로운 LLM 기반 멀티모달 에이전트 프레임워크를 소개합니다. 우리의 프레임워크는 에이전트가 탭이나 스와이프와 같은 인간과 유사한 상호작용을 통해 단순화된 액션 공간에서 스마트폰 애플리케이션을 작동할 수 있게 합니다. 이 새로운 접근 방식은 시스템 백엔드 접근의 필요성을 우회함으로써 다양한 앱에 걸쳐 적용 범위를 확장합니다. 우리 에이전트의 기능성에서 핵심은 혁신적인 학습 방법입니다. 에이전트는 자율 탐색 또는 인간의 데모를 관찰함으로써 새로운 앱을 탐색하고 사용하는 방법을 학습합니다. 이 과정은 에이전트가 다양한 애플리케이션에서 복잡한 작업을 실행하기 위해 참조하는 지식 기반을 생성합니다. 우리 에이전트의 실용성을 입증하기 위해 소셜 미디어, 이메일, 지도, 쇼핑, 정교한 이미지 편집 도구 등 10개의 서로 다른 애플리케이션에서 50개의 작업에 대한 광범위한 테스트를 수행했습니다. 결과는 우리 에이전트가 다양한 고수준 작업을 처리하는 데 능숙함을 확인시켜 줍니다.
본 논문은 텍스트 또는 이미지 입력을 조건으로 하여 텍스처가 없는 3D 메시에 대해 고해상도, 조명 정보가 없는 다양한 2K UV 텍스처 맵을 생성할 수 있는 새로운 coarse-to-fine 생성 프레임워크인 Paint3D를 소개합니다. 이 연구에서 해결한 핵심 과제는 내장된 조명 정보 없이 고품질 텍스처를 생성하는 것으로, 이를 통해 현대 그래픽 파이프라인 내에서 텍스처를 재조명하거나 재편집할 수 있습니다. 이를 달성하기 위해, 우리의 방법은 먼저 사전 학습된 깊이 인식 2D 확산 모델을 활용하여 뷰 조건부 이미지를 생성하고 다중 뷰 텍스처 융합을 수행하여 초기 coarse 텍스처 맵을 생성합니다. 그러나 2D 모델은 3D 형태를 완전히 표현할 수 없고 조명 효과를 비활성화할 수 없기 때문에, coarse 텍스처 맵은 불완전한 영역과 조명 아티팩트를 보입니다. 이를 해결하기 위해, 우리는 불완전한 영역의 형태 인식 정제와 조명 아티팩트 제거에 특화된 별도의 UV 인페인팅 및 UVHD 확산 모델을 학습합니다. 이러한 coarse-to-fine 프로세스를 통해 Paint3D는 조명 정보가 없으면서도 의미론적 일관성을 유지하는 고품질 2K UV 텍스처를 생성할 수 있으며, 이는 3D 객체 텍스처링의 최신 기술을 크게 발전시킵니다.
최근 개인화된 텍스트-이미지(T2I) 모델의 발전은 콘텐츠 제작에 혁신을 가져왔으며, 비전문가들도 독특한 스타일의 멋진 이미지를 생성할 수 있게 되었습니다. 그러나 이러한 개인화된 이미지에 텍스트를 통해 현실적인 동작을 추가하는 것은 독특한 스타일을 유지하고, 높은 충실도의 디테일을 보존하며, 텍스트에 의한 동작 제어성을 달성하는 데 있어 상당한 어려움을 안고 있습니다. 본 논문에서는 조건 이미지와의 정렬, 텍스트에 의한 동작 제어성, 그리고 특별한 튜닝 없이 다양한 개인화된 T2I 모델과의 호환성을 우수하게 달성하는 PIA(Personalized Image Animator)를 소개합니다. 이러한 목표를 달성하기 위해 PIA는 잘 훈련된 시간적 정렬 레이어를 기반으로 한 기본 T2I 모델을 구축하여, 모든 개인화된 T2I 모델을 이미지 애니메이션 모델로 원활하게 변환할 수 있도록 합니다. PIA의 핵심 구성 요소는 조건 모듈의 도입으로, 이 모듈은 조건 프레임과 프레임 간 유사성을 입력으로 사용하여, 잠재 공간에서 개별 프레임 합성을 위한 유사성 힌트에 따라 외관 정보를 전달합니다. 이 설계는 외관 관련 이미지 정렬의 어려움을 완화하고, 동작 관련 지침과의 정렬에 더 집중할 수 있도록 합니다.
시맨틱 이미지 합성, 즉 사용자가 제공한 시맨틱 레이블 맵에서 이미지를 생성하는 작업은 생성된 이미지의 내용과 공간적 배치를 모두 제어할 수 있게 해주는 중요한 조건부 이미지 생성 작업입니다. 확산 모델(diffusion models)이 생성적 이미지 모델링 분야에서 최첨단을 달리고 있지만, 그들의 반복적인 추론 프로세스는 계산적으로 많은 부담을 줍니다. GAN(Generative Adversarial Networks)과 같은 다른 접근 방식은 단일 순방향 전달만으로 생성이 가능해 더 효율적이지만, 대규모 및 다양한 데이터셋에서 이미지 품질이 저하되는 경향이 있습니다. 본 연구에서는 이미지 분류와 같은 작업을 위해 사전 훈련된 특징 백본 네트워크를 활용하여 매우 사실적인 이미지를 생성하는 새로운 클래스의 GAN 판별기를 제안합니다. 또한, 더 나은 컨텍스트 모델링과 잠재 변수에 노이즈를 주입하기 위해 교차 주의(cross-attention)를 사용하는 새로운 생성기 아키텍처를 도입하여 더 다양한 이미지를 생성합니다. 우리는 이 모델을 DP-SIMS라고 명명했으며, ADE-20K, COCO-Stuff, Cityscapes 데이터셋에서 입력 레이블 맵과의 일관성 및 이미지 품질 측면에서 최첨단 결과를 달성했습니다. 이는 최근의 확산 모델을 능가하면서도 추론에 필요한 계산량을 두 자릿수로 줄였습니다.
비디오 뷰 합성은 임의의 시점과 시간에서 시각적으로 매력적인 프레임을 생성함으로써 몰입형 시청 경험을 제공합니다. 정적 장면을 위해 초기에 개발된 신경 방사 필드(NeRF)는 특히 비디오 뷰 합성을 위한 다양한 방법의 개발을 촉진했습니다. 그러나 비디오 뷰 합성의 도전 과제는 노출 중 객체 또는 카메라 이동으로 인해 발생하는 모션 블러로, 이는 선명한 시공간적 뷰의 정확한 합성을 방해합니다. 이에 대응하여, 우리는 블러 모노큘러 비디오를 위한 새로운 동적 디블러링 NeRF 프레임워크인 DyBluRF를 제안합니다. 이 프레임워크는 Interleave Ray Refinement (IRR) 단계와 Motion Decomposition-based Deblurring (MDD) 단계로 구성됩니다. 우리의 DyBluRF는 블러 모노큘러 비디오를 위한 새로운 뷰 합성을 처음으로 다루고 처리합니다. IRR 단계는 동적 3D 장면을 재구성하고 주어진 블러 프레임에서 추출된 부정확한 카메라 포즈 정보를 개선하여 부정확한 포즈 정보를 해결합니다. MDD 단계는 블러 모노큘러 비디오 프레임을 위한 새로운 증분 잠재 선명 광선 예측(ILSP) 접근 방식으로, 잠재 선명 광선을 전역 카메라 모션과 지역 객체 모션 구성 요소로 분해합니다. 광범위한 실험 결과는 우리의 DyBluRF가 최신 최첨단 방법들을 질적 및 양적으로 능가함을 보여줍니다. 우리의 프로젝트 페이지는 소스 코드와 사전 훈련된 모델을 포함하여 공개적으로 이용 가능하며, https://kaist-viclab.github.io/dyblurf-site/에서 확인할 수 있습니다.