번역이 포함된 일일 선별된 AI 연구 논문
최근 멀티모달 대형 언어 모델(MLLM)의 발전은 주목할 만하지만, 이러한 일반 도메인 MLLM은 사용자 인터페이스(UI) 화면을 효과적으로 이해하고 상호작용하는 데 있어서 종종 한계를 보입니다. 본 논문에서는 모바일 UI 화면에 대한 향상된 이해를 위해 특화된 새로운 MLLM인 Ferret-UI를 소개합니다. 이 모델은 참조, 기반 설정, 추론 능력을 갖추고 있습니다. UI 화면은 일반적으로 자연 이미지보다 더 길쭉한 화면 비율과 더 작은 관심 객체(예: 아이콘, 텍스트)를 포함하므로, Ferret 위에 "어떤 해상도"를 통합하여 세부 사항을 확대하고 향상된 시각적 특징을 활용합니다. 구체적으로, 각 화면은 원래의 화면 비율에 따라 2개의 하위 이미지로 나뉩니다(즉, 세로 화면의 경우 가로 분할, 가로 화면의 경우 세로 분할). 두 하위 이미지는 별도로 인코딩된 후 LLM으로 전송됩니다. 우리는 아이콘 인식, 텍스트 찾기, 위젯 목록 작성과 같은 다양한 기본 UI 작업에서 훈련 샘플을 꼼꼼하게 수집합니다. 이러한 샘플은 정확한 참조와 기반 설정을 용이하게 하기 위해 영역 주석이 포함된 지시 따르기 형식으로 구성됩니다. 모델의 추론 능력을 강화하기 위해, 상세 설명, 인식/상호작용 대화, 기능 추론을 포함한 고급 작업을 위한 데이터셋을 추가로 구축합니다. 선별된 데이터셋으로 훈련한 후, Ferret-UI는 UI 화면에 대한 탁월한 이해력과 개방형 지시를 실행할 수 있는 능력을 보여줍니다. 모델 평가를 위해, 앞서 언급한 모든 작업을 포함한 포괄적인 벤치마크를 설정합니다. Ferret-UI는 대부분의 오픈소스 UI MLLM을 능가할 뿐만 아니라, 모든 기본 UI 작업에서 GPT-4V를 초과하는 성능을 보입니다.
텍스트-투-비디오 생성(T2V) 분야의 최근 발전은 텍스트 설명으로부터 고품질의 일반 비디오를 합성하는 데 있어 놀라운 성과를 거두었습니다. 그러나 T2V에서 크게 간과된 문제는 기존 모델들이 현실 세계의 물리적 지식을 충분히 인코딩하지 못해 생성된 비디오가 제한된 움직임과 빈약한 변화를 보인다는 점입니다. 본 논문에서는 타임랩스 비디오로부터 현실 세계의 물리적 지식을 학습하고 변형적 생성을 구현하는 MagicTime이라는 변형적 타임랩스 비디오 생성 모델을 제안합니다. 먼저, 공간적 및 시간적 훈련을 분리하고 변형적 비디오로부터 더 많은 물리적 지식을 인코딩하며, 사전 훈련된 T2V 모델을 변형적 비디오 생성으로 변환하는 MagicAdapter 기법을 설계합니다. 둘째, 더 넓은 변화 범위와 극적인 객체 변형 과정을 포함하여 일반 비디오보다 더 많은 물리적 지식을 체화하는 변형적 타임랩스 비디오에 적응하기 위한 Dynamic Frames Extraction 전략을 도입합니다. 마지막으로, 변형적 비디오 프롬프트의 이해를 개선하기 위한 Magic Text-Encoder를 소개합니다. 또한, 변형적 비디오 생성 능력을 해제하기 위해 특별히 제작된 ChronoMagic이라는 타임랩스 비디오-텍스트 데이터셋을 구축했습니다. 광범위한 실험을 통해 MagicTime이 고품질이고 동적인 변형적 비디오를 생성하는 데 있어 우수성과 효과성을 입증하며, 타임랩스 비디오 생성이 물리적 세계의 변형적 시뮬레이터를 구축하는 유망한 경로임을 시사합니다.
개인 콘텐츠의 효과적인 편집은 개인이 창의성을 발휘하고, 시각적 스토리 내에 매혹적인 내러티브를 엮으며, 시각적 콘텐츠의 전반적인 품질과 영향력을 높이는 데 중요한 역할을 합니다. 따라서 본 연구에서는 참조를 통해 제공된 개인화된 개념으로 이미지 내의 모든 객체를 교체하면서도 컨텍스트를 그대로 유지할 수 있는 새로운 프레임워크인 SwapAnything을 소개합니다. 기존의 개인화된 주체 교체 방법과 비교하여 SwapAnything은 세 가지 독특한 장점을 가지고 있습니다: (1) 주요 주체가 아닌 임의의 객체와 부분에 대한 정밀한 제어, (2) 컨텍스트 픽셀의 더 충실한 보존, (3) 개인화된 개념을 이미지에 더 잘 적응시키는 능력. 먼저, 우리는 잠재 특성 맵에 대한 영역 제어를 적용하고 마스킹된 변수를 교체하여 컨텍스트를 충실히 보존하고 초기 의미 개념 교체를 수행하기 위한 타겟 변수 교체를 제안합니다. 그런 다음, 이미지 생성 과정에서 타겟 위치, 형태, 스타일, 콘텐츠 측면에서 의미 개념을 원본 이미지에 자연스럽게 적응시키기 위한 외관 적응을 도입합니다. 인간과 자동 평가 모두에서 광범위한 결과는 개인화된 교체 작업에서 우리의 접근 방식이 기존 방법들에 비해 상당한 개선을 보여줍니다. 더 나아가, SwapAnything은 단일 객체, 다중 객체, 부분 객체, 그리고 도메인 간 교체 작업에서 정밀하고 충실한 교체 능력을 입증합니다. SwapAnything은 또한 텍스트 기반 교체 및 객체 삽입과 같은 교체 이상의 작업에서도 뛰어난 성능을 달성합니다.
확산 기반 생성형 이미지 편집의 최근 발전은 이미지 아웃페인팅과 인페인팅 작업의 지형을 재구성하며 심오한 혁명을 일으켰습니다. 그러나 이러한 진전에도 불구하고, 이 분야는 다음과 같은 본질적인 과제에 직면해 있습니다: i) 낮은 품질; ii) 불충분한 일관성; iii) 지시 준수 부족; iv) 최적화되지 않은 생성 효율성. 이러한 장애물을 해결하기 위해, 우리는 생성형 이미지 편집 작업을 강화, 준수, 가속화하기 위해 세심하게 설계된 혁신적인 피드백 학습 프레임워크인 ByteEdit를 제안합니다. ByteEdit는 미학과 이미지-텍스트 정렬을 향상시키기 위한 이미지 보상 모델을 원활하게 통합하며, 출력의 일관성을 촉진하기 위해 픽셀 수준의 조밀한 보상 모델도 도입합니다. 더 나아가, 모델의 추론 속도를 가속화하기 위한 선구적인 적대적 및 점진적 피드백 학습 전략을 제안합니다. 대규모 사용자 평가를 통해, ByteEdit가 Adobe, Canva, MeiTu를 포함한 주요 생성형 이미지 편집 제품들을 생성 품질과 일관성 모두에서 능가함을 입증했습니다. ByteEdit-아웃페인팅은 기준 모델 대비 품질과 일관성에서 각각 388%와 135%의 놀라운 향상을 보여줍니다. 실험을 통해 우리의 가속화 모델이 품질과 일관성 측면에서 우수한 성능을 유지함을 확인했습니다.
디퓨전 모델은 이미지 생성 분야에 혁신을 가져와 고품질 모델과 다양한 다운스트림 애플리케이션의 확산을 이끌었습니다. 그러나 이러한 상당한 발전에도 불구하고, 현재의 경쟁력 있는 솔루션들은 여전히 열등한 시각적 품질, 미적 매력의 부족, 비효율적인 추론 등 여러 한계를 겪고 있으며, 이를 포괄적으로 해결할 수 있는 방법이 없는 실정입니다. 이러한 문제를 해결하기 위해, 우리는 피드백 학습을 활용하여 디퓨전 모델을 종합적으로 개선하는 통합 프레임워크인 UniFL을 제안합니다. UniFL은 SD1.5 및 SDXL과 같은 다양한 디퓨전 모델에 적용 가능한 보편적이고 효과적이며 일반화 가능한 솔루션으로 두드러집니다. 특히, UniFL은 시각적 품질을 향상시키는 지각적 피드백 학습, 미적 매력을 개선하는 디커플드 피드백 학습, 추론 속도를 최적화하는 적대적 피드백 학습이라는 세 가지 핵심 구성 요소를 포함합니다. 심층 실험과 광범위한 사용자 연구를 통해 우리가 제안한 방법이 생성 모델의 품질과 가속화 모두에서 우수한 성능을 보임을 검증했습니다. 예를 들어, UniFL은 생성 품질 측면에서 ImageReward보다 17% 더 높은 사용자 선호도를 보였으며, 4단계 추론에서 LCM 및 SDXL Turbo를 각각 57%와 20% 앞섰습니다. 또한, 우리는 Lora, ControlNet, AnimateDiff와 같은 다운스트림 작업에서도 우리의 접근 방식의 효율성을 검증했습니다.
비디오에서 조밀하고 장거리 픽셀 움직임을 복원하는 것은 어려운 문제입니다. 이러한 어려움의 일부는 3D에서 2D로의 투영 과정에서 비롯되며, 이는 2D 움직임 영역에서의 폐색과 불연속성을 초래합니다. 2D 움직임이 복잡할 수 있지만, 우리는 근본적인 3D 움직임이 종종 단순하고 저차원일 수 있다고 가정합니다. 본 연구에서는 이미지 투영으로 인한 문제를 완화하기 위해 3D 공간에서의 점 궤적을 추정하는 방법을 제안합니다. 우리의 방법인 SpatialTracker는 단안 깊이 추정기를 사용하여 2D 픽셀을 3D로 변환하고, 각 프레임의 3D 내용을 트리플레인 표현으로 효율적으로 나타내며, 트랜스포머를 사용한 반복적 업데이트를 통해 3D 궤적을 추정합니다. 3D에서의 추적은 가능한 한 강체(ARAP) 제약을 활용할 수 있게 하며, 동시에 픽셀을 서로 다른 강체 부분으로 클러스터링하는 강체 임베딩을 학습합니다. 광범위한 평가를 통해 우리의 접근 방식이 특히 평면 외 회전과 같은 어려운 시나리오에서 질적 및 양적으로 최첨단 추적 성능을 달성함을 보여줍니다.
세부 사항과 제어 기능을 갖춘 고해상도 인간 중심 장면 생성은 기존의 텍스트-이미지 확산 모델들에게 여전히 도전 과제로 남아 있습니다. 이러한 도전은 제한된 학습 이미지 크기, 텍스트 인코더의 용량(토큰 제한), 그리고 다수의 인간이 포함된 복잡한 장면을 생성하는 데 내재된 어려움에서 비롯됩니다. 현재의 방법들은 학습 크기 제한만을 해결하려 시도했지만, 종종 심각한 아티팩트가 있는 인간 중심 장면을 생성했습니다. 우리는 BeyondScene라는 새로운 프레임워크를 제안하며, 이는 기존의 한계를 극복하고, 기존의 사전 학습된 확산 모델을 사용하여 탁월한 텍스트-이미지 일치성과 자연스러움을 갖춘 고해상도(8K 이상) 인간 중심 장면을 생성합니다. BeyondScene는 단계적이고 계층적인 접근 방식을 채택하여, 먼저 다수의 인간을 위한 인스턴스 생성에서 중요한 요소와 확산 모델의 토큰 제한을 넘어서는 세부 설명에 초점을 맞춘 상세한 기본 이미지를 생성한 다음, 이 기본 이미지를 고해상도 출력으로 원활하게 변환합니다. 이는 학습 이미지 크기를 초과하고, 우리가 제안한 고주파 주입 순방향 확산과 적응형 결합 확산으로 구성된 새로운 인스턴스 인식 계층적 확대 과정을 통해 텍스트와 인스턴스를 고려한 세부 사항을 통합합니다. BeyondScene는 상세한 텍스트 설명과의 일치성 및 자연스러움 측면에서 기존 방법들을 능가하며, 비용이 많이 드는 재학습 없이도 사전 학습된 확산 모델의 용량을 넘어서는 고해상도 인간 중심 장면 생성의 고급 응용을 위한 길을 열어줍니다. 프로젝트 페이지: https://janeyeon.github.io/beyond-scene.
대규모 언어 모델(LLM)의 성공과 함께, 시각 모델을 LLM에 통합하여 시각-언어 기반 모델을 구축하는 데 대한 관심이 최근 크게 증가하고 있습니다. 그러나 기존의 LLM 기반 대규모 다중모달 모델(예: Video-LLaMA, VideoChat)은 짧은 비디오 이해를 위해 제한된 수의 프레임만을 입력으로 받을 수 있습니다. 본 연구에서는 장기 비디오 이해를 위한 효율적이고 효과적인 모델 설계에 주력합니다. 기존 연구 대부분처럼 더 많은 프레임을 동시에 처리하려는 대신, 우리는 비디오를 온라인 방식으로 처리하고 과거 비디오 정보를 메모리 뱅크에 저장하는 방식을 제안합니다. 이를 통해 우리 모델은 LLM의 컨텍스트 길이 제약이나 GPU 메모리 한계를 초과하지 않으면서도 장기 분석을 위해 과거 비디오 내용을 참조할 수 있습니다. 우리의 메모리 뱅크는 현재의 다중모달 LLM에 즉시 통합될 수 있습니다. 우리는 장기 비디오 이해, 비디오 질의응답, 비디오 캡셔닝과 같은 다양한 비디오 이해 작업에 대해 광범위한 실험을 수행했으며, 우리 모델은 여러 데이터셋에서 최첨단 성능을 달성할 수 있습니다. 코드는 https://boheumd.github.io/MA-LMM/에서 확인할 수 있습니다.
포토리얼리스틱 아바타의 모델링과 렌더링은 많은 애플리케이션에서 매우 중요합니다. 그러나 시각적 관찰을 통해 3D 아바타를 구축하는 기존 방법들은 옷을 입은 인간을 재구성하는 데 어려움을 겪습니다. 우리는 PhysAvatar라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 역렌더링과 역물리를 결합하여 다중 뷰 비디오 데이터로부터 인간의 형태와 외관을 자동으로 추정할 뿐만 아니라, 그들이 입은 옷의 물리적 파라미터도 추정합니다. 이를 위해, 우리는 시공간적 메쉬 추적을 위한 메쉬 정렬 4D 가우시안 기법과 내재적 물질 속성을 추정하기 위한 물리 기반 역렌더러를 채택했습니다. PhysAvatar는 물리 시뮬레이터를 통합하여 옷의 물리적 파라미터를 그래디언트 기반 최적화를 통해 원칙적으로 추정합니다. 이러한 새로운 기능 덕분에 PhysAvatar는 훈련 데이터에서 보지 못한 동작과 조명 조건 하에서 헐렁한 옷을 입은 아바타의 고품질 새로운 뷰 렌더링을 생성할 수 있습니다. 이는 물리 기반 역렌더링과 물리를 활용하여 포토리얼리스틱 디지털 인간을 모델링하는 데 있어 중요한 진전을 의미합니다. 우리의 프로젝트 웹사이트는 https://qingqing-zhao.github.io/PhysAvatar 에서 확인할 수 있습니다.
급속히 발전하는 생성 모델 분야에서, 효율적이고 고품질의 텍스트-이미지 확산 시스템 개발은 중요한 전선을 대표합니다. 본 연구는 인간 선호도에 맞춰진 Reinforcement Learning from Human Feedback(RLHF)를 사용한 새로운 프로덕션 등급의 텍스트-이미지 캐스케이드 확산 모델인 YaART를 소개합니다. YaART 개발 과정에서, 우리는 특히 모델과 훈련 데이터셋 크기의 선택에 초점을 맞췄는데, 이는 텍스트-이미지 캐스케이드 확산 모델에 대해 이전에 체계적으로 연구되지 않았던 측면입니다. 특히, 이러한 선택이 훈련 과정의 효율성과 생성된 이미지의 품질에 미치는 영향을 종합적으로 분석했으며, 이는 실제적으로 매우 중요한 요소입니다. 더 나아가, 우리는 더 작은 데이터셋에서 고품질 이미지로 훈련된 모델이 더 큰 데이터셋으로 훈련된 모델과 성공적으로 경쟁할 수 있음을 입증함으로써, 확산 모델 훈련의 더 효율적인 시나리오를 확립했습니다. 품질 측면에서, YaART는 사용자들에 의해 기존의 많은 최첨단 모델들보다 꾸준히 선호되었습니다.
본 논문에서는 유연한 제로샷(zero-shot) 능력을 자랑하는 오픈-보캐뷸러리(open-vocabulary) 방식의 학습이 필요 없는 개인화 이미지 모델인 MoMA를 소개한다. 기초적인 텍스트-이미지(text-to-image) 모델이 빠르게 발전함에 따라, 강력한 이미지-이미지(image-to-image) 변환에 대한 수요가 증가하고 있다. 이러한 요구를 해결하기 위해, MoMA는 주체 기반 개인화 이미지 생성에 특화되어 있다. 오픈소스 멀티모달 대형 언어 모델(Multimodal Large Language Model, MLLM)을 활용하여, MoMA를 특징 추출기(feature extractor)와 생성기(generator)의 이중 역할을 수행하도록 학습시켰다. 이 접근법은 참조 이미지와 텍스트 프롬프트 정보를 효과적으로 결합하여 가치 있는 이미지 특징을 생성하며, 이를 통해 이미지 확산 모델(image diffusion model)을 용이하게 한다. 생성된 특징을 더 잘 활용하기 위해, 우리는 새로운 자기 주의(self-attention) 단축 방법을 도입하여 이미지 특징을 이미지 확산 모델로 효율적으로 전달함으로써 생성된 이미지에서 대상 객체의 유사성을 향상시켰다. 주목할 만한 점은, 튜닝이 필요 없는 플러그 앤 플레이(plug-and-play) 모듈로서, 우리의 모델은 단일 참조 이미지만을 요구하며, 높은 디테일 충실도, 향상된 신원 보존 및 프롬프트 충실도 측면에서 기존 방법들을 능가한다. 우리의 작업은 오픈소스로 제공되어 이러한 발전을 누구나 접근할 수 있도록 한다.
우리는 텍스트-이미지 확산 모델을 정렬하기 위한 새로운 접근법인 Diffusion-KTO를 소개합니다. 이 방법은 정렬 목표를 인간의 기대 효용 극대화로 공식화합니다. 이 목표는 각 생성에 독립적으로 적용되기 때문에, Diffusion-KTO는 비용이 많이 드는 쌍별 선호도 데이터를 수집하거나 복잡한 보상 모델을 훈련할 필요가 없습니다. 대신, 우리의 목표는 좋아요 또는 싫어요와 같은 간단한 이미지별 이진 피드백 신호를 요구하며, 이러한 신호는 풍부하게 이용 가능합니다. Diffusion-KTO를 사용하여 미세 조정한 후, 텍스트-이미지 확산 모델은 인간의 판단과 PickScore 및 ImageReward와 같은 자동 평가 지표 모두에서 기존 기술들(지도 학습 미세 조정 및 Diffusion-DPO 포함)보다 우수한 성능을 보입니다. 전반적으로, Diffusion-KTO는 손쉽게 이용 가능한 이미지별 이진 신호를 활용할 수 있는 잠재력을 발휘하며, 인간의 선호도에 맞춰 텍스트-이미지 확산 모델을 정렬하는 적용 범위를 확장합니다.
트랜스포머(Transformers)는 컴퓨터 비전과 자연어 처리(NLP) 분야에서 혁신적인 발전을 촉진해 왔습니다. 그러나 높은 계산 복잡도는 고해상도 이미지 생성과 같은 장문맥 작업에의 적용에 제약을 가합니다. 본 논문은 NLP에서 사용된 RWKV 모델을 기반으로, 이미지 생성 작업에 적용된 디퓨전 모델에 맞게 수정한 일련의 아키텍처를 소개하며, 이를 Diffusion-RWKV로 명명합니다. 트랜스포머 기반 디퓨전 모델과 유사하게, 우리의 모델은 추가 조건과 함께 시퀀스로 처리된 패치화된 입력을 효율적으로 처리하도록 설계되었으며, 대규모 매개변수와 방대한 데이터셋을 모두 수용할 수 있도록 확장성을 갖추고 있습니다. 이 모델의 독특한 장점은 공간 집계 복잡도를 줄여 고해상도 이미지 처리에 탁월한 능력을 발휘하며, 윈도잉이나 그룹 캐시 작업의 필요성을 없앤다는 점입니다. 조건부 및 무조건부 이미지 생성 작업에 대한 실험 결과는 Diffusion-RWKV가 FID 및 IS 지표에서 기존 CNN 또는 트랜스포머 기반 디퓨전 모델과 동등하거나 더 나은 성능을 달성하면서도 총 계산 FLOP 사용량을 크게 줄인 것을 보여줍니다.
최근 디퓨전 모델의 발전은 텍스트 프롬프트를 기반으로 2D 이미지를 편집하는 데 있어 뛰어난 능력을 보여주고 있습니다. 그러나 이러한 기술을 Neural Radiance Fields(NeRF)의 장면 편집으로 확장하는 것은 복잡한 문제입니다. 개별 2D 프레임을 편집할 경우 다중 뷰 간의 불일치가 발생할 수 있기 때문입니다. 우리의 핵심 통찰은 NeRF 장면의 기하학이 이러한 2D 편집을 통합하는 가교 역할을 할 수 있다는 것입니다. 이 기하학을 활용하여, 우리는 깊이 조건부 ControlNet을 사용하여 각 2D 이미지 수정의 일관성을 강화합니다. 더 나아가, 우리는 NeRF 장면의 깊이 정보를 활용한 인페인팅 접근법을 도입하여 2D 편집을 다양한 이미지에 분산시키고, 오류 및 리샘플링 문제에 대한 견고성을 보장합니다. 우리의 결과는 이 방법론이 텍스트 기반 NeRF 장면 편집을 위한 기존의 주요 방법들보다 더 일관적이고 생생하며 세부적인 편집을 달성한다는 것을 보여줍니다.
긴 영상 질의응답은 단기 활동을 인식하고 이들의 세부적인 관계를 추론해야 하는 도전적인 과제입니다. 최첨단 비디오 대형 언어 모델(vLLM)은 새로운 과제에서 나타난 창발적 능력으로 인해 유망한 해결책으로 여겨집니다. 그러나 수백만 개의 짧은 초 단위 영상으로 학습되었음에도 불구하고, vLLM은 수 분 길이의 영상을 이해하고 이에 대한 질문에 정확히 답변하는 데 한계를 보입니다. 이러한 한계를 극복하기 위해, 우리는 사전 학습된 vLLM이 더 긴 영상으로 일반화할 수 있도록 학습 가능한 시공간적 쿼리를 도입하는 경량화된 자기 지도 학습 방식인 Key frame-conditioned long video-LLM (Koala)을 제안합니다. 우리의 접근 방식은 희소한 영상 키 프레임에서 계산된 시각적 토큰에 기반한 두 가지 새로운 토크나이저를 도입하여 짧고 긴 영상 순간을 이해합니다. 우리는 HowTo100M 데이터셋에서 제안된 방식을 학습시키고, 제로샷 긴 영상 이해 벤치마크에서 최첨단 대형 모델보다 모든 과제에서 3~6% 절대 정확도로 우수한 성능을 입증했습니다. 흥미롭게도, 우리의 접근 방식은 사전 학습된 vLLM이 긴 영상을 이해하는 데 도움을 줄 뿐만 아니라 단기 행동 인식 정확도도 향상시킨다는 것을 실증적으로 보여줍니다.