번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 객체 설명(예: 경계 상자)을 인식하고 텍스트를 시각적 세계에 연결하는 새로운 기능을 제공하는 다중모드 대형 언어 모델(MLLM)인 Kosmos-2를 소개한다. 구체적으로, 참조 표현을 마크다운의 링크 형태로 표현하며, 즉 ``[텍스트 범위](경계 상자)''와 같이 객체 설명을 위치 토큰의 시퀀스로 나타낸다. 다중모드 코퍼스와 함께, 모델을 학습시키기 위해 대규모의 연결된 이미지-텍스트 쌍 데이터(이하 GrIT)를 구축하였다. 기존 MLLM의 기능(예: 일반 모드 인식, 지시 따르기, 문맥 내 학습 수행) 외에도, Kosmos-2는 다운스트림 애플리케이션에 연결 기능을 통합한다. Kosmos-2는 다양한 작업에서 평가되었으며, 이에는 (i) 참조 표현 이해 및 구문 연결과 같은 다중모드 연결, (ii) 참조 표현 생성과 같은 다중모드 참조, (iii) 인식-언어 작업, (iv) 언어 이해 및 생성이 포함된다. 이 연구는 구현형 AI 개발의 기반을 마련하며, 언어, 다중모드 인식, 행동, 세계 모델링의 대규모 융합을 조명하여 인공 일반 지능으로 나아가는 중요한 단계를 제시한다. 데이터, 데모 및 사전 학습된 모델은 https://aka.ms/kosmos-2에서 확인할 수 있다.
사전 학습된 대규모 언어 모델의 발전이 이루어지고 있음에도 불구하고, 언어와 모션과 같은 다중 모달 데이터를 통합한 모델을 구축하는 탐구는 여전히 도전적이며 아직까지 손대지 않은 영역으로 남아 있습니다. 다행히도, 인간의 모션은 인간의 언어와 유사한 의미론적 결합을 보여주며, 종종 신체 언어의 한 형태로 인식됩니다. 언어 데이터를 대규모 모션 모델과 융합함으로써, 모션 관련 작업의 성능을 향상시킬 수 있는 모션-언어 사전 학습이 가능해집니다. 이러한 통찰에 기반하여, 우리는 다중 모션 관련 작업을 처리하기 위한 통합적이고 다용도이며 사용자 친화적인 모션-언어 모델인 MotionGPT를 제안합니다. 구체적으로, 우리는 인간 모션을 위한 이산 벡터 양자화를 사용하고 3D 모션을 단어 토큰 생성 과정과 유사한 모션 토큰으로 변환합니다. 이 "모션 어휘"를 기반으로, 우리는 인간 모션을 특정 언어로 취급하여 모션과 텍스트에 대해 통합적인 방식으로 언어 모델링을 수행합니다. 또한, 프롬프트 학습에서 영감을 받아, 우리는 모션-언어 데이터의 혼합으로 MotionGPT를 사전 학습하고 프롬프트 기반 질문-답변 작업에 대해 미세 조정합니다. 광범위한 실험을 통해 MotionGPT가 텍스트 기반 모션 생성, 모션 캡셔닝, 모션 예측, 모션 중간 생성을 포함한 다중 모션 작업에서 최첨단 성능을 달성함을 입증합니다.
정밀하고 제어 가능한 이미지 편집은 상당한 관심을 끌고 있는 도전적인 과제입니다. 최근 DragGAN은 인터랙티브 포인트 기반 이미지 편집 프레임워크를 가능하게 하여 픽셀 수준의 정밀도로 인상적인 편집 결과를 달성했습니다. 그러나 이 방법은 생성적 적대 신경망(GAN)에 기반하고 있기 때문에, 그 일반성은 사전 훈련된 GAN 모델의 용량에 의해 상한이 정해집니다. 본 연구에서는 이러한 편집 프레임워크를 확산 모델로 확장하고 DragDiffusion을 제안합니다. 대규모 사전 훈련된 확산 모델을 활용함으로써, 우리는 실제 시나리오에서 인터랙티브 포인트 기반 편집의 적용 가능성을 크게 향상시켰습니다. 기존의 대부분의 확산 기반 이미지 편집 방법들이 텍스트 임베딩에 작동하는 반면, DragDiffusion은 정확한 공간 제어를 달성하기 위해 확산 잠재 공간을 최적화합니다. 확산 모델이 반복적인 방식으로 이미지를 생성하지만, 우리는 실험적으로 단일 단계에서 확산 잠재 공간을 최적화하는 것만으로도 일관된 결과를 생성할 수 있음을 보여주어, DragDiffusion이 고품질 편집을 효율적으로 완료할 수 있게 합니다. 다양한 도전적인 사례(예: 다중 객체, 다양한 객체 카테고리, 다양한 스타일 등)에 걸친 광범위한 실험을 통해 DragDiffusion의 다재다능함과 일반성을 입증했습니다.
Segment Anything Model(SAM)은 관심 객체를 배경에서 분리하기 위한 프롬프트 기반의 비전 기반 모델입니다. Meta 연구팀이 SA 프로젝트를 공개한 이후, SAM은 인상적인 제로샷 전이 성능과 이미지 편집과 같은 세밀한 제어가 가능한 고급 비전 애플리케이션에서 다른 모델과 호환되는 높은 다용도성으로 인해 상당한 주목을 받았습니다. 이러한 사용 사례 중 많은 부분이 모바일 앱과 같은 자원이 제한된 엣지 디바이스에서 실행되어야 합니다. 본 연구에서는 SAM을 모바일 친화적으로 만들기 위해 무거운 이미지 인코더를 경량화된 인코더로 대체하는 것을 목표로 합니다. 원본 SAM 논문에서와 같이 새로운 SAM을 훈련하는 단순한 방법은 특히 제한된 훈련 데이터가 있을 때 만족스럽지 못한 성능을 보입니다. 우리는 이 문제가 주로 이미지 인코더와 마스크 디코더의 결합된 최적화에서 비롯된다는 것을 발견했으며, 이를 계기로 디커플드 디스틸레이션(decoupled distillation)을 제안합니다. 구체적으로, 원본 SAM의 이미지 인코더 ViT-H에서 경량화된 이미지 인코더로 지식을 전이시켜, 원본 SAM의 마스크 디코더와 자동으로 호환될 수 있도록 합니다. 이 훈련은 단일 GPU에서 하루 이내에 완료될 수 있으며, 결과적으로 얻은 경량화된 SAM은 MobileSAM이라고 명명되었습니다. MobileSAM은 원본 SAM보다 60배 이상 작으면서도 동등한 성능을 보입니다. 추론 속도 측면에서, MobileSAM은 이미지당 약 10ms(이미지 인코더 8ms, 마스크 디코더 2ms)로 실행됩니다. 우수한 성능과 더 높은 다용도성을 갖춘 MobileSAM은 동시대의 FastSAM보다 7배 더 작고 4배 더 빠르며, 이는 모바일 애플리케이션에 더 적합함을 의미합니다. MobileSAM 프로젝트의 코드는 https://github.com/ChaoningZhang/MobileSAM에서 제공됩니다.
대형 언어 모델(LLMs)은 최근 인상적인 성과를 거두었음에도 불구하고, 특히 대화 시스템이나 이야기 작성과 같은 장문 생성이 필요한 애플리케이션에서 배포 비용이 상당히 높은 것으로 알려져 있다. 종종 모델 파라미터 외에도 GPU 메모리에 KV 캐시라고 불리는 대량의 일시적 상태 정보가 저장되며, 이는 시퀀스 길이와 배치 크기에 선형적으로 비례하여 증가한다. 본 논문에서는 KV 캐시의 메모리 사용량을 크게 줄이는 새로운 접근 방식을 소개한다. 우리의 접근 방식은 주의 점수를 계산할 때 소수의 토큰이 대부분의 가치를 제공한다는 주목할 만한 관찰에 기반을 두고 있다. 이러한 토큰을 헤비 히터(H_2)라고 부른다. 포괄적인 연구를 통해 우리는 (i) H_2의 출현이 자연스럽고 텍스트 내 토큰의 빈번한 동시 발생과 강한 상관관계가 있으며, (ii) 이를 제거하면 성능이 크게 저하된다는 사실을 발견했다. 이러한 통찰을 바탕으로, 우리는 최근 토큰과 H_2 토큰 간의 균형을 동적으로 유지하는 KV 캐시 제거 정책인 헤비 히터 오라클(H_2O)을 제안한다. 우리는 KV 캐시 제거를 동적 서브모듈 문제로 공식화하고, (약간의 가정 하에서) 우리의 새로운 제거 알고리즘에 대한 이론적 보장을 증명하여 향후 연구를 안내할 수 있도록 한다. 우리는 OPT, LLaMA, GPT-NeoX를 사용하여 다양한 작업에서 우리 알고리즘의 정확성을 검증했다. 20%의 헤비 히터를 사용한 H_2O 구현은 OPT-6.7B와 OPT-30B에서 DeepSpeed Zero-Inference, Hugging Face Accelerate, FlexGen과 같은 세 가지 주요 추론 시스템에 비해 처리량을 각각 최대 29배, 29배, 3배까지 향상시켰다. 동일한 배치 크기에서 H2O는 지연 시간을 최대 1.9배까지 줄일 수 있다. 코드는 https://github.com/FMInference/H2O에서 확인할 수 있다.
현재 대규모 언어 모델(LLMs)을 사전 학습시키는 주요 동향은 모델과 데이터셋 규모의 확장에 초점을 맞추고 있다. 그러나 사전 학습 데이터의 품질은 강력한 LLMs를 훈련시키는 데 중요한 요소임에도 불구하고, 이는 아직 완전히 규명되지 않은 모호한 개념이다. 따라서 본 연구에서는 최근 제안된 Task2Vec 다양성 계수를 활용하여 데이터 품질의 형식적 측면을 이해하고, 단순한 규모를 넘어서고자 한다. 구체적으로, 공개된 사전 학습 데이터셋의 다양성 계수를 측정하여 이들의 형식적 다양성이 이론적 하한 및 상한과 비교할 때 높다는 것을 입증한다. 또한, 다양성 계수에 대한 신뢰를 구축하기 위해 해석 가능성 실험을 수행하고, 이 계수가 직관적인 다양성 특성과 일치함을 확인한다. 예를 들어, 잠재 개념의 수가 증가함에 따라 계수도 증가한다. 결론적으로, 다양성 계수는 신뢰할 만하며, 공개된 LLM 데이터셋에서 높은 값을 보인다. 이를 통해 LLMs를 위한 유용한 다양한 데이터셋을 구축하는 데 활용할 수 있을 것으로 추측한다.
실용적 및 이론적 기계 학습에서의 핵심 개념 중 하나는 약한 학습자(weak learner)로, 이는 임의의 데이터 분포에서도 무작위보다 나은 성능을 달성하는 분류기를 의미한다. 이러한 약한 학습자는 부스팅(boosting)과 같은 표준 기계 학습 방법의 실질적인 기반을 형성한다. 본 연구에서는 프롬프트 기반 대형 언어 모델(LLM)이 이러한 약한 학습자로 효과적으로 작동할 수 있음을 보여준다. 구체적으로, 우리는 표 형식의 데이터에 적용된 부스팅 알고리즘에서 LLM을 약한 학습자로 사용하는 방법을 설명한다. 관심 있는 분포에 따라 적절히 샘플링된 표 형식 데이터 샘플의 텍스트 설명을 제공함으로써, LLM은 분류를 위한 템플릿 역할을 하는 샘플 요약을 생성할 수 있으며, 이는 해당 작업에서 약한 학습자로 작동하는 목적을 달성한다. 우리는 이러한 모델을 부스팅 접근법에 통합하여, 일부 설정에서 LLM 내부의 지식을 활용하여 전통적인 트리 기반 부스팅을 능가할 수 있음을 보여준다. 이 모델은 소량의 데이터 포인트를 포함하는 작업에서 특히 적은 샷 학습(few-shot learning)을 능가하며, 때로는 더 복잡한 미세 조정(fine-tuning) 절차보다도 우수한 성능을 보인다. 이러한 결과는 프롬프트 기반 LLM이 단순히 적은 샷 학습자로만 기능하는 것이 아니라, 더 큰 기계 학습 파이프라인의 구성 요소로 작용할 수 있는 잠재력을 보여준다.
다양한 데이터셋으로 훈련된 대형 트랜스포머 모델은 컨텍스트 내 학습 능력이 뛰어나며, 명시적으로 훈련되지 않은 작업에서도 높은 퓨샷(few-shot) 성능을 달성하는 것으로 나타났습니다. 본 논문에서는 트랜스포머의 컨텍스트 내 학습 능력을 의사결정 문제, 즉 밴딧(bandit) 및 마르코프 의사결정 과정(Markov Decision Process, MDP)에 대한 강화학습(Reinforcement Learning, RL)에서 연구합니다. 이를 위해, 우리는 다양한 작업 세트에서 쿼리 상태와 상호작용 데이터셋이 주어졌을 때 최적의 행동을 예측하도록 트랜스포머를 지도 학습 방식으로 사전 훈련하는 Decision-Pretrained Transformer (DPT)를 소개하고 연구합니다. 이 절차는 단순하지만, 몇 가지 놀라운 능력을 가진 모델을 생성합니다. 사전 훈련된 트랜스포머는 명시적으로 훈련되지 않았음에도 불구하고, 온라인에서의 탐색(exploration)과 오프라인에서의 보수적(conservatism) 접근을 모두 보여주며 다양한 RL 문제를 컨텍스트 내에서 해결할 수 있습니다. 또한, 이 모델은 사전 훈련 분포를 넘어 새로운 작업으로 일반화되며, 알려지지 않은 구조에 자동으로 의사결정 전략을 적응시킵니다. 이론적으로, 우리는 DPT가 표본 효율성이 입증된 RL 알고리즘인 베이지안 사후 샘플링(Bayesian posterior sampling)의 효율적인 구현으로 볼 수 있음을 보입니다. 더 나아가, 이 연결을 활용하여 DPT가 생성한 컨텍스트 내 알고리즘의 후회(regret)에 대한 보장을 제공하고, 사전 훈련 데이터를 생성하는 데 사용된 알고리즘보다 더 빠르게 학습할 수 있음을 증명합니다. 이러한 결과는 트랜스포머에 강력한 컨텍스트 내 의사결정 능력을 부여하기 위한 간단하면서도 유망한 접근 방식을 제시합니다.
대규모 데이터셋은 현대 딥러닝에 있어 필수적입니다. 이 방법론을 이해하기 위해서는 데이터셋 투명성(예: "데이터셋 큐레이션, 동기, 구성, 수집 과정 등")이 필요하다는 주장이 있습니다. 그러나 주석자에게 제공된 상세한 정의와 시각적 범주 예시를 공개해야 한다는 제안은 거의 없었습니다. 이 정보는 각 데이터셋에 존재하는 주석 구조를 이해하는 데 중요한 요소입니다. 이러한 라벨은 공개 데이터셋의 핵심이지만, 이를 생성하는 데 사용된 지침을 포함한 데이터셋은 거의 없습니다. 우리는 공개적으로 이용 가능한 라벨링 지침의 부재를 해결하기 위해 새로운 과제인 '라벨링 지침 생성(Labeling Instruction Generation)'을 소개합니다. 라벨링 지침 생성에서는 적절히 주석이 달린 데이터셋을 기반으로: 1) 데이터셋의 각 범주를 시각적으로 대표하는 예시 집합을 생성하고, 2) 각 예시에 해당하는 텍스트 라벨을 제공합니다. 우리는 이 과제를 해결하기 위해 모델 학습이 필요 없는 프레임워크를 제안하며, 대규모 사전 학습된 시각 및 언어 모델을 활용한 새로운 신속 검색 시스템을 포함합니다. 이 프레임워크는 최종 라벨링 지침 집합을 생성하고 그 품질을 평가하는 데 도움을 줄 수 있는 인간 주석자의 대리자 역할을 합니다. 우리의 프레임워크는 데이터셋 범주의 다양한 시각적 및 텍스트 표현을 생성합니다. 최적화된 지침 집합은 NuImages에서 7.06 mAP, COCO에서 12.9 mAP로 우리의 가장 강력한 베이스라인을 능가합니다.
범용 사전 학습 모델("기초 모델")은 개별 기계 학습 문제에 대해 훨씬 적은 데이터셋으로도 일반화 가능한 솔루션을 생산할 수 있게 해주었다. 이러한 모델은 일반적으로 약한 감독 하에 크고 다양한 데이터셋으로 학습되며, 개별 하위 애플리케이션에서 사용 가능한 데이터보다 훨씬 더 많은 학습 데이터를 소비한다. 본 논문에서는 범용 사전 학습 모델의 성공을 시각 기반 로봇 내비게이션에 적용하기 위한 기초 모델인 Visual Navigation Transformer(ViNT)를 소개한다. ViNT는 모든 내비게이션 데이터셋과 함께 사용할 수 있는 일반적인 목표 도달 목적 함수로 학습되며, 유연한 Transformer 기반 아키텍처를 사용하여 내비게이션 가능성을 학습하고 다양한 하위 내비게이션 작업에 효율적으로 적응할 수 있도록 한다. ViNT는 다양한 로봇 플랫폼에서 수백 시간에 걸친 로봇 내비게이션 데이터를 포함한 여러 기존 내비게이션 데이터셋으로 학습되었으며, 단일 데이터셋으로 학습된 전문 모델을 능가하는 양의 전이 효과를 보인다. ViNT는 확산 기반의 하위 목표 제안을 통해 새로운 환경을 탐색할 수 있으며, 장거리 휴리스틱을 장착할 경우 킬로미터 규모의 내비게이션 문제를 해결할 수 있다. 또한, 프롬프트 튜닝에서 영감을 받은 기술을 통해 새로운 작업 사양에 적응할 수 있으며, 이때 목표 인코더는 동일한 목표 토큰 공간에 임베딩된 다른 작업 양식(예: GPS 웨이포인트 또는 경로 명령)의 인코딩으로 대체된다. 이러한 유연성과 다양한 하위 문제 영역을 수용할 수 있는 능력은 ViNT를 모바일 로보틱스의 효과적인 기초 모델로 자리매김한다. 비디오, 코드 및 모델 체크포인트는 프로젝트 페이지(https://visualnav-transformer.github.io)에서 확인할 수 있다.
다중모달 작업에서의 유망한 진전에도 불구하고, 현재의 대규모 다중모달 모델(LMM)은 관련 이미지와 인간의 지시에 대해 일관성 없는 설명을 생성하는 경향이 있습니다. 본 논문은 이러한 문제를 해결하기 위해 대규모 및 다양한 시각적 지시 튜닝 데이터셋인 Large-scale Robust Visual (LRV)-Instruction을 소개합니다. 우리의 데이터셋은 GPT4에 의해 생성된 120,000개의 시각적 지시로 구성되어 있으며, 16개의 시각 및 언어 작업을 포함하고 개방형 지시와 답변을 다룹니다. 기존 연구가 주로 긍정적 지시 샘플에 초점을 맞추는 것과 달리, 우리는 LRV-Instruction을 더 강력한 시각적 지시 튜닝을 위해 긍정적 및 부정적 지시를 모두 포함하도록 설계했습니다. 우리의 부정적 지시는 두 가지 의미적 수준에서 설계되었습니다: (i) 존재하지 않는 요소 조작과 (ii) 존재하는 요소 조작. LMM에 의해 생성된 환각을 효율적으로 측정하기 위해, 우리는 GPT4-Assisted Visual Instruction Evaluation (GAVIE)을 제안합니다. 이는 인간이 주석을 단 정답이 필요 없이 다양한 지시 형식에 적응할 수 있는 새로운 시각적 지시 튜닝 평가 방법입니다. 우리는 LMM의 환각을 조사하기 위해 포괄적인 실험을 수행했습니다. 우리의 결과는 기존 LMM이 특히 존재하는 요소 조작 지시와 함께 부정적 지시를 받았을 때 상당한 환각을 보인다는 것을 보여줍니다. 또한, LRV-Instruction을 사용하여 MiniGPT4를 미세 조정함으로써, 우리는 최신 방법보다 적은 훈련 데이터를 사용하여 공개 데이터셋에서의 성능을 향상시키면서 환각을 성공적으로 완화했습니다. 추가적으로, 훈련 데이터에서 긍정적 및 부정적 인스턴스의 균형 잡힌 비율이 더 강력한 모델로 이어진다는 것을 관찰했습니다. 우리의 프로젝트 링크는 https://fuxiaoliu.github.io/LRV/에서 확인할 수 있습니다.
인간은 유연한 도구 사용을 통해 복잡하고 장기적인 소프트 바디 조작 작업에서 탁월한 능력을 발휘합니다: 빵을 굽기 위해서는 반죽을 자르는 칼과 반죽을 펴는 밀대가 필요합니다. 인간 인지의 특징으로 여겨지는 도구 사용은, 도구와 물체 간 상호작용을 이해하는 데 어려움이 있어 자율 로봇에서는 여전히 제한적입니다. 본 연구에서는 다양한 도구를 사용하여 탄소성 물체를 인지, 모델링, 조작하는 지능형 로봇 시스템인 RoboCook을 개발했습니다. RoboCook은 포인트 클라우드 장면 표현을 사용하고, 그래프 신경망(GNN)을 통해 도구-물체 상호작용을 모델링하며, 도구 분류와 자기 지도 정책 학습을 결합하여 조작 계획을 수립합니다. 우리는 도구당 단 20분의 실제 상호작용 데이터만으로도 범용 로봇 암이 만두 만들기와 알파벳 쿠키 만들기와 같은 복잡한 장기적 소프트 물체 조작 작업을 학습할 수 있음을 보여줍니다. 광범위한 평가를 통해 RoboCook이 최첨단 접근법을 크게 능가하며, 심각한 외부 방해에 대해 견고성을 보이고, 다양한 재료에 대한 적응력을 보여줌을 입증했습니다.
노이즈 제거 확률적 확산 모델(DDPMs)은 대량의 데이터로 학습할 경우 높은 품질과 놀라운 다양성을 지닌 이미지를 합성할 수 있는 능력이 입증되었습니다. 일반적인 확산 모델과 텍스트-이미지 생성 모델과 같은 현대적 대규모 조건부 생성 모델은 극히 제한된 데이터로 미세 조정할 때 과적합에 취약합니다. 기존 연구에서는 몇 장의 이미지로 구성된 참조 세트를 사용하여 주체 기반 생성을 탐구했습니다. 그러나 DDPM 기반 도메인 기반 생성, 즉 대상 도메인의 공통 특징을 학습하면서 다양성을 유지하는 것을 탐구한 선행 연구는 거의 없습니다. 본 논문은 대규모 소스 데이터셋으로 사전 학습된 DDPM을 제한된 데이터를 사용하여 대상 도메인에 적응시키는 새로운 DomainStudio 접근 방식을 제안합니다. 이 접근 방식은 소스 도메인이 제공하는 주체의 다양성을 유지하고 대상 도메인에서 고품질 및 다양한 적응 샘플을 얻기 위해 설계되었습니다. 우리는 상당한 생성 다양성을 달성하기 위해 적응 샘플 간의 상대적 거리를 유지할 것을 제안합니다. 또한, 더 나은 생성 품질을 위해 고주파 세부 사항의 학습을 추가로 강화합니다. 우리의 접근 방식은 무조건 및 조건부 확산 모델 모두와 호환됩니다. 이 연구는 확산 모델을 사용하여 무조건 소수 이미지 생성을 실현하는 첫 번째 시도로, 현재 최첨단 GAN 기반 접근 방식보다 더 나은 품질과 더 큰 다양성을 달성했습니다. 또한, 이 연구는 조건부 생성에서의 과적합을 크게 완화하고 고품질 도메인 기반 생성을 실현함으로써 현대적 대규모 텍스트-이미지 모델의 적용 가능한 시나리오를 더욱 확장합니다.
대규모 텍스트-이미지 확산 모델은 생성적 이미지 모델링의 최신 기술을 크게 향상시켰으며, 이미지 생성 과정을 이끌기 위한 직관적이고 강력한 사용자 인터페이스를 제공합니다. 그러나 특정 위치에 특정 객체를 배치하는 것과 같은 공간적 제약을 텍스트로 표현하는 것은 번거로우며, 현재의 텍스트 기반 이미지 생성 모델은 이러한 지시를 정확히 따르지 못합니다. 본 논문에서는 이미지 캔버스 상의 세그먼트와 연관된 텍스트를 통해 이미지를 생성하는 방법을 고려합니다. 이 방법은 직관적인 자연어 인터페이스와 생성된 콘텐츠에 대한 정밀한 공간적 제어를 결합합니다. 우리는 사전 훈련된 텍스트-이미지 확산 모델에 플러그인할 수 있고 추가적인 훈련이 필요 없는 제로샷 세그멘테이션 가이던스 접근법인 ZestGuide를 제안합니다. 이 방법은 크로스-어텐션 레이어에서 추출할 수 있는 암묵적 세그멘테이션 맵을 활용하여 입력 마스크와 생성 과정을 정렬합니다. 우리의 실험 결과는 높은 이미지 품질과 입력 세그멘테이션과 생성된 콘텐츠의 정확한 정렬을 결합하며, 해당 세그멘테이션이 포함된 이미지에 대한 훈련이 필요한 방법들보다 양적 및 질적으로 개선된 성능을 보여줍니다. 제로샷 세그멘테이션 조건을 사용한 이미지 생성 분야의 이전 최신 기술인 Paint with Words와 비교했을 때, 우리의 방법은 유사한 FID 점수를 유지하면서 COCO 데이터셋에서 5에서 10 mIoU 포인트의 향상을 달성했습니다.
미분 방정식을 해결하는 과정을 포함하는 생성 프로세스, 예를 들어 확산 모델은 종종 속도와 품질 간의 균형을 맞춰야 합니다. ODE 기반 샘플러는 빠르지만 성능이 정체되는 반면, SDE 기반 샘플러는 샘플링 시간이 증가하는 대신 더 높은 샘플 품질을 제공합니다. 우리는 이러한 차이를 샘플링 오류로 설명합니다: ODE 샘플러는 더 작은 이산화 오류를 포함하는 반면, SDE의 확률성은 누적된 오류를 줄입니다. 이러한 발견을 바탕으로, 우리는 이산화 오류와 축소를 더 잘 균형 잡기 위해 Restart라는 새로운 샘플링 알고리즘을 제안합니다. 이 샘플링 방법은 추가 전진 단계에서 상당한 노이즈를 추가하는 것과 후진 ODE를 엄격히 따르는 것을 번갈아가며 수행합니다. 실험적으로, Restart 샘플러는 이전의 SDE 및 ODE 샘플러를 속도와 정확성 모두에서 능가합니다. Restart는 이전 최고의 SDE 결과를 능가할 뿐만 아니라, CIFAR-10 / ImageNet 64x64에서 각각 10배 / 2배의 샘플링 속도 향상을 달성합니다. 또한, 비슷한 샘플링 시간 내에서 ODE 샘플러보다 훨씬 더 나은 샘플 품질을 얻습니다. 더 나아가, Restart는 LAION 512x512에서 사전 학습된 대규모 텍스트-이미지 Stable Diffusion 모델에서 이전 샘플러보다 텍스트-이미지 정렬/시각적 품질 대 다양성을 더 잘 균형 잡습니다. 코드는 https://github.com/Newbeeer/diffusion_restart_sampling에서 확인할 수 있습니다.
Transformer 모델은 언어 작업에서의 성공에 이어 컴퓨터 비전 분야에서도 큰 잠재력을 보여주고 있다. Swin Transformer는 정확도 측면에서 컨볼루션 기반 아키텍처를 능가하며, 입력 크기에 대해 2차 복잡도를 가지는 Vision Transformer(ViT) 및 그 변형들에 비해 효율성을 개선한 모델 중 하나이다. Swin Transformer는 교차 창 연결을 가능하게 하면서도 자기 주의(self-attention) 계산을 겹치지 않는 지역 창으로 제한하는 이동 창(shifted windows) 기능을 특징으로 한다. 그러나 이동 창은 메모리 복사 작업을 유발하며, 이는 런타임의 상당 부분을 차지한다. 이 문제를 완화하기 위해, 우리는 이동 창 대신 단계별로 크기가 변하는 창을 적용하여 지역 창 간의 교차 연결을 달성하는 Swin-Free를 제안한다. 이 간단한 설계 변경을 통해 Swin-Free는 추론 시 Swin Transformer보다 더 빠르게 동작하면서도 더 나은 정확도를 보인다. 또한, 우리는 Swin Transformer의 대응 모델보다 더 빠른 몇 가지 Swin-Free 변형도 제안한다.
3D 객체 조작을 위해 명시적인 3D 표현을 구축하는 방법은 카메라 이미지에만 의존하는 방법보다 더 나은 성능을 보인다. 그러나 복셀과 같은 명시적인 3D 표현을 사용하는 것은 큰 계산 비용을 수반하며, 이는 확장성에 부정적인 영향을 미친다. 본 연구에서는 확장성과 정확성을 모두 갖춘 3D 조작을 위한 다중 뷰 트랜스포머인 RVT를 제안한다. RVT의 주요 특징으로는 여러 뷰 간의 정보를 집계하기 위한 어텐션 메커니즘과 로봇 작업 공간 주변의 가상 뷰에서 카메라 입력을 재렌더링하는 기능이 있다. 시뮬레이션에서 단일 RVT 모델이 249개의 작업 변형을 포함한 18개의 RLBench 작업에서 잘 작동하며, 기존의 최신 방법(PerAct)보다 26% 더 높은 상대적 성공률을 달성함을 확인했다. 또한 동일한 성능을 달성하기 위해 PerAct보다 36배 빠르게 학습하며, PerAct의 추론 속도의 2.3배를 달성한다. 더 나아가, RVT는 각 작업당 단 몇 번(시뮬10)의 데모만으로도 실제 세계에서 다양한 조작 작업을 수행할 수 있다. 시각적 결과, 코드, 그리고 학습된 모델은 https://robotic-view-transformer.github.io/에서 제공된다.
확률적 예측은 미래 날씨에 대한 불확실성 하에서 의사결정에 있어 매우 중요하다. 현재 주류 접근법은 운영 수치 날씨 예측에서 불확실성을 표현하고 정량화하기 위해 앙상블 예측을 사용하는 것이다. 그러나 앙상블을 생성하는 것은 계산 비용이 많이 든다. 본 논문에서는 최근 생성 인공지능의 발전을 활용하여 대규모로 앙상블 예측을 생성하는 방법을 제안한다. 우리의 접근법은 5개 멤버로 구성된 GEFS 재예측 데이터셋에서 데이터 기반 확률적 확산 모델을 학습한다. 이 모델은 운영 GEFS 예측 시스템의 몇몇 멤버를 조건으로 하여 현실적인 날씨 예측을 효율적으로 생성할 수 있다. 생성된 앙상블은 ERA5 재분석 데이터를 기준으로 평가했을 때, 전체 GEFS 31개 멤버 앙상블과 유사한 예측 능력을 보이며, 대규모 물리 기반 앙상블의 통계를 잘 모방한다. 또한, 우리는 동일한 방법론을 적용하여 생성적 후처리를 위한 확산 모델을 개발하였다: 이 모델은 재분석 데이터를 훈련 중 레이블로 활용하여 모방된 예측 시스템에 존재하는 편향을 직접 교정하는 방법을 학습한다. 이 생성적 후처리 모델에서 생성된 앙상블은 특히 극단적 사건 분류에서 더 높은 신뢰성과 정확성을 보인다. 일반적으로, 이들은 GEFS 운영 앙상블보다 더 신뢰할 수 있으며 극단적 날씨의 확률을 더 정확하게 예측한다. 우리의 모델은 이러한 결과를 GEFS 운영 시스템의 계산 비용의 1/10 미만으로 달성한다.