번역이 포함된 일일 선별된 AI 연구 논문
조건부 음악 생성 작업을 다루기 위해, 우리는 MusicGen을 소개합니다. MusicGen은 여러 개의 압축된 이산 음악 표현(즉, 토큰) 스트림에서 동작하는 단일 언어 모델(LM)입니다. 기존 연구와 달리, MusicGen은 단일 단계의 트랜스포머 LM과 효율적인 토큰 인터리빙 패턴으로 구성되어 있어, 계층적 또는 업샘플링과 같은 여러 모델을 연속적으로 사용할 필요가 없습니다. 이 접근 방식을 통해, MusicGen이 텍스트 설명이나 멜로디 특징에 조건화되어 고품질 샘플을 생성하면서도 생성된 출력에 대한 더 나은 제어를 가능하게 하는 방법을 보여줍니다. 우리는 자동 평가와 인간 평가를 모두 고려한 광범위한 실험적 평가를 수행하여, 제안된 접근 방식이 표준 텍스트-음악 벤치마크에서 평가된 기준선보다 우수함을 보여줍니다. 또한, ablation 연구를 통해 MusicGen을 구성하는 각 구성 요소의 중요성을 밝혔습니다. 음악 샘플, 코드 및 모델은 https://github.com/facebookresearch/audiocraft에서 확인할 수 있습니다.
대규모 언어 모델의 대화형 자연어 작업에서 제로샷 성능을 극대화하기 위해서는 고품질의 지시문과 응답이 필수적이다. 복잡한 시각적 장면을 포함하는 대화형 시각-언어 작업의 경우, 시각-언어 모델(VLM)을 튜닝하기 위해 다양하고 창의적인 지시문-응답 쌍이 대량으로 필요하다. 그러나 현재 시각-언어 지시문-응답 쌍의 양, 다양성, 창의성 측면에서의 가용성은 여전히 제한적이며, 이는 대화형 VLM의 일반화에 도전 과제로 작용하고 있다. 본 연구에서는 2.8백만 개의 다중 모달 지시문-응답 쌍으로 구성된 MIMIC-IT(MultI-Modal In-Context Instruction Tuning) 데이터셋을 제안한다. 이 중 2.2백만 개의 고유한 지시문은 이미지와 비디오에서 도출되었다. 각 쌍은 다중 모달 컨텍스트 정보와 함께 제공되어, VLM의 인지, 추론, 계획 능력을 강화하기 위한 대화형 컨텍스트를 형성한다. 지시문-응답 수집 프로세스인 Syphus는 인간 전문가의 지식과 GPT의 능력을 결합한 자동 주석 파이프라인을 통해 확장되었다. MIMIC-IT 데이터셋을 사용하여 Otter라는 대규모 VLM을 학습시켰다. 시각-언어 벤치마크에서 수행된 광범위한 평가 결과, Otter는 다중 모달 인지, 추론, 컨텍스트 학습에서 뛰어난 숙련도를 보여주는 것으로 관찰되었다. 인간 평가 결과, 이 모델은 사용자의 의도와 효과적으로 일치하는 것으로 나타났다. 본 연구는 MIMIC-IT 데이터셋, 지시문-응답 수집 파이프라인, 벤치마크, 그리고 Otter 모델을 공개한다.
본 논문에서는 비디오 시퀀스로부터 조밀하고 장거리 모션을 추정하기 위한 새로운 테스트 타임 최적화 방법을 제안한다. 기존의 광학 흐름(optical flow) 또는 입자 비디오 추적 알고리즘은 일반적으로 제한된 시간 창 내에서 동작하며, 가림 현상을 통한 추적과 추정된 모션 궤적의 전역적 일관성 유지에 어려움을 겪는다. 우리는 OmniMotion이라 명명된 완전하고 전역적으로 일관된 모션 표현을 제안하며, 이를 통해 비디오 내 모든 픽셀의 정확한 전체 길이 모션 추정이 가능하다. OmniMotion은 준-3D 캐노니컬 볼륨(quasi-3D canonical volume)을 사용하여 비디오를 표현하고, 로컬 공간과 캐노니컬 공간 간의 전단사(bijection)를 통해 픽셀 단위 추적을 수행한다. 이 표현은 전역적 일관성을 보장하고, 가림 현상을 통한 추적을 가능하게 하며, 카메라와 객체 모션의 어떠한 조합도 모델링할 수 있게 한다. TAP-Vid 벤치마크와 실제 영상에 대한 광범위한 평가를 통해, 우리의 접근 방식이 양적 및 질적으로 기존의 최신 방법들을 큰 차이로 능가함을 보여준다. 더 많은 결과는 프로젝트 페이지(http://omnimotion.github.io/)에서 확인할 수 있다.
대형 언어 모델(LLMs)에 기반한 대화 에이전트는 시각 데이터와 상호작용하는 새로운 방식을 제공하고 있습니다. 이미지 기반 대화 모델에 대한 초기 시도들이 있었지만, 본 연구는 비디오 기반 대화라는 덜 탐구된 분야를 다루며 Video-ChatGPT를 소개합니다. 이는 비디오에 적응된 시각 인코더와 LLM을 결합한 멀티모달 모델로, 비디오에 대한 인간과 같은 대화를 이해하고 생성할 수 있습니다. 우리는 수동 및 반자동화 파이프라인을 통해 획득한 100,000개의 비디오-지시 쌍으로 구성된 새로운 데이터셋을 소개하며, 이는 쉽게 확장 가능하고 레이블 노이즈에 강건합니다. 또한, 제안된 모델의 강점과 약점을 객관적으로 분석하기 위해 비디오 기반 대화 모델을 위한 정량적 평가 프레임워크를 개발했습니다. 우리의 코드, 모델, 지시 세트 및 데모는 https://github.com/mbzuai-oryx/Video-ChatGPT에서 공개되었습니다.
사전 학습된 이미지 디퓨전 모델의 놀라운 능력은 고정 크기 이미지 생성뿐만 아니라 파노라마 생성에도 활용되어 왔습니다. 그러나 여러 이미지를 단순히 이어 붙이는 방식은 종종 눈에 띄는 이음새를 발생시킵니다. 최근 기술들은 여러 창에서 공동 디퓨전을 수행하고 겹치는 영역에서 잠재 특성을 평균화함으로써 이 문제를 해결하려 시도했습니다. 그러나 이러한 접근 방식은 원활한 몽타주 생성에 초점을 맞추면서도 단일 이미지 내에서 서로 다른 장면을 혼합함으로써 비일관적인 출력을 초래하는 경우가 많습니다. 이러한 한계를 극복하기 위해, 우리는 SyncDiffusion을 제안합니다. 이는 지각적 유사성 손실에 대한 경사 하강법을 통해 여러 디퓨전을 동기화하는 플러그 앤 플레이 모듈입니다. 구체적으로, 우리는 각 디노이징 단계에서 예측된 디노이즈된 이미지를 사용하여 지각적 손실의 그래디언트를 계산함으로써 일관된 몽타주를 달성하기 위한 의미 있는 지침을 제공합니다. 우리의 실험 결과는 우리의 방법이 이전 방법들에 비해 훨씬 더 일관된 출력을 생성한다는 것을 보여줍니다(사용자 연구에서 66.35% 대 33.65%). 동시에 GIQA로 평가된 충실도와 CLIP 점수로 측정된 입력 프롬프트와의 호환성을 유지합니다.
본 논문에서는 유연하고 상호작용적인 시각적 또는 언어적 사용자 프롬프트 안내를 통해 이미지 내 모든 인스턴스의 알파 매트(alpha matte)를 추정하기 위한 효율적이고 다목적 프레임워크인 Matting Anything Model(MAM)을 제안한다. MAM은 기존의 특화된 이미지 매팅 네트워크에 비해 몇 가지 중요한 장점을 제공한다: (i) MAM은 단일 모델로 의미론적(semantic), 인스턴스(instance), 참조(referring) 이미지 매팅을 포함한 다양한 유형의 이미지 매팅을 처리할 수 있다; (ii) MAM은 Segment Anything Model(SAM)의 특징 맵(feature map)을 활용하고 경량의 Mask-to-Matte(M2M) 모듈을 채택하여 반복적 정제를 통해 알파 매트를 예측하며, 이는 단 270만 개의 학습 가능한 매개변수만을 가진다; (iii) SAM을 통합함으로써 MAM은 이미지 매팅의 상호작용적 사용에 필요한 사용자 개입을 트라이맵(trimap)에서 박스, 점 또는 텍스트 프롬프트로 단순화한다. 우리는 다양한 이미지 매팅 벤치마크에서 MAM의 성능을 평가했으며, 실험 결과는 MAM이 각 벤치마크에서 서로 다른 메트릭 하에서 최신 특화된 이미지 매팅 모델과 비슷한 성능을 달성함을 보여준다. 전반적으로 MAM은 우수한 일반화 능력을 보여주며 더 적은 매개변수로 다양한 이미지 매팅 작업을 효과적으로 처리할 수 있어 통합된 이미지 매팅을 위한 실용적인 솔루션임을 입증한다. 우리의 코드와 모델은 https://github.com/SHI-Labs/Matting-Anything에서 오픈소스로 공개되어 있다.
가중치 공유 슈퍼넷(weight-sharing supernet)은 최신(State-of-the-Art, SOTA) 신경망 구조 탐색(Neural Architecture Search, NAS) 프레임워크에서 성능 추정을 위한 핵심 구성 요소로 자리 잡았습니다. 슈퍼넷은 재학습 없이도 다양한 서브네트워크를 직접 생성할 수 있지만, 가중치 공유로 인해 이러한 서브네트워크의 품질이 보장되지 않는다는 문제가 있습니다. 기계 번역이나 사전 학습된 언어 모델링과 같은 자연어 처리(NLP) 작업에서, 동일한 모델 구조를 사용하더라도 슈퍼넷과 처음부터 학습한 모델 간에 큰 성능 차이가 관찰됩니다. 따라서 슈퍼넷은 직접 사용할 수 없으며, 최적의 구조를 찾은 후 재학습이 필수적입니다. 본 연구에서는 슈퍼넷의 표현력을 향상시키기 위해 전문가 혼합(Mixture-of-Experts, MoE) 방식을 도입한 일반화된 슈퍼넷 구조인 'mixture-of-supernets'를 제안합니다. 이 방법은 학습 오버헤드를 거의 증가시키지 않으면서도, 서로 다른 서브네트워크가 모델 가중치를 직접 공유하지 않고, 구조 기반 라우팅 메커니즘을 통해 간접적으로 공유하도록 합니다. 결과적으로, 각 서브네트워크의 모델 가중치는 해당 구조에 맞게 맞춤화되며, 가중치 생성은 경사 하강법을 통해 학습됩니다. 기존의 NLP용 가중치 공유 슈퍼넷과 비교했을 때, 본 방법은 재학습 시간을 최소화하여 학습 효율을 크게 개선합니다. 또한, 제안된 방법은 빠른 기계 번역 모델 구축을 위한 NAS에서 SOTA 성능을 달성하며, 최신 NAS 기법인 HAT보다 더 나은 지연 시간(latency)과 BLEU 점수 간의 균형을 제공합니다. 또한, 메모리 효율적인 작업 독립적(task-agnostic) BERT 모델 구축을 위한 NAS에서도 SOTA 성능을 달성하여, 다양한 모델 크기에서 NAS-BERT와 AutoDistil을 능가합니다.
단일 이미지에서 물체의 깊이를 추정하는 것은 다양한 비전, 로보틱스, 그래픽스 응용 분야에서 중요한 과제입니다. 그러나 현재의 방법들은 다양한 장면에서 물체의 정확한 깊이를 생성하는 데 실패하는 경우가 많습니다. 본 연구에서는 학습된 배경을 통해 입력 물체 이미지를 적응시키는 간단하면서도 효과적인 배경 프롬프트 전략을 제안합니다. 우리는 소규모 합성 물체 데이터셋만을 사용하여 배경 프롬프트를 학습합니다. 실제 이미지에서 물체의 깊이를 추론하기 위해, 분할된 물체를 학습된 배경 프롬프트에 배치하고 기존의 깊이 네트워크를 실행합니다. 배경 프롬프트는 깊이 네트워크가 배경 변화에 불변하도록 만들어 전경 물체에 집중할 수 있도록 돕습니다. 또한, 배경 프롬프트는 합성과 실제 물체 이미지 간의 도메인 격차를 최소화하여 단순한 파인튜닝보다 더 나은 시뮬레이션-투-리얼(sim2real) 일반화를 이끌어냅니다. 여러 합성 및 실제 데이터셋에 대한 실험 결과는 다양한 기존 깊이 네트워크에서 실제 물체 깊이의 일관된 개선을 보여줍니다. 코드와 최적화된 배경 프롬프트는 https://mbaradad.github.io/depth_prompt에서 확인할 수 있습니다.
대규모 텍스트-이미지 쌍 데이터셋으로 학습된 확장 가능한 확산 모델에 의해 주도되는 텍스트-이미지 합성 방법은 인상적인 결과를 보여주고 있다. 그러나 이러한 모델들은 프롬프트에 여러 객체, 속성 및 공간 구성이 포함될 경우 텍스트 프롬프트를 정확히 따르지 못하는 한계를 여전히 가지고 있다. 본 논문에서는 확산 모델의 교차 주의(cross-attention) 층과 자기 주의(self-attention) 층에서 이러한 문제의 잠재적 원인을 규명한다. 우리는 샘플링 과정 중 주어진 레이아웃에 따라 주의 맵(attention map)을 재조정하기 위한 두 가지 새로운 손실 함수를 제안한다. 대형 언어 모델(Large Language Models)로 합성된 레이아웃을 사용하여 DrawBench 및 HRS 벤치마크에서 포괄적인 실험을 수행한 결과, 제안된 손실 함수가 기존 텍스트-이미지 방법에 쉽고 효과적으로 통합될 수 있으며, 생성된 이미지와 텍스트 프롬프트 간의 정렬을 지속적으로 개선할 수 있음을 보여준다.
텍스트-이미지 생성 모델은 다양한 도메인에서 고해상도 이미지 합성을 가능하게 했지만, 사용자가 생성하고자 하는 콘텐츠를 명시해야 한다는 제약이 있습니다. 본 논문에서는 이와 반대의 문제를 고려합니다 — 다양한 이미지 컬렉션이 주어졌을 때, 각 이미지를 대표하는 생성적 개념을 발견할 수 있을까요? 우리는 이미지 컬렉션에서 생성적 개념을 발견하기 위한 비지도 학습 접근법을 제시하며, 이를 통해 그림에서의 다양한 예술 스타일, 주방 장면에서의 물체와 조명, 그리고 ImageNet 이미지가 주어졌을 때의 이미지 클래스를 분리해냅니다. 우리는 이러한 생성적 개념이 이미지의 콘텐츠를 정확하게 표현할 수 있고, 새로운 예술적 및 하이브리드 이미지를 생성하기 위해 재조합 및 구성될 수 있으며, 하류 분류 작업을 위한 표현으로 추가적으로 사용될 수 있음을 보여줍니다.
본 논문에서는 대화 모델 BlenderBot 3의 업데이트 버전인 BlenderBot 3x를 소개한다. 이 모델은 시스템 사용자로부터 수집된 자연스러운 대화 및 피드백 데이터를 활용하여 학습되었으며, 이를 통해 모델의 기술적 능력과 안전성을 동시에 개선하였다. 연구 커뮤니티의 추가 발전을 촉진하기 위해, 참여자의 개인 정보가 제거된 상호작용 데이터를 공개적으로 제공한다. 자연스러운 데이터를 활용한 모델 학습은 도전적인 과제인데, 이는 실제 환경에서의 인간 상호작용에는 고품질의 대화와 피드백뿐만 아니라 적대적이고 유해한 행동도 포함되기 때문이다. 본 연구에서는 모델을 도와주는 교사로부터는 학습하되, 모델을 속여 유해하거나 도움이 되지 않는 응답을 유도하려는 사람으로부터는 학습을 피할 수 있는 기술을 탐구하였다. BlenderBot 3x는 BlenderBot 3에 비해 대화에서 더 선호되며, 어려운 상황에서도 더 안전한 응답을 생성하는 것으로 나타났다. 현재 모델은 여전히 완벽하지 않지만, 본 연구에서 탐구한 기술을 지속적으로 활용함으로써 추가적인 개선이 가능할 것으로 기대한다.
"영역(region)"과 같은 비전 특화 개념은 일반적인 머신러닝 프레임워크를 객체 탐지와 같은 작업으로 확장하는 데 핵심적인 역할을 해왔습니다. 지도 학습을 위한 영역 기반 탐지기의 성공과 대조 학습을 위한 이미지 내부 방법의 발전을 고려하여, 우리는 재구성 사전 학습을 위해 영역을 활용하는 방법을 탐구합니다. 마스크드 오토인코딩(MAE)을 기준선이자 영감의 원천으로 삼아, 이미지와 영역 간의 일대다 매핑을 해결하기 위해 맞춤화된 병렬 사전 작업을 제안합니다. 이러한 영역은 비지도 방식으로 생성될 수 있기 때문에, 우리의 접근법(R-MAE)은 MAE의 광범위한 적용성을 그대로 유지하면서도 더욱 "영역 인식적"입니다. R-MAE 개발 과정에서 철저한 분석을 수행했으며, 효과적이면서도 효율적인 변형(MAE 대비 1.3% 오버헤드)으로 수렴했습니다. 또한, 다양한 사전 학습 데이터와 하류 작업인 탐지 및 세분화 벤치마크에 일반화할 때 일관된 양적 개선을 보여줍니다. 마지막으로, R-MAE의 동작과 잠재력을 이해하기 위해 광범위한 정성적 시각화를 제공합니다. 코드는 https://github.com/facebookresearch/r-mae에서 공개될 예정입니다.
NeRF 모델이 널리 활용되는 데 있어 주요 장애물은 정확한 카메라 포즈에 대한 의존성이다. 이에 따라 카메라 포즈와 장면 표현을 동시에 최적화하는 NeRF 모델을 확장하려는 관심이 증가하고 있으며, 이는 잘 알려진 실패 모드를 가진 기존의 SfM 파이프라인에 대한 대안을 제공한다. 기존의 포즈가 없는 NeRF 접근법은 사전 포즈 분포나 대략적인 포즈 초기화와 같은 제한된 가정 하에서 작동하므로 일반적인 설정에서는 효과적이지 못하다. 본 연구에서는 포즈 구성에 대한 가정을 완화하여 카메라 포즈와 신경 방사 필드를 동시에 추정하는 새로운 접근법인 LU-NeRF를 제안한다. 우리의 접근법은 지역적에서 전역적으로 작동하며, 먼저 데이터의 지역적 부분집합인 '미니 장면'에 대해 최적화를 수행한다. LU-NeRF는 이 어려운 소수 샷 작업에 대해 지역적 포즈와 기하학을 추정한다. 미니 장면의 포즈는 강력한 포즈 동기화 단계를 통해 전역 참조 프레임으로 통합되며, 최종적으로 포즈와 장면에 대한 전역 최적화가 수행된다. 우리는 LU-NeRF 파이프라인이 포즈 사전에 대한 제한적인 가정 없이 기존의 포즈가 없는 NeRF 시도보다 우수한 성능을 보임을 입증한다. 이를 통해 우리는 기준선과 달리 일반적인 SE(3) 포즈 설정에서 작동할 수 있다. 또한, 우리의 모델이 저해상도 및 저질감 이미지에서 COLMAP에 비해 유리하게 비교되므로 특징 기반 SfM 파이프라인과 상호 보완적일 수 있음을 보여준다.
본 논문에서는 시각적 질문 응답(Visual Question Answering, VQA)을 모듈식 코드 생성으로 공식화하는 프레임워크를 제시한다. 기존의 모듈식 VQA 접근법과 달리, 우리의 접근법은 추가적인 학습을 필요로 하지 않으며, 사전 학습된 언어 모델(Language Models, LMs), 이미지-캡션 쌍으로 사전 학습된 시각적 모델, 그리고 컨텍스트 학습을 위해 사용된 50개의 VQA 예제에 의존한다. 생성된 파이썬 프로그램은 산술 및 조건 논리를 사용하여 시각적 모델의 출력을 호출하고 조합한다. 우리의 접근법은 코드 생성을 사용하지 않는 퓨샷(few-shot) 베이스라인과 비교하여 COVR 데이터셋에서 최소 3%, GQA 데이터셋에서 약 2%의 정확도 향상을 보인다.
본 논문에서는 비디오 트랜스포머, 특히 ViViT(Video Vision Transformer) 모델 중 Factorised Encoder 버전을 기반으로 한 동작 인식 작업에서 발생하는 상당한 학습 시간과 메모리 소비 문제를 다룬다. Factorised Encoder 변형은 최신 접근법에서 널리 채택된 후기 융합(late-fusion) 방식을 따른다. ViViT의 다양한 변형 중에서도 속도와 정확도의 균형이 우수함에도 불구하고, 이 모델의 상당한 학습 시간과 메모리 요구 사항은 여전히 주요 진입 장벽으로 작용한다. 본 연구에서는 이러한 장벽을 낮추기 위해 공간 트랜스포머를 학습 중에 고정(freezing)하는 아이디어를 기반으로 한 방법을 제안한다. 이 방법은 단순히 적용할 경우 낮은 정확도를 초래하지만, (1) 시간적 정보를 처리하는 모듈인 시간 트랜스포머를 적절히 초기화하고, (2) 고정된 공간 표현(입력 이미지의 특정 영역에 선택적으로 주목하는 모듈)과 시간 트랜스포머를 연결하는 컴팩트한 어댑터 모델을 도입함으로써 정확도를 희생하지 않으면서 공간 트랜스포머를 고정하는 이점을 누릴 수 있음을 보여준다. 6개의 벤치마크에 대한 광범위한 실험을 통해, 제안된 학습 전략이 학습 비용을 약 50% 절감하고 메모리 소비를 크게 줄이면서도 기준 모델 대비 최대 1.79%의 성능 향상을 달성할 수 있음을 입증한다. 또한, 이 접근법은 더 큰 이미지 트랜스포머 모델을 공간 트랜스포머로 활용하고 동일한 메모리 소비로 더 많은 프레임을 처리할 수 있는 가능성을 열어준다.
구면 CNN은 구면 컨볼루션을 주요 선형 연산으로 사용하여 평면상의 CNN을 구면 상의 함수로 일반화합니다. 구면 컨볼루션을 계산하는 가장 정확하고 효율적인 방법은 스펙트럼 영역(컨볼루션 정리를 통해)에서 수행하는 것이지만, 이는 일반적인 평면 컨볼루션보다 여전히 비용이 더 많이 듭니다. 이러한 이유로, 구면 CNN의 응용은 지금까지 낮은 모델 용량으로 접근할 수 있는 작은 문제들로 제한되어 왔습니다. 본 연구에서는 구면 CNN이 훨씬 더 큰 문제들에 적용될 수 있도록 확장하는 방법을 보여줍니다. 이를 위해, 우리는 일반적인 모델 구성 요소의 새로운 변형, 하드웨어 가속기 특성을 활용한 핵심 연산의 구현, 그리고 우리 모델의 특성을 활용한 응용 특화 입력 표현 등 중요한 개선 사항들을 도입했습니다. 실험 결과, 우리의 더 큰 구면 CNN은 이전에 등변 그래프 신경망이 주도했던 QM9 분자 벤치마크의 여러 목표에서 최첨단 성능을 달성했으며, 여러 기상 예측 작업에서도 경쟁력 있는 성능을 보였습니다. 우리의 코드는 https://github.com/google-research/spherical-cnn에서 확인할 수 있습니다.