번역이 포함된 일일 선별된 AI 연구 논문
PaliGemma는 SigLIP-So400m 비전 인코더와 Gemma-2B 언어 모델을 기반으로 한 오픈 소스 비전-언어 모델(VLM)입니다. 이 모델은 전이 학습에 효과적이며 다재다능하고 폭넓은 지식을 갖춘 베이스 모델로 학습되었습니다. PaliGemma는 다양한 오픈월드 작업에서 강력한 성능을 보여줍니다. 우리는 표준 VLM 벤치마크뿐만 아니라 원격 감지 및 세분화와 같은 더 전문적인 작업을 포함하여 거의 40가지의 다양한 작업에 대해 PaliGemma를 평가했습니다.
대규모 언어 모델(LLMs)은 다양한 작업에서 탁월한 성능과 광범위한 잠재력을 보여주고 있습니다. 그러나 저자원 환경에서 고성능 LLMs의 배포는 업계에서 상당한 관심을 받고 있습니다. GPU 하드웨어 자원이 제한적일 때, CPU 상에서의 대안을 탐구할 수 있습니다. 재정적 부담을 완화하고 하드웨어 자원으로 인한 제약을 줄이기 위해, 추론 성능 최적화가 필요합니다. 본 논문에서는 CPU에서 LLMs를 가속화하기 위해 쉽게 배포할 수 있는 추론 성능 최적화 솔루션을 소개합니다. 이 솔루션에서는 정확도를 보장하면서 KV 캐시 크기를 줄이는 효과적인 방법을 구현합니다. 또한, 분산 추론 최적화 접근 방식을 제안하고 이를 oneAPI Collective Communications Library를 기반으로 구현합니다. 더 나아가, CPU 상의 LLMs를 위한 최적화 접근 방식을 제안하고 가장 일반적으로 사용되는 모델에 맞춤형 최적화를 수행합니다. 코드는 https://github.com/intel/xFasterTransformer에서 오픈소스로 제공됩니다.
시각적 명령어 튜닝은 대규모 멀티모달 모델(LMM)의 능력을 향상시키는 데 상당한 진전을 이루었습니다. 그러나 기존의 오픈 소스 LMM들은 주로 단일 이미지 작업에 초점을 맞추고 있으며, 다중 이미지 시나리오에 대한 적용은 아직 덜 탐구된 상태입니다. 또한, 이전의 LMM 연구는 다양한 시나리오를 개별적으로 다루어 새로운 능력을 교차 시나리오로 일반화하는 것이 불가능했습니다. 이를 위해 우리는 LLaVA-NeXT-Interleave를 소개하며, 이 모델은 LMM에서 다중 이미지, 다중 프레임(비디오), 다중 뷰(3D), 그리고 다중 패치(단일 이미지) 시나리오를 동시에 다룹니다. 이러한 능력을 가능하게 하기 위해, 우리는 인터리브 데이터 형식을 일반적인 템플릿으로 간주하고 4개의 주요 도메인에 걸쳐 14개의 작업과 41개의 데이터셋으로 구성된 M4-Instruct 데이터셋을 1,177.6k 샘플로 컴파일했습니다. 또한, LMM의 다중 이미지 성능을 종합적으로 평가하기 위해 LLaVA-Interleave Bench를 구축했습니다. 광범위한 실험을 통해 LLaVA-NeXT-Interleave는 다중 이미지, 비디오, 3D 벤치마크에서 선도적인 결과를 달성하면서도 단일 이미지 작업의 성능을 유지했습니다. 또한, 우리의 모델은 다양한 설정과 모달리티 간의 작업 전환과 같은 여러 새로운 능력을 보여줍니다. 코드는 https://github.com/LLaVA-VL/LLaVA-NeXT에서 확인할 수 있습니다.
우리는 일반 장면의 하나 이상의 이미지와 카메라 포즈 및 타임스탬프 세트를 조건으로 하는 4D 새로운 시점 합성(NVS)을 위한 계단식 확산 모델인 4DiM을 제안합니다. 4D 학습 데이터의 제한된 가용성으로 인한 문제를 극복하기 위해, 우리는 3D(카메라 포즈 포함), 4D(포즈+시간) 및 비디오(시간은 있지만 포즈는 없음) 데이터에 대한 공동 학습을 주장하고 이를 가능하게 하는 새로운 아키텍처를 제안합니다. 또한, 우리는 단안 메트릭 깊이 추정기를 사용하여 SfM 포즈 데이터를 보정하여 메트릭 스케일 카메라 제어를 가능하게 하는 것을 주장합니다. 모델 평가를 위해, 우리는 현재 평가 방식의 단점을 보완하고 풍부하게 하기 위한 새로운 메트릭을 도입하여, 기존의 3D NVS를 위한 확산 모델들과 비교했을 때 충실도와 포즈 제어 모두에서 최첨단 결과를 보여주면서 동시에 시간적 동역학을 처리할 수 있는 능력을 추가합니다. 4DiM은 또한 개선된 파노라마 스티칭, 포즈 조건 비디오 간 변환 및 여러 다른 작업에도 사용됩니다. 개요는 https://4d-diffusion.github.io를 참조하십시오.
비디오 입력에 따라 의미론적 및 시간적으로 정렬된 오디오 콘텐츠를 생성하는 것은 텍스트-비디오 생성 분야에서의 놀라운 돌파구 이후 연구자들의 주요 관심사로 부상했습니다. 본 연구에서는 비디오-오디오 생성 패러다임에 대한 통찰을 제공하고자 하며, 특히 비전 인코더, 보조 임베딩, 데이터 증강 기술이라는 세 가지 중요한 측면에 초점을 맞춥니다. 간단하지만 놀라울 정도로 효과적인 직관에 기반한 기본 모델 VTA-LDM을 시작으로, 다양한 비전 인코더와 보조 임베딩을 ablation 연구를 통해 탐구합니다. 생성 품질과 비디오-오디오 동기화 정렬을 강조하는 포괄적인 평가 파이프라인을 통해, 우리의 모델이 최첨단 비디오-오디오 생성 능력을 보여준다는 것을 입증합니다. 또한, 다양한 데이터 증강 방법이 생성 프레임워크의 전반적인 역량을 향상시키는 데 미치는 영향에 대한 중요한 통찰을 제공합니다. 우리는 의미론적 및 시간적 관점에서 동기화된 오디오를 생성하는 과제를 발전시킬 가능성을 보여줍니다. 이러한 통찰이 보다 현실적이고 정확한 오디오-비주얼 생성 모델 개발을 위한 발판이 되기를 바랍니다.
본 논문에서는 공간적 영역에서 더 많은 디테일을 추가하고 시간적 영역에서 합성된 세부 움직임을 생성함으로써 기존의 텍스트-투-비디오 결과를 개선하는 생성적 시공간 강화 프레임워크인 VEnhancer를 소개합니다. 생성된 저화질 비디오가 주어졌을 때, 우리의 접근 방식은 통합된 비디오 확산 모델을 통해 임의의 업샘플링 공간 및 시간 스케일로 공간적 및 시간적 해상도를 동시에 향상시킬 수 있습니다. 또한, VEnhancer는 생성된 비디오의 공간적 아티팩트와 시간적 깜빡임을 효과적으로 제거합니다. 이를 달성하기 위해, 사전 학습된 비디오 확산 모델을 기반으로 비디오 ControlNet을 학습시키고 이를 저프레임률 및 저해상도 비디오에 대한 조건으로 확산 모델에 주입합니다. 이 비디오 ControlNet을 효과적으로 학습시키기 위해, 시공간 데이터 증강 및 비디오 인식 조건화를 설계했습니다. 이러한 설계 덕분에, VEnhancer는 학습 중 안정성을 유지하며 우아한 종단간 학습 방식을 공유합니다. 광범위한 실험 결과, VEnhancer는 AI 생성 비디오를 강화하는 데 있어 기존의 최첨단 비디오 초해상도 및 시공간 초해상도 방법들을 능가하는 것으로 나타났습니다. 또한, VEnhancer를 통해 기존의 오픈소스 최첨단 텍스트-투-비디오 방법인 VideoCrafter-2는 비디오 생성 벤치마크인 VBench에서 최상위를 차지했습니다.
텍스트-이미지(T2I) 모델의 커스터마이징은 최근 개인화, 스타일화, 조건부 생성과 같은 분야에서 엄청난 진전을 보여왔습니다. 그러나 이러한 진전을 비디오 생성으로 확장하는 것은 여전히 초기 단계에 머물러 있으며, 이는 주로 커스터마이즈된 비디오 데이터의 부족 때문입니다. 본 연구에서는 커스터마이즈된 비디오 데이터 없이도 텍스트-비디오(T2V) 모델을 커스터마이징할 수 있는 새로운 일반 프레임워크인 Still-Moving을 소개합니다. 이 프레임워크는 비디오 모델이 텍스트-이미지(T2I) 모델 위에 구축된(예: 인플레이션을 통해) 주요 T2V 설계에 적용됩니다. 우리는 여전히 이미지 데이터만으로 훈련된 커스터마이즈된 T2I 모델(예: DreamBooth 또는 StyleDrop 사용)에 접근할 수 있다고 가정합니다. 커스터마이즈된 T2I 모델의 가중치를 T2V 모델에 단순히 연결하는 것은 종종 심각한 아티팩트나 커스터마이즈 데이터에 대한 충분한 준수를 이끌어내지 못합니다. 이 문제를 해결하기 위해, 우리는 주입된 T2I 레이어에서 생성된 특징을 조정하는 경량의 공간 어댑터(Spatial Adapters)를 훈련시킵니다. 중요한 것은, 우리의 어댑터가 커스터마이즈된 T2I 모델에 의해 생성된 이미지 샘플로부터 구성된 "고정된 비디오"(즉, 반복된 이미지)에서 훈련된다는 점입니다. 이 훈련은 새로운 모션 어댑터(Motion Adapter) 모듈에 의해 가능해지며, 이를 통해 정적 비디오에서도 비디오 모델의 모션 사전 지식을 보존하면서 훈련할 수 있습니다. 테스트 시에는 모션 어댑터 모듈을 제거하고 훈련된 공간 어댑터만 남겨둡니다. 이는 T2V 모델의 모션 사전 지식을 복원하면서도 커스터마이즈된 T2I 모델의 공간 사전 지식을 준수합니다. 우리는 개인화, 스타일화, 조건부 생성과 같은 다양한 작업에서 우리의 접근 방식의 효과를 입증합니다. 평가된 모든 시나리오에서, 우리의 방법은 커스터마이즈된 T2I 모델의 공간 사전 지식과 T2V 모델이 제공하는 모션 사전 지식을 원활하게 통합합니다.
대규모 사전 학습 언어 모델(LMs)은 "세계에 대한 정신적 모델"을 가지고 있지 않기 때문에(Bender와 Koller, 2020), "발화를 세계와 연결하는 능력이 부족하다"고 평가받습니다(Mitchell과 Krakauer, 2023). 그렇다면 언어 모델의 표현이 시각 모델에 의해 유도된 표현과 관련이 없을 것으로 예상할 수 있습니다. 우리는 네 가지 언어 모델 계열(BERT, GPT-2, OPT, LLaMA-2)과 세 가지 시각 모델 아키텍처(ResNet, SegFormer, MAE)를 대상으로 실증적 평가를 수행했습니다. 실험 결과, 언어 모델의 표현이 분산, 다의성 및 빈도에 따라 시각 모델의 표현과 부분적으로 동형(isomorphic)으로 수렴하는 것을 확인했습니다. 이는 다중 모달 처리와 언어 모델 이해 논쟁(Mitchell과 Krakauer, 2023) 모두에 중요한 함의를 지닙니다.
기존의 비전-텍스트 대조 학습 모델은 짝을 이루는 이미지와 캡션 임베딩을 매칭하면서 관련 없는 쌍을 멀리 밀어내는 방식으로 표현 전이성을 향상시키고 제로샷 예측을 지원합니다. 그러나 천문학적 이미지-레이블 데이터셋은 인터넷에서 얻을 수 있는 일반적인 이미지 및 레이블 데이터셋에 비해 상당히 작습니다. 우리는 사전 훈련된 CLIP 모델을 SpaceNet과 BLIP 기반 캡션을 사용해 정밀하게 미세 조정한 천문학적 이미지-텍스트 대조 학습 프레임워크인 CosmoCLIP을 소개합니다. FLARE를 통해 얻은 SpaceNet은 약 13,000개의 최적 분포 이미지로 구성되며, BLIP은 풍부한 지식 추출기 역할을 합니다. 이 SpaceNet과 BLIP 설명에서 도출된 풍부한 의미론을 대조적으로 학습함으로써 CosmoCLIP은 다양한 도메인 내 및 도메인 외 작업에서 우수한 일반화 성능을 달성할 수 있습니다. 우리의 결과는 CosmoCLIP이 간단하면서도 강력한 프레임워크로서, 제로샷 분류 및 이미지-텍스트 검색 작업에서 CLIP을 크게 능가함을 보여줍니다.
본 논문에서는 코드 생성 테스트 세트의 오염 문제, 특히 현대의 대규모 언어 모델에서의 사용과 관련된 문제를 고려합니다. 우리는 이러한 오염의 세 가지 가능한 원인을 논의하고 각각을 뒷받침하는 연구 결과를 제시합니다: (i) 직접적인 데이터 유출, (ii) 합성 데이터 사용을 통한 간접적인 데이터 유출, 그리고 (iii) 모델 선택 과정에서 평가 세트에 대한 과적합. 우리의 연구 결과의 핵심은 161개의 프롬프트와 이에 해당하는 파이썬 솔루션으로 구성된 새로운 데이터셋이며, 이 데이터셋은 https://huggingface.co/datasets/CohereForAI/lbpp 에 공개되었습니다.
우리는 다양한 작업을 소통, 계획 및 실행하기 위한 로봇 학습 방법을 제안하며, 이를 'This&That'이라 명명합니다. 우리는 인터넷 규모의 데이터로 학습된 비디오 생성 모델의 힘을 활용하여 일반적인 작업에 대한 로봇 계획을 달성합니다. 이 데이터는 풍부한 물리적 및 의미론적 맥락을 포함하고 있습니다. 본 연구에서 우리는 비디오 기반 계획에서의 세 가지 근본적인 문제를 해결합니다: 1) 간단한 인간 지시로 명확한 작업 소통, 2) 사용자 의도를 존중하는 제어 가능한 비디오 생성, 3) 시각적 계획을 로봇 동작으로 변환. 우리는 기존의 언어만을 사용한 방법보다 더 간단하고 명확한 언어-제스처 조건화를 통해 비디오를 생성하는 방법을 제안하며, 특히 복잡하고 불확실한 환경에서 더 효과적입니다. 그런 다음, 비디오 계획을 원활하게 통합하는 행동 복제 설계를 제안합니다. 'This&That'은 위의 세 가지 문제를 해결하는 데 있어 최첨단의 효과를 입증하며, 일반화 가능한 작업 계획 및 실행을 위한 중간 표현으로서 비디오 생성의 사용을 정당화합니다. 프로젝트 웹사이트: https://cfeng16.github.io/this-and-that/.
웹 크롤링 데이터에 대해 분류기를 학습시키기 위해서는 주석 오류와 관련 없는 예제에 강건한 학습 알고리즘이 필요합니다. 본 논문은 최근의 실험적 관찰을 기반으로, 노이즈가 있는 웹 크롤링 데이터셋에 비지도 대조 학습(unsupervised contrastive learning)을 적용하면, 분포 내(ID)와 분포 외(OOD) 샘플이 선형적으로 분리 가능한 특징 표현이 얻어진다는 점을 활용합니다. 우리는 분리 초평면(separating hyperplane)을 직접 추정하는 것이 OOD 샘플을 정확하게 탐지할 수 있음을 보여주지만, 놀랍게도 이 탐지가 분류 정확도 향상으로 이어지지 않음을 확인했습니다. 이 현상을 더 깊이 파고들어, 우리는 거의 완벽한 탐지가 지도 학습에 유용한 일종의 깨끗한 예제를 놓치고 있음을 발견했습니다. 이러한 예제는 종종 시각적으로 단순한 이미지를 나타내며, 비지도 학습을 사용하여 OOD 분포와 잘 분리되지 않더라도 표준 손실 기반 또는 거리 기반 방법을 사용하여 깨끗한 예제로 식별하기가 상대적으로 쉽습니다. 또한 SOTA(State-of-the-Art) 지표와의 상관관계가 낮다는 점을 관찰함에 따라, 우리는 선형 분리를 통한 노이즈 탐지와 SOTA 소손실(small-loss) 접근법을 번갈아 사용하는 하이브리드 솔루션을 제안합니다. 이를 SOTA 알고리즘인 PLS와 결합함으로써, 웹 노이즈가 존재하는 실제 이미지 분류에서 SOTA 결과를 크게 개선했습니다. github.com/PaulAlbert31/LSA
우리는 모바일 양손 로봇 조작을 위한 새로운 벤치마크 및 학습 환경인 BiGym을 소개합니다. BiGym은 가정 환경에서 설정된 40가지 다양한 작업을 포함하며, 단순한 목표 도달에서 복잡한 주방 청소까지 다양한 난이도를 다룹니다. 실제 세계의 성능을 정확하게 반영하기 위해, 각 작업에 대해 인간이 수집한 데모를 제공하며, 이는 실제 로봇 궤적에서 발견되는 다양한 양상을 반영합니다. BiGym은 고유수용성 데이터와 RGB, 깊이 정보 등 3개의 카메라 뷰에서의 시각적 입력을 포함한 다양한 관측을 지원합니다. BiGym의 유용성을 검증하기 위해, 우리는 환경 내에서 최신의 모방 학습 알고리즘과 데모 기반 강화 학습 알고리즘을 철저히 벤치마크하고, 향후 기회에 대해 논의합니다.
군중 모션 생성(Crowd Motion Generation)은 애니메이션 및 게임과 같은 엔터테인먼트 산업뿐만 아니라 도시 시뮬레이션 및 계획과 같은 전략적 분야에서 필수적인 기술입니다. 이 새로운 과제는 특정 공간 및 의미론적 제약 하에서 군중 역학을 현실적으로 합성하기 위해 제어와 생성을 복잡하게 통합해야 하며, 그 도전 과제들은 아직 완전히 탐구되지 않았습니다. 한편, 기존의 인간 모션 생성 모델은 주로 개별 행동에 초점을 맞추어 집단 행동의 복잡성을 간과하는 경향이 있습니다. 다른 한편, 최근의 다중 인물 모션 생성 방법들은 사전 정의된 시나리오에 크게 의존하며 고정된 소수의 상호작용으로 제한되어 실용성을 저해하고 있습니다. 이러한 문제를 극복하기 위해, 우리는 CrowdMoGen을 소개합니다. 이는 대규모 언어 모델(LLM)의 힘을 활용하여 집단 지능을 모션 생성 프레임워크에 가이드로 통합함으로써, 짝을 이루는 훈련 데이터 없이도 군중 모션의 일반화 가능한 계획과 생성을 가능하게 하는 제로샷 텍스트 기반 프레임워크입니다. 우리의 프레임워크는 두 가지 주요 구성 요소로 이루어져 있습니다: 1) 특정 장면 컨텍스트나 도입된 교란에 따라 모션과 역학을 조율하는 Crowd Scene Planner, 그리고 2) 전체적인 계획을 기반으로 필요한 집단 모션을 효율적으로 합성하는 Collective Motion Generator. 광범위한 정량적 및 정성적 실험을 통해 우리 프레임워크의 효과성이 검증되었으며, 이는 군중 모션 생성 과제에 대한 확장 가능하고 일반화 가능한 솔루션을 제공함으로써 중요한 공백을 메우는 동시에 높은 수준의 현실감과 유연성을 달성합니다.