번역이 포함된 일일 선별된 AI 연구 논문
고품질의 명령어 데이터는 대규모 언어 모델(LLM)을 정렬(alignment)하는 데 있어 매우 중요합니다. Llama-3-Instruct와 같은 일부 모델은 가중치를 공개하고 있지만, 정렬 데이터는 여전히 비공개 상태로 남아 있어 AI의 민주화를 저해하고 있습니다. 높은 인적 노동 비용과 제한적이며 미리 정의된 프롬프트 범위로 인해 기존의 오픈소스 데이터 생성 방법은 효과적으로 확장되지 못하고 있으며, 이는 공개 정렬 데이터셋의 다양성과 품질을 제한할 가능성이 있습니다. 정렬된 LLM에서 직접 고품질의 명령어 데이터를 대규모로 추출하여 합성하는 것이 가능할까요? 우리는 Magpie라는 대규모 정렬 데이터를 생성하기 위한 자기 합성(self-synthesis) 방법을 제시합니다. 우리의 핵심 관찰은 Llama-3-Instruct와 같은 정렬된 LLM이 사용자 메시지를 위한 위치까지의 왼쪽 템플릿만 입력해도 자동 회귀(autoregressive) 특성 덕분에 사용자 쿼리를 생성할 수 있다는 것입니다. 우리는 이 방법을 사용하여 Llama-3-Instruct를 프롬프트하고 400만 개의 명령어와 그에 상응하는 응답을 생성했습니다. 추출된 데이터에 대해 포괄적인 분석을 수행한 후 30만 개의 고품질 인스턴스를 선별했습니다. Magpie 데이터를 다른 공개 명령어 데이터셋과 비교하기 위해, 각 데이터셋으로 Llama-3-8B-Base를 미세 조정(fine-tune)하고 미세 조정된 모델의 성능을 평가했습니다. 우리의 결과는 일부 작업에서 Magpie로 미세 조정된 모델이 1천만 개의 데이터 포인트를 지도 학습(supervised fine-tuning, SFT)과 후속 피드백 학습을 통해 강화된 공식 Llama-3-8B-Instruct와 비슷한 성능을 보인다는 것을 나타냅니다. 또한, Magpie를 SFT에만 사용하는 것이 UltraFeedback를 이용한 직접 선호 최적화(direct preference optimization)와 같은 이전의 공개 데이터셋을 SFT와 선호 최적화에 모두 사용한 경우를 능가할 수 있음을 보여줍니다. 이러한 이점은 AlpacaEval, ArenaHard, WildBench와 같은 정렬 벤치마크에서 명확하게 나타납니다.
우리는 입력 비디오를 표현하기 위해 고품질의 자연스러운 정규 이미지를 생성하기 위해 하이브리드 변형 필드와 확산 사전 정보를 통합한 비디오 편집 프레임워크인 NaRCan을 제안합니다. 우리의 접근 방식은 전역 모션을 모델링하기 위해 호모그래피를 사용하고, 지역 잔차 변형을 포착하기 위해 다층 퍼셉트론(MLP)을 활용함으로써 복잡한 비디오 동역학을 처리하는 모델의 능력을 향상시킵니다. 학습 초기 단계부터 확산 사전 정보를 도입함으로써, 우리의 모델은 생성된 이미지가 고품질의 자연스러운 외관을 유지하도록 보장하여, 현재의 정규 기반 방법들로는 달성할 수 없는 다양한 비디오 편집 하위 작업에 적합한 정규 이미지를 생성합니다. 또한, 우리는 저순위 적응(LoRA) 미세 조정을 통합하고, 노이즈 및 확산 사전 정보 업데이트 스케줄링 기법을 도입하여 학습 과정을 14배 가속화합니다. 광범위한 실험 결과는 우리의 방법이 다양한 비디오 편집 작업에서 기존 접근법들을 능가하며, 일관성 있고 고품질의 편집된 비디오 시퀀스를 생성함을 보여줍니다. 비디오 결과는 프로젝트 페이지(https://koi953215.github.io/NaRCan_page/)에서 확인할 수 있습니다.
웹에서 크롤링된 이미지-텍스트 쌍은 본질적으로 노이즈가 포함되어 있습니다. 선행 연구에 따르면, 이러한 쌍의 텍스트 설명을 의미론적으로 정렬하고 풍부하게 하는 것이 다양한 시각-언어 작업, 특히 텍스트-이미지 생성 작업에서 모델 훈련을 크게 향상시킬 수 있음이 입증되었습니다. 그러나 이 분야의 대규모 연구는 주로 비공개로 진행되고 있습니다. 본 논문은 이러한 커뮤니티의 노력을 이어가기 위해, GPT-4 수준의 대형 언어 모델인 LLaMA-3를 활용합니다. 우리의 재캡션 파이프라인은 간단합니다: 먼저, LLaMA-3-8B 기반의 LLaVA-1.5를 미세 조정한 후, 이를 사용하여 DataComp-1B 데이터셋의 13억 개 이미지에 대해 재캡션을 수행합니다. 실험 결과, 이렇게 개선된 데이터셋인 Recap-DataComp-1B가 고급 시각-언어 모델 훈련에 상당한 이점을 제공함이 확인되었습니다. CLIP과 같은 판별 모델의 경우, 교차 모달 검색 작업에서 제로샷 성능이 향상되었습니다. 텍스트-이미지 Diffusion Transformer와 같은 생성 모델의 경우, 생성된 이미지가 사용자의 텍스트 지시, 특히 복잡한 쿼리를 따르는 데 있어 상당한 개선을 보였습니다. 프로젝트 페이지는 https://www.haqtu.me/Recap-Datacomp-1B/에서 확인할 수 있습니다.
모션 기반 제어 가능 텍스트-투-비디오 생성은 비디오 생성을 제어하기 위해 모션을 활용합니다. 기존 방법들은 일반적으로 모션 큐를 인코딩하기 위한 모델 학습이나 비디오 확산 모델의 미세 조정을 필요로 했습니다. 그러나 이러한 접근 방식들은 훈련된 도메인 외부에서 적용될 때 최적의 모션 생성을 달성하지 못하는 경우가 많았습니다. 본 연구에서는 참조 비디오에서 모션을 복제하여 텍스트-투-비디오 생성을 제어할 수 있는 훈련이 필요 없는 프레임워크인 MotionClone을 제안합니다. 우리는 비디오 인버전에서 시간적 주의 메커니즘을 사용하여 참조 비디오의 모션을 표현하고, 주의 가중치 내의 잡음이나 매우 미세한 모션의 영향을 완화하기 위해 기본 시간적 주의 가이던스를 도입했습니다. 또한, 생성 모델이 합리적인 공간 관계를 합성하고 프롬프트 준수 능력을 향상시키도록 돕기 위해, 참조 비디오에서 전경의 대략적인 위치와 원래의 분류자 없는 가이던스 특징을 활용하여 비디오 생성을 안내하는 위치 인식 의미 가이던스 메커니즘을 제안했습니다. 광범위한 실험을 통해 MotionClone이 전역 카메라 모션과 지역 객체 모션 모두에서 능숙함을 보이며, 모션 충실도, 텍스트 정렬, 시간적 일관성 측면에서 뛰어난 우수성을 보임을 입증했습니다.
최근 몇 년간 3D 생성 모델의 급속한 발전으로 인해 3D 객체의 동적 움직임을 시뮬레이션하고 그 행동을 맞춤화하는 등의 새로운 응용 가능성이 열렸다. 그러나 현재의 3D 생성 모델은 색상과 형태와 같은 표면적 특징에만 초점을 맞추는 경향이 있어, 실제 세계에서 객체의 행동을 지배하는 내재된 물리적 속성을 간과하고 있다. 물리학적으로 정렬된 동역학을 정확하게 시뮬레이션하기 위해서는 재료의 물리적 속성을 예측하고 이를 행동 예측 과정에 통합하는 것이 필수적이다. 그럼에도 불구하고, 실제 세계 객체의 다양한 재료를 예측하는 것은 그 물리적 속성의 복잡성으로 인해 여전히 어려운 과제로 남아 있다. 본 논문에서는 비디오 확산 모델을 통해 3D 객체의 다양한 물리적 속성을 학습하는 새로운 방법인 Physics3D를 제안한다. 우리의 접근 방식은 점탄성 재료 모델을 기반으로 한 높은 일반화 가능성을 가진 물리 시뮬레이션 시스템을 설계하는 것으로, 이를 통해 다양한 재료를 고해상도로 시뮬레이션할 수 있다. 또한, 현실적인 객체 재료에 대한 더 깊은 이해를 포함하고 있는 비디오 확산 모델로부터 물리적 사전 지식을 추출한다. 광범위한 실험을 통해 우리의 방법이 탄성 및 소성 재료 모두에서 효과적임을 입증하였다. Physics3D는 물리적 세계와 가상 신경 공간 간의 간극을 줄이는 데 큰 잠재력을 보여주며, 가상 환경에서 현실적인 물리 법칙의 더 나은 통합과 응용을 제공한다. 프로젝트 페이지: https://liuff19.github.io/Physics3D.
본 논문은 스마트폰에서 대규모 언어 모델(LLM)의 고속 추론을 위해 설계된 PowerInfer-2 프레임워크를 소개합니다. 특히, 이 프레임워크는 모델 크기가 장치의 메모리 용량을 초과하는 경우에 효과적으로 작동합니다. PowerInfer-2의 핵심 통찰은 스마트폰의 이기종 계산, 메모리 및 I/O 자원을 활용하기 위해 기존의 행렬 계산을 세분화된 뉴런 클러스터 계산으로 분해하는 것입니다. 구체적으로, PowerInfer-2는 LLM 추론의 다양한 단계에 맞춰 계산 전략을 조정하는 다형성 뉴런 엔진을 특징으로 합니다. 또한, 세그먼트된 뉴런 캐싱과 세분화된 뉴런 클러스터 수준의 파이프라이닝을 도입하여 I/O 작업으로 인한 오버헤드를 효과적으로 최소화하고 숨깁니다. PowerInfer-2의 구현 및 평가 결과, 두 대의 스마트폰에서 다양한 LLM 모델을 지원하며 최신 프레임워크 대비 최대 29.2배의 속도 향상을 달성할 수 있음을 보여줍니다. 특히, PowerInfer-2는 스마트폰에서 TurboSparse-Mixtral-47B 모델을 초당 11.68 토큰의 생성 속도로 서비스하는 최초의 시스템입니다. 메모리에 완전히 적합한 모델의 경우, PowerInfer-2는 llama.cpp 및 MLC-LLM과 비슷한 추론 속도를 유지하면서 메모리 사용량을 약 40% 줄일 수 있습니다. 더 자세한 내용과 데모 비디오는 프로젝트 사이트(www.powerinfer.ai/v2)에서 확인할 수 있습니다.
그렇지 않을 수도 있습니다. 우리는 대규모 다중 작업 언어 이해(Massive Multitask Language Understanding, MMLU) 벤치마크에서 발생하는 오류를 식별하고 분석했습니다. MMLU가 널리 채택되고 있음에도 불구하고, 우리의 분석은 대형 언어 모델(LLM)의 진정한 능력을 가리는 수많은 정답 오류를 보여줍니다. 예를 들어, 바이러스학(Virology) 하위 집합에서 분석된 질문의 57%가 오류를 포함하고 있음을 발견했습니다. 이 문제를 해결하기 위해, 우리는 새로운 오류 분류 체계를 사용하여 데이터셋 오류를 식별하기 위한 포괄적인 프레임워크를 소개합니다. 그런 다음, MMLU의 30개 주제에 걸쳐 3,000개의 질문을 수동으로 재주석한 MMLU-Redux를 생성했습니다. MMLU-Redux를 사용하여, 원래 보고된 모델 성능 지표와의 상당한 차이를 입증했습니다. 우리의 결과는 MMLU의 오류가 많은 질문을 수정하여 향후 벤치마크로서의 유용성과 신뢰성을 높일 것을 강력히 권장합니다. 따라서, 우리는 추가 주석을 위해 MMLU-Redux를 공개합니다: https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
본 논문에서는 비디오 및 오디오 중심 작업에서 시공간 모델링과 오디오 이해를 강화하기 위해 설계된 Video Large Language Models(Video-LLMs)인 VideoLLaMA 2를 소개합니다. 전작을 기반으로 한 VideoLLaMA 2는 비디오 데이터의 복잡한 시공간 역학을 효과적으로 포착하는 맞춤형 시공간 컨볼루션(STC) 커넥터를 통합했습니다. 또한, 공동 학습을 통해 모델에 오디오 브랜치를 통합함으로써 오디오 신호를 원활하게 포함시켜 모델의 다중모드 이해 능력을 풍부하게 했습니다. 객관식 비디오 질의응답(MC-VQA), 자유형 비디오 질의응답(OE-VQA), 비디오 캡셔닝(VC) 작업에 대한 포괄적인 평가 결과, VideoLLaMA 2는 오픈소스 모델 중에서 꾸준히 경쟁력 있는 성과를 달성했으며, 여러 벤치마크에서 일부 독점 모델에 근접하는 성능을 보였습니다. 더 나아가, VideoLLaMA 2는 기존 모델 대비 오디오 전용 및 오디오-비디오 질의응답(AQA & OE-AVQA) 벤치마크에서 합리적인 개선을 보였습니다. 이러한 발전은 VideoLLaMA 2의 우수한 다중모드 이해 성능을 강조하며, 지능형 비디오 분석 시스템에 새로운 기준을 제시합니다. 모든 모델은 추가 연구를 촉진하기 위해 공개되었습니다.
언어와 3D 인식의 통합은 물리적 세계를 이해하고 상호작용하는 구현형 에이전트와 로봇을 개발하는 데 중요합니다. 대규모 언어 모델(LLM)은 인상적인 언어 이해 및 생성 능력을 보여주었지만, 3D 환경(3D-LLM)에의 적용은 아직 초기 단계에 머물러 있습니다. 주요 과제 중 하나는 언어와 3D 장면 간의 밀집된 연결을 제공하는 대규모 데이터셋의 부재입니다. 본 논문에서는 40,087개의 가정용 장면과 6.2백만 개의 밀집된 장면-언어 지침으로 구성된 선구적인 대규모 데이터셋인 3D-GRAND를 소개합니다. 우리의 결과는 3D-GRAND를 사용한 지침 튜닝이 3D-LLM의 연결 능력을 크게 향상시키고 환각 현상을 줄이는 것을 보여줍니다. 또한, 3D-LLM의 환각 현상을 체계적으로 평가하기 위한 포괄적인 벤치마크인 3D-POPE를 제안하여 향후 모델 간의 공정한 비교를 가능하게 합니다. 우리의 실험은 데이터셋 크기와 3D-LLM 성능 간의 스케일링 효과를 강조하며, 대규모 3D-텍스트 데이터셋이 구현형 AI 연구를 발전시키는 데 중요한 역할을 한다는 점을 강조합니다. 특히, 대규모 합성 데이터로 훈련된 모델이 실제 3D 스캔에서도 잘 작동할 수 있다는 효과적인 시뮬레이션-투-리얼 전이의 초기 신호를 보여줍니다. 3D-GRAND와 3D-POPE를 통해, 우리는 구현형 AI 커뮤니티에 필수적인 리소스와 통찰력을 제공하여 더 신뢰할 수 있고 잘 연결된 3D-LLM의 기반을 마련하고자 합니다. 프로젝트 웹사이트: https://3d-grand.github.io
멀티모달 언어 모델(MLLMs)은 "세계 모델"의 새로운 능력, 즉 복잡한 현실 세계의 역학을 해석하고 추론하는 능력을 보여줍니다. 이러한 능력을 평가하기 위해 우리는 비디오가 현실 세계의 역학과 인과관계를 풍부하게 담아내는 이상적인 매체라고 주장합니다. 이를 위해 우리는 다학제적이고 다면적인 멀티모달 비디오 이해를 위한 새로운 벤치마크인 MMWorld를 소개합니다. MMWorld는 두 가지 독특한 장점으로 기존의 비디오 이해 벤치마크와 차별화됩니다: (1) 다학제적 접근으로, 종종 도메인 전문 지식이 필요한 다양한 학문 분야를 포괄하며; (2) 다면적 추론으로, 설명, 반사실적 사고, 미래 예측 등을 포함합니다. MMWorld는 전체 비디오에 대한 질문으로 MLLMs를 평가하기 위한 인간이 주석을 단 데이터셋과 단일 지각 모달리티 내에서 MLLMs를 분석하기 위한 합성 데이터셋으로 구성됩니다. MMWorld는 총 7개의 주요 학문 분야와 69개의 하위 분야에 걸쳐 1,910개의 비디오와 6,627개의 질문-답변 쌍 및 관련 캡션을 포함합니다. 평가에는 2개의 독점 모델과 10개의 오픈소스 MLLMs가 포함되었으며, 이들은 MMWorld에서 어려움을 겪습니다(예: GPT-4V가 가장 좋은 성적을 보였지만 정확도는 52.3%에 불과함). 이는 개선의 여지가 크다는 것을 보여줍니다. 추가적인 절제 연구는 모델들이 인간과 다른 기술 세트를 가지고 있다는 흥미로운 발견을 드러냅니다. 우리는 MMWorld가 비디오에서의 세계 모델 평가를 위한 중요한 단계로 자리 잡기를 바랍니다.
활성화 희소성을 활용하는 것은 대규모 언어 모델(LLM)의 추론 과정을 성능 저하 없이 크게 가속화할 수 있는 유망한 접근법입니다. 그러나 활성화 희소성은 활성화 함수에 의해 결정되며, SwiGLU나 GeGLU와 같이 널리 사용되는 함수들은 제한된 희소성만을 보입니다. 단순히 이러한 함수를 ReLU로 대체하는 것은 충분한 희소성을 달성하지 못합니다. 또한, 부적절한 학습 데이터는 성능 저하의 위험을 더욱 증가시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 LLM의 활성화 희소성을 개선하기 위해 설계된 새로운 dReLU 함수와 효과적인 희소화를 촉진하는 고품질 학습 데이터 혼합 비율을 제안합니다. 더불어, Mixture-of-Experts(MoE) 모델의 Feed-Forward Network(FFN) 전문가 내에서의 희소 활성화 패턴을 활용하여 효율성을 더욱 증대시킵니다. 우리의 뉴런 희소화 방법을 Mistral과 Mixtral 모델에 적용한 결과, 각각 25억 개와 43억 개의 매개변수만이 추론 반복마다 활성화되면서도 더 강력한 모델 성능을 달성했습니다. 평가 결과는 이러한 희소성이 디코딩 속도를 2-5배 가속화함을 보여줍니다. 특히, 모바일 기기에서 우리의 TurboSparse-Mixtral-47B는 초당 11개의 토큰을 처리하는 추론 속도를 달성했습니다. 우리의 모델은 https://huggingface.co/PowerInfer에서 확인할 수 있습니다.
최근 전문 디자이너들의 전통적인 영역이었던 예술적 폰트 제작에 현대적인 확산 기반(diffusion-based) 텍스트-이미지 생성 모델을 적용하는 사례가 큰 관심을 끌고 있습니다. 기존 대부분의 연구가 예술적 타이포그래피 생성에 집중한 것과 달리, 본 연구는 더 새롭고 까다로운 과제인 다국어 폰트를 위한 텍스트 효과 생성에 주목합니다. 이 작업은 본질적으로 전통적인 직사각형 캔버스가 아닌 폰트 형태의 캔버스 내에서 일관되고 통일된 시각적 콘텐츠를 생성하는 것을 요구합니다. 이를 해결하기 위해, 우리는 주어진 형태를 해석하고 불규칙한 캔버스 내에서 픽셀 분포를 전략적으로 계획할 수 있는 새로운 형태 적응형 확산 모델을 제안합니다. 이를 위해 고품질의 형태 적응형 이미지-텍스트 데이터셋을 구축하고, 불규칙 캔버스 내에서 이미지 생성 과정을 안내하기 위해 시각적 조건으로 세그멘테이션 마스크를 활용합니다. 이 접근법은 전통적인 직사각형 캔버스 기반의 확산 모델이 제공된 기하학적 형태에 따라 원하는 개념을 생성할 수 있도록 합니다. 둘째, 여러 글자 간의 일관성을 유지하기 위해, 생성된 참조 글자의 질감을 다른 글자로 전달하는 학습이 필요 없는 형태 적응형 효과 전달 방법을 제시합니다. 이 방법의 핵심은 폰트 효과 노이즈 사전을 구축하고, 연결된 잠재 공간에서 폰트 효과 정보를 전파하는 것입니다. 우리의 FontStudio 시스템의 효용성은 사용자 선호도 연구를 통해 확인되었으며, 최신의 경쟁사 상용 제품인 Adobe Firefly와 비교했을 때도 미적 측면에서 78%의 승률로 뚜렷한 선호를 보였습니다.
최근 Diffusion Transformer(DiT)는 이미지, 비디오, 오디오를 포함한 고품질 단일 모달리티 콘텐츠 생성에서 인상적인 성능을 보여주었습니다. 그러나 트랜스포머 기반 디퓨저가 우수한 다중 모달리티 콘텐츠 생성을 위해 가우시안 노이즈를 효율적으로 제거할 수 있는지에 대한 연구는 아직 미흡합니다. 이러한 격차를 해소하기 위해, 우리는 고품질의 현실적인 비디오를 시각 및 오디오 트랙과 함께 생성하기 위해 설계된 새로운 효율적인 오디오-비주얼 디퓨전 트랜스포머인 AV-DiT를 소개합니다. 모델 복잡성과 계산 비용을 최소화하기 위해, AV-DiT는 이미지 전용 데이터로 사전 학습된 공유 DiT 백본을 활용하며, 가볍게 삽입된 새로운 어댑터만 학습 가능합니다. 이 공유 백본은 오디오와 비디오 생성을 모두 가능하게 합니다. 구체적으로, 비디오 브랜치는 시간적 일관성을 위해 고정된 사전 학습된 DiT 블록에 학습 가능한 시간적 어텐션 레이어를 통합합니다. 또한, 소수의 학습 가능한 파라미터가 이미지 기반 DiT 블록을 오디오 생성에 적응시킵니다. 경량 파라미터로 구성된 추가 공유 DiT 블록은 오디오와 시각 모달리티 간의 특징 상호작용을 촉진하여 정렬을 보장합니다. AIST++ 및 Landscape 데이터셋에 대한 광범위한 실험을 통해 AV-DiT가 훨씬 적은 튜닝 가능 파라미터로 오디오-비주얼 공동 생성에서 최첨단 성능을 달성함을 입증했습니다. 더 나아가, 우리의 결과는 단일 공유 이미지 생성 백본과 모달리티별 적응만으로도 오디오-비디오 공동 생성기를 구축하는 데 충분함을 강조합니다. 우리의 소스 코드와 사전 학습된 모델은 공개될 예정입니다.
오프라인 선호도 최적화는 대규모 언어 모델(LLM) 출력의 품질을 향상하고 제어하는 핵심 방법입니다. 일반적으로 선호도 최적화는 수작업으로 설계된 볼록 손실 함수를 사용한 오프라인 지도 학습 작업으로 접근됩니다. 이러한 방법들은 이론적 통찰에 기반을 두고 있지만, 본질적으로 인간의 창의성에 의해 제약을 받기 때문에 가능한 손실 함수의 광범위한 탐색 공간은 여전히 충분히 탐구되지 않고 있습니다. 우리는 이 문제를 해결하기 위해 LLM 기반 목적 함수 발견을 수행하여 (전문가) 인간의 개입 없이 새로운 최첨단 선호도 최적화 알고리즘을 자동으로 발견합니다. 구체적으로, 우리는 이전에 평가된 성능 지표를 기반으로 새로운 선호도 최적화 손실 함수를 제안하고 구현하도록 LLM을 반복적으로 프롬프트합니다. 이 과정을 통해 이전에 알려지지 않았던 고성능 선호도 최적화 알고리즘을 발견하게 됩니다. 이 중 가장 성능이 뛰어난 알고리즘을 우리는 Discovered Preference Optimization (DiscoPOP)이라고 명명하며, 이는 로지스틱 손실과 지수 손실을 적응적으로 혼합한 새로운 알고리즘입니다. 실험을 통해 DiscoPOP의 최첨단 성능과 보류된 작업으로의 성공적인 전이를 입증합니다.
확산 모델(Diffusion models)은 이미지 및 비디오 합성 분야에서 뛰어난 성능을 입증해 왔습니다. 그러나 이를 고해상도 입력으로 확장하는 것은 어려운 과제이며, 확산 파이프라인을 여러 독립적인 구성 요소로 재구성해야 하기 때문에 확장성을 제한하고 다운스트림 애플리케이션을 복잡하게 만듭니다. 이는 훈련 중 매우 효율적이며 고해상도 비디오에서의 종단 간(end-to-end) 최적화를 가능하게 합니다. 우리는 PDM(확산 모델)을 두 가지 원칙적인 방법으로 개선했습니다. 첫째, 패치 간 일관성을 강화하기 위해 저해상도에서 고해상도 패치로 컨텍스트 정보를 계층적으로 전파하는 심층 컨텍스트 융합(deep context fusion)이라는 아키텍처 기법을 개발했습니다. 둘째, 훈련 및 추론 속도를 높이기 위해 거친 이미지 세부 사항에 더 많은 네트워크 용량과 계산을 할당하는 적응형 계산(adaptive computation)을 제안했습니다. 결과적으로, 이 모델은 UCF-101 256^2 데이터셋에서 클래스 조건부 비디오 생성 분야에서 66.32의 FVD 점수와 87.68의 Inception 점수를 달성하여 최신 방법을 100% 이상 능가하는 새로운 최첨단 성능을 기록했습니다. 또한, 이 모델은 36x64 저해상도 생성기에서 고해상도 64x288x512 텍스트-투-비디오 합성을 위해 빠르게 미세 조정될 수 있음을 보여줍니다. 우리가 아는 한, 이 모델은 이러한 고해상도에서 완전히 종단 간으로 훈련된 최초의 확산 기반 아키텍처입니다. 프로젝트 웹페이지: https://snap-research.github.io/hpdm.
고해상도로 명확하게 보는 것은 대규모 멀티모달 모델(LMM)의 기초로, 시각적 인식과 추론에 필수적임이 입증되었습니다. 기존 연구들은 일반적으로 전역(global)과 지역(local) 분기를 포함하는 단순한 해상도 확대 방법을 사용해 왔는데, 여기서 지역 분기는 이미지 패치를 잘라내되 전역 분기와 동일한 해상도로 크기를 조정한 것입니다. 이는 더 높은 해상도가 더 많은 지역 패치를 필요로 하여 과도한 계산 비용을 초래하며, 동시에 지역 이미지 토큰의 우세가 전역 문맥을 약화시킬 수 있다는 것을 의미합니다. 본 논문에서는 이러한 문제를 심층적으로 분석하고 새로운 프레임워크와 정교한 최적화 전략을 제안합니다. 구체적으로, 우리는 다양한 어댑터가 서로 다른 작업에서 뛰어난 성능을 보인다는 관찰에 기반하여 전역 뷰에서 컨텍스트 정보를 추출하기 위해 어댑터 혼합 방식을 사용합니다. 지역 패치에 관해서는 학습 가능한 쿼리 임베딩을 도입하여 이미지 토큰 수를 줄이고, 사용자 질문과 가장 관련이 중요한 토큰들은 유사도 기반 선택기를 통해 추가로 선별합니다. 우리의 실험 결과는 '적을수록 더 많다'는 패턴을 보여주는데, 더 적지만 더 유익한 지역 이미지 토큰을 사용함으로써 성능이 향상되는 것을 입증합니다. 또한, 전역 마이닝 블록과 지역 압축 블록을 동시에 종단 간(end-to-end)으로 학습시키는 것이 최적의 결과를 내지 못한다는 점이 중요한 도전 과제로 남아 있습니다. 따라서 우리는 전역과 지역 측면 간 균형 잡힌 학습을 보장하기 위해 교대 학습 방식을 제안합니다. 마지막으로, 이미지 디테일에 대한 높은 요구 사항을 가진 도전적인 데이터셋을 도입하여 지역 압축 계층의 학습을 강화합니다. 제안된 방법은 정교한 작업, 지역 이미지 압축, 전역 전문가 혼합을 특징으로 하는 LMM(SliME)으로 명명되었으며, 단 200만 개의 학습 데이터로 다양한 벤치마크에서 선도적인 성능을 달성합니다.
우리는 이미지 내 픽셀 수준의 힌트를 활용하여 부분적으로 가려진 텍스트를 정확하게 복원하도록 모델에 도전하는 새로운 비전-언어 과제인 Visual Caption Restoration(VCR)을 소개한다. 이 과제는 이미지에 내장된 텍스트가 시각, 텍스트, 그리고 이미지에 내장된 텍스트의 양상을 정렬해야 한다는 점에서 일반적인 시각 요소 및 자연어와 본질적으로 다르다는 관찰에서 비롯되었다. 이미지에 내장된 텍스트를 시각적 질의응답 과제에 통합한 많은 연구들이 있지만, 이러한 과제에 대한 접근 방식은 일반적으로 광학 문자 인식(OCR) 또는 마스크된 언어 모델링에 의존하여 주로 텍스트 기반 처리로 과제를 축소한다. 그러나 VCR에서는 정확한 텍스트 복원이 제공된 이미지, 컨텍스트, 그리고 마스크된 텍스트의 미세하게 노출된 영역에서의 미묘한 단서로부터의 결합된 정보에 의존하기 때문에 텍스트 기반 처리는 비효율적이 된다. 우리는 이미지-캡션 쌍을 사용하여 VCR 과제를 위한 합성 이미지를 생성하는 파이프라인을 개발했으며, 캡션 가시성을 조절하여 과제 난이도를 제어할 수 있다. 이 파이프라인을 통해 위키백과의 캡션이 포함된 이미지를 사용하여 VCR-Wiki라는 데이터셋을 구축했으며, 이 데이터셋은 쉬운 버전과 어려운 버전으로 나뉜 211만 개의 영어 및 34만 6천 개의 중국어 엔티티로 구성된다. 우리의 결과는 현재의 비전-언어 모델들이 VCR 과제에서 인간의 성능에 크게 뒤처지며, 우리의 데이터셋에 대해 단순히 미세 조정하는 것이 뚜렷한 개선으로 이어지지 않음을 보여준다. 우리는 VCR-Wiki와 데이터 구축 코드를 공개하여 향후 연구를 촉진하고자 한다.
다변량 시계열 모델링은 헬스케어부터 금융 시장에 이르기까지 다양한 응용 분야를 가진 잘 정립된 문제입니다. 전통적인 상태 공간 모델(SSM)은 단변량 시계열 모델링을 위한 고전적인 접근법으로, 선형 의존성을 표현하는 데 있어 단순성과 표현력으로 인해 널리 사용되어 왔습니다. 그러나 이러한 모델들은 비선형 의존성을 포착하는 데 근본적으로 제한된 표현력을 가지고 있으며, 실제로는 느리고, 변수 간 정보 흐름을 모델링하지 못하는 한계가 있습니다. 최근 깊은 구조의 SSM을 사용하여 SSM의 표현력을 개선하려는 시도가 있었음에도 불구하고, 기존 방법들은 단변량 시계열에 국한되거나, 복잡한 패턴(예: 계절적 패턴)을 모델링하지 못하거나, 변수와 시간 차원의 의존성을 동적으로 모델링하지 못하거나, 입력 독립적인 한계를 가지고 있습니다. 우리는 장기 진행과 계절적 패턴을 학습하기 위해 서로 다른 이산화 과정을 가진 두 개의 입력 의존적 2차원 SSM 헤드를 사용하는 Chimera를 제안합니다. 복잡한 2차원 재귀의 효율성을 개선하기 위해, 새로운 2차원 병렬 선택적 스캔을 사용한 빠른 학습 방법을 제시합니다. 또한, 우리는 2차원 SSM의 특수한 경우로서 2차원 Mamba와 Mamba-2를 제시하고 논의합니다. 우리의 실험적 평가는 Chimera가 ECG 및 음성 시계열 분류, 장기 및 단기 시계열 예측, 시계열 이상 탐지를 포함한 광범위하고 다양한 벤치마크에서 우수한 성능을 보임을 입증합니다.
대규모 언어 모델(LLM)은 다양한 도메인에 걸친 광범위한 지식을 포괄할 정도로 발전했습니다. 그러나 대규모 언어 모델이 알아서는 안 되는 것을 통제하는 것은 정렬을 보장하고 안전한 사용을 위해 중요합니다. 하지만, LLM에서 지식을 정확하고 효율적으로 언러닝(unlearning)하는 것은 여전히 어려운 과제입니다. 이는 보유와 망각 사이의 모호한 경계로 인한 잠재적인 부수적 손상과, 수천억 개의 파라미터를 가진 최신 모델들에 걸친 최적화를 위한 큰 계산 요구량 때문입니다. 본 연구에서는 이러한 지식 얽힘(knowledge entanglement)과 언러닝 효율성의 문제를 해결하기 위해, 경량화된 언러닝 프레임워크인 Embedding-COrrupted (ECO) Prompts를 제안합니다. LLM 자체가 언러닝을 수행하도록 의존하는 대신, 추론 과정에서 언러닝된 상태를 강제하기 위해 프롬프트 분류기를 사용하여 망각해야 할 프롬프트를 식별하고 보호합니다. 오프라인에서 제로스 오더 최적화(zero-order optimization)를 통해 프롬프트 임베딩에 추가할 왜곡(corruption)을 학습하고, 추론 중에 분류기에 의해 플래그된 프롬프트를 왜곡합니다. 우리는 이러한 임베딩 왜곡된 프롬프트가 언러닝 목표를 충족하는 바람직한 출력을 생성할 뿐만 아니라, 망각하려는 데이터로 훈련되지 않은 모델의 출력에 근접한 결과를 도출함을 발견했습니다. 다양한 언러닝 실험을 통해, 우리의 방법이 일반 도메인과 언러닝된 도메인과 밀접한 관련이 있는 도메인에서 거의 부작용 없이 유망한 언러닝을 달성하는 데 있어 우수성을 입증했습니다. 또한, 0.5B에서 236B 파라미터에 이르는 100개의 LLM에 대한 우리 방법의 확장성을 강조하며, 파라미터 수가 증가함에 따라 추가 비용이 발생하지 않음을 보여줍니다.
병리학은 질병에 걸린 조직을 현미경으로 관찰하여 다양한 의학적 상태, 특히 암을 진단하는 데 중요한 역할을 합니다. 전통적인 방법은 노동 집약적이며 인간의 실수가 발생하기 쉽습니다. 디지털 병리학은 유리 슬라이드를 고해상도 디지털 이미지로 변환하여 컴퓨터 알고리즘으로 분석함으로써, 자동화된 이미지 분석과 대규모 데이터 처리를 통해 진단의 정확성, 일관성 및 효율성을 향상시켜 이 분야를 혁신하고 있습니다. 기초 트랜스포머 사전 학습은 방대한 양의 주석이 없는 데이터로부터 학습할 수 있게 함으로써 강력하고 일반화 가능한 모델 개발에 중요합니다. 본 논문은 다양한 조직 유형과 염색 기술을 대표하는 100만 장 이상의 전체 슬라이드 이미지(WSI)로 구성된 독점 데이터셋을 사용하여 DINOv2 프레임워크를 활용해 Hibou-B와 Hibou-L 두 가지 모델 변형을 사전 학습한 병리학용 기초 비전 트랜스포머인 Hibou 패밀리를 소개합니다. 우리의 사전 학습된 모델은 패치 수준과 슬라이드 수준 벤치마크 모두에서 기존의 최첨단 방법을 능가하는 우수한 성능을 보여줍니다. 특히, Hibou-L은 여러 벤치마크 데이터셋에서 가장 높은 평균 정확도를 달성했습니다. 이 분야의 추가 연구와 응용을 지원하기 위해 Hibou-B 모델을 오픈소스로 공개했으며, https://github.com/HistAI/hibou에서 접근할 수 있습니다.
마스킹(또는 흡수) 확산 모델은 이산 데이터의 생성 모델링을 위한 자기회귀 모델의 대안으로 활발히 연구되고 있습니다. 그러나 이 분야의 기존 연구는 불필요하게 복잡한 모델 구성과 다양한 관점 간의 명확하지 않은 관계로 인해 최적의 매개변수화, 훈련 목표, 그리고 이러한 문제를 해결하기 위한 임시 조정에 제약을 받아왔습니다. 본 연구에서는 마스킹 확산 모델의 전체 잠재력을 발휘할 수 있는 간단하고 일반적인 프레임워크를 제공하는 것을 목표로 합니다. 우리는 마스킹 확산 모델의 연속 시간 변분 목적 함수가 교차 엔트로피 손실의 단순한 가중치 적분임을 보여줍니다. 또한, 우리의 프레임워크는 상태 의존적 마스킹 스케줄을 사용하여 일반화된 마스킹 확산 모델을 훈련할 수 있도록 합니다. OpenWebText 데이터셋에서 훈련된 우리의 모델은 GPT-2 규모의 이전 확산 언어 모델을 perplexity 기준으로 능가하며, 5개의 제로샷 언어 모델링 작업 중 4개에서 우수한 성능을 보였습니다. 더 나아가, 우리의 모델은 픽셀 수준의 이미지 모델링에서 이전의 이산 확산 모델을 크게 능가하며, CIFAR-10에서 2.78, ImageNet 64x64에서 3.42 비트/차원을 달성하여 유사한 크기의 자기회귀 모델과 비교할 만하거나 더 나은 성능을 보였습니다.