번역이 포함된 일일 선별된 AI 연구 논문
다양한 모달리티의 인간 입력과 자연스럽고 의미 있는 대화를 생성하는 것은 대형 시각-언어 모델(LVLMs)의 기본적인 능력입니다. 현재 오픈소스 LVLMs는 단일 턴 단일 이미지 입력과 같은 단순한 시나리오에서 유망한 성능을 보이지만, 다중 턴 및 다중 이미지를 포함한 긴 문맥 역사에서의 지시를 따르는 것과 같은 실제 대화 시나리오에서는 부족함을 보입니다. 기존의 LVLM 벤치마크는 주로 단일 선택 질문이나 짧은 형식의 응답에 초점을 맞추고 있어, 실제 인간-AI 상호작용 애플리케이션에서 LVLMs의 능력을 충분히 평가하지 못합니다. 따라서 우리는 다중 턴 및 다중 이미지 대화에서 LVLMs의 능력을 평가하고 개선하기 위해 포괄적인 벤치마크인 MMDU와 대규모 지시 튜닝 데이터셋인 MMDU-45k를 소개합니다. 우리는 오픈소스 위키백과에서 관련 이미지와 텍스트 설명을 찾기 위해 클러스터링 알고리즘을 사용하고, GPT-4o 모델의 도움을 받아 인간 주석자가 질문-답변 쌍을 구성했습니다. MMDU는 최대 18k 이미지+텍스트 토큰, 20개의 이미지, 27개의 턴을 포함하며, 이는 기존 벤치마크보다 최소 5배 이상 길어 현재 LVLMs에 도전을 제기합니다. MMDU를 사용한 15개의 대표적인 LVLMs에 대한 심층 분석 결과, 오픈소스 LVLMs는 제한된 대화 지시 튜닝 데이터로 인해 폐쇄형 모델에 뒤처지는 것으로 나타났습니다. 우리는 MMDU-45k에서 오픈소스 LVLMs를 미세 조정함으로써 이 격차를 상당히 해결하고, 더 길고 정확한 대화를 생성하며, MMDU 및 기존 벤치마크(MMStar: +1.1%, MathVista: +1.5%, ChartQA: +1.2%)에서 점수를 향상시킬 수 있음을 입증했습니다. 우리의 기여는 현재 LVLM 모델과 실제 애플리케이션 요구 사항 간의 격차를 해소하는 길을 열어줍니다. 이 프로젝트는 https://github.com/Liuziyu77/MMDU에서 확인할 수 있습니다.
언어 모델 개선을 목표로 한 통제된 데이터셋 실험을 위한 테스트베드인 DataComp for Language Models(DCLM)를 소개합니다. DCLM의 일환으로, Common Crawl에서 추출한 240조 토큰의 표준화된 코퍼스, OpenLM 프레임워크 기반의 효과적인 사전 학습 레시피, 그리고 53가지의 다양한 다운스트림 평가 세트를 제공합니다. DCLM 벤치마크 참가자들은 4억 1,200만에서 70억 파라미터 규모의 모델에서 중복 제거, 필터링, 데이터 혼합과 같은 데이터 큐레이션 전략을 실험할 수 있습니다. DCLM의 기준선으로, 광범위한 실험을 수행한 결과 모델 기반 필터링이 고품질 훈련 데이터셋을 구성하는 데 핵심적임을 발견했습니다. 이를 통해 얻은 DCLM-Baseline 데이터셋은 2조 6,000억 훈련 토큰으로 70억 파라미터 언어 모델을 처음부터 훈련시켜 MMLU에서 64%의 5-shot 정확도를 달성할 수 있게 합니다. 이전 오픈 데이터 언어 모델의 최첨단 기술인 MAP-Neo와 비교했을 때, DCLM-Baseline은 MMLU에서 6.6% 포인트 향상을 보였으며, 40% 적은 컴퓨팅 자원으로 훈련되었습니다. 우리의 기준선 모델은 MMLU에서 Mistral-7B-v0.3(63%) 및 Llama 3 8B(66%)와 비슷한 성능을 보이며, 53가지 자연어 이해 작업의 평균에서도 비슷한 성능을 보이면서 Llama 3 8B보다 6.6배 적은 컴퓨팅 자원으로 훈련되었습니다. 이러한 결과는 언어 모델 훈련을 위한 데이터셋 설계의 중요성을 강조하며, 데이터 큐레이션에 대한 추가 연구를 위한 출발점을 제공합니다.
직접 선호도 최적화(Direct Preference Optimization, DPO)는 대규모 언어 모델(LLM) 정렬에 효과적인 방법으로 입증되었습니다. 최근 연구들은 DPO를 다중모달 시나리오에 적용하려 시도했으나, 일관된 성능 향상을 달성하는 데 어려움을 겪었습니다. 비교 실험을 통해, 우리는 다중모달 선호도 최적화에서 모델이 이미지 조건을 간과하는 무조건적 선호도 문제를 확인했습니다. 이 문제를 해결하기 위해, 우리는 언어만의 선호도를 과도하게 우선시하는 것을 방지하고 이미지 선호도도 함께 최적화하는 다중모달 DPO 목적 함수인 mDPO를 제안합니다. 또한, 선택된 응답에 대해 보상이 양수가 되도록 강제하는 보상 앵커를 도입함으로써 상대적 선호도 최적화의 고유한 문제인 선택된 응답의 가능성 감소를 방지합니다. 서로 다른 크기의 두 다중모달 LLM과 세 가지 널리 사용되는 벤치마크에서의 실험을 통해, mDPO가 다중모달 선호도 최적화에서 무조건적 선호도 문제를 효과적으로 해결하고, 특히 환각 현상을 줄이는 데 있어 모델 성능을 크게 향상시킴을 입증했습니다.
대규모 언어 모델(LLM)은 추가적인 메모리 모듈 없이도 사용자와의 장기적인 상호작용 동안 긴 대화 기록을 처리할 수 있지만, 과거 정보를 간과하거나 잘못 기억하는 경향이 있습니다. 본 논문에서는 LLM 시대에 메모리 보강 응답 생성 문제를 재조명합니다. 기존 연구는 오래된 메모리를 제거하는 데 초점을 맞추었지만, 우리는 이러한 메모리가 과거 사건의 전개를 이해하는 데 도움을 주는 맥락적 단서를 제공함으로써 응답 생성에 이점을 줄 수 있다고 주장합니다. 우리는 Theanine이라는 프레임워크를 제안합니다. 이 프레임워크는 관련 과거 사건의 전개와 인과관계를 보여주는 메모리 타임라인을 통해 LLM의 응답 생성을 보강합니다. Theanine과 함께, 우리는 장기 대화에서 G-Eval의 한계를 해결하기 위한 반사실적 질의응답 파이프라인인 TeaFarm을 소개합니다. 우리 방법의 보충 비디오와 TeaFarm 평가를 위한 TeaBag 데이터셋은 https://theanine-693b0.web.app/에서 확인할 수 있습니다.
최근, 재구성 및 생성 기법을 통해 제작된 3D 자산은 수작업으로 제작된 자산의 품질에 필적할 정도로 발전하여 이를 대체할 가능성을 보여주고 있습니다. 그러나 이러한 잠재력은 아직 실현되지 못하고 있는데, 이는 이러한 자산들이 3D 산업 애플리케이션에서 사용되기 위해 항상 메시로 변환되어야 하는데, 현재의 메시 추출 방법으로 생성된 메시는 인간 아티스트가 제작한 Artist-Created Meshes (AMs)에 비해 현저히 떨어지기 때문입니다. 구체적으로, 현재의 메시 추출 방법은 밀집된 면에 의존하고 기하학적 특징을 무시함으로써 비효율성, 복잡한 후처리 과정, 그리고 낮은 표현 품질을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 메시 추출을 생성 문제로 접근하여 지정된 형태에 맞는 AMs를 생성하는 MeshAnything 모델을 소개합니다. MeshAnything은 어떤 3D 표현 방식으로 된 3D 자산이든 AMs로 변환할 수 있어, 다양한 3D 자산 제작 방법과 통합될 수 있으며, 이를 통해 3D 산업 전반에 걸쳐 그 활용성을 높일 수 있습니다. MeshAnything의 아키텍처는 VQ-VAE와 형태 조건부 디코더 전용 트랜스포머로 구성됩니다. 먼저 VQ-VAE를 사용하여 메시 어휘를 학습한 다음, 이 어휘를 기반으로 형태 조건부 디코더 전용 트랜스포머를 훈련시켜 형태 조건부 자기회귀 메시 생성을 수행합니다. 우리의 광범위한 실험 결과, 우리의 방법은 이전 방법들과 비슷한 정밀도를 유지하면서도 수백 배 적은 면으로 AMs를 생성하여 저장, 렌더링 및 시뮬레이션 효율성을 크게 향상시킴을 보여줍니다.
최근 대규모 언어 모델(LLM)이 상당한 사실 지식을 저장할 수 있다는 관찰이 있었음에도 불구하고, 사전 학습을 통해 이러한 모델이 어떻게 사실 지식을 습득하는지에 대한 메커니즘은 제한적으로 이해되고 있습니다. 본 연구는 사전 학습 과정에서 LLM이 어떻게 사실 지식을 습득하는지를 연구함으로써 이러한 격차를 해소하고자 합니다. 연구 결과는 사전 학습 중 사실 지식 습득의 역동성에 대한 몇 가지 중요한 통찰을 제공합니다. 첫째, 직관과는 달리 더 많은 데이터로 사전 학습을 진행하더라도 모델의 사실 지식 습득 및 유지 능력이 크게 개선되지 않는 것으로 관찰되었습니다. 둘째, 학습 단계와 기억 및 사실 지식 일반화의 망각 사이에는 멱함수 관계가 존재하며, 중복된 학습 데이터로 훈련된 LLM은 더 빠르게 망각하는 경향을 보입니다. 셋째, 더 큰 배치 크기로 LLM을 훈련시키면 모델의 망각에 대한 견고성이 향상될 수 있습니다. 전반적으로, 우리의 관찰은 LLM 사전 학습에서의 사실 지식 습득이 사전 학습 데이터에 제시된 사실 지식의 확률을 단계적으로 증가시키는 방식으로 이루어지지만, 이 증가는 이후의 망각에 의해 희석된다는 것을 시사합니다. 이러한 해석을 바탕으로, 우리는 LLM의 최근 관찰된 행동들, 예를 들어 장기간 꼬리 지식(long-tail knowledge)에 대한 LLM의 낮은 성능과 사전 학습 코퍼스의 중복 제거의 이점 등에 대해 타당한 설명을 제공할 수 있음을 보여줍니다.
최근 대형 언어 모델(Large Language Models)은 이미지, 비디오, 그리고 시각-언어 간의 복합 콘텐츠를 이해할 수 있는 시각 능력이 강화되었습니다. 그러나 이러한 대형 멀티모달 모델의 학습 방법은 일반적으로 비디오를 미리 정해진 클립으로 취급하기 때문에, 스트리밍 비디오 입력을 처리하는 데 있어 효율성과 효과가 떨어지는 경향이 있습니다. 본 논문에서는 연속적인 비디오 스트림 내에서 시간적으로 정렬된 장기 컨텍스트와 실시간 대화를 가능하게 하는 새로운 Learning-In-Video-Stream(LIVE) 프레임워크를 제안합니다. 우리의 LIVE 프레임워크는 비디오 스트리밍 대화를 달성하기 위한 포괄적인 접근 방식을 포함하며, 이는 다음과 같습니다: (1) 연속적인 스트리밍 입력에 대한 언어 모델링을 수행하도록 설계된 학습 목표, (2) 오프라인 시간적 주석을 스트리밍 대화 형식으로 변환하는 데이터 생성 기법, 그리고 (3) 실제 비디오 스트림에서 모델 응답 속도를 높이기 위한 최적화된 추론 파이프라인. 우리는 LIVE 프레임워크를 기반으로 Llama-2/Llama-3 위에 VideoLLM-online 모델을 구축하고, 스트리밍 비디오 처리에서의 상당한 이점을 입증했습니다. 예를 들어, 평균적으로 우리의 모델은 A100 GPU에서 5분 길이의 비디오 클립에 대해 10 FPS 이상의 속도로 스트리밍 대화를 지원할 수 있습니다. 또한, 인식, 캡셔닝, 예측과 같은 공개 오프라인 비디오 벤치마크에서도 최첨단 성능을 보여줍니다. 코드, 모델, 데이터, 데모는 https://showlab.github.io/videollm-online에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 배포는 특히 컨텍스트 길이가 증가함에 따라 키-값(KV) 캐시의 방대한 메모리 요구 사항으로 인해 종종 제약을 받습니다. 기존의 KV 캐시 크기를 줄이기 위한 접근 방식은 모델을 미세 조정하여 압축 전략을 학습시키거나 어텐션 점수를 활용하여 시퀀스 길이를 줄이는 방법이었습니다. 우리는 디코더 전용 트랜스포머 기반 모델에서의 어텐션 분포를 분석하고, 대부분의 레이어에서 어텐션 할당 패턴이 일관되게 유지된다는 것을 관찰했습니다. 놀랍게도, 캐시된 KV 쌍에 대한 L_2와 어텐션 점수 사이에 명확한 상관관계가 있음을 발견했는데, 여기서 키 임베딩의 낮은 L_2는 일반적으로 디코딩 중 높은 어텐션 점수로 이어집니다. 이 발견은 KV 쌍의 영향력이 쿼리되기 전에 키 임베딩 자체에 의해 결정될 가능성이 있음을 시사합니다. 이러한 관찰을 바탕으로, 우리는 키 임베딩의 L_2를 기반으로 KV 캐시를 압축합니다. 실험 결과, 이 간단한 전략은 언어 모델링 및 건초 더미 속 바늘 찾기 작업에서 KV 캐시 크기를 50% 줄이고, 패스키 검색 작업에서는 90% 줄이면서도 정확도를 잃지 않음을 보여줍니다.
디코더 전용 트랜스포머 기반의 대규모 언어 모델(LLM)은 CLIP 및 T5 시리즈 모델에 비해 우수한 텍스트 이해 능력을 보여주었습니다. 그러나 현재의 고급 LLM을 텍스트-이미지 확산 모델에 활용하는 패러다임은 아직 탐구가 필요한 상태입니다. 우리는 한 가지 특이한 현상을 관찰했습니다: 대규모 언어 모델을 프롬프트 인코더로 직접 사용할 경우 이미지 생성에서의 프롬프트 추적 능력이 크게 저하된다는 것입니다. 이 문제의 배경에는 두 가지 주요 장애 요인이 있습니다. 하나는 LLM의 다음 토큰 예측 훈련과 확산 모델에서 요구되는 구별력 있는 프롬프트 특성 간의 불일치입니다. 다른 하나는 디코더 전용 아키텍처에서 발생하는 고유한 위치 편향입니다. 이 문제를 해결하기 위해, 우리는 LLM의 능력을 최대한 활용할 수 있는 새로운 프레임워크를 제안합니다. 신중하게 설계된 사용 지침을 통해, 우리는 프롬프트 인코딩을 위한 텍스트 표현 능력을 효과적으로 강화하고 고유한 위치 편향을 제거합니다. 이를 통해 최신 LLM을 텍스트-이미지 생성 모델에 유연하게 통합할 수 있습니다. 또한, 우리는 여러 LLM을 이 프레임워크에 융합하는 효과적인 방법도 제공합니다. 트랜스포머 아키텍처가 보여준 우수한 성능과 확장성을 고려하여, 우리는 이 프레임워크를 기반으로 한 LLM-Infused Diffusion Transformer(LI-DiT)를 추가로 설계했습니다. 우리는 모델 크기와 데이터 크기에 걸쳐 LI-DiT의 유효성을 검증하기 위해 광범위한 실험을 수행했습니다. LLM의 고유 능력과 우리의 혁신적인 설계 덕분에, LI-DiT의 프롬프트 이해 성능은 최신 오픈소스 모델뿐만 아니라 Stable Diffusion 3, DALL-E 3, Midjourney V6와 같은 주류의 폐쇄형 상용 모델을 쉽게 능가합니다. 강력한 LI-DiT-10B는 추가적인 최적화와 보안 검사를 거쳐 공개될 예정입니다.
비언어적 음성과 비음성 소리를 인지하고 이해하는 것은 우리가 주변 환경과 상호작용하는 데 도움을 주는 결정을 내리는 데 필수적입니다. 본 논문에서는 고급 오디오 이해와 복잡한 추론 능력을 갖춘 새로운 범용 대형 오디오-언어 모델(LALM)인 GAMA를 제안합니다. GAMA는 LLM(Large Language Model)을 사용자 정의 오디오 Q-Former와 오디오 인코더의 여러 계층에서 특징을 집계하는 다층 집계기(multi-layer aggregator)를 포함한 다양한 유형의 오디오 표현과 통합하여 구축했습니다. GAMA는 대규모 오디오-언어 데이터셋에서 미세 조정(fine-tuning)을 수행하여 오디오 이해 능력을 강화했습니다. 다음으로, 모델이 입력 오디오에 대해 복잡한 추론을 수행해야 하는 지시를 포함한 합성적으로 생성된 지시 튜닝(Instruction-Tuning) 데이터셋인 CompA-R(Complex Audio Reasoning을 위한 Instruction-Tuning)을 제안합니다. GAMA를 CompA-R로 지시 튜닝하여 복잡한 추론 능력을 부여했으며, 여기서 입력 오디오의 이벤트 태그를 활용하여 고수준의 의미론적 증거를 포함한 소프트 프롬프트를 추가로 입력했습니다. 마지막으로, 복잡한 추론이 필요한 개방형 오디오 질문-응답에서 LALM의 능력을 평가하기 위해 인간이 라벨링한 평가 데이터셋인 CompA-R-test도 제안합니다. 자동화된 평가와 전문가 평가를 통해 GAMA가 다양한 오디오 이해 작업에서 문헌에 있는 다른 모든 LALM을 1%~84%의 차이로 능가함을 보여줍니다. 또한, CompA-R로 지시 튜닝된 GAMA는 복잡한 추론 및 지시 수행 능력에서 우수함을 입증했습니다.
이미지와 텍스트의 자유로운 인터리브(interleaved) 시퀀스를 포함한 멀티모달 인터리브 데이터셋은 최첨단 대규모 멀티모달 모델(LMM)을 훈련하는 데 필수적입니다. 오픈소스 LMM의 급속한 발전에도 불구하고, 대규모이고 다양한 오픈소스 멀티모달 인터리브 데이터셋은 여전히 크게 부족한 상황입니다. 이에 대응하여, 우리는 현재까지 가장 방대하고 다양한 오픈소스 멀티모달 인터리브 데이터셋인 MINT-1T를 소개합니다. MINT-1T는 1조 개의 텍스트 토큰과 30억 개의 이미지로 구성되어 있으며, 이는 기존 오픈소스 데이터셋 대비 10배 규모의 확장입니다. 또한, PDF와 ArXiv 논문과 같은 이전에는 활용되지 않았던 소스도 포함했습니다. 멀티모달 인터리브 데이터셋의 규모를 확장하는 데는 상당한 엔지니어링 노력이 필요하므로, 데이터 큐레이션 과정을 공유하고 데이터셋을 공개하는 것은 커뮤니티에 큰 이익을 제공합니다. 우리의 실험 결과, MINT-1T로 훈련된 LMM은 이전의 선두 데이터셋인 OBELICS로 훈련된 모델과 견줄 만한 성능을 보였습니다. 우리의 데이터와 코드는 https://github.com/mlfoundations/MINT-1T에서 공개될 예정입니다.
멀티모달 대형 언어 모델(MLLM)은 이미지와 3D 데이터에 대한 뛰어난 이해력을 보여주고 있습니다. 그러나 이 두 모달리티 모두 객체의 외관과 기하학적 특성을 전체적으로 포착하는 데 한계가 있습니다. 한편, 단순한 다층 퍼셉트론(MLP)의 가중치 내에 정보를 인코딩하는 신경 방사 필드(NeRF)는 객체의 기하학적 구조와 사실적인 외관을 동시에 인코딩하는 점점 더 널리 사용되는 모달리티로 부상하고 있습니다. 본 논문은 NeRF를 MLLM에 통합하는 것의 가능성과 효과를 탐구합니다. 우리는 NeRF 캡셔닝 및 질의응답과 같은 새로운 작업을 수행할 수 있는 최초의 범용 NeRF-언어 어시스턴트인 LLaNA를 개발했습니다. 특히, 우리의 방법은 NeRF의 MLP 가중치를 직접 처리하여 표현된 객체에 대한 정보를 추출하며, 이미지를 렌더링하거나 3D 데이터 구조를 구체화할 필요가 없습니다. 더 나아가, 우리는 다양한 NeRF-언어 작업을 위한 텍스트 주석이 포함된 NeRF 데이터셋을 인간의 개입 없이 구축했습니다. 이 데이터셋을 기반으로, 우리는 우리의 방법의 NeRF 이해 능력을 평가하기 위한 벤치마크를 개발했습니다. 결과는 NeRF 가중치를 처리하는 것이 NeRF에서 2D 또는 3D 표현을 추출하는 것보다 유리하다는 것을 보여줍니다.
대규모 시각-언어 모델을 학습시키기 위해서는 방대하고 고품질의 이미지-텍스트 쌍이 필요합니다. 그러나 기존의 웹 스크랩 데이터셋은 노이즈가 많고 상세한 이미지 설명이 부족합니다. 이러한 격차를 해소하기 위해, 우리는 PixelProse를 소개합니다. 이는 최첨단 시각-언어 모델을 활용하여 생성된 1,600만 개 이상의 합성 캡션으로 구성된 포괄적인 데이터셋으로, 상세하고 정확한 설명을 제공합니다. 데이터 무결성을 보장하기 위해, 우리는 아동 성적 학대 자료(CSAM), 개인 식별 정보(PII), 유해성 등 문제가 있는 콘텐츠를 엄격히 분석했습니다. 또한 워터마크 존재 여부와 미적 점수와 같은 유용한 메타데이터를 제공하여 데이터셋 추가 필터링을 지원합니다. 우리는 PixelProse가 향후 시각-언어 연구에 귀중한 자원이 되기를 바랍니다. PixelProse는 https://huggingface.co/datasets/tomg-group-umd/pixelprose에서 이용 가능합니다.
인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 가치에 더욱 근접하게 정렬하기 위한 유망한 솔루션입니다. 비용 효율성과 확장성으로 인해, 선호 데이터를 다른 모델에서 얻는 오프-정책 선호 최적화가 널리 채택되고 있습니다. 그러나 오프-정책 선호 최적화는 데이터 수집에 사용된 정책과 목표 정책 간의 분포 차이로 인해 종종 최적화가 제대로 이루어지지 않는 문제를 겪습니다. 본 논문에서는 오프-정책 선호 데이터를 활용하여 온-정책 학습을 시뮬레이션함으로써 이 문제를 완화하는 새로운 전략을 제안합니다. 우리의 가중치 선호 최적화(WPO) 방법은 현재 정책 하에서의 확률에 따라 선호 쌍을 재가중함으로써 오프-정책 데이터를 온-정책 데이터에 더 가깝게 조정합니다. 이 방법은 분포 차이 문제를 해결할 뿐만 아니라 추가 비용 없이 최적화 과정을 개선합니다. 우리는 Alpaca Eval 2 및 MT-bench를 포함한 지시 따르기 벤치마크에서 이 방법을 검증했습니다. WPO는 Alpaca Eval 2에서 직접 선호 최적화(DPO)를 최대 5.6%까지 능가했으며, Llama-3-8B-Instruct 기반으로 GPT-4-turbo에 대해 48.6%의 놀라운 길이 제어 승률을 기록하며 리더보드에서 가장 강력한 8B 모델로 자리매김했습니다. 코드와 모델은 https://github.com/wzhouad/WPO에서 공개할 예정입니다.
기존 언어 모델의 미세 조정(fine-tuning) 패러다임은 지식 편집 시나리오에서 취약한 것으로 나타났습니다. 이 시나리오에서는 모델이 광범위한 재학습 없이 새로운 정보를 통합해야 합니다. 이러한 취약성은 종종 과적합, 성능 저하, 그리고 부자연스러운 언어 생성을 초래합니다. 이를 해결하기 위해, 우리는 Consistent In-Context Editing(ICE)라는 새로운 접근 방식을 제안합니다. ICE는 모델의 문맥 학습(in-context learning) 능력을 활용하여 원-핫(one-hot) 타겟이 아닌 문맥적 분포를 향해 조정합니다. ICE는 타겟과 절차를 모두 포함하는 간단한 최적화 프레임워크를 도입하여 그래디언트 기반 조정 방법의 견고성과 효과성을 향상시킵니다. 우리는 ICE의 장점을 보여주기 위해 정확도, 지역성, 일반화, 그리고 언어적 품질이라는 지식 편집의 네 가지 중요한 측면에 걸쳐 분석적 통찰을 제공합니다. 네 가지 데이터셋에 대한 실험 결과는 ICE의 효과성을 확인하고, 모델의 무결성을 유지하면서 업데이트된 정보를 통합하는 지속적 편집의 잠재력을 입증합니다.
월드 모델(World Model)은 다양한 행동에 대한 응답으로 세계의 미래 상태를 시뮬레이션합니다. 이는 상호작용적인 콘텐츠 생성에 기여하며, 장기적인 추론을 위한 기반을 제공합니다. 현재의 기초 모델(Foundation Model)은 일반적인 월드 모델의 능력을 완전히 충족시키지 못합니다: 대형 언어 모델(LLM)은 언어 모달리티에 대한 의존성과 물리적 세계에 대한 제한된 이해로 인해 제약을 받으며, 비디오 모델은 세계 시뮬레이션에 대한 상호작용적 행동 제어가 부족합니다. 본 논문은 Pandora라는 하이브리드 자기회귀-확산 모델을 소개함으로써 일반적인 월드 모델 구축을 위한 한 걸음을 내딛습니다. Pandora는 비디오를 생성하여 세계 상태를 시뮬레이션하고, 자유 텍스트 행동을 통해 실시간 제어를 가능하게 합니다. Pandora는 대규모 사전 학습과 지시 튜닝을 통해 도메인 일반성, 비디오 일관성, 제어 가능성을 달성합니다. 특히, Pandora는 사전 학습된 LLM(7B)과 사전 학습된 비디오 모델을 통합함으로써 처음부터 학습하는 비용을 우회하며, 추가적인 경량 파인튜닝만 필요로 합니다. 우리는 Pandora가 다양한 도메인(실내/실외, 자연/도시, 인간/로봇, 2D/3D 등)에서 생성한 광범위한 출력을 보여줍니다. 결과는 더 큰 규모의 학습을 통해 더 강력한 일반 월드 모델을 구축할 수 있는 잠재력을 시사합니다.
비전-언어 모델(VLMs) 분야의 최근 돌파구는 실세계 다중모달 상호작용에서 인간의 선호도를 벤치마킹할 필요성을 강조하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 인간의 선호도를 수집하여 VLMs를 평가하는 온라인 플랫폼인 WildVision-Arena(WV-Arena)를 출시했습니다. WV-Arena에서 8,000개의 사용자 제출물 중 500개의 고품질 샘플을 선별하여 WV-Bench를 구성했습니다. WV-Bench는 GPT-4를 판단자로 사용하여 각 VLM을 Claude-3-Sonnet과 비교하며, WV-Arena Elo와 0.94의 스피어만 상관관계를 달성했습니다. 이는 MMVet, MMMU, MMStar와 같은 다른 벤치마크를 크게 능가하는 성과입니다. 20,000건의 실세계 상호작용에 대한 포괄적인 분석을 통해 최고 성능의 VLMs의 실패 사례에 대한 중요한 통찰을 얻었습니다. 예를 들어, GPT-4V는 Reka-Flash, Opus, Yi-VL-Plus와 같은 많은 다른 모델들을 단순한 시각 인식 및 추론 작업에서 능가하지만, 미묘한 문맥적 단서, 공간 추론, 시각적 상상력, 전문 도메인 지식에서는 여전히 어려움을 겪고 있습니다. 또한, 현재의 VLMs은 의도적으로 도발할 경우 환각과 안전성 문제를 보입니다. 우리는 VLMs 분야의 연구를 더욱 발전시키기 위해 채팅 및 피드백 데이터를 공개할 예정입니다.
단일 뷰 비디오 입력으로부터 애니메이션 객체를 생성하는 최초의 4D 대형 재구성 모델인 L4GM을 소개합니다. 이 모델은 단일 순방향 패스로 단 1초 만에 결과를 생성합니다. 우리의 성공 핵심은 Objaverse에서 선별된 렌더링된 애니메이션 객체를 포함한 다중 뷰 비디오로 구성된 새로운 데이터셋입니다. 이 데이터셋은 48개의 시점에서 렌더링된 110K개의 애니메이션과 함께 44K개의 다양한 객체를 묘사하며, 총 300M 프레임으로 구성된 12M개의 비디오를 포함합니다. 우리는 확장성을 위해 L4GM을 단순하게 유지하고, 다중 뷰 이미지 입력으로부터 3D 가우시안 타원체를 출력하는 사전 훈련된 3D 대형 재구성 모델인 LGM을 기반으로 구축합니다. L4GM은 낮은 fps로 샘플링된 비디오 프레임에서 프레임별 3D 가우시안 스플래팅 표현을 출력한 후, 이를 더 높은 fps로 업샘플링하여 시간적 부드러움을 달성합니다. 우리는 기본 LGM에 시간적 자기 주의 층을 추가하여 시간에 걸친 일관성을 학습하도록 돕고, 모델을 훈련시키기 위해 시간 단위별 다중 뷰 렌더링 손실을 활용합니다. 이 표현은 중간 3D 가우시안 표현을 생성하는 보간 모델을 훈련하여 더 높은 프레임 속도로 업샘플링됩니다. 우리는 합성 데이터만으로 훈련된 L4GM이 실제 비디오에서도 매우 잘 일반화되어 고품질의 애니메이션 3D 자산을 생성함을 보여줍니다.
실제 세계에서 문서는 다양한 형식과 양식으로 구성됩니다. 전통적인 검색 파이프라인은 인덱싱을 위한 입력을 준비하기 위해 맞춤형 문서 파싱 기술과 콘텐츠 추출 모듈을 필요로 합니다. 이 과정은 번거롭고 오류가 발생하기 쉬우며 정보 손실이 발생합니다. 이를 위해 우리는 문서 스크린샷을 통일된 입력 형식으로 간주하는 새로운 검색 패러다임인 Document Screenshot Embedding (DSE)를 제안합니다. DSE는 콘텐츠 추출 전처리가 필요 없으며 문서의 모든 정보(예: 텍스트, 이미지, 레이아웃)를 보존합니다. DSE는 대규모 시각-언어 모델을 활용하여 문서 스크린샷을 직접 밀집 표현으로 인코딩하여 검색에 사용합니다. 우리의 방법을 평가하기 위해 먼저 130만 개의 Wikipedia 웹 페이지 스크린샷으로 구성된 Wiki-SS 데이터셋을 구축하여 Natural Questions 데이터셋의 질문에 답변하는 데 사용했습니다. 이러한 텍스트 중심 문서 검색 설정에서 DSE는 파싱에 의존하는 다른 텍스트 검색 방법과 비교해 경쟁력 있는 효과를 보였습니다. 예를 들어, DSE는 BM25보다 상위 1위 검색 정확도에서 17점 더 높은 성능을 보였습니다. 또한, 슬라이드 검색과 같은 혼합 양식 작업에서 DSE는 OCR 텍스트 검색 방법보다 nDCG@10에서 15점 이상 크게 앞섰습니다. 이러한 실험은 DSE가 다양한 유형의 문서에 효과적인 문서 검색 패러다임임을 보여줍니다. 모델 체크포인트, 코드, 그리고 Wiki-SS 컬렉션은 공개될 예정입니다.
대규모 멀티모달 언어 모델(MLM)을 위한 벤치마크는 이제 특정 능력을 평가하기보다는 모델의 전반적인 역량을 동시에 평가하는 데 사용됩니다. 그 결과, 개발자가 자신의 애플리케이션에 사용할 모델을 식별하려고 할 때, 너무 많은 벤치마크로 인해 압도당하고 특정 사용 사례에 가장 적합한 벤치마크 결과가 무엇인지 불확실해지는 상황이 발생합니다. 본 논문은 사용자의 요구에 맞춤화된 벤치마크를 생성하는 벤치마크 생성 엔진인 Task-Me-Anything을 소개합니다. Task-Me-Anything은 확장 가능한 시각 자산 분류 체계를 유지하며, 프로그래밍 방식으로 다양한 작업 인스턴스를 생성할 수 있습니다. 또한, 계산 예산 내에서 MLM 성능에 대한 사용자 질의를 효율적으로 알고리즘적으로 처리합니다. 이 엔진은 113K개의 이미지, 10K개의 비디오, 2K개의 3D 객체 자산, 365개 이상의 객체 카테고리, 655개의 속성, 그리고 335개의 관계를 포함하고 있습니다. MLM의 지각 능력을 평가하는 데 초점을 맞춘 750M개의 이미지/비디오 질문-답변 쌍을 생성할 수 있습니다. Task-Me-Anything은 중요한 통찰을 제공합니다: 오픈소스 MLM은 객체 및 속성 인식에서는 우수하지만 공간적 및 시간적 이해가 부족합니다; 각 모델은 고유한 강점과 약점을 보입니다; 더 큰 모델이 일반적으로 더 나은 성능을 보이지만 예외도 존재합니다; 그리고 GPT4o는 회전/움직이는 객체를 인식하고 색상을 구분하는 데 어려움을 겪습니다.
컴퓨터 비전의 최근 연구 동향 중 하나는 장면의 시간에 따라 변화하는 3차원 표현을 생성하는 3D 비디오 생성 작업입니다. 동적 3D 장면을 생성하기 위해 현재의 방법들은 시간과 장면의 다양한 시점에 걸친 일관성을 공동으로 최적화함으로써 3D 시간적 동역학을 명시적으로 모델링합니다. 본 논문에서는 이러한 기존 접근 방식과 달리, 시간에 걸친 다중 시점 일관성을 명시적으로 강제할 필요가 있는지, 아니면 각 시간 단계의 3D 표현을 독립적으로 생성하는 것으로 충분한지를 탐구합니다. 이를 위해 우리는 Vid3D라는 모델을 제안합니다. Vid3D는 2D 비디오 확산을 활용하여 먼저 비디오의 시간적 동역학을 나타내는 2D "시드"를 생성한 후, 이 시드 비디오의 각 시간 단계에 대해 독립적으로 3D 표현을 생성합니다. 우리는 Vid3D를 두 가지 최신 3D 비디오 생성 방법과 비교 평가한 결과, Vid3D가 3D 시간적 동역학을 명시적으로 모델링하지 않음에도 불구하고 비슷한 성능을 달성함을 확인했습니다. 또한, Vid3D의 품질이 프레임당 생성되는 시점의 수에 어떻게 의존하는지를 추가로 분석했습니다. 시점 수가 적을 경우 일부 품질 저하가 관찰되지만, 성능 저하는 미미한 수준으로 유지되었습니다. 따라서 우리의 결과는 고품질의 동적 3D 장면을 생성하는 데 3D 시간적 지식이 반드시 필요하지 않을 수 있음을 시사하며, 이는 이 작업을 위한 더 간단한 생성 알고리즘을 가능하게 할 잠재력을 가지고 있습니다.
신경망이 최소한 파라미터 수만큼의 샘플을 포함하는 훈련 세트에 적합할 수 있다는 것은 널리 알려진 사실이며, 이는 과매개변수화(overparameterized) 및 저매개변수화(underparameterized) 모델의 개념을 뒷받침합니다. 그러나 실제로는 최적화기(optimizer)와 정규화기(regularizer)를 포함한 훈련 절차를 통해 접근 가능한 해결책만을 찾게 되므로 유연성이 제한됩니다. 또한, 아키텍처에 내장된 함수 클래스의 정확한 매개변수화는 손실 표면을 형성하고 우리가 찾는 최소값에 영향을 미칩니다. 본 연구에서는 신경망이 실제 데이터에 적합할 수 있는 능력을 조사합니다. 연구 결과는 다음과 같습니다: (1) 표준 최적화기는 모델이 파라미터 수보다 훨씬 적은 샘플을 가진 훈련 세트에만 적합할 수 있는 최소값을 찾습니다; (2) 합성곱 신경망(convolutional networks)은 MLP와 ViT보다 파라미터 효율성이 높으며, 이는 무작위로 레이블된 데이터에서도 마찬가지입니다; (3) 확률적 훈련(stochastic training)이 정규화 효과를 가진다고 여겨지지만, SGD는 실제로 전체 배치 경사 하강법(full-batch gradient descent)보다 더 많은 훈련 데이터에 적합한 최소값을 찾습니다; (4) 올바르게 레이블된 샘플과 잘못 레이블된 샘플에 적합할 수 있는 능력의 차이는 일반화(generalization)를 예측하는 데 유용할 수 있습니다; (5) ReLU 활성화 함수는 깊은 아키텍처에서 기울기 소실(vanishing) 및 폭발(exploding) 문제를 피하기 위해 설계되었음에도 불구하고 더 많은 데이터에 적합한 최소값을 찾는 결과를 가져옵니다.
우리는 창의적 작업을 위한 새로운 멀티모달 선호도 데이터셋을 제시합니다. 이 데이터셋은 지난 8년간 The New Yorker의 주간 만화 캡션 콘테스트를 위해 크라우드소싱으로 수집된 220만 개 이상의 캡션에 대한 2억 5천만 건 이상의 인간 평가로 구성되어 있습니다. 이 독특한 데이터셋은 유머러스한 캡션 생성을 위한 멀티모달 대형 언어 모델과 선호도 기반 미세 조정 알고리즘의 개발 및 평가를 지원합니다. 우리는 모델 생성 캡션의 품질을 판단하기 위한 새로운 벤치마크를 제안하며, GPT4와 인간 판단을 모두 활용하여 순위 기반 평가 전략을 수립합니다. 실험 결과는 RLHF와 DPO와 같은 현재의 미세 조정 방법들이 창의적 작업에 적용될 때의 한계를 강조합니다. 더 나아가, GPT4와 Claude와 같은 최첨단 모델들조차도 유머러스한 캡션 생성에서 최고의 인간 참가자들에 비해 현재 부진한 성능을 보임을 입증합니다. 이 광범위한 데이터 수집 작업을 마무리하며, 우리는 전체 선호도 데이터셋을 연구 커뮤니티에 공개하여 AI 유머 생성 및 평가 분야의 추가 발전을 촉진합니다.
언어 모델(Language Models, LMs)의 급속한 발전으로 인해 여러 응용 분야에서의 활용이 확대되고 있습니다. 그러나 모델 크기의 제약, 관련 비용, 또는 독점적 제한으로 인해 최첨단(State-of-the-Art, SOTA) 대형 언어 모델(LLMs)을 항상 사용할 수 있는 것은 아닙니다. 공개된 소형 LMs가 등장함에 따라 더 많은 응용 프로그램이 그들의 능력을 활용할 수 있게 되었지만, 적합한 LM을 선택하는 것은 여전히 어려운 과제입니다. 본 연구는 다양한 프롬프트 스타일을 사용하여 10개의 소형 공개 LMs의 출력물을 세 가지 측면(과제 유형, 응용 분야, 추론 유형)에서의 의미적 정확성에 대해 심층적인 실험적 분석을 수행합니다. 우리는 특정 요구 사항에 따라 가장 효과적인 모델과 프롬프트 스타일이 달라짐을 보여줍니다. 본 분석은 사용 사례 및 기타 제약 조건을 기반으로 전략적 선택을 위한 세 단계 스키마를 제안하여 LMs와 프롬프트 스타일의 비교 평가를 제공합니다. 또한, 적절히 활용될 경우 이러한 소형 LMs가 DeepSeek-v2, GPT-3.5-Turbo, GPT-4o와 같은 SOTA LLMs와 경쟁하거나 때로는 더 나은 성능을 발휘할 수 있음을 보여줍니다.
어텐션 기반 트랜스포머는 장거리 의존성을 모델링하고 가변 길이 입력 시퀀스를 처리할 수 있는 능력으로 인해 많은 딥러닝 분야에서 표준 아키텍처로 자리 잡았습니다. 그러나 이차 복잡도를 가진 어텐션 메커니즘은 트랜스포머 아키텍처의 주요 병목 현상으로 작용합니다. 이 알고리즘은 디코더에서 단방향으로만 작동하며, 과매개변화된 디코더 전용 모델에서는 정적 패턴으로 수렴하는 경향이 있습니다. 저는 이러한 문제를 해결하기 위해 어텐션 또는 활성화 대체물로 생성 함수를 개발했습니다. 이 함수는 각 토큰을 이전 토큰과 비교함으로써 여전히 자기회귀적 특성을 유지합니다. 나노GPT(nanoGPT)를 사용한 테스트 환경에서 이 접근법은 더 작은 모델로 더 낮은 손실을 달성했습니다. 또한 평균 컨텍스트 벡터를 통합함으로써 손실이 더욱 감소했습니다. 이 어텐션 대체 개념은 GNU AGPL v3 라이선스 하에 https://gitlab.com/Bachstelze/causal_generation에서 배포되고 있습니다.
다양한 대형 언어 모델(LLMs)은 테이블 질의응답 작업을 상황에 맞게 분석하는 데 공통적인 도전에 직면하고 있습니다. 이러한 도전은 (1) 대형 테이블에 대한 제한된 컨텍스트 윈도우, (2) 셀 경계와 토큰화 패턴 간의 다면적 불일치, 그리고 (3) gpt-3.5-turbo와 같은 외부 모델 사용 과정에서 발생하는 데이터 기밀성 관련 다양한 제약에서 비롯됩니다. 우리는 이러한 도전에 대한 잠재적 해결책으로 "HiddenTables"라는 협력 게임을 제안합니다. 본질적으로, "HiddenTables"는 코드 생성 LLM인 "Solver"와 LLM 에이전트가 테이블 질의응답 작업을 해결하는 능력을 평가하는 "Oracle" 간에 진행됩니다. 이 게임은 자연어 스키마를 기반으로 하며, 특히 기본 데이터의 보안을 보장합니다. 우리는 다양한 테이블 집합에 대한 실험을 통해 구체적인 테이블 스키마가 제공될 때 LLM이 복잡한 쿼리를 일반화하고 수행하는 능력, 구성적 의존성을 처리하는 능력, 그리고 자연어를 프로그래밍 명령어에 정렬하는 능력이 부족함을 입증합니다. 인코더 기반 모델과 달리, 우리는 "HiddenTables"의 경계를 행 수에 제한되지 않도록 확장하여 프롬프트 및 완성 토큰의 효율성을 개선했습니다. 우리의 인프라는 116,671개의 질문-테이블-답변 트리플렛으로 구성된 새로운 데이터셋 "PyQTax"를 생성했으며, 다양한 질문 분류에 대한 추가적인 세분화된 분류 및 레이블을 제공합니다. 따라서, 테이블 질의응답 작업에서 LLM의 결함에 대한 학문적 기여와 함께, "HiddenTables"는 데이터 보안을 보장하고 생성 비용을 최소화하면서 LLM이 대규모 데이터셋과 상호작용할 수 있는 구체적인 구현체입니다.
사전 학습을 위한 고품질 데이터를 선택하는 것은 언어 모델의 다운스트림 작업 성능을 결정하는 데 있어 매우 중요합니다. 주요 과제는 이러한 최적의 부분집합을 식별하는 데 있으며, 이 문제는 일반적으로 다루기 어려운 것으로 간주되어 확장 가능하고 효과적인 휴리스틱이 필요합니다. 본 연구에서는 두 개의 보조 모델의 상대적 손실 값을 기반으로 단순하고 계산적으로 효율적인 선택 기준을 도출하기 위해 경험적 베이즈 접근법을 활용한 데이터 선택 방법인 CoLoR-Filter(Conditional Loss Reduction Filtering)를 제안합니다. 모델링 이론 외에도, 우리는 CoLoR-Filter를 두 가지 언어 모델링 작업에서 실증적으로 평가합니다: (1) C4에서 데이터를 선택하여 Books에 대한 도메인 적응을 평가하고, (2) C4에서 데이터를 선택하여 다운스트림 다중 선택 질문 응답 작업 세트를 평가합니다. 우리는 더 공격적으로 부분 선택을 할 때와 작은 보조 모델을 사용하여 대형 목표 모델을 위한 데이터를 선택할 때 모두 유리한 확장성을 보여줍니다. 주요 결과 중 하나로, 150m 매개변수의 보조 모델 쌍을 사용하여 선택한 CoLoR-Filter 데이터는 1.2b 매개변수의 목표 모델을 훈련시켜, Books 작업에서는 25배 적은 데이터로, 다운스트림 작업에서는 11배 적은 데이터로 25b 무작위 선택 토큰으로 훈련된 1.2b 매개변수 모델과 동등한 성능을 달성할 수 있습니다. 코드: https://github.com/davidbrandfonbrener/color-filter-olmo 필터링된 데이터: https://huggingface.co/datasets/davidbrandfonbrener/color-filtered-c4
생성적 3D 페인팅은 고해상도 3D 자원 관리 및 재활용 분야에서 최고의 생산성 증대 도구 중 하나입니다. 텍스트-이미지 모델이 소비자용 하드웨어에서 추론이 가능해진 이후로, 3D 페인팅 방법의 성능은 꾸준히 향상되어 현재는 정체기에 가까워졌습니다. 대부분의 이러한 모델의 핵심에는 잠재 공간에서의 노이즈 제거 확산 과정이 있으며, 이는 본질적으로 시간이 많이 소요되는 반복적 프로세스입니다. 최근에는 생성 속도를 가속화하고 샘플링 반복 횟수를 크게 줄이기 위한 여러 기술이 개발되었습니다. 이러한 기술들은 2D 생성 이미징을 위해 설계되었으며, 이를 3D로 확장하기 위한 방법론은 제공되지 않았습니다. 본 논문에서는 이러한 단점을 해결하기 위해 현재 작업에 적합한 잠재 일관성 모델(Latent Consistency Model, LCM) 적응 방식을 제안합니다. 제안된 모델의 강점과 약점을 분석하고, 정량적 및 정성적으로 평가합니다. Objaverse 데이터셋 샘플 연구를 기반으로, 우리의 3D 페인팅 방법은 모든 평가에서 강력한 선호도를 보입니다. 소스 코드는 https://github.com/kongdai123/consistency2에서 확인할 수 있습니다.
대형 언어 모델(LLM)의 행동을 조종하기 위해 인간의 선호도를 활용하는 것은 최근 몇 년 동안 상당한 성공을 거두었습니다. 그러나 데이터 선택과 라벨링은 여전히 이러한 시스템의 병목 현상으로 남아 있으며, 특히 대규모로 확장할 때 더욱 그러합니다. 따라서 인간 피드백을 획득하기 위해 가장 정보성이 높은 지점을 선택하는 것은 선호도 라벨링의 비용을 상당히 줄이고 LLM의 추가 발전을 촉진할 수 있습니다. 베이지안 액티브 러닝은 이러한 문제를 해결하기 위한 원칙적인 프레임워크를 제공하며, 다양한 환경에서 주목할 만한 성공을 거두었습니다. 그러나 선호도 모델링에 이를 적용하려는 이전의 시도들은 그러한 기대를 충족시키지 못했습니다. 본 연구에서는 순진한 인식론적 불확실성 추정이 중복 샘플의 획득으로 이어진다는 점을 확인했습니다. 우리는 이를 해결하기 위해 베이지안 액티브 러너 for 선호도 모델링(BAL-PM)을 제안합니다. 이는 선호도 모델에 따른 높은 인식론적 불확실성 지점을 타겟팅할 뿐만 아니라, 사용된 LLM이 생성한 특징 공간에서 획득된 프롬프트 분포의 엔트로피를 최대화하려는 새로운 확률적 획득 정책입니다. 특히, 우리의 실험은 BAL-PM이 두 가지 인기 있는 인간 선호도 데이터셋에서 33%에서 68% 더 적은 선호도 라벨을 필요로 하며, 이전의 확률적 베이지안 획득 정책들을 능가함을 보여줍니다.