번역이 포함된 일일 선별된 AI 연구 논문
본 연구에서는 고성능 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs) 구축에 대해 논의합니다. 특히, 다양한 아키텍처 구성 요소와 데이터 선택의 중요성을 탐구합니다. 이미지 인코더, 시각-언어 연결기, 그리고 다양한 사전 학습 데이터 선택에 대한 신중하고 포괄적인 제거 실험을 통해 몇 가지 중요한 설계 교훈을 도출했습니다. 예를 들어, 대규모 다중모달 사전 학습을 위해 이미지-캡션, 교차된 이미지-텍스트, 그리고 텍스트 전용 데이터를 신중하게 혼합하는 것이 여러 벤치마크에서 최첨단(State-of-the-Art, SOTA) 소수 샷(few-shot) 결과를 달성하는 데 중요함을 입증했습니다. 또한, 이미지 인코더와 함께 이미지 해상도 및 이미지 토큰 수가 상당한 영향을 미치는 반면, 시각-언어 연결기 설계는 상대적으로 미미한 중요성을 가짐을 보여줍니다. 제시된 방법론을 확장하여 300억 개의 파라미터를 가진 MM1이라는 다중모달 모델 패밀리를 구축했습니다. 이는 조밀한 모델(dense models)과 전문가 혼합(Mixture-of-Experts, MoE) 변형으로 구성되며, 사전 학습 지표에서 SOTA를 달성하고, 기존의 다양한 다중모달 벤치마크에서 지도 학습 미세 조정 후 경쟁력 있는 성능을 보입니다. 대규모 사전 학습 덕분에 MM1은 향상된 문맥 내 학습(in-context learning) 및 다중 이미지 추론과 같은 매력적인 특성을 가지며, 소수 샷 사고 연쇄(few-shot chain-of-thought) 프롬프팅을 가능하게 합니다.
사람들은 글을 쓰거나 말할 때 때때로 생각하기 위해 멈춥니다. 추론 중심 연구들은 종종 추론을 질문에 답하거나 주도적인 작업을 완수하는 방법으로 정의해 왔지만, 추론은 사실상 모든 텍스트에 암묵적으로 존재합니다. 예를 들어, 증명의 줄 사이에 명시되지 않은 단계나 대화를 뒷받침하는 마음이론(theory of mind)이 이에 해당합니다. Self-Taught Reasoner(STaR, Zelikman et al. 2022)에서는 몇 가지 예시를 통해 질문에 대한 근거를 추론하고, 정답으로 이어지는 근거를 학습함으로써 유용한 사고를 배웁니다. 이는 매우 제한된 환경입니다. 이상적으로는 언어 모델이 임의의 텍스트에서 명시되지 않은 근거를 추론하는 법을 배울 수 있어야 합니다. 우리는 Quiet-STaR을 제안합니다. 이는 STaR의 일반화된 버전으로, 언어 모델이 각 토큰에서 미래 텍스트를 설명하기 위한 근거를 생성하며 예측을 개선합니다. 우리는 1) 텍스트 생성의 계산 비용, 2) 언어 모델이 초기에 내부 사고를 생성하거나 사용하는 방법을 모르는 점, 3) 개별 다음 토큰을 넘어 예측해야 할 필요성과 같은 주요 문제를 해결합니다. 이를 위해 토큰 단위 병렬 샘플링 알고리즘, 사고의 시작과 끝을 나타내는 학습 가능한 토큰, 그리고 확장된 교사 강요(teacher-forcing) 기법을 제안합니다. 고무적으로도, 생성된 근거는 예측하기 어려운 토큰을 설명하는 데 특히 도움이 되며, 언어 모델의 어려운 질문에 직접 답하는 능력을 향상시킵니다. 특히, 인터넷 텍스트 코퍼스에 Quiet-STaR을 적용해 언어 모델을 추가 사전 학습한 후, GSM8K(5.9%→10.9%)와 CommonsenseQA(36.3%→47.2%)에서 제로샷(zero-shot) 성능 향상을 확인했으며, 자연어 텍스트에서 어려운 토큰의 복잡도(perplexity)가 개선되었습니다. 중요한 점은 이러한 개선이 해당 작업에 대한 미세 조정(fine-tuning) 없이도 가능하다는 것입니다. Quiet-STaR은 언어 모델이 보다 일반적이고 확장 가능한 방식으로 추론하는 법을 배우는 데 한 걸음 더 나아간 것입니다.
웹 개발에서 비전-언어 모델(VLMs)을 활용하는 것은 효율성을 높이고 노코드 솔루션의 가능성을 열어줄 유망한 전략으로 여겨집니다: 예를 들어, UI의 스크린샷이나 스케치를 제공하면 VLM이 이를 HTML과 같은 언어로 재현하는 코드를 생성할 수 있습니다. 다양한 작업을 위한 VLMs의 발전에도 불구하고, 스크린샷을 해당 HTML로 변환하는 특정 과제는 거의 탐구되지 않았습니다. 우리는 이 문제가 주로 적합한 고품질 데이터셋의 부재 때문이라고 생각합니다. 이 연구에서는 2백만 쌍의 HTML 코드와 해당 스크린샷으로 구성된 합성 데이터셋인 WebSight를 소개합니다. 우리는 이 데이터셋을 기반으로 기초 VLM을 미세 조정하여 웹페이지 스크린샷을 기능적인 HTML 코드로 변환하는 데 능숙함을 보여줍니다. 이 분야의 연구를 가속화하기 위해 WebSight를 오픈소스로 공개합니다.
본 논문은 GiT라는 간단하지만 효과적인 프레임워크를 제안하며, 이는 기본적인 ViT(Vision Transformer)만으로 다양한 시각적 작업에 동시에 적용 가능합니다. 대규모 언어 모델(LLMs)에서 널리 사용되는 다층 트랜스포머 아키텍처(예: GPT)의 보편성에 영감을 받아, 이를 강력한 시각적 기반 모델(VFM)로 확장하고자 합니다. 그러나 언어 모델링과 달리, 시각적 작업은 일반적으로 탐지를 위한 바운딩 박스 헤드나 분할을 위한 픽셀 디코더와 같은 특정 모듈을 필요로 하며, 이는 다층 트랜스포머의 시각적 도메인 적용을 크게 방해합니다. 이를 해결하기 위해, 우리는 다양한 시각적 작업(이미지 수준 이해(예: 캡셔닝), 희소 인식(예: 탐지), 밀집 예측(예: 분할))을 능숙하게 통합할 수 있는 자동 회귀 디코딩을 가능하게 하는 보편적인 언어 인터페이스를 설계했습니다. 이러한 설계를 바탕으로, 전체 모델은 특별한 추가 없이 오직 ViT로만 구성되어 있어 놀라운 아키텍처 단순화를 제공합니다. GiT는 다중 작업 시각적 모델로, 작업별 미세 조정 없이 다섯 가지 대표적인 벤치마크에서 공동으로 학습됩니다. 흥미롭게도, GiT는 일반화 성능에서 새로운 벤치마크를 세우고, 작업 간 상호 강화를 촉진하여 개별 학습에 비해 상당한 개선을 이끌어냅니다. 이는 LLMs에서 관찰된 유사한 영향을 반영합니다. 27개의 데이터셋으로 학습을 더욱 풍부하게 하여, GiT는 다양한 작업에서 강력한 제로샷 결과를 달성합니다. 간단한 설계 덕분에, 이 패러다임은 시각과 언어 간의 아키텍처 격차를 좁히는 데 유망합니다. 코드와 모델은 https://github.com/Haiyang-W/GiT에서 제공될 예정입니다.
텍스트-이미지 합성에서 확산 모델(diffusion model)의 엄청난 성공은 이를 이미지 생성 및 편집을 위한 차세대 최종 사용자 애플리케이션의 유력한 후보로 만들었습니다. 기존 연구들은 추론 시간을 단축하거나 지역 기반 텍스트 프롬프트와 같은 새로운 세밀한 제어를 통해 사용자 상호작용을 증가시킴으로써 확산 모델의 사용성을 개선하는 데 초점을 맞추었습니다. 그러나 우리는 실험적으로 이 두 가지 연구 분야를 통합하는 것이 쉽지 않으며, 이로 인해 확산 모델의 잠재력이 제한된다는 사실을 발견했습니다. 이러한 비호환성을 해결하기 위해, 우리는 첫 번째 실시간 지역 기반 텍스트-이미지 생성 프레임워크인 StreamMultiDiffusion을 제안합니다. 빠른 추론 기술을 안정화하고 모델을 새롭게 제안된 다중 프롬프트 스트림 배치 아키텍처로 재구성함으로써, 우리는 기존 솔루션 대비 10배 빠른 파노라마 생성과 단일 RTX 2080 Ti GPU에서 1.57 FPS의 지역 기반 텍스트-이미지 합성 속도를 달성했습니다. 우리의 솔루션은 '시맨틱 팔레트(semantic palette)'라는 새로운 상호작용적 이미지 생성 패러다임을 열어, 주어진 다수의 손으로 그린 영역에서 미리 정해진 의미(예: 독수리, 소녀)를 인코딩하여 실시간으로 고품질 이미지를 생성할 수 있게 합니다. 우리의 코드와 데모 애플리케이션은 https://github.com/ironjr/StreamMultiDiffusion에서 확인할 수 있습니다.
우리는 감독된 비디오 편집 데이터에 의존하지 않고도 비디오 편집 분야에서 새로운 최첨단 기술을 확립한 모델인 Emu Video Edit(EVE)를 소개합니다. EVE를 개발하기 위해 우리는 이미지 편집 어댑터와 비디오 생성 어댑터를 별도로 학습시킨 후, 이를 동일한 텍스트-이미지 모델에 연결했습니다. 그런 다음, 이러한 어댑터들을 비디오 편집에 맞추기 위해 새로운 비지도 증류 절차인 Factorized Diffusion Distillation을 도입했습니다. 이 절차는 감독된 데이터 없이 하나 이상의 교사 모델로부터 동시에 지식을 증류합니다. 우리는 이 절차를 활용하여 EVE가 (i) 이미지 편집 어댑터를 통해 각 프레임을 정확하게 편집하고, (ii) 비디오 생성 어댑터를 사용하여 편집된 프레임들 간의 시간적 일관성을 보장하도록 지식을 공동으로 증류했습니다. 마지막으로, 우리의 접근 방식이 다른 기능을 해제할 수 있는 잠재력을 입증하기 위해, 추가적인 어댑터 조합들을 정렬했습니다.
효과적인 어텐션 모듈은 Transformer 기반 대규모 언어 모델(LLMs)의 성공에 중요한 역할을 해왔지만, 이러한 어텐션 모듈의 2차 시간 및 메모리 복잡도는 긴 시퀀스를 처리할 때 문제를 야기합니다. 긴 시퀀스 문제에 대한 한 가지 잠재적인 해결책은 분산 클러스터를 활용하여 어텐션 모듈의 계산을 여러 장치(예: GPU)에 걸쳐 병렬화하는 것입니다. 그러나 분산 접근 방식을 채택하면 로컬 어텐션 결과를 저장하기 위한 추가 메모리 오버헤드가 발생하고, 로컬 결과를 글로벌 결과로 집계하기 위한 추가 통신 비용이 불가피하게 발생합니다. 본 논문에서는 글로벌 클러스터 및 로컬 장치 수준에서 메모리 접근 및 통신 작업을 최적화하기 위해 "BurstAttention"이라는 분산 어텐션 프레임워크를 제안합니다. 실험에서는 긴 시퀀스 처리를 위한 다른 경쟁적인 분산 어텐션 솔루션과 BurstAttention을 비교합니다. 다양한 길이 설정에서의 실험 결과는 BurstAttention이 이러한 경쟁적인 베이스라인에 비해 긴 시퀀스 처리에 있어 상당한 이점을 제공하며, 8개의 A100에서 32K 시퀀스 길이를 학습하는 동안 40%의 통신 오버헤드를 줄이고 2배의 속도 향상을 달성함을 보여줍니다.
시각적 텍스트 렌더링은 현대의 텍스트-이미지 생성 모델에 있어 근본적인 과제로, 그 핵심 문제는 텍스트 인코더의 결함에 있습니다. 정확한 텍스트 렌더링을 달성하기 위해, 우리는 텍스트 인코더에 두 가지 중요한 요구사항을 확인했습니다: 문자 인식과 글리프와의 정렬입니다. 우리의 해결책은 문자 인식이 가능한 ByT5 인코더를 세심하게 선별된 글리프-텍스트 데이터셋으로 미세 조정하여, Glyph-ByT5라는 일련의 맞춤형 텍스트 인코더를 제작하는 것입니다. 우리는 Glyph-ByT5를 SDXL과 통합하는 효과적인 방법을 제시하여, 디자인 이미지 생성을 위한 Glyph-SDXL 모델을 개발했습니다. 이를 통해 텍스트 렌더링 정확도가 크게 향상되어, 디자인 이미지 벤치마크에서 20% 미만에서 거의 90%로 개선되었습니다. 특히 Glyph-SDXL은 텍스트 단락 렌더링 능력을 새롭게 획득하여, 수십에서 수백 개의 문자에 대해 높은 철자 정확도를 달성하며 자동 다중 줄 레이아웃을 구현했습니다. 마지막으로, 시각적 텍스트가 포함된 소규모의 고품질 포토리얼리스틱 이미지 세트로 Glyph-SDXL을 미세 조정함으로써, 오픈 도메인 실제 이미지에서의 장면 텍스트 렌더링 능력이 크게 개선되었음을 보여줍니다. 이러한 설득력 있는 결과는 다양한 도전적인 과제를 위한 맞춤형 텍스트 인코더 설계에 대한 추가 탐구를 촉진하고자 합니다.
대규모 시각-언어 모델은 세밀한 객체 인식 능력을 달성했지만, 복잡하고 밀집된 시나리오에서 특정 작업 전문가들의 성능을 뛰어넘기 위해서는 여전히 이미지 해상도의 한계가 주요 장애물로 남아 있습니다. 이러한 한계는 GUI 에이전트, 카운팅 등과 같은 영역에서 미묘한 시각 및 언어 참조를 달성하는 모델의 잠재력을 더욱 제한합니다. 이 문제를 해결하기 위해, 우리는 통합된 고해상도 일반 모델인 Griffon v2를 소개하며, 시각 및 텍스트 프롬프트를 통해 유연한 객체 참조를 가능하게 합니다. 이미지 해상도를 효율적으로 확장하기 위해, 우리는 대규모 언어 모델의 입력 토큰 제약을 극복하기 위한 간단하고 경량화된 다운샘플링 프로젝터를 설계했습니다. 이 설계는 본질적으로 완전한 문맥과 세부 사항을 보존하며, 특히 작은 객체에 대한 다중모달 인식 능력을 크게 향상시킵니다. 이를 기반으로, 우리는 플러그 앤 플레이 시각 토크나이저를 통해 모델에 시각-언어 공동 참조 능력을 추가로 장착했습니다. 이를 통해 사용자는 유연한 대상 이미지, 자유 형식 텍스트, 심지어 좌표와도 친숙하게 상호작용할 수 있습니다. 실험 결과, Griffon v2는 시각 및 텍스트 참조를 통해 관심 객체를 정확히 위치 지정할 수 있으며, REC, 구문 그라운딩, REG 작업에서 최첨단 성능을 달성하고, 객체 탐지 및 객체 카운팅에서 전문가 모델들을 능가합니다. 데이터, 코드 및 모델은 https://github.com/jefferyZhan/Griffon에서 공개될 예정입니다.
비디오 이해는 컴퓨터 비전 연구의 근본적인 방향 중 하나로, RNN, 3D CNN, Transformer와 같은 다양한 아키텍처를 탐구하기 위해 광범위한 노력이 기울여져 왔습니다. 최근 제안된 상태 공간 모델 아키텍처, 예를 들어 Mamba는 긴 시퀀스 모델링에서의 성공을 비디오 모델링으로 확장할 수 있는 유망한 특성을 보여줍니다. 본 연구에서는 Mamba가 비디오 이해 영역에서 Transformer의 대안으로서 가능성을 평가하기 위해, Mamba가 비디오 모델링에서 수행할 수 있는 다양한 역할을 탐구하고 Mamba가 우수성을 보일 수 있는 다양한 작업을 조사하는 포괄적인 연구를 수행합니다. 우리는 Mamba를 비디오 모델링을 위한 네 가지 역할로 분류하고, 14개의 모델/모듈로 구성된 Video Mamba Suite를 도출하여 12개의 비디오 이해 작업에서 이를 평가합니다. 광범위한 실험을 통해 Mamba가 비디오 전용 작업과 비디오-언어 작업 모두에서 강력한 잠재력을 보여주며, 효율성과 성능 간의 유망한 균형을 보여줌을 확인했습니다. 이 연구가 비디오 이해에 대한 향후 연구에 유용한 데이터 포인트와 통찰력을 제공할 수 있기를 바랍니다. 코드는 공개되어 있습니다: https://github.com/OpenGVLab/video-mamba-suite.
최근의 시각-언어-행동(VLA) 모델들은 2D 입력에 의존하며, 3D 물리 세계의 광범위한 영역과의 통합이 부족합니다. 더욱이, 이 모델들은 지각에서 행동으로의 직접적인 매핑을 학습함으로써 행동을 예측하는데, 이는 세계의 역동성과 행동과 역동성 간의 관계를 간과합니다. 반면, 인간은 미래 시나리오에 대한 상상을 그려내고 이에 따라 행동을 계획할 수 있는 세계 모델을 가지고 있습니다. 이를 위해, 우리는 생성적 세계 모델을 통해 3D 지각, 추론, 행동을 원활하게 연결하는 새로운 형태의 체화된 기초 모델(embodied foundation model) 제품군을 도입하여 3D-VLA를 제안합니다. 구체적으로, 3D-VLA는 3D 기반의 대형 언어 모델(LLM) 위에 구축되며, 체화된 환경과 상호작용하기 위한 일련의 상호작용 토큰이 도입됩니다. 또한, 모델에 생성 능력을 주입하기 위해, 우리는 일련의 체화된 확산 모델(embodied diffusion model)을 학습시키고 이를 LLM에 정렬하여 목표 이미지와 포인트 클라우드를 예측합니다. 3D-VLA를 학습시키기 위해, 우리는 기존의 로보틱스 데이터셋에서 방대한 3D 관련 정보를 추출하여 대규모 3D 체화된 명령 데이터셋을 구축했습니다. 우리의 실험 결과, 3D-VLA는 체화된 환경에서의 추론, 다중모달 생성, 계획 능력을 크게 향상시키며, 실제 세계 응용에서의 잠재력을 보여줍니다.
텍스트에서 시각적 구성 요소로의 진화는 사람들의 일상생활을 용이하게 합니다. 예를 들어, 텍스트에서 이미지와 비디오를 생성하거나 이미지 내에서 원하는 요소를 식별하는 등의 작업이 가능해졌습니다. 과거의 다중 모달 능력을 포함한 컴퓨터 비전 모델들은 잘 정의된 객체를 기반으로 한 이미지 탐지와 분류에 초점을 맞추었습니다. 대형 언어 모델(LLMs)은 자연어에서 시각적 객체로의 변환을 도입하여 텍스트 문맥에 대한 시각적 레이아웃을 제공합니다. OpenAI GPT-4는 LLMs의 정점으로 등장했으며, 컴퓨터 비전(CV) 분야에서는 2D 이미지를 3D 표현으로 변환하는 최첨단(SOTA) 모델과 알고리즘이 풍부하게 존재합니다. 그러나 알고리즘과 문제 간의 불일치는 원치 않는 결과를 초래할 수 있습니다. 이러한 문제에 대응하기 위해, 우리는 최첨단 비전 모델을 통합하여 비전 지향적 AI 개발을 용이하게 하는 통합된 VisionGPT-3D 프레임워크를 제안합니다. VisionGPT-3D는 다중 모달 기반 모델의 강점을 기반으로 한 다재다능한 다중 모달 프레임워크를 제공합니다. 이 프레임워크는 다양한 SOTA 비전 모델을 원활하게 통합하고, SOTA 비전 모델 선택을 자동화하며, 2D 깊이 맵 분석에 적합한 3D 메시 생성 알고리즘을 식별하고, 텍스트 프롬프트와 같은 다양한 다중 모달 입력을 기반으로 최적의 결과를 생성합니다. 키워드: VisionGPT-3D, 3D 비전 이해, 다중 모달 에이전트
최근 인공지능 연구자들은 언어와 시각이 어떻게 결합되는지에 큰 관심을 보이며, 텍스트와 시각 정보를 원활하게 통합하려는 멀티모달 모델의 개발을 촉진하고 있습니다. 대형 언어 모델(LLM)을 확장한 멀티모달 모델은 이미지 캡셔닝, 시각 질의응답(VQA), 시각적 접지(visual grounding) 등 다양한 작업에서 놀라운 능력을 보여주었습니다. 이러한 모델들이 상당한 발전을 이루었음에도 불구하고, 실제 시나리오에서 흔히 발생하는 이미지 해석과 질문에 정확하게 답변하는 데는 여전히 과제가 남아 있습니다. 본 논문은 기존 모델의 멀티모달 능력을 향상시키기 위한 새로운 접근 방식을 소개합니다. 현재의 시각 언어 모델(VLM)과 멀티모달 대형 언어 모델(MLLM)에서 관찰된 한계에 대응하여, 우리가 제안한 모델 Veagle은 이전 연구의 성공과 통찰에서 영감을 받은 독특한 메커니즘을 통합합니다. Veagle은 인코딩된 시각 정보를 언어 모델에 직접 투영하는 동적 메커니즘을 활용합니다. 이 동적 접근 방식은 시각적 맥락에 존재하는 복잡한 세부 사항을 더욱 섬세하게 이해할 수 있도록 합니다. Veagle의 효과를 검증하기 위해, 우리는 벤치마크 데이터셋에서 시각 질의응답 및 이미지 이해와 같은 작업을 중점적으로 포괄적인 실험을 수행했습니다. 실험 결과, Veagle은 기존 모델들을 상당한 차이로 능가하며 5-6%의 성능 향상을 보였습니다. 이러한 결과는 전통적인 벤치마크를 넘어 모델의 다양성과 적용 가능성을 강조합니다.
최근 상태 공간 모델, 특히 Mamba의 발전은 언어 이해와 같은 작업에서 긴 시퀀스 모델링에 있어 상당한 진전을 보여주었습니다. 그러나 시각 작업에서의 적용은 전통적인 합성곱 신경망(CNN)과 비전 트랜스포머(ViT)의 성능을 크게 넘어서지는 못했습니다. 본 논문은 Vision Mamba(ViM)의 성능 향상의 핵심이 시퀀스 모델링을 위한 스캔 방향 최적화에 있다고 주장합니다. 공간 토큰을 평면화하는 전통적인 ViM 접근법은 지역적 2D 의존성을 보존하지 못함으로써 인접 토큰 간의 거리를 늘리는 문제가 있습니다. 우리는 이미지를 별도의 윈도우로 나누어 지역적 의존성을 효과적으로 포착하면서도 전역적 관점을 유지하는 새로운 지역 스캔 전략을 제안합니다. 또한, 다양한 네트워크 계층에서 스캔 패턴에 대한 선호도가 다르다는 점을 고려하여, 각 계층에 대해 최적의 스캔 선택을 독립적으로 탐색하는 동적 방법을 제안함으로써 성능을 크게 향상시켰습니다. 평면 및 계층적 모델 모두에 걸친 광범위한 실험을 통해 우리의 접근법이 이미지 표현을 효과적으로 포착하는 데 있어 우수함을 입증했습니다. 예를 들어, 동일한 1.5G FLOPs로 ImageNet에서 Vim-Ti보다 3.1% 더 높은 성능을 보였습니다. 코드는 https://github.com/hunto/LocalMamba에서 확인할 수 있습니다.