번역이 포함된 일일 선별된 AI 연구 논문
잠재 일관성 모델(Latent Consistency Models, LCMs)은 텍스트-이미지 생성 작업의 가속화에서 인상적인 성능을 달성하며, 최소한의 추론 단계로도 고품질의 이미지를 생성합니다. LCMs는 사전 훈련된 잠재 확산 모델(Latent Diffusion Models, LDMs)로부터 증류되어 약 32시간의 A100 GPU 훈련 시간만 필요로 합니다. 이 보고서는 LCMs의 잠재력을 두 가지 측면에서 더욱 확장합니다: 첫째, LoRA 증류를 Stable-Diffusion 모델(SD-V1.5, SSD-1B, SDXL 포함)에 적용함으로써, LCM의 범위를 더 큰 모델로 확장하면서도 메모리 소비를 크게 줄이고 우수한 이미지 생성 품질을 달성했습니다. 둘째, LCM 증류를 통해 얻은 LoRA 매개변수를 범용 Stable-Diffusion 가속 모듈로 식별하고, 이를 LCM-LoRA로 명명했습니다. LCM-LoRA는 훈련 없이도 다양한 Stable-Diffusion 미세 조정 모델이나 LoRAs에 직접 연결할 수 있어, 다양한 이미지 생성 작업에 보편적으로 적용 가능한 가속기로 기능합니다. DDIM, DPM-Solver와 같은 기존의 수치적 PF-ODE 솔버와 비교할 때, LCM-LoRA는 강력한 일반화 능력을 가진 플러그인 신경망 PF-ODE 솔버로 볼 수 있습니다. 프로젝트 페이지: https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus는 대규모 멀티모달 모델의 기능을 확장한 범용 멀티모달 어시스턴트입니다. 이 모델은 사전 학습된 시각 및 시각-언어 모델로 구성된 스킬 저장소를 유지하며, 사용자의 입력에 따라 관련 도구를 활성화하여 실세계 작업을 수행할 수 있습니다. LLaVA-Plus는 멀티모달 명령 수행 데이터를 학습하여 도구 사용 능력을 습득하며, 시각적 이해, 생성, 외부 지식 검색 및 조합을 포괄합니다. 실험 결과에 따르면, LLaVA-Plus는 기존 LLaVA의 성능을 능가하며 새로운 기능을 보여줍니다. 이 모델의 독특한 점은 이미지 쿼리가 직접적으로 기반을 두고 인간-AI 상호작용 세션 전반에 걸쳐 적극적으로 참여한다는 것으로, 이는 도구 사용 성능을 크게 향상시키고 새로운 시나리오를 가능하게 합니다.
우리는 다양한 LLM(대형 언어 모델) 프롬프트 간에 어텐션 상태를 재사용하여 추론 속도를 가속화하는 접근 방식인 Prompt Cache를 제안합니다. 많은 입력 프롬프트에는 시스템 메시지, 프롬프트 템플릿, 컨텍스트로 제공되는 문서와 같은 중복되는 텍스트 세그먼트가 존재합니다. 우리의 핵심 통찰은 이러한 빈번히 발생하는 텍스트 세그먼트의 어텐션 상태를 추론 서버에서 미리 계산하고 저장함으로써, 사용자 프롬프트에서 이 세그먼트가 나타날 때 효율적으로 재사용할 수 있다는 것입니다. Prompt Cache는 이러한 재사용 가능한 텍스트 세그먼트를 명시적으로 정의하기 위해 스키마를 사용하며, 이를 프롬프트 모듈이라고 부릅니다. 이 스키마는 어텐션 상태 재사용 시 위치 정확성을 보장하고, 사용자가 캐시된 상태를 프롬프트에서 접근할 수 있는 인터페이스를 제공합니다. 프로토타입 구현을 통해 여러 LLM에 걸쳐 Prompt Cache를 평가한 결과, 특히 문서 기반 질의응답 및 추천과 같은 긴 프롬프트에서 첫 토큰까지의 지연 시간이 크게 감소함을 확인했습니다. GPU 기반 추론에서는 8배, CPU 기반 추론에서는 60배까지 성능이 개선되었으며, 출력 정확도를 유지하고 모델 파라미터 수정 없이 이러한 결과를 달성했습니다.
대형 언어 모델(LLM)은 최근 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 달성했습니다. 그러나 이러한 모델의 접근성은 그 성능에 비해 뒤처져 있습니다. 최첨단 LLM은 비용이 많이 드는 인프라가 필요하며, 속도 제한, 지역 차단, 검열이 적용된 웹 인터페이스를 통해서만 접근할 수 있고, 공개된 코드와 기술 보고서가 부족합니다. 본 논문에서는 LLM 접근성을 민주화하려는 인기 있는 오픈소스 저장소인 GPT4All의 이야기를 소개합니다. 우리는 원래 GPT4All 모델 패밀리의 기술적 세부 사항과 GPT4All 프로젝트가 단일 모델에서 완전한 오픈소스 생태계로 진화한 과정을 설명합니다. 이 논문이 원래 GPT4All 모델에 대한 기술적 개요뿐만 아니라 GPT4All 오픈소스 생태계의 성장에 대한 사례 연구로도 활용되기를 바랍니다.
LLaVA와 Mini-GPT4와 같은 최근의 발전은 시각 정보를 대형 언어 모델(LLM)에 성공적으로 통합하여 영감을 주는 결과를 도출하고, 새로운 세대의 다중 모달 LLM(MLLM)을 탄생시켰습니다. 그러나 이러한 방법들은 환각(hallucination) 현상과 작업 간의 상호 간섭 문제로 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 다운스트림 작업에 적응하기 위해 LLM을 다중 전문가 모델을 연결하는 다리로 활용하는 효율적이고 정확한 접근 방식, 즉 u-LLaVA를 제안합니다. 먼저, 모달리티 정렬 모듈과 다중 작업 모듈을 LLM에 통합합니다. 그런 다음, 효율적인 모달리티 정렬과 명령어 수행을 위해 다양한 유형의 공개 데이터셋을 재구성하거나 재구축합니다. 마지막으로, 훈련된 LLM에서 작업별 정보를 추출하여 다양한 모듈에 제공하여 다운스트림 작업을 해결합니다. 전체 프레임워크는 단순하면서도 효과적이며, 여러 벤치마크에서 최첨단 성능을 달성합니다. 또한, 우리는 모델, 생성된 데이터, 그리고 코드 베이스를 공개적으로 제공합니다.
자율주행 기술의 추구는 인지, 의사결정, 제어 시스템의 정교한 통합에 달려 있습니다. 전통적인 데이터 기반 및 규칙 기반 접근 방식은 복잡한 주행 환경의 미묘한 차이와 다른 도로 사용자의 의도를 파악하지 못함으로써 한계를 드러냈습니다. 이는 특히 안전하고 신뢰할 수 있는 자율주행을 위해 필수적인 상식적 추론과 미묘한 장면 이해의 개발에 있어 상당한 병목 현상으로 작용했습니다. 시각 언어 모델(Visual Language Model, VLM)의 등장은 완전한 자율주행 차량 실현을 위한 새로운 지평을 열었습니다. 본 보고서는 최신 최첨단 VLM인 \modelnamefull의 자율주행 시나리오 적용에 대한 철저한 평가를 제공합니다. 우리는 이 모델이 주행 장면을 이해하고 추론하며, 의사결정을 내리고, 궁극적으로 운전자로서 행동할 수 있는 능력을 탐구합니다. 우리의 포괄적인 테스트는 기본적인 장면 인식부터 복잡한 인과적 추론 및 다양한 조건 하의 실시간 의사결정에 이르기까지 광범위하게 진행되었습니다. 연구 결과, \modelname은 기존 자율주행 시스템에 비해 장면 이해와 인과적 추론에서 우수한 성능을 보여주었습니다. 이 모델은 분포 외(out-of-distribution) 시나리오를 처리하고, 의도를 인식하며, 실제 주행 상황에서 정보에 기반한 결정을 내릴 수 있는 잠재력을 보여줍니다. 그러나 방향 판별, 신호등 인식, 시각적 근거화, 공간적 추론 작업 등에서 여전히 과제가 남아 있습니다. 이러한 한계는 추가 연구와 개발의 필요성을 강조합니다. 관심 있는 분들을 위해 프로젝트는 GitHub에서 접근 및 활용이 가능합니다: https://github.com/PJLab-ADG/GPT4V-AD-Exploration