번역이 포함된 일일 선별된 AI 연구 논문
최근 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 급격한 증가는 AI 연구와 산업의 풍경을 근본적으로 바꿔놓았으며, 다음 AI 이정표로 향하는 유망한 길을 밝혀주었습니다. 그러나 실제 세계 응용 프로그램에서 MLLMs를 실용적으로 만드는 데 방해가 되는 중요한 도전 과제들이 여전히 존재합니다. 가장 주목할 만한 도전 과제는 막대한 수의 매개변수와 방대한 계산을 필요로 하는 MLLM을 실행하는 데 드는 엄청난 비용에서 나타납니다. 결과적으로 대부분의 MLLMs는 고성능 클라우드 서버에 배포되어야 하며, 이는 모바일, 오프라인, 에너지에 민감하며 개인 정보를 보호해야 하는 시나리오와 같은 응용 범위를 크게 제한합니다. 본 연구에서는 엔드-사이드 장치에 배포할 수 있는 효율적인 MLLM인 MiniCPM-V 시리즈를 제시합니다. 최신 MLLM 기술을 아키텍처, 사전 훈련 및 정렬에 통합함으로써, 최신 MiniCPM-Llama3-V 2.5는 다음과 같은 주목할 만한 특징을 가지고 있습니다: (1) OpenCompass에서 GPT-4V-1106, Gemini Pro 및 Claude 3을 능가하는 강력한 성능, 11가지 인기 있는 벤치마크를 종합적으로 평가한 결과, (2) 강력한 OCR 능력 및 어떠한 종횡비에서도 180만 화소 고해상도 이미지 인식, (3) 저 환각률로 신뢰할 수 있는 동작, (4) 30개 이상의 언어에 대한 다국어 지원, (5) 모바일 전화기에 효율적으로 배포될 수 있음. 더 중요한 것은 MiniCPM-V가 유용한(GPT-4V와 같은) 수준의 성능을 달성하기 위한 모델 크기가 빠르게 축소되고 있으며, 엔드-사이드 계산 능력의 급속한 성장과 함께 이러한 추세를 대표하는 예로 볼 수 있다는 점입니다. 이는 GPT-4V 수준의 MLLMs가 엔드 장치에 배포되어 점점 더 가능해지고 있으며, 향후 광범위한 실제 세계 AI 응용 프로그램의 가능성을 열어가고 있다는 것을 함께 보여줍니다.
대화는 인간-컴퓨터 상호작용(HCI)에서 가장 자연스러운 방법으로 작용합니다. 최근 음성 언어 모델(SLM)의 발전은 음성 기반 대화형 AI를 크게 향상시켰습니다. 그러나 이러한 모델들은 턴 기반 대화에 제한되어 있어, 실시간으로 발화 상황에서 인간과 상호작용하는 능력이 부족합니다. 예를 들어, 생성된 콘텐츠가 만족스럽지 않을 때 중단되는 경우 등이 있습니다. 이러한 제한을 해결하기 위해, 우리는 상호작용형 음성 언어 모델(iSLM)에서 전 이중 모델링(FDM)을 탐구하며, 실시간 상호작용을 강화하고, 더 구체적으로 중단 능력을 탐구합니다. 우리는 새로운 모델 디자인인 '말하는 동안 듣는' 언어 모델(LSLM)을 소개합니다. 이 모델은 청취 및 발화 채널을 갖춘 end-to-end 시스템입니다. LSLM은 음성 생성을 위해 토큰 기반 디코더 전용 TTS를 사용하고, 실시간 오디오 입력을 위해 스트리밍 자가 지도 학습(SSL) 인코더를 사용합니다. LSLM은 자동 회귀 생성을 위해 두 채널을 융합하고, 실시간으로 턴을 인식합니다. 세 가지 융합 전략인 초기 융합, 중간 융합 및 후반 융합이 탐구되었는데, 중간 융합이 음성 생성과 실시간 상호작용 사이의 최적 균형을 달성했습니다. 명령 기반 FDM과 음성 기반 FDM의 두 가지 실험 설정은 LSLM이 잡음에 강하고 다양한 명령에 민감하다는 것을 보여줍니다. 우리의 결과는 LSLM이 기존 시스템에 미치는 영향을 최소화하면서 이중 통신 능력을 달성할 수 있는 능력을 강조합니다. 본 연구는 상호작용형 음성 대화 시스템의 발전을 촉진하여 현실 세계에서의 적용 가능성을 향상시키는 것을 목표로 합니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템을 구현하는 것은 본질적으로 복잡하며 데이터, 사용 사례 및 복잡한 설계 결정에 대한 심층적인 이해가 필요합니다. 또한, 이러한 시스템을 평가하는 것은 큰 어려움을 겪으며, 검색 정확도와 생성적 품질을 평가하기 위해 다각적인 접근이 필요합니다. 우리는 RAG 사용 사례를 위해 대규모 언어 모델을 증강하는 오픈 소스 프레임워크인 RAG Foundry를 소개합니다. RAG Foundry는 데이터 생성, 훈련, 추론 및 평가를 단일 워크플로우로 통합하여, RAG 설정에서 대규모 언어 모델을 훈련하고 평가하기 위한 데이터 증강 데이터셋의 생성을 용이하게 합니다. 이 통합은 다양한 RAG 기술로의 빠른 프로토타이핑과 실험을 가능하게 하며, 사용자가 내부 또는 전문 지식 원본을 활용하여 데이터셋을 쉽게 생성하고 RAG 모델을 훈련할 수 있습니다. 우리는 다양한 RAG 구성을 사용하여 Llama-3 및 Phi-3 모델을 증강 및 세밀 조정하여, 세 가지 지식 중심 데이터셋에서 일관된 개선을 보여주며, 프레임워크의 효과를 입증합니다. 코드는 https://github.com/IntelLabs/RAGFoundry에서 오픈 소스로 공개되었습니다.
Lumina-mGPT는 다양한 비전 및 언어 작업을 수행할 수 있는 다중 모달 자기 회귀 모델 패밀리를 제시합니다. 특히 텍스트 설명으로부터 유연한 사실적 이미지를 생성하는 데 뛰어납니다. 기존의 자기 회귀 이미지 생성 방법과는 달리, Lumina-mGPT는 사전 학습된 디코더 전용 트랜스포머를 사용하여 다중 모달 토큰 시퀀스를 모델링하는 통합된 프레임워크로 활용합니다. 우리의 주요 통찰력은 대규모 교차된 텍스트-이미지 시퀀스에서 다음 토큰 예측 목표를 활용하는 다중 모달 생성 사전 학습(mGPT)을 사용하는 간단한 디코더 전용 트랜스포머가 광범위하고 일반적인 다중 모달 기능을 학습할 수 있으며, 이를 통해 사실적인 텍스트-이미지 생성을 밝혀냅니다. 이러한 사전 학습 모델을 기반으로, 우리는 고품질 이미지-텍스트 쌍에 대한 유연한 점진적 지도 미세 조정(FP-SFT)을 제안하여 고해상도에서 높은 미학적 이미지 합성의 잠재력을 완전히 발휘하면서 일반적인 다중 모달 기능을 유지합니다. 더 나아가, 우리는 Lumina-mGPT를 옴니포넌트 지도 미세 조정(Omni-SFT)으로 소개하여 모든 작업 통합을 원활하게 달성하는 기본 모델로 변환합니다. 결과적으로 이 모델은 유연한 텍스트-이미지 생성 및 제어 가능한 생성과 같은 시각적 생성 작업, 분할 및 깊이 추정과 같은 시각 인식 작업, 그리고 다중 턴 시각적 질문 응답과 같은 시각-언어 작업을 포함한 다양한 다중 모달 기능을 보여줍니다. 게다가, 확산 기반 및 자기 회귀 방법 사이의 차이와 유사성을 직접 비교하여 분석합니다.
MeshAnything V2는 주어진 형상에 맞춰 정렬된 아티스트가 생성한 메쉬(Artist-Created Meshes, AM)를 생성하는 자기회귀 트랜스포머입니다. 높은 품질과 높은 제어 가능성을 갖춘 AM 생성을 위해 다양한 3D 에셋 제작 파이프라인과 통합할 수 있습니다. MeshAnything V2는 동일한 크기의 모델을 사용하여 이전 방법을 훌륭히 능가하는 효율성과 성능을 보여줍니다. 이러한 개선은 우리가 새롭게 제안한 메쉬 토큰화 방법, 인접 메쉬 토큰화(Adjacent Mesh Tokenization, AMT)에 기인합니다. 이전 방법들이 각 면을 세 개의 정점으로 표현하는 것과는 달리, AMT는 가능한 경우에는 단일 정점을 사용합니다. 이전 방법들과 비교했을 때, AMT는 동일한 메쉬를 표현하기 위해 평균적으로 토큰 시퀀스 길이의 약 절반만을 요구합니다. 게다가, AMT로부터의 토큰 시퀀스는 더 조밀하고 잘 구조화되어 있어, AM 생성에 근본적인 이점을 제공합니다. 광범위한 실험 결과는 AMT가 AM 생성의 효율성과 성능을 현저히 향상시킨다는 것을 보여줍니다. 프로젝트 페이지: https://buaacyw.github.io/meshanything-v2/
모델 기반 평가는 성공적인 모델 개발의 핵심 요소입니다 - 훈련용 보상 모델로서, 그리고 인간 평가의 대체로서. 이러한 평가자를 훈련시키기 위한 표준 접근 방식은 모델 응답에 대한 인간 선호 판단을 대량으로 수집하는 것인데, 이는 비용이 많이 들며 모델이 개선됨에 따라 데이터가 오래되는 문제가 있습니다. 본 연구에서는 인간 주석 없이 합성 훈련 데이터만을 사용하여 평가자를 개선하는 방법을 제시합니다. 라벨이 없는 지시사항을 시작으로, 우리의 반복적 자가개선 방법은 대조적인 모델 출력을 생성하고 LLM-판사로 훈련시켜 추론 트레이스와 최종 판단을 내리게 합니다. 이 훈련은 개선된 예측을 사용하여 각 새로운 반복마다 반복되며, 라벨이 있는 선호 데이터 없이 우리의 자가학습 평가자는 RewardBench에서 강력한 LLM(Llama3-70B-Instruct)을 75.4에서 88.3으로 개선할 수 있습니다(다수결 투표를 통해 88.7). 이는 GPT-4와 같은 일반적으로 사용되는 LLM 판사를 능가하며, 라벨이 있는 예제로 훈련된 최고 성능의 보상 모델과 성능을 맞먹습니다.
지시 조정은 대형 언어 모델(LLMs)을 인간의 선호와 조화롭게 맞추는 데 중요한 역할을 합니다. 열려 있는 방대한 양의 지시 데이터셋이 있음에도 불구하고, 모든 기존 지시에 대해 단순히 LLM을 훈련시키는 것이 최적이고 실용적이지 않을 수 있습니다. 가장 유익한 데이터포인트를 정확히 파악하기 위해 자연어 처리(NLP)와 심층 학습 분야에서 데이터 평가 및 선택 방법이 제안되었습니다. 그러나 지시 조정의 맥락에서는 어떤 종류의 데이터 평가 지표가 사용될 수 있는지 및 이를 선택 메커니즘에 어떻게 통합할 수 있는지에 대한 지식적 공백이 여전히 존재합니다. 이 공백을 메우기 위해, LLM의 지시 조정을 위한 데이터 평가 및 선택에 특히 관련된 기존 문헌에 대한 포괄적인 검토를 제시합니다. 우리는 모든 적용 가능한 방법을 품질 기반, 다양성 기반 및 중요성 기반으로 체계적으로 분류하고 통합된 세분화된 분류법을 구축합니다. 각 범주에 대해 대표적인 방법이 상세히 설명되어 관련 연구의 풍경을 묘사합니다. 또한, 최신 방법들 간의 비교를 공식적으로 보고된 결과를 바탕으로 실시하여 그 한계에 대한 심층적인 토론을 제공합니다. 마지막으로, 미래 연구를 위한 유망한 방향을 제안하고 오픈된 도전 과제를 요약합니다. 모든 관련 콘텐츠는 https://github.com/yuleiqin/fantastic-data-engineering에서 확인할 수 있습니다.
비디오-텍스트 쌍의 품질은 기본적으로 텍스트-비디오 모델의 상한선을 결정합니다. 현재 이러한 모델을 훈련하는 데 사용되는 데이터셋은 저질의 시간적 일관성, 저품질 캡션, 저품질 비디오, 그리고 데이터 분포의 불균형과 같은 중요한 결함을 가지고 있습니다. 이미지 모델을 사용하여 태깅하고 수동 규칙 기반의 선별에 의존하는 현재의 비디오 선별 과정은 높은 계산 부하를 유발하고 불결한 데이터를 남깁니다. 결과적으로 텍스트-비디오 모델을 위한 적합한 훈련 데이터셋이 부족합니다. 이 문제를 해결하기 위해 우리는 텍스트-비디오 모델을 위한 우수한 훈련 데이터셋인 VidGen-1M을 제안합니다. 이 데이터셋은 코스투파인 선별 전략을 통해 생성되었으며 뛰어난 시간적 일관성을 가진 고품질 비디오와 상세한 캡션을 보장합니다. 이 데이터셋을 사용하여 비디오 생성 모델을 훈련하면 다른 모델보다 우수한 실험 결과를 얻을 수 있습니다.
본 논문에서는 확산 기반 이미지 생성 모델의 샘플 다양성과 창의성을 향상시키고 훈련 데이터 재현을 방지하는 간단하고 구현하기 쉬운 ProCreate 방법을 제안합니다. ProCreate은 참조 이미지 집합에서 작동하며 생성 프로세스 중에 생성된 이미지 임베딩을 참조 임베딩으로부터 활발하게 이동시킵니다. 우리는 ProCreate이 다양성과 충실도 면에서 가장 우수한 성과를 보이는 여덟 가지 다른 범주(다양한 개념, 스타일 및 설정을 포함)의 소수샷 창의적 생성 데이터셋인 FSCG-8(Few-Shot Creative Generation 8)을 제안합니다. 더불어 ProCreate이 대규모 평가에서 훈련 텍스트 프롬프트를 사용하여 훈련 데이터 복제를 방지하는 데 효과적임을 보여줍니다. 코드 및 FSCG-8은 https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public에서 제공됩니다. 프로젝트 페이지는 https://procreate-diffusion.github.io에서 확인할 수 있습니다.
생물학에서 자연어 처리(NLP)의 발전은 모델이 복잡한 생물 의학 문헌을 해석하는 능력에 달려있습니다. 전통적인 모델은 이 분야의 복잡하고 도메인 특화된 언어에 어려움을 겪곤 합니다. 본 논문에서는 생물 의학 텍스트 마이닝을 위해 특별히 설계된 사전 훈련된 모델인 BioMamba를 제안합니다. BioMamba는 Mamba 아키텍처를 기반으로 하며 광범위한 생물 의학 문헌 말뭉치에서 사전 훈련되었습니다. 우리의 경험적 연구는 BioMamba가 생물 의학 작업 전반에서 BioBERT나 일반 도메인 Mamba와 같은 모델을 현격하게 능가함을 입증합니다. 예를 들어, BioMamba는 BioASQ 테스트 세트에서 편협도(perplexity)를 100배, 교차 엔트로피 손실을 4배 줄였습니다. 우리는 모델 아키텍처, 사전 훈련 과정, 그리고 세밀한 조정 기술에 대한 개요를 제공합니다. 게다가, 우리는 추가 연구를 촉진하기 위해 코드와 훈련된 모델을 공개합니다.
다중 에이전트 학습 알고리즘은 다양한 게임에서 초인간 수준의 계획을 생성하는 데 성공했지만, 배포된 다중 에이전트 플래너의 설계에는 거의 영향을 미치지 못했습니다. 이러한 기술을 다중 에이전트 계획에 적용하는 주요 병목 현상은 수십억 단계의 경험이 필요하다는 점입니다. 이 규모에서 다중 에이전트 계획을 연구할 수 있도록, Madrona 게임 엔진 위에 구축된 GPU 가속화 다중 에이전트 시뮬레이터인 GPUDrive를 제시합니다. 이 시뮬레이터는 초당 백만 단계 이상의 경험을 생성할 수 있습니다. 관측, 보상 및 동역학 함수는 C++로 직접 작성되어 복잡하고 이질적인 에이전트 행동을 정의할 수 있으며 이는 고성능 CUDA로 변환됩니다. GPUDrive를 사용하여 Waymo Motion 데이터셋의 여러 장면에서 강화 학습 에이전트를 효과적으로 훈련할 수 있음을 보여줍니다. 개별 장면에서 몇 분 안에 매우 효과적인 목표 달성 에이전트 및 일반적으로 능숙한 에이전트를 몇 시간 안에 얻을 수 있습니다. 이러한 훈련된 에이전트는 https://github.com/Emerge-Lab/gpudrive의 코드 베이스의 일부로 제공됩니다.
복합적 시각 추론 방법은 복잡한 쿼리를 실행 가능한 시각 작업의 구조화된 조합으로 변환하여, 복잡한 다중 모달 작업에서 강력한 잠재력을 보여주었습니다. 최근 대형 언어 모델(Large Language Models, LLMs)의 발전에 힘입어, 이 다중 모달 도전 과제는 LLMs를 소수 샷/제로 샷 플래너로 취급하여, 즉, 시각-언어(Vision-Language, VL) 프로그래밍으로 새로운 단계로 이끌었습니다. 이러한 방법들은 다수의 장점에도 불구하고, LLM 계획 오류나 시각 실행 모듈의 부정확성으로 인한 도전에 직면하여 비복합적 모델에 뒤처지고 있습니다. 본 연구에서는 내향적 검증을 통해 계획 및 실행 단계의 오류를 수정하는 "플러그 앤 플레이" 방법인 ExoViP를 고안했습니다. 우리는 검증 모듈을 "외골격"으로 활용하여 현재 VL 프로그래밍 체계를 강화했습니다. 구체적으로, 우리가 제안한 검증 모듈은 세 가지 하위 검증기를 혼합하여 각 추론 단계 이후 예측을 검증하고, 이후 시각 모듈 예측을 보정하고 LLMs가 계획한 추론 트레이스를 정제합니다. 대표적인 VL 프로그래밍 방법 두 가지에 대한 실험 결과는 표준 벤치마크에서 다섯 가지 복합적 추론 작업에서 일관된 개선을 보여주었습니다. 이에 따라, ExoViP가 오픈 도메인 다중 모달 도전 과제에서 더 나은 성능과 일반화를 촉진할 수 있다고 믿습니다.
최근에 급증한 오픈 소스 대형 언어 모델(Large Language Models, LLMs)은 개발자들이 AI 기반 솔루션을 만들면서 개인정보 보호 및 규정 준수와 같은 측면을 통제할 수 있게 하여 모델 배포 과정의 지배권과 소유권을 제공합니다. 이러한 LLMs를 활용하기 위해서는 추론 엔진이 필요합니다. 이 엔진은 모델의 가중치를 GPU와 같은 사용 가능한 자원에 로드하고 쿼리를 처리하여 응답을 생성합니다. LLM의 추론 속도 또는 성능은 실시간 응용 프로그램에서 중요한데, 이는 추론 당 수백만 또는 수십억의 부동 소수점 연산을 수행하기 때문입니다. 최근에는 효율적인 메모리 관리와 같은 혁신적인 메커니즘을 통해 최첨단 성능을 달성하기 위한 vLLM과 같은 고급 추론 엔진이 등장했습니다. 본 논문에서는 vLLM과 HuggingFace의 파이프라인 라이브러리를 사용하여 20개의 LLM의 성능, 특히 처리량(시간 당 생성된 토큰)을 분석합니다. 개발자가 구성해야 하는 다양한 하이퍼파라미터가 추론 성능에 어떻게 영향을 미치는지 조사합니다. 결과는 처리량 랜드스케이프가 불규칙하며, 뚜렷한 피크가 있어 하이퍼파라미터 최적화의 중요성을 강조합니다. 또한 추론에 사용되는 GPU 모델을 업그레이드하거나 다운그레이드할 때 하이퍼파라미터 최적화를 적용하면 HuggingFace 파이프라인의 처리량이 각각 평균 9.16% 및 13.7% 향상됨을 보여줍니다.
고급 AI 어시스턴트는 선두 LLM과 도구 액세스를 결합하여 사용자를 대신하여 복잡한 작업을 자율적으로 수행합니다. 이러한 어시스턴트의 유용성은 전자메일 및 문서와 같은 사용자 정보에 액세스할 수 있을 때 크게 향상될 수 있지만, 이는 사용자 감독 없이 어시스턴트가 부적절한 정보를 제3자와 공유할 우려를 불러일으킵니다. 정보 공유 어시스턴트를 개인 정보 보호 기대에 따라 행동하도록 유도하기 위해 우리는 맥락 무결성(CI)을 운용화하는 것을 제안합니다. 이는 특정 맥락에서 정보의 적절한 흐름과 개인 정보 보호를 동일시하는 프레임워크입니다. 특히, 우리는 어시스턴트의 정보 공유 행동을 CI 준수로 유도하기 위한 여러 전략을 설계하고 평가합니다. 우리의 평가는 합성 데이터와 인간 주석으로 구성된 새로운 형태의 벤치마크를 기반으로 하며, 선두 LLM에 CI 기반 추론을 수행하도록 유도하는 것이 우수한 결과를 도출한다는 것을 보여줍니다.