번역이 포함된 일일 선별된 AI 연구 논문
다음 토큰 예측은 인공 일반 지능으로의 유망한 길로 간주되지만, 다중 모달 작업에서 뛰어나기 어려웠으며, 여전히 확산 모델 (예: Stable Diffusion) 및 구성적 접근 (예: CLIP과 LLMs를 결합한)에 의해 주도되고 있습니다. 본 논문에서는 Emu3를 소개합니다. 이는 다음 토큰 예측만을 사용하여 훈련된 최첨단 다중 모달 모델 스위트입니다. 이미지, 텍스트 및 비디오를 토큰화하여 이산 공간으로 변환한 후, 다중 모달 시퀀스의 혼합물을 통해 단일 트랜스포머를 처음부터 훈련합니다. Emu3는 생성 및 인식 작업 모두에서 몇 가지 잘 알려진 작업별 모델을 능가하며, SDXL 및 LLaVA-1.6과 같은 주요 모델을 뛰어넘으면서 확산 또는 구성적 아키텍처의 필요성을 제거합니다. Emu3는 또한 비디오 시퀀스에서 다음 토큰을 예측함으로써 고품질 비디오를 생성할 수 있습니다. 우리는 훈련 및 추론 중에 확장 가능성을 높이기 위해 토큰에 중점을 두는 것으로 복잡한 다중 모달 모델 설계를 간소화합니다. 우리의 결과는 다음 토큰 예측이 언어를 넘어 일반적인 다중 모달 지능을 구축하는 유망한 길임을 보여줍니다. 우리는 이 방향으로의 추가 연구를 지원하기 위해 주요 기술과 모델을 오픈 소스로 제공합니다.
본 논문에서는 멀티모달 토큰을 기반으로 한 혁신적인 MIO 모델을 소개합니다. 이 모델은 음성, 텍스트, 이미지, 그리고 비디오를 종단 간 자기회귀 방식으로 이해하고 생성할 수 있습니다. 대형 언어 모델 (LLMs)과 멀티모달 대형 언어 모델 (MM-LLMs)의 등장으로 인해 인공 일반 지능의 발전이 가능해지지만, 이러한 모델들은 여전히 진정한 어디서든 어디로의 이해와 생성 능력이 부족합니다. 최근에 공개된 GPT-4o는 복잡한 실제 과제에 대한 어디서든 어디로의 LLMs의 놀라운 잠재력을 보여주었으며, 이미지, 음성, 그리고 텍스트를 횡단적으로 입력하고 출력할 수 있습니다. 그러나 이 모델은 소스가 공개되지 않았으며 멀티모달 교차 시퀀스 생성을 지원하지 않습니다. 이러한 공백을 해결하기 위해 우리는 네 가지 모달리티를 통해 인과적 멀티모달 모델링을 사용하여 훈련된 MIO를 제시합니다. MIO는 (1) 정렬 사전 훈련, (2) 교차 사전 훈련, (3) 음성 강화 사전 훈련, 그리고 (4) 다양한 텍스트, 시각, 그리고 음성 과제에 대한 포괄적인 지도 학습 미세 조정을 거칩니다. 실험 결과는 MIO가 이전 이중 모달 베이스라인, 어디서든 어디로 모델 베이스라인, 심지어 모달리티 특정 베이스라인과 경쟁력 있는 성능을 나타내는 것을 보여주며, 때로는 우수한 성능을 보입니다. 더불어 MIO는 교차 비디오-텍스트 생성, 시각적 사고 연쇄 추론, 시각적 가이드라인 생성, 지시 이미지 편집 등과 같은 어디서든 어디로 특징에 내재된 고급 기능을 보여줍니다.
정직은 대규모 언어 모델(LLMs)을 인간의 가치와 조화롭게 하는 데 필수적인 원칙으로, 이러한 모델이 스스로가 무엇을 알고 무엇을 모르는지를 인식하고 그 지식을 충실히 표현할 수 있어야 한다. 약속된 바에도 불구하고 현재의 LLMs는 여전히 잘못된 답변을 확신 있게 제시하거나 알고 있는 것을 표현하지 못하는 등 중요한 부정직한 행동을 보여주고 있다. 게다가 LLMs의 정직성에 대한 연구는 정직성의 다양한 정의, 알려진 지식과 알려지지 않은 지식을 구별하는 어려움, 관련 연구에 대한 포괄적인 이해 부족 등의 어려움에 직면하고 있다. 이러한 문제에 대처하기 위해 우리는 LLMs의 정직성에 대한 조사를 제공하며, 이를 명확히 하고, 평가 방법, 개선 전략을 다루고 있다. 더불어, 미래 연구에 대한 통찰을 제공하여 이 중요한 영역에서의 추가 탐구를 고무하기 위한 목적을 가지고 있다.
모델 크기 확장은 대규모 언어 모델 (LLM)의 배포와 추론에 중대한 도전을 제공합니다. LLM 가중치의 중복으로 인해, 최근 연구는 가중치만을 대상으로 한 양자화를 극히 낮은 비트로 이끌어내는 데 초점을 맞추었습니다 (심지어 2비트까지). 이는 메모리 요구 사항을 줄이고 저장 비용을 최적화하며 추론 중 메모리 대역폭 요구를 감소시킵니다. 그러나 수치 표현 제한으로 인해, 전통적인 스칼라 기반의 가중치 양자화는 이러한 극히 낮은 비트를 달성하기 어렵습니다. LLM에 대한 Vector Quantization (VQ)에 대한 최근 연구는 벡터를 룩업 테이블을 사용하여 인덱스로 압축함으로써 극히 낮은 비트 모델 양자화의 잠재력을 입증했습니다. 본 논문에서는 LLM의 극히 낮은 비트 양자화를 위한 Vector Post-Training Quantization (VPTQ)를 소개합니다. LLM VQ 문제를 정의하기 위해 Second-Order Optimization을 사용하고 최적화 문제를 해결하여 양자화 알고리즘 설계를 안내합니다. 또한 Channel-Independent Second-Order Optimization을 사용하여 가중치를 더 세밀하게 조정하여 VQ를 진행합니다. 최적화 문제를 분해함으로써 간결하고 효과적인 코드북 초기화 알고리즘을 제안합니다. 또한 잔차 및 이상치 양자화를 지원하도록 VPTQ를 확장하여 모델 정확도를 향상시키고 모델을 더 압축합니다. 실험 결과는 VPTQ가 LLaMA-2에서 0.01-0.34, Mistral-7B에서 0.38-0.68, LLaMA-3에서 4.41-7.34의 모델 양자화 퍼플렉서티를 감소시키고, LLaMA-2에서 0.79-1.5%, Mistral-7B에서 1%, LLaMA-3에서 11-22%의 평균 정확도 향상을 보여줍니다. 양자화 알고리즘 실행 시간의 10.4-18.6%만을 활용하여 SOTA 대비 추론 처리량이 1.6-1.8배 증가합니다.
문서 내용 분석은 컴퓨터 비전에서 중요한 연구 분야입니다. OCR, 레이아웃 감지, 수식 인식과 같은 방법들의 중요한 발전에도 불구하고, 다양한 문서 유형과 내용으로 인해 기존 오픈 소스 솔루션이 일관된 고품질 콘텐츠 추출을 제공하는 데 어려움을 겪고 있습니다. 이러한 도전에 대처하기 위해 고정밀 문서 내용 추출을 위한 오픈 소스 솔루션인 MinerU를 제안합니다. MinerU는 다양한 문서로부터 콘텐츠를 효과적으로 추출하기 위해 정교한 PDF-Extract-Kit 모델을 활용하고 최적화된 전처리 및 후처리 규칙을 적용하여 최종 결과물의 정확성을 보장합니다. 실험 결과는 MinerU가 다양한 문서 유형에서 일관되게 높은 성능을 달성하며 콘텐츠 추출의 품질과 일관성을 크게 향상시킨다는 것을 입증합니다. MinerU 오픈 소스 프로젝트는 https://github.com/opendatalab/MinerU에서 이용할 수 있습니다.
우리는 PhysGen을 제시합니다. 이는 단일 이미지와 입력 조건(예: 이미지 내 객체에 적용된 힘과 토크)을 변환하여 현실적이고 물리적으로 타당하며 시간적으로 일관된 비디오를 생성하는 혁신적인 이미지에서 비디오로의 생성 방법입니다. 우리의 주요 통찰력은 모델 기반 물리적 시뮬레이션과 데이터 기반 비디오 생성 과정을 통합하여 가능한 이미지 공간 역학을 활성화하는 데 있습니다. 우리 시스템의 핵심 요소는 세 가지 핵심 구성 요소로 이루어져 있습니다: (i) 이미지 이해 모듈은 이미지의 기하학, 재료 및 물리적 매개변수를 효과적으로 포착합니다; (ii) 이미지 공간 역학 시뮬레이션 모델은 강체 물리학과 추정된 매개변수를 활용하여 현실적인 행동을 시뮬레이션합니다; 그리고 (iii) 생성적 비디오 확산을 활용하여 실제 움직임을 특징으로 하는 현실적인 비디오 영상을 생성하는 이미지 기반 렌더링 및 정제 모듈입니다. 결과적으로 생성된 비디오는 물리학적으로나 외관적으로 현실적이며 심지어 정밀하게 제어할 수 있으며, 양적 비교 및 포괄적 사용자 연구를 통해 기존 데이터 기반 이미지에서 비디오로의 생성 작업보다 우수한 결과를 보여주고 있습니다. PhysGen의 결과 비디오는 이미지를 현실적인 애니메이션으로 변환하거나 사용자가 이미지와 상호 작용하여 다양한 역학을 만들 수 있는 등 다양한 하류 응용 프로그램에 사용할 수 있습니다. 프로젝트 페이지: https://stevenlsw.github.io/physgen/
선호도 최적화 방법은 일반적으로 훈련을 잘 마친 SFT 모델을 참조 모델로 사용하여 시작합니다. RLHF와 DPO에서는 선호도 최적화 과정 중 정책 모델이 참조 모델의 분포에서 지나치게 벗어나는 것을 방지하기 위해 정규화 항을 사용하여 이상한 응답을 생성하는 것을 피합니다. 참조 모델이 이미 주어진 데이터와 잘 일치하거나 약간의 조정만 필요한 경우, 이 방법은 잘 일치하는 모델을 생성할 수 있습니다. 그러나 참조 모델이 주어진 데이터와 일치하지 않고 현재 상태에서 크게 벗어나야 하는 경우, 정규화 항은 모델의 일치를 방해할 수 있습니다. 본 연구에서는 이 문제를 해결하기 위해 조절된 개입 선호도 최적화(MIPO)를 제안합니다. MIPO는 주어진 데이터가 참조 모델과 얼마나 잘 일치하는지에 따라 참조 모델로부터 개입의 정도를 변조합니다. 데이터가 잘 일치하는 경우, 개입이 증가하여 정책 모델이 참조 모델에서 크게 벗어나는 것을 방지합니다. 반대로, 일치가 나쁜 경우, 개입을 줄여 더 철저한 훈련을 용이하게 합니다. 우리는 Alpaca Eval 2.0 및 MT-Bench에서 Mistral-7B 및 Llama3-8B를 사용하여 MIPO와 DPO의 성능을 비교합니다. 실험 결과는 MIPO가 다양한 평가 시나리오에서 일관되게 DPO를 능가한다는 것을 보여줍니다.
본 논문은 일반적으로 기계 학습(ML) 모델을 사용하여 처리되는 분류 작업에 대한 새로운 접근 방식을 소개합니다. 데이터 정제와 특성 엔지니어링에 크게 의존하는 ML 모델과는 달리, 이 방법은 LLMs를 사용하여 프로세스를 간소화합니다. 본 논문은 "데이터-증강 예측 (DAP)"이라는 새로운 방법에 의해 구동되는 "언어 모델 학습 (LML)"이라는 새로운 개념을 제안합니다. 분류는 LLMs에 의해 수행되며, 데이터를 수동으로 탐색하고 이해하고 데이터를 참조로 사용하여 분류를 결정하는 인간과 유사한 방법을 사용합니다. 훈련 데이터는 각 레이블의 분류로 이어지는 특성을 결정하기 위해 요약되고 평가됩니다. DAP 과정에서 시스템은 데이터 요약을 사용하여 쿼리를 자동으로 생성하고, 이를 사용하여 데이터 집합에서 관련 행을 검색합니다. 데이터 요약과 관련 행을 사용하여 LLM에 의해 분류가 생성되어 복잡한 데이터에서도 만족스러운 정확도를 보장합니다. DAP에서 데이터 요약 및 유사한 데이터 사용은 맥락에 맞는 의사 결정을 보장합니다. 제안된 방법은 각 예측의 논리를 검토할 수 있도록 사용자들에게 예측의 해석 가능성을 향상시키기 위해 "해석 가능한 기계 학습 모델로 작동"하는 단어를 사용합니다. 일부 테스트 케이스에서 시스템은 90% 이상의 정확도를 기록하여 시스템의 효과적인 성능과 다양한 시나리오에서 전통적인 ML 모델을 능가할 잠재력을 입증했습니다. 코드는 https://github.com/Pro-GenAI/LML-DAP에서 사용할 수 있습니다.
장기 기억은 에이전트에게 중요한데, 여기서 통찰력이 중요한 역할을 합니다. 그러나 관련 없는 통찰력의 발생과 일반적인 통찰력의 부족은 통찰력의 효과를 크게 약화시킬 수 있습니다. 이 문제를 해결하기 위해 본 논문에서는 다양한 규모에서 효과적으로 통찰력을 요약하고 활용하여 LLM의 계획 및 의사 결정 능력을 향상시키기 위해 설계된 MSI-Agent(Multi-Scale Insight Agent)를 소개합니다. MSI는 경험 선택기, 통찰력 생성기 및 통찰력 선택기를 통해 이를 달성합니다. 세 부분으로 구성된 이 파이프라인을 활용하여 MSI는 과업별 및 고수준 통찰력을 생성하고 데이터베이스에 저장한 후, 결정을 지원하기 위해 이로부터 관련 통찰력을 활용할 수 있습니다. 실험 결과 MSI가 GPT3.5에 의한 계획 시 다른 통찰력 전략보다 우수한 성능을 보인다는 것을 보여줍니다. 또한, LLM에게 더 유용하고 관련성 있는 통찰력을 제공하기 위해 씨드 경험과 통찰력을 선택하는 전략에 대해 탐구합니다. 또한, 우리의 관측 결과는 MSI가 도메인 이동 시나리오에 직면했을 때 더 나은 견고성을 나타낸다는 것을 보여줍니다.
최근 대형 언어 모델(LLMs)의 발전에도 불구하고, 다단계 사고와 다양한 기술을 결합해야 하는 복잡한 추론 문제에 대한 성능은 여전히 제한적입니다. 이에 대응하기 위해, 우리는 LLMs와 복잡한 추론을 위한 새로운 프레임워크 HDFlow를 제안합니다. 이 프레임워크는 빠른 사고와 느린 사고 모드를 적응적으로 결합하는 방식으로 복잡한 추론에 대응합니다. 우리의 접근 방식은 두 가지 주요 구성 요소로 구성됩니다. 첫째, 느린, 신중한 추론을 위한 새로운 방법인 Dynamic Workflow로, 복잡한 문제를 자동으로 보다 처리 가능한 하위 작업으로 분해하고, 하위 작업을 해결하기 위해 전문화된 LLM 또는 상징적 추론 도구를 조합하기 위한 워크플로우를 동적으로 설계합니다. 둘째, 문제 복잡성을 기반으로 빠른 사고와 느린 사고를 동적으로 결합하는 일반적인 프레임워크인 Hybrid Thinking입니다. 마지막으로, 복잡한 추론을 위해 27,000개의 도전적인 추론 문제로 구성된 대규모 데이터셋을 자동으로 합성하는 쉽게 확장 가능한 방법과, 이 데이터셋에서 작은 LLM을 훈련시켜 빠른/느린 혼합 추론 전략을 내재화하는 Hybrid Thinking 튜닝 방법을 제안합니다. 네 가지 추론 벤치마크 데이터셋에서의 실험 결과는, 우리의 느린 사고와 동적 워크플로우가 Chain-of-Thought보다 효과적임을 보여주며, 하이브리드 사고는 계산 효율성과 성능 사이의 효과적인 균형을 제공하면서 최고의 정확도를 달성한다는 것을 보여줍니다. 우리의 하이브리드 사고 접근 방식을 사용한 세밀한 튜닝은 오픈 소스 언어 모델의 복잡한 추론 능력을 크게 향상시킵니다. 이 결과는 LLMs와 함께 복잡한 문제 해결의 경계를 확장하는 느린 사고, 동적 워크플로우 및 하이브리드 사고의 가능성을 보여줍니다. 코드와 데이터는 \url{https://github.com/wenlinyao/HDFlow}에서 공개될 예정입니다.