번역이 포함된 일일 선별된 AI 연구 논문
복잡한 시각 정보를 정확하게 해석하는 능력은 다중 모달 대형 언어 모델 (MLLMs)의 중요한 주제입니다. 최근 연구 결과에 따르면 강화된 시각 지각은 환각을 크게 줄이고 광학 문자 인식 및 문서 분석과 같은 해상도에 민감한 작업에서 성능을 향상시킵니다. 최근 MLLMs 중 일부는 시각 인코더의 혼합을 사용하여 이 목표를 달성합니다. 그러나 그들의 성공에도 불구하고, 전문가 선택 및 여러 시각 전문가의 통합과 같은 중요한 측면을 다루는 체계적인 비교와 상세한 제거 연구가 부족합니다. 본 연구는 시각 인코더와 해상도를 혼합하여 MLLMs의 설계 공간을 체계적으로 탐색합니다. 우리의 연구 결과는 다양한 기존 전략에 공통적인 몇 가지 기본 원칙을 밝혀내어 간소화되고 효과적인 설계 접근 방식으로 이끕니다. 우리는 단순히 상호 보완적인 시각 인코더 집합에서 시각 토큰을 연결하는 것이 더 복잡한 혼합 구조나 전략만큼 효과적이라는 것을 발견합니다. 또한 시각 중심 인코더와 언어 토큰 사이의 간극을 줄이는 Pre-Alignment을 소개하여 모델 일관성을 향상시킵니다. 결과적으로 Eagle이라는 MLLMs 패밀리는 주요 MLLM 벤치마크에서 다른 선도적인 오픈 소스 모델을 능가합니다. 모델 및 코드: https://github.com/NVlabs/Eagle
대형 언어 모델 (LLM)의 일반적인 능력은 주로 광범위한 사전 훈련 데이터셋의 구성 및 선택에 의존하며, 이는 여러 기관에서 상업적 비밀로 취급됩니다. 이 문제를 완화하기 위해 우리는 보편적으로 적용 가능한 데이터 처리 파이프라인의 세부 정보를 오픈 소스로 제공하고, 경쟁력 있는 LLM 기준선을 소개함으로써 그 효과와 잠재력을 검증합니다. 구체적으로, 데이터 처리 파이프라인은 광범위한 수집에서 확장 및 가중치 조정을 통해 품질을 향상시키는 것으로 구성됩니다. 그런 다음, 우리는 어떠한 고의적인 하류 작업 관련 최적화 없이 우리의 파이프라인을 통해 처리된 3조 토큰을 가진 7B 모델 BaichuanSEED를 사전 훈련하고, 이어서 간단하지만 효과적인 지도형 미세 조정 단계를 거칩니다. BaichuanSEED는 훈련 과정 전반에 걸쳐 일관성과 예측 가능성을 보여주며, Qwen1.5 및 Llama3와 같은 여러 상용 고급 대형 언어 모델과 종합적인 벤치마크에서 비슷한 성능을 달성합니다. 또한 수학 및 코딩과 같은 하류 작업의 추가 최적화 가능성에 대해 논의하기 위해 여러 휴리스틱 실험을 수행합니다.
본 논문은 Dolphin이라는 새로운 디코더-디코더 아키텍처를 제시하여 언어 모델에서 장거리 컨텍스트를 에너지 효율적으로 처리하는 방법을 소개합니다. 저희의 접근 방식은 장치 내 모델에서 내재된 상당한 에너지 소비와 지연 도전에 대응합니다. Dolphin은 콤팩트한 0.5B 파라미터 디코더를 사용하여 방대한 문맥 정보를 메모리 임베딩으로 요약함으로써 주요 7B 파라미터 디코더 모델의 입력 길이를 크게 줄입니다. 시각-언어 모델에서 영감을 받아 이미지 임베딩 프로젝터를 재활용하여 긴 텍스트 컨텍스트를 인코딩하며, 확장된 컨텍스트를 별도의 모달리티로 효과적으로 처리합니다. 이 혁신적인 방법은 일반적으로 확장된 입력 시퀀스와 관련된 전형적인 계산 오버헤드 없이 상당히 긴 컨텍스트를 처리할 수 있게 합니다. 경험적 평가 결과, 일반적인 전체 길이 컨텍스트 처리 방법과 비교하여 에너지 효율성이 10배 향상되고 지연 시간이 5배 줄어듭니다. 이를 통해 에너지 효율적이고 반응성 있는 AI 기술이 자원 제한적 환경에서 필요한 정확도를 유지하면서 장거리 컨텍스트를 이해하는 데 기여합니다. 본 연구는 에너지 효율적이고 반응성 있는 AI 기술이 자원 제한적 환경을 위한 효율적인 모델 설계 분야에서 더 지속 가능하고 확장 가능한 언어 모델의 발전에 기여합니다. 엣지 장치에서 더 정교한 AI 능력을 가능하게 함으로써 Dolphin은 계산 자원이 귀중한 다양한 응용 분야에서 고급 언어 처리를 위한 길을 열어줍니다. Dolphin 모델은 https://huggingface.co/NexaAIDev/Dolphin에서 공개적으로 이용 가능합니다.
우리는 LLaVA-MoD를 소개합니다. 이는 대규모 다중 모달 언어 모델(l-MLLM)로부터 지식을 증류하여 소규모 다중 모달 언어 모델(s-MLLM)을 효율적으로 훈련할 수 있도록 고안된 혁신적인 프레임워크입니다. 우리의 접근 방식은 MLLM 증류에서 두 가지 근본적인 도전 과제에 대처합니다. 첫째, 우리는 s-MLLM의 네트워크 구조를 최적화하기 위해 희소한 전문가 집합(MoE) 구조를 언어 모델에 통합하여 계산 효율성과 모델 표현력 사이의 균형을 이룹니다. 둘째, 우리는 포괄적인 지식 이전을 보장하기 위해 점진적 지식 전이 전략을 제안합니다. 이 전략은 모방 증류로 시작하여, 출력 분포 간의 Kullback-Leibler (KL) 발산을 최소화하여 학생 모델이 선생님 네트워크의 이해를 모방할 수 있도록 합니다. 그 후 우리는 직접 선호 최적화(DPO)를 통한 선호 증류를 도입하는데, 이때 l-MLLM을 참조 모델로 취급하는 것이 핵심입니다. 이 단계에서 s-MLLM이 우수 및 열등한 예제를 구별하는 능력이 l-MLLM을 크게 뛰어넘어 향상되어, 특히 환각 벤치마크에서 선생님을 능가하는 더 나은 학생을 얻게 됩니다. 포괄적인 지식을 효과적으로 증류하여 더 효율적인 MLLM의 개발을 위한 길을 열어놓는 LLaVA-MoD의 능력을 강조하는 결과들이 있습니다. 코드는 다음에서 이용 가능합니다: https://github.com/shufangxun/LLaVA-MoD.
대형 언어 모델 (LLM) 추론에서 LLM 요청의 출력 길이는 일반적으로 사전에 알려지지 않은 것으로 간주됩니다. 따라서 대부분의 LLM 서빙 시스템은 간단한 선착순 (FCFS) 스케줄링 전략을 채택하여 Head-Of-Line (HOL) 차단과 처리량 및 서비스 품질 감소를 유발합니다. 본 논문에서는 이 가정을 재검토합니다. 각 요청의 정확한 생성 길이를 예측하는 것은 불가능하지만, 학습을 통해 배치 요청에서 출력 길이의 상대 순위를 예측할 수 있다는 것을 보여줍니다. 순위 정보는 요청 스케줄링에 유용한 지침을 제공합니다. 이 통찰력을 기반으로 LLM 추론 및 서빙을 위한 새로운 스케줄러를 개발하였으며, 기존 방법보다 최단 작업 우선 (SJF) 일정을 더 잘 근사할 수 있습니다. 이 스케줄러를 최첨단 LLM 서빙 시스템과 통합하고, 챗봇 서빙에서 2.8배 낮은 대기 시간 및 합성 데이터 생성에서 6.5배 높은 처리량을 보여주는 중요한 응용 프로그램에서 상당한 성능 향상을 보여줍니다. 코드는 https://github.com/hao-ai-lab/vllm-ltr.git에서 사용할 수 있습니다.
대규모 언어 모델 (LLM)의 전문 지식을 발전시키는 것은 특정 영역의 작업을 해결하기 위해 예상되는 안정적인 출력에 대해 보정된 행동을 필요로 할 때 종종 특수 목적 튜닝이 필요합니다. 수백 시간에 이르는 수동 지침 데이터셋 및 교육 자원의 준비로 인한 막대한 비용을 피하기 위해 낮은 순위 적응 (LoRA) 모델과 지침 데이터셋의 다양성을 활용하는 것이 좋은 시작점으로 작용합니다. 그러나 기존의 모델 및 데이터 선택 방법은 일반적인 능력의 성능에 초점을 맞추고 도메인별 배치에서 노출된 지식 간격을 무시합니다. 본 연구에서는 오픈 지식을 활용하여 LLM의 작업 전문성을 발전시키기 위해 소수의 인간 주석이 달린 샘플 (즉, K-샷)을 도입하는 것으로 이러한 간극을 줄이는 것을 제안합니다. 구체적으로, 우리는 효율적이고 확장 가능한 파이프라인을 개발하여 K-샷 데이터가 가장 유망한 전문가 후보와 작업 관련 지침을 선택하는 데 개입하도록 하여 작업 전문가를 비용 효율적으로 생산합니다. 여러 전문가 간의 개별적이면서 보완적인 지식을 최대한 활용하기 위해 전문가 혼합 (MoE) 시스템이 구축되었습니다. MoE 시스템의 성공의 두 가지 핵심 요소를 밝히며, 1) K-샷 준수, 2) 다양성에 대한 강조를 하였습니다. 전자의 경우, K-샷에서 문제 해결 능력을 실제로 보유한 모델이 무작위 추측자보다 선택되도록 보장합니다. 또한 데이터 선택 중에 K-샷과 작업 관련 맥락을 공유하는 지침이 우선 순위를 가집니다. 후자의 경우, 다양성을 구성하는 전문가들과 모델 및 데이터 선택 과정 전반에 걸쳐 세밀 조정 지침의 다양성을 강조합니다. 광범위한 실험 결과가 다양한 작업에서 오픈 지식 활용에 대한 우리의 접근 방식이 기존 방법보다 우월함을 확인합니다. 코드와 모델은 나중에 공개될 예정입니다.
확산 모델의 샘플링 속도를 가속화하는 것은 여전히 중요한 도전 과제입니다. 최근의 점수 증류 방법은 무거운 교사 모델을 1단계 학생 생성기로 증류하는데, 이는 학생 모델이 생성한 샘플에서 두 점수 함수 간의 차이를 계산하여 최적화됩니다. 그러나 기존 방법은 주로 사전 훈련된 확산 모델의 끝점을 교사 모델로 사용하며, 학생 생성기와 교사 모델 간의 수렴 궤적의 중요성을 간과합니다. 이 문제를 해결하기 위해 우리는 교사 모델의 전체 수렴 궤적을 도입하여 학생 생성기를 증류하기 위한 분포 역추적 증류(DisBack)를 제안합니다. DisBack는 소멸 기록과 분포 역추적 두 단계로 구성됩니다. 소멸 기록은 교사 모델의 수렴 궤적을 얻기 위해 설계되었으며, 훈련된 교사 모델에서 미훈련 초기 학생 생성기로의 소멸 경로를 기록합니다. 이 소멸 경로는 교사 모델의 중간 분포를 암시적으로 나타냅니다. 그런 다음 분포 역추적은 학생 생성기를 훈련하여 교사 모델의 수렴 궤적을 근사하기 위해 중간 분포를 역추적합니다. 광범위한 실험 결과 DisBack가 기존 증류 방법보다 빠르고 더 나은 수렴을 달성하며 비교 가능한 생성 성능을 보여준다는 것을 보여줍니다. 특히 DisBack는 구현하기 쉽고 성능을 향상시키기 위해 기존 증류 방법에 일반화할 수 있습니다. 우리의 코드는 https://github.com/SYZhang0805/DisBack에서 공개적으로 이용 가능합니다.
과학 문헌의 지수적인 성장은 효과적인 지식 탐색을 위한 고급 도구가 필요하게 합니다. 우리는 Knowledge Navigator를 제시합니다. 이 시스템은 넓은 주제 쿼리로부터 검색된 문서들을 이름과 설명이 포함된 과학 주제 및 하위 주제의 탐색 가능한 이중 계층 구조로 구성하여 탐색 능력을 향상시키도록 설계되었습니다. 이 구조화된 조직은 도메인 내 연구 주제의 전체적인 개요를 제공하는 동시에 사용자가 자신의 초점을 세분화하고 추가 관련 문서를 검색할 수 있도록 하여 특정 하위 주제 내에서 반복적인 검색과 심층적인 지식 발견을 가능하게 합니다. Knowledge Navigator는 LLM 능력과 클러스터 기반 방법을 결합하여 효과적인 브라우징 방법을 가능하게 합니다. 우리는 CLUSTREC-COVID와 SCITOC 두 가지 새로운 벤치마크에서 자동 및 수동 평가를 통해 접근 방식의 효과를 증명합니다. 우리의 코드, 프롬프트 및 벤치마크는 공개적으로 이용 가능합니다.
Mixture-of-Experts (MoE) 모델의 경우, 불균형한 전문가 부하는 라우팅 붕괴나 증가된 계산 오버헤드로 이어질 수 있습니다. 기존 방법들은 주로 보조 손실을 사용하여 부하 균형을 촉진하지만, 큰 보조 손실은 훈련 중 무시할 수 없는 간섭 그래디언트를 도입하여 모델 성능을 손상시킬 수 있습니다. 훈련 중 원치 않는 그래디언트를 생성하지 않으면서 부하 균형을 제어하기 위해, 우리는 손실 없는 균형을 제안합니다. 이는 보조 손실이 없는 부하 균형 전략을 특징으로 합니다. 구체적으로, 상위 K개의 라우팅 결정 이전에, 손실 없는 균형은 각 전문가의 라우팅 점수에 전문가별 편향을 먼저 적용할 것입니다. 최근 부하에 따라 각 전문가의 편향을 동적으로 업데이트함으로써, 손실 없는 균형은 전문가 부하의 균형 재분배를 일관되게 유지할 수 있습니다. 게다가, 손실 없는 균형은 어떠한 간섭 그래디언트도 생성하지 않기 때문에 MoE 훈련으로 얻은 모델 성능 상한선을 높일 수도 있습니다. 우리는 최대 3B 매개변수를 가진 MoE 모델에서 200B 토큰까지 훈련된 손실 없는 균형의 성능을 검증합니다. 실험 결과는 손실 없는 균형이 전통적인 보조 손실 제어 부하 균형 전략과 비교하여 더 나은 성능과 부하 균형을 달성한다는 것을 보여줍니다.
Mamba 아키텍처는 단문 맥락 자연어 처리(NLP) 작업에서 우수한 추론 효율성과 경쟁력 있는 성능을 보여주지만, 경험적 증거는 그가 장문 맥락을 이해하는 능력이 트랜스포머 기반 모델과 비교하여 제한되어 있다는 것을 시사합니다. 본 연구에서는 Mamba 모델의 장문 맥락 효율성 문제를 조사하고, 장문 맥락을 이해하는 능력을 향상시키는 ReMamba를 제안합니다. ReMamba는 선택적 압축 및 적응 기술을 두 단계의 재전달 과정 내에 통합하여 추가적인 추론 비용 부담을 최소화합니다. LongBench 및 L-Eval 벤치마크에서의 실험 결과는 ReMamba의 효과를 입증하며, 각각 3.2점과 1.6점의 개선을 보여주며, 동일 크기의 트랜스포머 모델과 거의 동등한 성능을 달성합니다.
우리는 실제 로봇에서 인-컨텍스트 모방 학습을 수행하기 위해 다음 토큰 예측 모델을 향상하는 방법을 탐구합니다. 여기서 로봇은 입력 단계 중 제공된 문맥 정보를 해석하여 기본 정책 매개변수를 업데이트하지 않고 새로운 작업을 실행합니다. 우리는 언어 데이터나 보상 함수에 의존하지 않고 센서모터 궤적에 대해 자기회귀 예측을 수행하는 인-컨텍스트 로봇 트랜스포머(ICRT)를 제안합니다. 이 정의는 새로운 작업의 센서모터 궤적으로 모델을 프롬프팅하여 테스트 시 유연하고 훈련이 필요 없는 실행을 가능하게 합니다. 이 궤적은 이미지 관측, 동작 및 상태 튜플로 구성된 새로운 작업의 센서모터 궤적을 인간 원격 조작을 통해 수집합니다. Franka Emika 로봇을 사용한 실험 결과, ICRT는 프롬프트로 지정된 새로운 작업에 적응할 수 있으며, 훈련 데이터와 프롬프트 모두와 다른 환경 구성에서도 작동합니다. 멀티태스크 환경 설정에서 ICRT는 보이지 않는 작업에 대한 일반화에서 로봇학 분야의 최신 다음 토큰 예측 모델을 현저히 능가합니다. 코드, 체크포인트 및 데이터는 https://icrt.dev/에서 제공됩니다.
기존 모델의 부분을 사용하여 새로운 모델을 재구성하는 것은 컴퓨터 그래픽스 분야에서 고전적인 방법론으로서 예시 기반 모델링이라고 일반적으로 불립니다. 이전 연구들은 주로 형태 조합에 초점을 맞추어 왔으며, 이는 현실 세계에서 촬영된 3D 객체들을 현실적으로 조합하기 어렵게 만들었습니다. 이로 인해 여러 개의 NeRF를 결합하여 실제 세계 장면에서 매끄러운 외관 혼합을 달성하기 위한 시도가 있었으나, 현재의 SeamlessNeRF 방법은 그래디언트 기반 전략과 그리드 기반 표현 때문에 실제 세계 장면에 대한 상호작용적 편집과 조화로운 스티칭을 달성하기 어렵습니다. 이에 우리는 샘플 안내 합성을 사용하여 점 기반 표현에서 여러 가우시안 필드를 결합하는 예시 기반 모델링 방법을 제안합니다. 구체적으로, 구성에 있어서는 3D 가우시안 스플래팅(3DGS)으로 표현된 모델의 의미 있는 조합을 쉽게 얻기 위해 실시간으로 여러 필드를 분할하고 변형하는 GUI를 생성합니다. 텍스처 블렌딩에 있어서는 3DGS의 이산적이고 불규칙한 특성으로 인해 SeamlssNeRF와 같은 그래디언트 전파를 직접 적용하는 것이 불가능합니다. 따라서 원본 풍부한 텍스처와 콘텐츠를 보존하면서 블렌딩을 조화롭게 하는 새로운 샘플링 기반 클로닝 방법이 제안됩니다. 우리의 워크플로우는 다음 세 단계로 구성됩니다: 1) 정교하게 설계된 GUI를 사용하여 가우시안 모델을 실시간으로 분할하고 변형, 2) 소스 및 타겟 모델 사이의 교차 영역에서 경계점을 식별하기 위한 KNN 분석, 그리고 3) 샘플링 기반 클로닝과 그래디언트 제약 조건을 사용한 타겟 모델의 이차 최적화. 광범위한 실험 결과는 우리의 접근 방식이 현실적인 합성 측면에서 이전 연구들을 크게 능가함을 입증하며, 이의 실용성을 보여줍니다. 더 많은 데모는 https://ingra14m.github.io/gs_stitching_website에서 확인할 수 있습니다.
지난 몇 년 동안 실제 인간의 비디오에서만으로도 사실적이고 운전 가능한 3D 아바타를 만드는 데 상당한 진전이 이루어졌습니다. 그러나 의상 스타일을 세밀하게 편집하고 사용자 친화적으로 표현하는 것은 여전히 중요한 과제입니다. 이를 위해 우리는 아바타의 텍스트 기반 편집을 허용하는 첫 번째 방법인 TEDRA를 제시합니다. 이 방법은 아바타의 고도한 충실도, 시간-공간 일관성, 그리고 다이내믹스를 유지하며 스켈레톤 포즈 및 시점 제어를 가능하게 합니다. 먼저, 우리는 모델을 훈련하여 실제 배우의 제어 가능하고 고도한 디지털 복제본을 만듭니다. 그런 다음, 우리는 미리 훈련된 생성 확산 모델을 다양한 카메라 각도에서 촬영된 실제 캐릭터의 여러 프레임으로 세밀하게 조정하여 디지털 표현이 실제 사람의 다이내믹스와 움직임을 충실하게 잡아냄으로써 개인화합니다. 이 두 단계 과정은 우리의 동적 인간 아바타 편집 방법의 기초를 마련합니다. 이 개인화된 확산 모델을 활용하여 우리는 모델 기반 가이드 프레임워크 내에서 제공된 텍스트 프롬프트를 사용하여 동적 아바타를 수정합니다. 또한 고품질 편집을 보장하기 위해 시간 단계 단열 전략을 제안합니다. 우리의 결과는 기능성과 시각적 품질에서 이전 작업에 비해 명확한 향상을 보여줍니다.