번역이 포함된 일일 선별된 AI 연구 논문
최근의 다중 모달 모델의 발전은 성능 향상을 위해 다시 작성된 캡션의 가치를 강조하지만 중요한 도전 과제가 남아 있습니다. 예를 들어, 합성 캡션은 종종 우수한 품질과 이미지-텍스트 정렬을 제공하지만, 합성 캡션이 AltText를 완전히 대체할 수 있는지 여전히 명확하지 않습니다. 합성 캡션의 역할 및 사전 훈련에서 원본 웹 크롤링된 AltText와의 상호 작용은 여전히 잘 이해되지 않습니다. 또한, 다양한 다중 모달 기반 모델은 특정 캡션 형식에 대한 고유한 선호도를 가질 수 있지만, 각 모델에 대한 최적의 캡션을 식별하기 위한 노력은 제한적입니다. 본 연구에서는 다양한 다중 모달 모델에 맞게 설계된 다양한 캡션 형식을 생성하는 혁신적이고 조절 가능하며 확장 가능한 캡션 파이프라인을 제안합니다. Short Synthetic Captions (SSC)에서 Dense Synthetic Captions (DSC+)로의 케이스 스터디를 통해, 합성 캡션과 AltText 간의 효과와 상호 작용을 체계적으로 탐구합니다. CLIP, 다중 모달 LLMs 및 확산 모델과 같은 모델을 대상으로, 각 모델이 특정 캡션 형식을 선호하는 것을 밝혀내는 발견을 했습니다. 합성 캡션과 AltText를 모두 유지하는 혼합 접근 방식은 합성 캡션만 사용하는 것보다 우수한 성능과 정렬을 제공하여, 각 모델이 특정 캡션 형식을 선호함을 보여줍니다. 이 포괄적인 분석은 캡션 전략을 최적화하는 데 유용한 통찰을 제공하여, 다중 모달 기반 모델의 사전 훈련을 발전시키는 데 기여합니다.
Transformer 아키텍처가 다양한 모델에서 우세합니다. Transformer의 핵심인 어텐션은 선형 변환의 O(N)에 비해 O(N^2)의 계산 복잡도를 가지고 있습니다. 큰 시퀀스 길이를 처리할 때 어텐션이 주요한 시간 소모 구성 요소가 됩니다. 양자화는 모델 추론 가속화를 위한 효과적인 방법으로 입증되었지만, 기존의 양자화 방법은 주로 선형 레이어의 최적화에 초점을 맞추고 있습니다. 이에 우리는 먼저 어텐션에서 양자화의 실행 가능성을 상세히 분석합니다. 그 후에 우리는 SageAttention이라는 어텐션을 위한 매우 효율적이고 정확한 양자화 방법을 제안합니다. 우리 방법의 OPS(초당 연산 횟수)는 FlashAttention2와 xformers보다 각각 약 2.1배와 2.7배 우수한 성능을 보여줍니다. SageAttention은 FlashAttention3에 비해 우수한 정확도 성능을 달성합니다. 포괄적인 실험을 통해 우리의 방법이 대규모 언어 처리, 이미지 생성 및 비디오 생성을 포함한 다양한 모델에서 거의 어떤 종단 간 지표 손실도 발생시키지 않음을 확인합니다.
제로샷 메트릭 단안 심도 추정을 위한 기반 모델을 제안합니다. 저희 모델인 Depth Pro는 뛰어난 날카로움과 고주파 세부 사항을 갖춘 고해상도 심도 맵을 합성합니다. 예측값은 절대적인 척도를 갖추어 메트릭하며, 카메라 내부 파라미터와 같은 메타데이터의 가용성에 의존하지 않습니다. 또한 모델은 표준 GPU에서 0.3초 안에 2.25메가픽셀 심도 맵을 생성하는 빠른 속도를 자랑합니다. 이러한 특성은 밀도 있는 예측을 위한 효율적인 다중 스케일 비전 트랜스포머, 고메트릭 정확도 및 세밀한 경계 추적을 달성하기 위해 실제 및 합성 데이터셋을 결합하는 교육 프로토콜, 추정된 심도 맵에서 경계 정확도를 위한 전용 평가 메트릭, 그리고 단일 이미지로부터 최첨단 초점 거리 추정을 가능케 하는 여러 기술적 기여들에 의해 활성화됩니다. 첨단 설계 선택 사항을 분석하고 Depth Pro가 다양한 차원에서 이전 작업을 능가함을 입증하는 광범위한 실험을 통해 결과를 제시합니다. 코드 및 가중치는 https://github.com/apple/ml-depth-pro에서 공개됩니다.
비디오 대규모 다중 모달 모델(LMMs)의 개발은 웹에서 대량의 고품질 원시 데이터를 수집하는 어려움으로 인해 제약을 받았습니다. 이에 대응하기 위해, 우리는 비디오 지시 따르기를 위해 특별히 만든 고품질 합성 데이터셋인 LLaVA-Video-178K를 생성함으로써 대안적인 접근 방식을 제안합니다. 이 데이터셋에는 자세한 캡션, 개방형 질문 응답(QA), 그리고 객관식 QA와 같은 주요 작업이 포함되어 있습니다. 이 데이터셋으로 학습하고 기존의 시각적 지시 튜닝 데이터와 결합하여, 우리는 새로운 비디오 LMM인 LLaVA-Video를 소개합니다. 실험 결과는 LLaVA-Video가 다양한 비디오 벤치마크에서 강력한 성능을 달성하며, 우리 데이터셋의 효과를 강조합니다. 우리는 데이터셋, 생성 파이프라인, 그리고 모델 체크포인트를 공개할 계획입니다.
분 단위로 콘텐츠가 풍부한 장편 비디오를 생성하는 것은 바람직하지만 도전적입니다. 자기 회귀형 대형 언어 모델(Large Language Models, LLMs)은 자연어 처리 분야에서 일련의 토큰을 일관되고 긴 시퀀스로 생성하는 데 큰 성공을 거두었지만, 자기 회귀형 LLMs를 활용한 비디오 생성은 몇 초짜리 짧은 비디오를 생성하는 데 그쳐 있습니다. 본 연구에서는 자기 회귀형 LLM 기반 비디오 생성기가 장편 비디오를 생성하는 데 어려움을 겪는 요인에 대해 심층적인 분석을 수행합니다. 관찰과 분석을 기반으로, 우리는 Loong이라는 새로운 자기 회귀형 LLM 기반 비디오 생성기를 제안합니다. 구체적으로, 텍스트 토큰과 비디오 토큰을 자기 회귀형 LLMs를 위한 통합된 시퀀스로 모델링하고 모델을 처음부터 훈련시킵니다. 장비디오 훈련을 위한 손실 불균형 문제를 완화하기 위해 손실 재가중 방식을 적용한 점진적 단계별 훈련을 제안합니다. 또한 비디오 토큰 재인코딩 및 샘플링 전략을 포함한 추론 전략을 조사하여 추론 중 발생하는 오차 누적을 줄입니다. 우리가 제안한 Loong은 10초짜리 비디오에서 훈련을 받을 수 있으며, 결과를 통해 텍스트 프롬프트에 의존한 장시간 비디오를 생성할 수 있음을 입증합니다. 더 많은 샘플은 다음 링크에서 확인할 수 있습니다: https://epiphqny.github.io/Loong-video.
대조적 언어-이미지 사전 훈련(CLIP)은 다양한 응용 프로그램을 용이하게 하는 이미지/텍스트 표현을 생성하기 위해 시각 인코더를 훈련하는 데 사용되는 유명한 방법입니다. 최근에는 CLIP가 언어 상호작용을 위해 이미지 입력을 연결하는 다중 모달 대규모 언어 모델(MLLMs)의 시각 백본으로 널리 채택되었습니다. CLIP의 성공은 이미지 수준에서 웹 크롤링된 잡음이 있는 텍스트 주석을 정렬하는 데 의존합니다. 그러나 이러한 기준은 MLLMs에게 지역 수준 이해가 필요한 하위 작업에 대해 미세한 시각 표현이 필요할 때 효과적이지 않을 수 있습니다. 본 논문에서는 CLIP의 지역화 능력을 향상시키기 위해 여러 가지 개선을 하였습니다. 우리는 CLIP를 지역-텍스트 대조 손실과 모듈로 보완하는 Contrastive Localized Language-Image Pre-training (CLOC)이라는 사전 훈련 방법을 제안합니다. 우리는 새로운 개념인 promptable 임베딩을 정의했는데, 이는 공간적 힌트를 제공하여 쉽게 지역 표현으로 변환할 수 있는 이미지 임베딩을 생성하는 인코더를 의미합니다. 대규모 사전 훈련을 지원하기 위해 시각적으로 풍부하고 공간적으로 지역화된 캡셔닝 프레임워크를 설계하여 규모에 맞게 지역-텍스트 가짜 레이블을 효과적으로 생성합니다. 수십억 개의 주석이 달린 이미지로 확장함으로써, CLOC는 이미지 지역 인식 및 검색 작업을 위한 고품질 지역 임베딩을 가능하게 하며, 참조 및 기준 작업에서 특히 MLLMs를 강화하기 위해 CLIP의 대체품이 될 수 있습니다.
우리는 LLaVA-Critic을 소개합니다. 이는 다양한 멀티모달 작업의 성능을 평가하기 위해 설계된 최초의 오픈 소스 대규모 멀티모달 모델(LMM)로, 일반 평가자로서의 역할을 합니다. LLaVA-Critic은 다양한 평가 기준과 시나리오를 통합한 고품질 비평가 지시 데이터셋을 사용하여 훈련되었습니다. 우리의 실험은 이 모델의 효과를 두 가지 주요 영역에서 입증합니다: (1) 판사로서의 LMM, 여기서 LLaVA-Critic은 신뢰할 수 있는 평가 점수를 제공하며 여러 평가 벤치마크에서 GPT 모델과 동등하거나 능가합니다; 그리고 (2) 선호 학습, 여기서 LLaVA-Critic은 선호 학습을 위한 보상 신호를 생성하여 모델 정렬 능력을 향상시킵니다. 이 연구는 오픈 소스 LMM의 자가 비평과 평가의 잠재력을 강조하며, LMM에 대한 확장 가능하고 초인간적인 정렬 피드백 메커니즘에 대한 미래 연구를 위한 기반을 마련합니다.
대형 언어 모델 (LLM)은 자연어 처리 작업을 넘어서 넓은 범위에서 효율적임이 입증되었습니다. 그러나 그들의 놀라운 성능 기원에 대한 포괄적인 이론적 분석은 아직 미해결 상태입니다. 본 논문에서는 크기가 T이고 문맥 창 크기가 K인 일반적인 자기 회귀 언어 모델과 크기가 O(T^K)인 유한 상태 공간에 정의된 마르코프 체인 간의 동등성을 통해 이 어려운 과제에 접근합니다. LLM의 추론 능력을 포착하는 마르코프 체인의 정상 분포의 존재, 그것으로의 수렴 속도, 그리고 후자에 대한 온도의 영향과 관련된 몇 가지 놀라운 결과를 유도합니다. 그런 다음 사전 훈련 및 문맥 내 일반화 한계를 증명하고 그 동등성을 통해 그들의 해석을 풍부하게 하는 방법을 보여줍니다. 마지막으로, 최근 LLM 몇 가지에 대한 실험을 통해 실제에서 관찰된 행동을 포착하는 방법을 강조하기 위해 우리의 이론적 보증을 설명합니다.
분류기 없는 가이던스(Classifier-free guidance, CFG)는 확산 모델에서 생성 품질과 입력 조건과 최종 출력 간의 정렬을 향상시키는 데 중요합니다. 이러한 측면을 향상시키기 위해서는 일반적으로 높은 가이던스 스케일이 필요하지만, 이는 과다 포화와 현실적이지 않은 아티팩트를 초래하기도 합니다. 본 논문에서는 CFG 업데이트 규칙을 재검토하고 이 문제를 해결하기 위한 수정 사항을 소개합니다. 먼저 CFG의 업데이트 용어를 조건부 모델 예측에 대한 평행 및 직교 성분으로 분해하고, 평행 성분이 주로 과다 포화를 일으키는 반면, 직교 성분은 이미지 품질을 향상시킵니다. 따라서 과다 포화 없이 높은 품질의 생성을 달성하기 위해 평행 성분을 가중치를 낮추는 것을 제안합니다. 게다가, CFG와 경사 상승 사이의 연결을 도출하고 이 통찰력을 기반으로 CFG 업데이트 규칙에 대한 새로운 재스케일링 및 모멘텀 방법을 소개합니다. 우리의 접근 방식인 적응 프로젝트 가이던스(Adaptive Projected Guidance, APG)는 CFG의 품질 향상 장점을 유지하면서 과다 포화 없이 더 높은 가이던스 스케일을 사용할 수 있도록 합니다. APG는 구현이 쉽고 샘플링 프로세스에 실질적으로 추가적인 계산 부담을 거의 미치지 않습니다. 다양한 조건부 확산 모델 및 샘플러와 호환되는 것으로 APG가 개선된 FID, 리콜 및 포화 점수를 보여주며 CFG와 비교 가능한 정밀도를 유지하면서 표준 분류기 없는 가이던스에 대한 우수한 플러그 앤 플레이 대안이 되는 것을 입증합니다.
대형 언어 모델 (LLMs)은 보상을 받기 전에 여러 복잡한 단계를 실행해야 하는 복잡한 추론 작업에 점점 더 적용되고 있습니다. 이러한 단계에 적절히 대가를 할당하는 것은 모델 성능을 향상시키기 위해 중요합니다. Proximal Policy Optimization (PPO)은 LLM 미세 조정에 사용되는 최첨단 강화 학습 (RL) 알고리즘으로, 가치 네트워크를 활용하여 대가 할당 문제에 대처합니다. 그러나 가치 네트워크는 복잡한 추론 작업에서 예상 누적 보상을 정확하게 예측하는 데 어려움을 겪어 종종 높은 분산 업데이트와 최적이 아닌 성능을 유발합니다. 본 연구에서는 가치 네트워크의 효과를 체계적으로 평가하고, 추론 중심의 LLM 작업에서 그들의 중요한 결점을 드러내어, 대안적인 단계를 비교할 때 거의 무작위 기준선을 앞질러 나가지 못한다는 것을 보여줍니다. 이에 대응하여, 우리는 VinePPO를 제안합니다. 이는 언어 환경의 유연성을 활용하여 편향되지 않은 몬테 카를로 기반 추정치를 계산하여 대규모 가치 네트워크의 필요성을 우회합니다. 우리의 방법은 MATH 및 GSM8K 데이터셋에서 PPO 및 다른 RL-프리 기준선을 일관되게 능가하며, 그레이디언트 업데이트 횟수가 적고(최대 9배), 월 클락 시간이 적게(최대 3.0배) 소요됩니다. 이러한 결과는 LLM의 RL 미세 조정에서 정확한 대가 할당의 중요성을 강조하고, VinePPO의 우수한 대안으로서의 잠재력을 입증합니다.
Siri 및 Google 어시스턴트와 같은 음성 어시스턴트는 일반적으로 오디오와 텍스트를 별도로 모델링하여 음성 정보 손실과 복잡성 증가를 초래합니다. 최근의 노력은 이를 해결하기 위해 감독된 세밀 조정(SFT)으로 훈련된 엔드-투-엔드 음성 대규모 언어 모델 (LLM)을 사용하여 텍스트 전용 LLM에서 능력을 "잊는" 모델을 이끌었습니다. 저희 연구는 지도 데이터 없이 음성 LLM을 훈련하는 대안적 패러다임을 제안하며, 텍스트 전용 LLM의 응답을 자가 감독으로 사용합니다. 중요한 점은 이 과정이 주석이 달린 응답 없이 수행될 수 있다는 것입니다. 저희는 Distilled Voice Assistant (DiVA)가 말하기 질문 응답, 분류 및 번역에 대해 일반화되는 것을 보여줍니다. 게다가, DiVA가 Qwen 2 Audio와 같은 최첨단 모델보다 100배 이상 적은 훈련 계산을 사용하더라도 사용자 선호도를 더 잘 충족시키며 72%의 승률을 달성한다는 것을 보여줍니다.
밀집 문서 임베딩은 신경 검색에서 중요합니다. 주요 패러다임은 개별 문서에 직접 인코더를 실행하여 임베딩을 훈련하고 구축하는 것입니다. 본 연구에서는 이러한 임베딩이 효과적이지만 검색의 대상 사용 사례에 대해 암묵적으로 맥락을 고려하지 않으며, 맥락화된 문서 임베딩은 문서와 주변 문서를 모두 고려해야 한다는 주장을 제시합니다 - 단어 임베딩과 유사합니다. 우리는 맥락화된 문서 임베딩을 위해 두 가지 보완적인 방법을 제안합니다: 첫째, 문서 이웃을 배치 내 맥락 손실에 명시적으로 통합하는 대안 대조 학습 목표; 둘째, 인코딩된 표현에 이웃 문서 정보를 명시적으로 인코딩하는 새로운 맥락화된 아키텍처입니다. 결과는 두 방법 모두 다양한 설정에서 바이인코더보다 우수한 성능을 달성하며, 특히 도메인 외에서 차이가 두드러집니다. 저희는 MTEB 벤치마크에서 최첨단 결과를 달성했으며, 하드 네거티브 마이닝, 점수 증류, 데이터셋별 지침, GPU 내 예시 공유 또는 매우 큰 배치 크기 없이 이루어졌습니다. 저희 방법은 대조 학습 데이터셋 및 어떤 바이인코더에서도 성능을 향상시키는 데 적용할 수 있습니다.
최근 몇 년간 대조적 언어-이미지 사전 학습 (CLIP)은 다중 모달 인공 지능의 중추로 자리 잡았습니다. 그러나 최근 연구에서 CLIP 인코딩 과정에서의 정보 손실이 상당하며, CLIP은 입력으로부터 대략적인 특징만 포착하는 경향이 있다는 것이 밝혀졌습니다. 이 결핍은 단일 CLIP 모델이 시각적 세부 사항이 풍부한 이미지를 처리하는 능력을 제한하는데 상당한 영향을 미칩니다. 본 연구에서는 CLIP를 위한 간단하면서도 효과적인 모델에 중립적인 전략인 Diversified Multiplet Upcycling (DMU)을 제안합니다. DMU는 밀집 사전 학습된 CLIP 체크포인트로부터 다양한 특징 공간을 포착하는 일련의 CLIP 모델을 효율적으로 파인튜닝하며, FFN(피드 포워드 네트워크)를 제외한 매개변수를 공유합니다. 이러한 모델들은 더 큰 모델 용량을 갖는 CLIP-MoE로 변환될 수 있어, 최소한의 계산 부담으로 혁신적인 성능을 보여줍니다. 우리의 최고 지식으로, Diversified Multiplet Upcycling은 CLIP 기본 모델에 희소하게 활성화된 MoE를 도입한 최초의 접근 방식입니다. 광범위한 실험은 CLIP-MoE의 혁신적인 성능을 입증하며, 제로샷 검색, 제로샷 이미지 분류 작업, 그리고 다양한 다중 모달 대형 언어 모델 (MLLM) 벤치마크에서 시각 인코더로서의 역할을 통해 하류 다중 모달 학습 시스템의 효율적이고 효과적인 발전을 위한 가치 있는 통찰을 제공합니다. 더불어, Diversified Multiplet Upcycling은 어떤 밀집 CLIP 모델이든 CLIP-MoE로 변환할 수 있어, 하류 프레임워크에서 추가적인 적응이 필요하지 않고 플러그 앤 플레이 방식으로 CLIP를 대체할 수 있도록 합니다.
소프트웨어 엔지니어들은 주로 기존 프로그램을 편집하여 코드를 작성합니다. 반면에 대형 언어 모델(Large Language Models, LLMs)은 자동 회귀적으로 한 번에 프로그램을 합성합니다. 이에 대한 하나의 설명은 오픈 소스 편집 데이터의 부족입니다. 코드 합성을 위한 고품질 지시 데이터가 이미 부족한 상황에서 고품질 편집 데이터는 더욱 부족합니다. 이 갭을 메우기 위해 우리는 LintSeq라는 합성 데이터 생성 알고리즘을 개발했습니다. 이 알고리즘은 린터를 사용하여 기존 코드를 리팩터링하여 순차적으로 프로그램을 작성할 수 있는 오류 없는 삽입을 절차적으로 샘플링하여 코드 편집의 시퀀스로 변환합니다. 이는 프로그램 차이의 연속으로 이루어진 텍스트 문자열로 편집 시퀀스를 출력합니다. LintSeq를 테스트하기 위해, 우리는 지시 + 프로그램 쌍 데이터셋을 지시 + 프로그램-차이-시퀀스 튜플로 리팩터링하는 데 사용합니다. 그런 다음, 2.6B에서 14B의 매개변수를 가진 여러 작은 LLMs에 대해 이 데이터셋의 리팩터링된 버전과 원본 모두에서 지시를 세밀하게 조정하여 코드 합성 벤치마크에서 제로샷 성능을 비교합니다. 반복 샘플링 중에, 편집 시퀀스를 세밀하게 조정한 모델이 기존 모델보다 다양한 프로그램을 생성하며, 이는 샘플의 함수로 벤치마크 커버리지에 대한 추론 시간 스케일링을 향상시킵니다. 예를 들어, HumanEval의 pass@50에서, 합성 편집 시퀀스에 대해 세밀하게 조정된 소형 LLMs는 GPT-4와 경쟁하며, 기준 데이터셋에 대해 세밀하게 조정된 모델보다 절대 점수에서 +20% (+/-3%)를 능가합니다. 마지막으로, 우리는 코드 이해를 위해 자체 소형 LMs를 사전 훈련시킵니다. 우리는 합성 코드 편집에 대해 소형 모델을 세밀하게 조정하는 것이 장치 내 모델 클래스에 대한 최첨단 코드 합성 결과를 도출한다는 것을 보여줍니다. 150M 매개변수 편집 시퀀스 LM은 Codex 및 AlphaCode를 포함한 두 배의 매개변수를 가진 코드 모델을 반복 샘플링을 포함하거나 미포함하여 능가하거나 맞먹습니다.
최근 몇 년 동안, 장기 문맥 모델(Long-context models, LCMs)은 혁신적인 발전을 이루어 왔으며, 문서 요약과 같은 장기 문맥을 필요로 하는 작업을 처리하는 데 사용자에게 큰 편의를 제공하고 있습니다. 커뮤니티가 생성된 결과물의 충실성을 점점 우선시하는 가운데, LCM 출력물의 정확성만을 보장하는 것은 부족합니다. 극도로 긴 문맥에서 결과물을 검증하는 것은 인간에게 매우 어려운 작업이기 때문입니다. 그러나, 일부 노력이 있었지만, LCM이 문맥에 기반하여 정확하게 응답하는지를 평가하는 것은 특정 작업에 한정되거나 GPT-4와 같은 외부 평가 자원에 심하게 의존하는 경우가 많습니다. 본 연구에서는 인용을 포함한 장기 문맥 이해에 대한 포괄적인 멀티 태스크 벤치마크인 L-CiteEval을 소개하며, LCM의 이해 능력과 충실성을 평가하는 것을 목표로 합니다. L-CiteEval은 8K에서 48K까지 다양한 도메인의 11가지 작업을 다루며, 완전 자동화된 평가 스위트를 제공합니다. 11개의 최첨단 폐쇄형 및 오픈소스 LCM을 테스트한 결과, 이러한 모델들은 생성된 결과물에 약간의 차이를 보이지만, 오픈소스 모델은 인용 정확도와 회수 측면에서 폐쇄형 모델에 크게 뒤처지는 것으로 나타났습니다. 이는 현재의 오픈소스 LCM이 주어진 문맥이 아닌 내재적 지식에 기반하여 응답하기 쉽다는 것을 시사하며, 이는 실제 응용 프로그램에서 사용자 경험에 상당한 위험을 초래할 수 있습니다. 또한 RAG 접근법을 평가하고, RAG가 LCM의 충실성을 크게 향상시킬 수 있지만, 생성 품질은 약간 감소하는 것을 관찰했습니다. 더 나아가, LCM의 주의 메커니즘과 인용 생성 과정 사이에 상관 관계를 발견했습니다.
검색 보강 생성(RAG)은 대형 언어 모델(LLM)의 사실적 정확성을 향상시키는 데 효과가 있다는 것이 입증되었으나, 기존 방법은 자유롭게 이용 가능한 LLM을 사용할 때 검색된 증거를 효과적으로 활용하는 데 한계가 있습니다. 이 간극을 해소하기 위해 우리는 오픈 소스 LLM에서 RAG의 추론 능력을 향상시키기 위해 설계된 혁신적인 프레임워크인 Open-RAG를 소개합니다. 우리의 프레임워크는 임의의 밀집형 LLM을 복수 전문가(MoE) 모델로 변환하여 복잡한 추론 작업을 다룰 수 있는 매개 변수 효율적인 희소형 모델로 만듭니다. Open-RAG는 도전적인 혼동 요소를 탐색하고, 관련이 있어 보이지만 그릇된 정보인 혼동 요소를 처리할 수 있는 모델을 훈련하는 독특한 방법을 채택합니다. 결과적으로 Open-RAG는 잠재적 학습을 활용하여 관련 전문가를 동적으로 선택하고 외부 지식을 효과적으로 통합하여 더 정확하고 맥락에 부합하는 응답을 제공합니다. 또한, 검색 필요성을 결정하고 성능 향상과 추론 속도 사이의 균형을 유지하는 하이브리드 적응형 검색 방법을 제안합니다. 실험 결과는 Llama2-7B 기반 Open-RAG가 다양한 지식 집약적 작업에서 최첨단 LLM 및 RAG 모델인 ChatGPT, Self-RAG, Command R+보다 우수한 성과를 보인다는 것을 보여줍니다. 우리는 코드와 모델을 https://openragmoe.github.io/에서 오픈 소스로 제공합니다.
우리는 모델 크기와 훈련의 발전에도 불구하고 지속적인 과제인 환각을 해결하기 위해 시각-언어 모델(VLMs)의 내부 표현을 조사합니다. VLMs의 내부 이미지 표현을 언어 어휘로 투영하고, 실제 객체보다 환각된 객체에 대해 더 확신 있는 출력 확률을 관찰합니다. 우리는 또한 이러한 출력 확률을 사용하여 실제 객체를 공간적으로 지역화합니다. 이 접근법을 발전시켜, 환각을 제거하는 지식 소거 알고리즘을 소개합니다. 이 알고리즘은 이미지 특징을 환각된 객체 특징에 대해 직교화함으로써 환각을 제거합니다. 우리는 모델의 잠재적 표현에 대한 목표 지향적 편집이 COCO2014 데이터셋에서 환각을 최대 25.7%까지 줄일 수 있음을 보여주며 성능을 유지합니다. 우리의 연구 결과는 VLMs의 잠재적 표현에 대한 깊은 이해가 신뢰성을 향상시키고 제로샷 분할과 같은 혁신적인 기능을 가능하게 하는 방법을 보여줍니다.
대규모 언어 모델(LLMs)은 텍스트 데이터에서의 다재다능성으로 알려져 있으며, 정확한 진단 이미징을 위한 중요한 작업인 의료 이미지 분할을 향상시킬 잠재력을 탐구하는 데 점점 더 관심이 증가하고 있습니다. 본 연구는 사전 훈련된 LLM 트랜스포머 블록을 통합하여 의료 이미지 분할을 향상시키는 방법을 탐구합니다. 저희의 접근 방식은 ViT 기반 모델의 인코더에 고정된 LLM 트랜스포머 블록을 통합함으로써, 다양한 의료 이미징 모달리티에서 분할 성능을 상당히 향상시킵니다. 우리는 글로벌 및 로컬 특징 학습을 결합하는 Hybrid Attention Mechanism과 다양한 스케일에서 특징을 집계하는 Multi-Scale Fusion Block을 제안합니다. 향상된 모델은 평균 Dice 점수가 0.74에서 0.79로 증가하고 정확도, 정밀도, Jaccard 지수 등이 향상되는 등 상당한 성능 향상을 보입니다. 이러한 결과는 의료 이미지 분할을 정제하는 데 LLM 기반 트랜스포머의 효과를 입증하며, 모델의 정확도와 견고성을 크게 향상시킬 수 있는 잠재력을 강조합니다. 소스 코드와 저희의 구현은 다음에서 확인할 수 있습니다: https://bit.ly/3zf2CVs
자율 에이전트는 복잡한 다단계 의사 결정 작업을 자동화하는 데 상당한 잠재력을 보여 주었습니다. 그러나 최첨단 비전-언어 모델(VLMs)인 GPT-4o와 같은 경우에도 인간 수준의 성능에는 아직 미치지 못하는데, 특히 복잡한 웹 환경과 장기 계획 작업에서는 특히 그렇습니다. 이러한 한계를 극복하기 위해 우리는 Reflective Monte Carlo Tree Search (R-MCTS)를 소개합니다. 이는 AI 에이전트의 능력을 향상시키기 위해 설계된 새로운 테스트 시간 알고리즘으로, 예를 들어 GPT-4o를 기반으로 하는 경우, 즉석에서 의사 결정 공간을 탐색하는 능력을 향상시킵니다. R-MCTS는 1) 대조적 반사를 통합하여 과거 상호 작용에서 배우고 검색 효율성을 동적으로 향상시킬 수 있도록 하고, 2) 신뢰할 수 있는 상태 평가를 제공하기 위해 다중 에이전트 토론을 사용함으로써 전통적인 MCTS를 확장합니다. 또한, 우리는 R-MCTS가 생성한 트리 탐색을 사용하여 인간이 제공한 레이블 없이 GPT-4o를 자기 학습을 통해 세밀하게 조정하여 에이전트의 성능을 향상시킵니다. 어려운 VisualWebArena 벤치마크에서, 우리의 GPT-4o 기반 R-MCTS 에이전트는 이전 최첨단 기술에 비해 다양한 작업에서 6%에서 30% 상대적인 개선을 달성합니다. 게다가, 테스트 시간 검색에서 얻은 지식을 세밀하게 조정을 통해 다시 GPT-4o로 전달할 수 있는 것을 보여줍니다. 세밀하게 조정된 GPT-4o는 테스트 시간에 연산 사용량을 4배로 줄이면서 R-MCTS의 성능의 97%를 일치시킵니다. 더 나아가, 질적 결과는 세밀하게 조정된 GPT-4o 모델이 환경을 탐색하고 상태를 평가하며, 현재 상태가 성공으로 이끌지 못할 때 유효한 상태로 되돌아가는 능력을 보여줍니다. 또한, 우리의 연구는 R-MCTS와 함께 데이터 수집을 통한 교육 및 테스트 시간에서의 연산 확장 특성을 보여줍니다. 이러한 결과는 테스트 시간 검색 및 자기 학습을 통해 VLMs의 추론 및 계획 능력을 향상시키기 위한 유망한 연구 방향을 제안합니다.
최근의 볼륨 렌더링 연구인 NeRF와 3D 가우시안 스플래팅(3DGS)은 학습된 암시적 신경 방사형 필드 또는 3D 가우시안을 활용하여 렌더링 품질과 효율성을 크게 향상시켰습니다. 명시적 표현 위에 렌더링을 수행하는 바닐라 3DGS 및 해당 변형은 NeRF에서 채택된 단일 뷰 감독을 통해 훈련 중 매 반복마다 매개변수 모델을 최적화함으로써 실시간 효율성을 제공합니다. 결과적으로 특정 뷰가 과적합되어 새로운 뷰 합성 및 정확하지 않은 3D 기하학적 모양으로 이어지는 불만족스러운 외관을 초래합니다. 상기 문제를 해결하기 위해 우리는 네 가지 주요 새로운 기여를 내포한 새로운 3DGS 최적화 방법을 제안합니다: 1) 기존의 단일 뷰 훈련 패러다임을 다중 뷰 훈련 전략으로 변형합니다. 우리가 제안한 다중 뷰 규제로, 3D 가우시안 속성이 특정 훈련 뷰에 과적합되지 않고 더욱 최적화됩니다. 일반적인 해결책으로, 우리는 다양한 시나리오 및 다른 가우시안 변형에서 전반적인 정확도를 향상시킵니다. 2) 추가 뷰가 도입된 혜택에서 영감을 받아, 우리는 다양한 해상도에 관한 코스 투 파인 훈련 절차를 이끌어내는 교차 내재 가이드 체계를 제안합니다. 3) 우리의 다중 뷰 규제 훈련을 기반으로, 우리는 교차 광선 조밀화 전략을 제안하여 선택된 뷰들로부터 광선 교차 지역에 더 많은 가우시안 커널을 조밀화합니다. 4) 조밀화 전략을 더 탐구한 결과, 특정 뷰가 현저하게 다를 때 조밀화 효과를 강화해야 함을 발견했습니다. 이에 대한 해결책으로, 3D 가우시안이 충분한 수로 조밀화되도록 장려하는 새로운 다중 뷰 증강 조밀화 전략을 제안합니다. 결과적으로 재구성 정확도가 향상됩니다.
요즘 현대의 대형 다중 모달 모델(LMMs)이 짧은 비디오 이해와 관련된 주요 도전 과제 대부분을 해결했다는 감정이 점점 더 증가하고 있습니다. 결과적으로 학계와 산업 모두가 점차 더 복잡한 도전 과제로 주목을 옮기고 있는 것으로 보입니다. 그러나 실제로 그런 것일까요? 우리의 연구에 따르면 LMMs는 여전히 짧은 비디오를 다룰 때에도 많은 기본적인 추론 능력이 부족하다는 것을 보여줍니다. 우리는 1000개의 짧고 자연스러운 비디오 캡션 쌍을 포함하는 시간적 반사적 LMM 평가 벤치마크 Vinoground를 소개합니다. 우리는 기존의 LMMs가 서로 다른 행동과 물체 변환 사이의 시간적 차이를 구별하는 데 심각하게 어려움을 겪는다는 것을 보여줍니다. 예를 들어, 최고의 모델 GPT-4o는 우리의 텍스트 및 비디오 점수에서 약 50%만 달성하며, 약 90%인 인간 기준과 비교했을 때 큰 차이를 보입니다. 모든 오픈 소스 다중 모달 모델 및 CLIP 기반 모델은 대부분 무작위 기회 성능을 보여주며 훨씬 나쁜 결과를 얻습니다. 이를 통해 우리는 짧은 비디오에서의 시간적 추론이 아직 완전히 해결되지 않은 문제임을 밝힙니다. 데이터셋과 평가 코드는 https://vinoground.github.io에서 제공됩니다.
우리는 규칙 기반 시스템의 복잡성이 모델의 능력에 어떻게 영향을 미치는지 조사함으로써 인공 시스템에서 지능적인 행동이 어떻게 발생하는지 탐구합니다. 우리의 연구는 기초 셀룰러 오토마타(ECA)에 초점을 맞춘다. 이는 단순하지만 강력한 1차원 시스템으로, 하찮은 것부터 매우 복잡한 행동까지 생성합니다. 서로 다른 대규모 언어 모델(LLM)을 다양한 ECA에 훈련시킴으로써, 우리는 규칙의 행동 복잡성과 LLM이 나타내는 지능 사이의 관계를 평가했습니다. 이는 LLM의 하류 작업에서의 성능을 통해 나타났습니다. 우리의 연구 결과는 더 높은 복잡성을 가진 규칙이 더 뛰어난 지능을 나타내는 모델로 이어진다는 것을 보여줍니다. 이는 추론 및 체스 이동 예측 작업에서의 성능을 통해 입증되었습니다. 균일 및 주기적 시스템뿐만 아니라 종종 매우 혼돈된 시스템은 하류 성능이 떨어지는 결과를 가져왔습니다. 이는 지능에 유리한 복잡성의 최적점을 강조하고 있습니다. 우리는 지능이 복잡성을 예측하는 능력에서 발생하며, 지능을 만들기 위해서는 단지 복잡성에 노출되는 것만으로도 충분할 수 있다는 가설을 제시합니다.
우리는 작은 규모의 오디오 분류 데이터셋을 합성 데이터로 보강하는 혁신적인 방법인 Synthio를 제안합니다. 우리의 목표는 레이블이 제한된 데이터를 사용하여 오디오 분류 정확도를 향상시키는 것입니다. 인공적인 변형(예: 임의의 소음 추가 또는 세그먼트 숨김)을 적용하는 전통적인 데이터 증강 기술은 실제 오디오의 다양성을 충분히 포착하는 데이터를 생성하는 데 어려움을 겪습니다. 이러한 결함을 해결하기 위해 우리는 텍스트-오디오(T2A) 확산 모델에서 생성된 합성 오디오로 데이터셋을 보강하는 것을 제안합니다. 그러나 효과적인 보강을 합성하는 것은 어렵습니다. 생성된 데이터가 작은 규모 데이터셋과 음향적으로 일관성을 유지해야 할 뿐만 아니라 충분한 구성 다양성을 가져야하기 때문입니다. 첫 번째 도전을 극복하기 위해 T2A 모델의 생성을 선호 최적화를 사용하여 작은 규모 데이터셋과 일치시킵니다. 이렇게 함으로써 생성된 데이터의 음향적 특성이 작은 규모 데이터셋과 일관성을 유지하도록 보장합니다. 두 번째 도전에 대응하기 위해 우리는 대형 언어 모델의 추론 능력을 활용한 새로운 캡션 생성 기술을 제안합니다. 이를 통해 (1) 다양하고 의미 있는 오디오 캡션을 생성하고 (2) 그 품질을 반복적으로 개선합니다. 생성된 캡션은 일치된 T2A 모델을 프롬프트하는 데 사용됩니다. 우리는 Synthio를 십 가지 데이터셋과 네 가지 시뮬레이션된 제한된 데이터 설정에서 철저하게 평가했습니다. 결과는 우리의 방법이 약한 캡션으로만 훈련된 T2A 모델을 사용하여 모든 기준선을 0.1%-39% 일관되게 능가한다는 것을 나타냅니다.
우리는 수백만 개의 매개변수를 가진 작은 사전 훈련된 기본 생성 언어 모델이 프로세스와 관련된 데이터로부터 프로세스의 잠재적인 규칙을 학습할 수 있다는 것을 보여줍니다. 스테판 즤바이히의 소설 "쇼흐노벨레"로 영어로는 "The Royal Game"으로도 알려진 작품에서 영감을 받아, 우리는 28M 및 125M 매개변수의 사전 훈련된 작은 기본 언어 모델(SLMs)이 1,000에서 1,000,000개의 예제로 지시를 세밀하게 조정하여 체스의 규칙을 학습하고, 합법적인 수를 제안하며, 정확하게 체스 문제를 해결할 수 있다는 것을 보여줍니다. 또한 연이은 언어 모델 세밀 조정 에포크가 개선된 결과에 미치는 영향을 탐구하고, 지시 세밀 조정 예제 수를 증가시킴으로써 모델 환각을 줄이는 것을 보여줍니다.
모델 병합, 예를 들어 모델 스프,은 같은 구조를 가진 다른 모델들을 추가적인 학습 없이 결합하는 실천법입니다. 본 연구에서는 비영어권 언어에서 대상 작업을 위한 대규모 언어 모델(LLM)을 세밀하게 조정하는 어려움을 다루는 모델 병합 방법론을 제시합니다. 여기서 대상 언어에는 종종 작업별 데이터가 없는 경우가 있습니다. 우리는 수학적 추론에 초점을 맞추며, 언어와 수학 능력을 결합하여 언어 간 전이를 용이하게 합니다. 동일한 사전 학습 모델에서 시작하여, 우리는 영어로 된 수학 지시 데이터와 대상 언어의 일반 지시 데이터에 대해 별도의 "전문가"를 세밀하게 조정합니다. 그런 다음 수학 전문가의 상위 및 하위 트랜스포머 레이어를 언어 전문가의 레이어로 직접 교체하여 결과적으로 대상 언어에서 수학 성능을 향상시킵니다. 결과적으로 얻어진 병합된 모델은 수학 벤치마크 MGSM에서 다른 개별 전문가 및 다른 병합 방법을 10% 상회하는 성능을 보여줍니다. 이는 수학 지시 데이터가 부족한 네 가지 주요 언어에서 이루어집니다. 또한, 이 레이어 교체는 해석적 분석을 기반으로 하기 때문에 간단하고 비용이 적게 들며 직관적입니다. 이 방법은 각 전문가의 세밀한 조정 중 가장 중요한 매개변수 변경을 분석하여 이루어집니다. 이러한 방식으로 LLM을 성공적으로 재구성하여 언어 간 전이를 수행할 수 있는 능력은 모델 전문성을 결합하고 모듈식 솔루션을 만들며, 언어 간 추론 능력을 사후에 모두 전달하는 미래 가능성을 엽니다.
최근 3D 대규모 언어 모델(3DLLM)의 발전은 3D 실제 세계에서 일반 목적의 에이전트를 구축하는 잠재력을 강조했지만, 고품질의 견고한 지시 따르기 데이터 부족으로 인한 도전이 여전히 존재하여 3DLLM의 한정된 식별 능력과 일반화에 제한이 생겼습니다. 본 논문에서는 우리의 혁신적인 데이터 엔진인 견고한 지시 생성(RIG) 엔진에 의해 생성된 대규모 지시 따르기 데이터로 훈련된 강력한 3DLLM인 Robin3D를 소개합니다. RIG는 두 가지 주요 지시 데이터를 생성합니다: 1) 적대적 지시 따르기 데이터는 모델의 식별 이해력을 향상시키기 위해 부정적 및 긍정적 샘플을 혼합한 데이터를 특징으로 합니다. 2) 다양한 지시 스타일을 포함하여 모델의 일반화를 향상시키는 다양한 지시 따르기 데이터입니다. 결과적으로 344K 적대적 샘플, 508K 다양한 샘플 및 165K 벤치마크 훈련 세트 샘플로 구성된 100만 개의 지시 따르기 데이터를 구축합니다. 이러한 복잡한 지시를 더 잘 처리하기 위해 Robin3D는 먼저 관계 증강 프로젝터를 통해 공간 이해력을 향상시키고, ID-특징 결합을 통해 객체 참조 및 기준 능력을 강화합니다. Robin3D는 과거 방법들을 능가하여 5가지 널리 사용되는 3D 다중 모달 학습 벤치마크에서 우수한 성과를 보여주었으며, 작업 특정 세부 조정이 필요하지 않습니다. 특히, 우리는 참조 작업(Multi3DRefer)에서 7.8\% 향상과 캡션 작업(Scan2Cap)에서 6.9\% 향상을 달성했습니다.
프롬프트 기반 세밀 조정은 다양한 작업을 위해 사전 훈련된 언어 모델에 인코딩된 정보를 추출하는 핵심 방법으로 자리 잡았으며, 이는 텍스트 분류를 포함한 여러 작업에 사용됩니다. 다중 클래스 분류 작업의 경우, 저자원 시나리오에서의 프롬프트 기반 세밀 조정은 완전히 세밀 조정된 방법과 유사한 성능 수준을 보여주었습니다. 이전 연구에서는 레이블 용어 공간에서 클래스 공간으로 매핑하는 정제된 프롬프트 템플릿과 어구화기를 사용하여, 분류 문제를 마스크된 언어 모델링 작업으로 해결했습니다. 그러나 자동으로 풍부한 어구화기로 교차 도메인 및 세밀한 프롬프트 기반 세밀 조정은 탐구되지 않았습니다. 이는 어구화기를 위해 도메인 레이블 용어를 수동으로 선택하는 어려움과 비용 때문에 주로 발생하며, 이는 해당 도메인 전문 지식을 가진 사람이 필요합니다. 이러한 도전에 대처하기 위해, 저희는 저자원 텍스트 분류 작업을 위해 과학 주제 관련 용어를 자동으로 검색하는 SciPrompt라는 프레임워크를 소개합니다. 이를 위해 과학 문헌의 맥락에서 의미론적으로 상관된 도메인 특정 레이블 용어를 선택하여 어구화기를 보강합니다. 더불어, 상관 점수를 추가 가중치로 사용하는 새로운 어구화 전략을 제안하여 모델 조정 중 언어 모델의 예측 성능을 향상시킵니다. 저희 방법은 소수 및 제로샷 설정에서 과학 텍스트 분류 작업에서 최신 기술인 프롬프트 기반 세밀 조정 방법을 능가하며, 특히 세밀하고 신흥적인 과학 주제를 분류하는 데 뛰어난 성과를 보입니다.