번역이 포함된 일일 선별된 AI 연구 논문
우리는 비전 중심 접근법으로 설계된 멀티모달 대형 언어 모델(MLLM) 패밀리인 Cambrian-1을 소개합니다. 더 강력한 언어 모델이 멀티모달 능력을 향상시킬 수 있지만, 비전 컴포넌트에 대한 설계 선택은 종종 충분히 탐구되지 않고 시각적 표현 학습 연구와 단절되어 있습니다. 이러한 격차는 실제 시나리오에서 정확한 감각적 근거를 방해합니다. 우리의 연구는 다양한 시각적 표현을 평가하기 위한 인터페이스로 LLM과 시각적 명령어 튜닝을 사용하며, 20개 이상의 비전 인코더를 기반으로 한 자가 지도 학습, 강력한 지도 학습 또는 이들의 조합과 같은 다양한 모델과 아키텍처에 대한 새로운 통찰을 제공합니다. 우리는 기존 MLLM 벤치마크를 비판적으로 검토하고, 다양한 작업에서 결과를 통합하고 해석하는 데 따른 어려움을 해결하며, 새로운 비전 중심 벤치마크인 CV-Bench를 소개합니다. 시각적 근거를 더욱 개선하기 위해, 우리는 고해상도 비전 특징을 LLM과 통합하면서 토큰 수를 줄이는 동적이고 공간 인식 연결자인 Spatial Vision Aggregator(SVA)를 제안합니다. 또한, 공개적으로 이용 가능한 소스에서 고품질 시각적 명령어 튜닝 데이터를 큐레이션하는 방법에 대해 논의하며, 데이터 소스 균형과 분포 비율의 중요성을 강조합니다. 종합적으로, Cambrian-1은 최첨단 성능을 달성할 뿐만 아니라, 명령어 튜닝된 MLLM을 위한 포괄적이고 개방적인 요리책 역할을 합니다. 우리는 모델 가중치, 코드, 지원 도구, 데이터셋, 그리고 상세한 명령어 튜닝 및 평가 레시피를 제공합니다. 우리의 릴리스가 멀티모달 시스템과 시각적 표현 학습의 발전을 영감을 주고 가속화하기를 바랍니다.
개인화된 이미지 생성은 창의적으로 맞춤형 콘텐츠를 생성하는 인상적인 기능 덕분에 인간의 일상적인 업무와 생활을 지원하는 데 큰 잠재력을 가지고 있습니다. 그러나 현재의 평가 방법은 자동화되었지만 인간과의 정렬이 부족하거나, 시간과 비용이 많이 드는 인간 평가를 필요로 합니다. 본 연구에서는 고급 멀티모달 GPT 모델을 통해 자동화된 인간 정렬 벤치마크인 DreamBench++를 제안합니다. 구체적으로, 우리는 GPT가 인간과 정렬되면서도 자기 정렬을 유지할 수 있도록 체계적으로 프롬프트를 설계하고, 이를 과제 강화로 강화했습니다. 더 나아가, 다양한 이미지와 프롬프트로 구성된 포괄적인 데이터셋을 구축했습니다. 7개의 현대적 생성 모델을 벤치마킹한 결과, DreamBench++가 훨씬 더 인간 정렬된 평가를 제공하며, 혁신적인 발견을 통해 커뮤니티를 발전시키는 데 도움을 준다는 것을 입증했습니다.
대규모 언어 모델(LLMs)의 프로그래밍 분야에서의 최근 발전은 자동화된 소프트웨어 공학을 크게 강화했습니다. 현재 벤치마크는 LLMs가 인간 개발자처럼 다양한 소프트웨어 공학 작업을 수행할 수 있음을 보여주지만, 대부분의 평가는 짧고 독립적인 알고리즘 작업에 국한되어 있습니다. 도전적이고 실용적인 프로그래밍 작업을 해결하기 위해서는 데이터 분석 및 웹 개발과 같은 기능을 효율적으로 구현하기 위해 다양한 함수 호출을 도구로 활용할 수 있는 능력이 필요합니다. 또한, 여러 도구를 사용하여 작업을 해결하려면 복잡한 지시사항을 정확히 이해하는 구성적 추론이 필요합니다. 이 두 가지 특성을 모두 충족하는 것은 LLMs에게 큰 도전이 될 수 있습니다. LLMs가 도전적이고 실용적인 프로그래밍 작업을 얼마나 잘 해결할 수 있는지 평가하기 위해, 우리는 Bench라는 벤치마크를 소개합니다. 이 벤치마크는 LLMs가 139개의 라이브러리와 7개의 도메인에서 1,140개의 세분화된 프로그래밍 작업을 위해 여러 함수 호출을 도구로 활용하도록 요구합니다. LLMs를 엄격하게 평가하기 위해, 각 프로그래밍 작업은 평균 99%의 분기 커버리지를 가진 5.6개의 테스트 케이스를 포함합니다. 또한, 우리는 Bench의 자연어 지향 변형인 Benchi를 제안합니다. Benchi는 원래의 문서 문자열을 필수 정보만 포함한 짧은 지시사항으로 자동 변환합니다. 60개의 LLMs에 대한 광범위한 평가 결과, LLMs는 복잡한 지시사항을 따라 정확하게 함수 호출을 사용하는 데 아직 능숙하지 않으며, 최대 60%의 점수를 기록하여 인간의 97% 성능보다 현저히 낮습니다. 이러한 결과는 이 분야에서의 추가 발전이 필요함을 강조합니다.
검색 모델은 종종 부분적으로 주석이 달린 데이터셋으로 평가됩니다. 각 쿼리는 몇 개의 관련 텍스트에 매핑되고, 나머지 코퍼스는 관련이 없는 것으로 간주됩니다. 결과적으로, 잘못된 부정 예(false negatives)를 성공적으로 검색해내는 모델은 평가에서 불이익을 받게 됩니다. 불행히도 모든 쿼리에 대해 모든 텍스트에 완전히 주석을 다는 것은 자원 효율적이지 않습니다. 본 연구에서는 평가에 부분적으로 주석이 달린 데이터셋을 사용하면 왜곡된 결과를 초래할 수 있음을 보여줍니다. 우리는 위키피디아에서 패시지 검색 평가 세트인 D-MERIT를 구축하여, 각 쿼리에 대한 모든 관련 패시지를 포함하고자 합니다. 쿼리는 특정 그룹(예: "언어학에 관한 저널")을 설명하고, 관련 패시지는 해당 그룹에 속하는 엔티티를 증명하는 증거(예: Language가 언어학에 관한 저널임을 나타내는 패시지)입니다. 우리는 관련 패시지의 일부만 주석이 달린 데이터셋으로 평가하면 검색 시스템의 순위가 오해를 불러일으킬 수 있으며, 평가 세트에 더 많은 관련 텍스트가 포함될수록 순위가 수렴됨을 보여줍니다. 우리는 이 데이터셋을 평가를 위한 자원으로 제안하고, 텍스트 검색을 위한 평가 세트에 주석을 달 때 자원 효율성과 신뢰할 수 있는 평가 사이의 균형을 맞추는 것을 권장합니다.
비디오 시퀀스는 귀중한 시간적 정보를 제공하지만, 기존의 대규모 멀티모달 모델(LMMs)은 극도로 긴 비디오를 이해하는 데 한계가 있습니다. 많은 연구들이 시각적 리샘플러를 사용하여 시각적 토큰의 수를 줄이는 방식으로 이 문제를 해결하려고 합니다. 반면, 본 논문에서는 언어 모델의 관점에서 이 문제에 접근합니다. 언어 백본의 컨텍스트 길이를 단순히 확장함으로써, LMMs가 어떠한 비디오 훈련 없이도 훨씬 더 많은 시각적 토큰을 이해할 수 있게 합니다. 우리는 이 현상을 장기 컨텍스트 전이(long context transfer)라고 부르며, 그 특성을 신중하게 분석합니다. LMMs가 시각 모달리티에서 장기 컨텍스트로 일반화하는 능력을 효과적으로 측정하기 위해, 언어 모델의 NIAH(Needle-In-A-Haystack) 테스트에서 영감을 받은 순수 합성 장기 시각 벤치마크인 V-NIAH을 개발했습니다. 우리가 제안한 Long Video Assistant(LongVA)는 추가적인 복잡성 없이 2000 프레임 또는 20만 개 이상의 시각적 토큰을 처리할 수 있습니다. 확장된 컨텍스트 길이를 통해 LongVA는 더 많은 입력 프레임을 밀집하게 샘플링함으로써 7B 규모 모델 중 Video-MME에서 최첨단 성능을 달성합니다. 우리의 작업은 https://github.com/EvolvingLMMs-Lab/LongVA에서 오픈소스로 제공됩니다.
디퓨전 모델은 최근 비디오 생성 분야에서 주목할 만한 성과를 거두었습니다. 이러한 고무적인 성능에도 불구하고, 생성된 비디오는 일반적으로 적은 수의 프레임으로 제한되어 단 몇 초 길이의 클립에 그치는 경우가 많습니다. 더 긴 비디오를 생성하는 데 있어 주요한 과제는 단일 GPU에서 요구되는 상당한 메모리 요구량과 긴 처리 시간입니다. 간단한 해결책은 작업 부하를 여러 GPU에 분산시키는 것이지만, 이는 두 가지 문제를 야기합니다: (1) 모든 GPU가 타이밍과 컨텍스트 정보를 효과적으로 공유하도록 통신을 보장하는 것, (2) 짧은 시퀀스로 학습된 기존 비디오 디퓨전 모델을 추가 학습 없이 더 긴 비디오를 생성하도록 수정하는 것. 이를 해결하기 위해, 본 논문에서는 장편 비디오 생성을 위해 여러 GPU 간 병렬 처리를 가능하게 하는 분산 추론 파이프라인인 Video-Infinity를 소개합니다. 구체적으로, 우리는 두 가지 일관된 메커니즘을 제안합니다: 클립 병렬 처리(Clip parallelism)와 이중 범위 주의(Dual-scope attention). 클립 병렬 처리는 GPU 간 컨텍스트 정보의 수집과 공유를 최적화하여 통신 오버헤드를 최소화하고, 이중 범위 주의는 시간적 자기 주의를 조절하여 장치 간 로컬 및 글로벌 컨텍스트를 효율적으로 균형 있게 조정합니다. 이 두 메커니즘이 함께 작동하여 작업 부하를 분산시키고 빠른 장편 비디오 생성을 가능하게 합니다. 8개의 Nvidia 6000 Ada GPU(48G) 설정에서, 우리의 방법은 약 5분 만에 최대 2,300 프레임의 비디오를 생성하며, 이는 기존 방법보다 100배 빠른 속도로 장편 비디오 생성을 가능하게 합니다.
최근 멀티모달 대형 언어 모델(MLLMs)의 발전으로 비디오 이해 능력이 확장되었습니다. 그러나 이러한 모델들은 종종 "환각(hallucination)" 문제에 시달리는데, 이는 실제 비디오 맥락과 벗어난 관련 없는 또는 말이 되지 않는 내용을 생성하는 현상을 말합니다. 본 연구에서는 대형 비디오-언어 모델(LVLMs)에서의 환각 탐지를 위한 첫 번째 포괄적인 벤치마크인 VideoHallucer를 소개합니다. VideoHallucer는 환각을 내재적(intrinsic)과 외재적(extrinsic) 두 가지 주요 유형으로 분류하고, 객체-관계, 시간적, 의미적 세부 사항, 외재적 사실, 외재적 비사실적 환각 등의 하위 범주를 제공하여 세부적인 분석을 가능하게 합니다. 우리는 포괄적인 평가를 위해 적대적 이진 비디오 질의응답(VideoQA) 방법을 채택했으며, 기본 질문과 환각이 포함된 질문 쌍을 전략적으로 구성했습니다. VideoHallucer를 통해 11개의 LVLM을 평가한 결과, i) 현재 대부분의 모델이 환각 문제에 심각한 문제를 보임, ii) 데이터셋과 매개변수를 확장하면 기본적인 시각적 단서와 반사실적 내용을 탐지하는 능력은 향상되지만, 외재적 사실적 환각을 탐지하는 데는 제한적인 이점만 제공됨, iii) 기존 모델들은 사실을 탐지하는 데는 능숙하지만 환각을 식별하는 데는 덜 능숙함을 확인했습니다. 이러한 분석은 부수적으로 우리의 자체 PEP(self-PEP) 프레임워크 개발에 지침을 제공하여 모든 모델 아키텍처에서 평균 5.38%의 환각 저항성 향상을 달성했습니다.
인간 피드백을 통한 강화 학습(RLHF)은 인간 선호도에 기반해 훈련된 보상 모델을 사용하여 대형 언어 모델(LLM)의 생성물이 높은 보상을 받도록 유도함으로써 이를 정렬합니다. 사전 훈련된 지식의 망각을 방지하기 위해 RLHF는 일반적으로 KL 정규화를 포함하는데, 이는 정책이 지도 학습으로 미세 조정된 초기화 상태에 가깝게 유지되도록 강제하지만, 보상 최적화를 방해합니다. KL과 보상 간의 트레이드오프를 해결하기 위해, 본 논문에서는 Weight Averaged Rewarded Policies(WARP)라는 새로운 정렬 전략을 소개합니다. WARP는 세 가지 단계에서 정책을 가중치 공간에서 병합합니다. 첫째, KL 정규화에서 정책의 지수 이동 평균을 동적 앵커로 사용합니다. 둘째, 독립적으로 미세 조정된 정책들을 구형 보간법을 통해 새로운 강화된 정책으로 병합합니다. 셋째, 이 병합된 모델과 초기화 모델 간의 선형 보간을 적용하여 사전 훈련의 특징을 복원합니다. 이 절차는 반복적으로 적용되며, 각 반복의 최종 모델은 다음 반복의 고급 초기화로 사용되어 KL-보상 파레토 프론트를 점진적으로 개선하고 고정된 KL에서 우수한 보상을 달성합니다. GEMMA 정책에 대한 실험을 통해 WARP가 품질과 정렬을 개선하며 다른 오픈소스 LLM을 능가함을 검증했습니다.
대규모 언어 모델에 대한 선형 복잡도 모델의 관심이 증가하고 있지만, 이들의 확장 능력은 여전히 불확실합니다. 본 연구에서는 선형 복잡도 언어 모델의 확장 법칙을 제시하여 이들의 확장성에 대한 기반을 마련합니다. 구체적으로, 우리는 세 가지 효율적인 선형 아키텍처의 확장 행동을 검토합니다. 여기에는 데이터 독립적 감쇠를 가진 선형 어텐션 모델인 TNL, 데이터 의존적 감쇠를 가진 선형 RNN인 HGRN2, 그리고 감쇠가 없는 선형 어텐션 모델인 cosFormer2가 포함됩니다. 또한 비교를 위해 소프트맥스 어텐션을 사용한 LLaMA를 기준 아키텍처로 포함했습니다. 이러한 모델들은 300B 토큰 코퍼스에서 70M에서 7B 파라미터까지의 여섯 가지 변형으로 훈련되었으며, 다양한 다운스트림 작업에서 총 1,376개의 중간 체크포인트로 평가되었습니다. 이러한 작업에는 검증 손실, 상식 추론, 정보 검색 및 생성이 포함됩니다. 연구 결과, 기존의 선형 복잡도 언어 모델은 기존의 트랜스포머 기반 모델과 유사한 확장 능력을 보이면서도 우수한 언어 능력과 지식 보유 능력을 보여주는 것으로 나타났습니다.
대형 언어 모델(LLMs)은 자연어 처리 분야를 혁신하고 다양한 상업적 응용 분야에서 그 활용 범위를 확장해 왔습니다. 그러나 이러한 모델의 배포는 다국어 환경에서의 높은 추론 시간으로 인해 제약을 받고 있습니다. 이러한 문제를 완화하기 위해, 본 논문은 스펙티브 디코딩(speculative decoding)에서 어시스턴트 모델의 학습 방법을 탐구합니다. 이 방법은 초안을 작성한 후 대상 LLM에 의해 미래 토큰을 검증하는 방식으로 활용됩니다. 우리는 특정 언어에 맞게 최적화된 초안 모델이 목표 지향적인 사전 학습 및 미세 조정 전략을 통해 이전 방법들에 비해 추론 시간을 크게 단축할 수 있음을 보여줍니다. 이러한 모델들을 다양한 언어에서 추론 시간, 도메인 외 속도 향상, 그리고 GPT-4o 평가를 통해 검증합니다.
지속적 사전 학습(Continual Pre-training)은 대규모 언어 모델(LLMs)을 새로운 도메인에 적응시키기 위한 주요 접근 방식으로 점차 자리 잡고 있습니다. 이 과정은 사전 학습된 LLM을 새로운 도메인의 코퍼스로 업데이트하여 학습 분포를 변화시키는 것을 포함합니다. 이러한 변화 과정에서 LLM의 동작을 연구하기 위해, 우리는 지속적 사전 학습 과정 전반에 걸쳐 모델의 성능을 측정했습니다. 그 결과, 초기에 일시적인 성능 하락이 발생한 후 회복 단계를 거치는 현상을 관찰했는데, 이는 새로운 클래스를 분류하는 비전 모델에서 이전에 보고된 "안정성 격차(stability gap)" 현상과 유사합니다. 이 문제를 해결하고 고정된 컴퓨팅 예산 내에서 LLM의 성능을 향상시키기 위해, 우리는 세 가지 효과적인 전략을 제안합니다: (1) 적절한 크기의 부분 집합에 대해 여러 에포크(epoch) 동안 지속적으로 사전 학습을 진행하여, 대규모 코퍼스를 단일 에포크로 사전 학습하는 것보다 더 빠르게 성능을 회복시키는 방법; (2) 고품질의 부분 코퍼스만을 사용하여 사전 학습을 진행함으로써 도메인 성능을 빠르게 향상시키는 방법; (3) 사전 학습 데이터와 유사한 데이터 혼합을 사용하여 분포 격차를 줄이는 방법. 우리는 Llama 계열 모델을 대상으로 다양한 실험을 수행하여 의료 지속적 사전 학습과 명령어 튜닝(instruction tuning)에서 이 전략들의 효과를 검증했습니다. 예를 들어, 우리의 전략은 OpenLlama-3B 모델의 평균 의료 작업 성능을 원래 학습 예산의 40%만 사용하여 36.2%에서 40.7%로 향상시켰으며, 일반 작업의 평균 성능도 향상시키면서도 망각(forgetting) 현상을 유발하지 않았습니다. 또한, 우리는 이 전략들을 Llama-3-8B 모델에 적용했습니다. 그 결과로 얻은 Llama-3-Physician 모델은 현재 오픈소스 모델 중 최고의 의료 성능을 보였으며, 여러 의료 벤치마크에서 GPT-4와 비슷하거나 더 나은 성능을 달성했습니다. 우리는 이 모델을 https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct 에 공개했습니다.
자기회귀 트랜스포머에서 긴 시퀀스를 효율적으로 처리하는 것은, 특히 확장된 컨텍스트 윈도우 내에서, 자기 주의 메커니즘의 이차 계산 복잡성과 상당한 키-값(KV) 메모리 요구 사항으로 인해 상당한 어려움을 겪습니다. 본 연구에서는 이러한 계산 및 메모리 문제를 극복하면서도 성능을 유지하기 위해 새로운 희소 주의 메커니즘인 SPARSEK Attention을 소개합니다. 우리의 접근 방식은 각 쿼리에 대해 일정한 수의 KV 쌍을 선택하기 위해 스코어링 네트워크와 미분 가능한 top-k 마스크 연산자인 SPARSEK를 통합하여 그래디언트 기반 최적화를 가능하게 합니다. 결과적으로, SPARSEK Attention은 생성 과정에서 선형 시간 복잡성과 일정한 메모리 공간을 제공합니다. 실험 결과는 SPARSEK Attention이 기존의 희소 주의 방법들을 능가하며, 특히 언어 모델링 및 다운스트림 작업에서 학습 및 추론 속도를 크게 개선함을 보여줍니다. 또한, 우리의 방법은 최소한의 미세 조정만으로도 사전 훈련된 대형 언어 모델(LLM)에 원활하게 통합될 수 있어, 다양한 애플리케이션에서 장거리 의존성을 효과적으로 관리할 수 있는 실용적인 해결책을 제공합니다.
우리는 대규모 언어 모델(LLMs)에서 불확실성 정량화를 위한 저렴하고 신뢰할 수 있는 방법으로 의미론적 엔트로피 프로브(Semantic Entropy Probes, SEPs)를 제안한다. 사실적으로 들리지만 사실과 다르고 임의적인 모델 생성물인 환각(hallucination)은 LLMs의 실용적 채택에 있어 주요한 도전 과제이다. Farquhar 등(2024)의 최근 연구는 의미론적 엔트로피(Semantic Entropy, SE)를 제안하여, 모델 생성물 집합에 대한 의미론적 공간에서의 불확실성을 추정함으로써 환각을 탐지할 수 있다. 그러나 SE 계산에 따른 5~10배의 계산 비용 증가는 실용적 채택을 방해한다. 이를 해결하기 위해, 우리는 단일 생성물의 은닉 상태(hidden states)에서 직접 SE를 근사하는 SEPs를 제안한다. SEPs는 학습이 간단하며 테스트 시점에 여러 모델 생성물을 샘플링할 필요가 없어, 의미론적 불확실성 정량화의 오버헤드를 거의 제로로 줄인다. 우리는 SEPs가 환각 탐지에서 높은 성능을 유지하며, 모델 정확도를 직접 예측하는 기존 프로빙 방법보다 분포 외 데이터(out-of-distribution data)에 대해 더 잘 일반화됨을 보여준다. 다양한 모델과 작업에 걸친 우리의 결과는 모델 은닉 상태가 SE를 포착함을 시사하며, 우리의 어블레이션 연구는 이를 뒷받침하는 토큰 위치와 모델 계층에 대한 추가적인 통찰을 제공한다.
대규모 언어 모델(LLM)이 일상생활에 점점 더 깊이 스며들면서, 인간 대화를 반영하는 실시간 상호작용에 대한 요구가 증가하고 있습니다. LLM 기반의 전통적인 턴 기반 채팅 시스템은 모델이 응답을 생성하는 동안 사용자가 시스템과 구두로 상호작용하는 것을 방해합니다. 이러한 한계를 극복하기 위해, 우리는 기존 LLM을 듀플렉스 모델로 적응시켜, 이러한 LLM이 출력을 생성하면서도 사용자의 말을 들을 수 있고, 사용자에게 즉각적인 피드백을 제공하기 위해 동적으로 조정할 수 있도록 했습니다. 특히, 우리는 대화의 질문과 응답을 여러 시간 조각으로 나누고, 시간 분할 다중화(TDM) 인코딩-디코딩 전략을 채택하여 이러한 조각을 가상으로 동시에 처리합니다. 더 나아가, LLM이 실시간 대화를 처리할 수 있을 만큼 숙련되도록 하기 위해, 질문과 응답의 교대 시간 조각과 즉각적인 상호작용에서의 전형적인 피드백 유형을 포함한 미세 조정 데이터셋을 구축했습니다. 우리의 실험 결과, 대화의 질문과 응답이 불완전한 조각으로 분할되어 처리되더라도, LLM은 우리의 데이터셋에 대한 몇 차례의 미세 조정을 통해 표준 벤치마크에서 원래의 성능을 유지할 수 있음을 보여줍니다. 자동 및 인간 평가는 듀플렉스 모델이 사용자-AI 상호작용을 더 자연스럽고 인간적으로 만들며, 기존 LLM에 비해 사용자 만족도를 크게 향상시킨다는 것을 나타냅니다. 우리의 듀플렉스 모델과 데이터셋은 공개될 예정입니다.
다국어 대규모 언어 모델(LLM)의 해독화는 전 세계적으로 사용이 증가함에 따라 중요한 과제로 부상했습니다. 본 연구에서는 LLM 해독화를 위한 선호도 튜닝의 제로샷 교차 언어 일반화를 탐구합니다. 기존 연구들이 다른 안전성 작업에 대해 제한된 교차 언어 일반화를 보여준 것과 달리, 우리는 영어 데이터만으로 Direct Preference Optimization(DPO) 훈련을 수행하면 다국어 자유 생성에서 독성 수준을 크게 감소시킬 수 있음을 입증했습니다. 예를 들어, mGPT-1.3B가 독성 문장을 생성할 확률은 훈련 후 17개 언어에서 46.8%에서 3.9%로 감소했습니다. 이러한 결과는 BLOOM, Llama3, Aya-23과 같은 다른 다국어 LLM에도 적용됩니다. 인과적 개입 및 활성화 분석과 같은 기계적 해석 도구를 사용하여, 우리는 LLM의 MLP 계층이 지닌 이중 다국어 특성을 확인했으며, 이는 DPO의 교차 언어 일반화를 설명합니다. 마지막으로, 이중 언어 문장 검색이 DPO 선호도 튜닝의 교차 언어 전이 가능성을 예측할 수 있음을 보여줍니다.
대형 언어 모델(LLMs)이 점점 더 강력해지고 있음에도 불구하고, 여전히 명령 수행이나 코딩 작업에서의 실수와 같은 상당하지만 미묘한 약점을 보입니다. 이러한 예상치 못한 오류는 실제 배포에서 심각한 결과를 초래할 수 있으므로, LLMs의 한계를 체계적으로 조사하는 것이 중요합니다. 기존의 벤치마킹 접근법은 특정 모델의 결함을 철저히 파악할 수 없으며, 수동 검사는 비용이 많이 들고 확장성이 없습니다. 본 논문에서는 다양한 작업에서 LLMs의 약점을 자동으로 드러내는 통합 프레임워크인 AutoDetect를 소개합니다. 학생들의 학습 성과를 측정하는 교육 평가 과정에서 영감을 받은 AutoDetect는 Examiner, Questioner, Assessor라는 세 가지 LLM 기반 에이전트로 구성됩니다. 이 세 에이전트 간의 협업은 포괄적이고 심층적인 약점 식별을 실현하도록 설계되었습니다. 우리의 프레임워크는 ChatGPT와 Claude와 같은 주요 모델에서 30%를 넘는 식별 성공률로 결함을 발견하는 데 상당한 성과를 보였습니다. 더 중요한 것은, 이러한 식별된 약점이 특정 모델 개선을 안내할 수 있어 Self-Instruct와 같은 비목표적 데이터 증강 방법보다 더 효과적임이 입증되었다는 점입니다. 우리의 접근 방식은 Llama 시리즈와 Mistral-7b를 포함한 인기 있는 LLMs의 성능을 여러 벤치마크에서 10% 이상 향상시키는 상당한 개선을 이끌어냈습니다. 코드와 데이터는 https://github.com/thu-coai/AutoDetect에서 공개되어 있습니다.
널리 사용되고 있음에도 불구하고, 대형 언어 모델(LLM)이 다음 토큰 예측에서 불확실성을 표현하고 조절하는 메커니즘은 여전히 크게 탐구되지 않고 있습니다. 본 연구는 이러한 불확실성에 영향을 미치는 것으로 여겨지는 두 가지 핵심 요소를 조사합니다: 최근 발견된 엔트로피 뉴런과 우리가 토큰 빈도 뉴런이라고 명명한 새로운 요소 집합입니다. 엔트로피 뉴런은 비정상적으로 높은 가중치 노름을 특징으로 하며, 최종 레이어 정규화(LayerNorm) 스케일에 영향을 미쳐 로짓을 효과적으로 축소합니다. 우리의 연구는 엔트로피 뉴런이 언임베딩 널 공간에 기록함으로써 작동하며, 이는 로짓 자체에 최소한의 직접적인 영향을 미치면서 잔차 스트림 노름에 영향을 줄 수 있게 한다는 것을 보여줍니다. 우리는 최대 70억 개의 파라미터를 가진 다양한 모델에서 엔트로피 뉴런의 존재를 관찰했습니다. 반면, 본 연구에서 처음으로 발견하고 기술한 토큰 빈도 뉴런은 각 토큰의 로짓을 로그 빈도에 비례하여 증가시키거나 억제함으로써 출력 분포를 유니그램 분포 쪽으로 또는 반대 방향으로 이동시킵니다. 마지막으로, 엔트로피 뉴런이 유도 설정(즉, 반복되는 부분 시퀀스를 감지하고 계속하는 상황)에서 신뢰도를 능동적으로 관리하는 상세한 사례 연구를 제시합니다.
좋은 대형 언어 모델(LLM)이란 무엇인가? 그것은 관련 벤치마크에서 잘 수행하는 모델이다. 이 벤치마크는 바라건대 실제 애플리케이션에서도 요구되는 능력의 존재를 어느 정도 타당하게 측정할 수 있어야 한다. 하지만 무엇이 모델이 잘 수행하게 만드는가? 무엇이 모델에 그 능력을 부여하는가? 우리는 최근 도입된 한 유형의 벤치마크를 살펴보는데, 이 벤치마크는 목표 지향적이고 에이전트적인 맥락에서의 능력을 대화형 게임의 자기 주도적 플레이를 통해 평가하도록 설계되었다. 그리고 우리는 모델의 파라미터 수나 훈련 유형과 같은 특성에 따라 성능이 어떻게 발전하는지 분석한다. 우리는 파라미터 수와 성능 사이에 명확한 관계가 있음을 발견했지만, 주어진 크기 범위 내에서도 성능 점수들이 넓게 분포되어 있으며, 이는 미세 조정 데이터의 품질과 방법과 같은 훈련 파라미터에 의해 설명될 수 있다. 더 실용적인 관점에서, 우리는 접근 방법에 따른 성능에 대해 어느 정도 예측 불가능성이 있음을 발견했는데, 이는 노출되지 않은 샘플링 파라미터 때문일 가능성이 있다. 또한, 추론 중에 적어도 중간 정도의 가중치 양자화에 대해 매우 환영할 만한 성능 안정성도 발견했다.
텍스트에서 고품질 3D 의류 합성은 디지털 아바타 제작에 있어 바람직하지만 여전히 도전적인 과제입니다. 최근 Score Distillation Sampling (SDS)을 통한 확산 기반 접근법이 새로운 가능성을 열었지만, 이는 인체와 복잡하게 결합되거나 재사용이 어려운 문제가 있습니다. 우리는 ClotheDreamer를 소개하며, 이는 텍스트 프롬프트로부터 착용 가능하고 프로덕션 준비가 된 3D 의류 자산을 생성하기 위한 3D 가우시안 기반 방법입니다. 우리는 별도의 최적화를 가능하게 하는 새로운 표현인 Disentangled Clothe Gaussian Splatting (DCGS)을 제안합니다. DCGS는 옷을 입은 아바타를 하나의 가우시안 모델로 표현하지만, 신체 가우시안 스플랫을 고정합니다. 품질과 완성도를 높이기 위해, 우리는 양방향 SDS를 도입하여 포즈 조건과 함께 옷을 입은 아바타와 의류 RGBD 렌더링을 각각 감독하고, 느슨한 의류를 위한 새로운 가지치기 전략을 제안합니다. 우리의 접근 방식은 사용자 정의 의류 템플릿을 입력으로 지원할 수도 있습니다. 우리의 설계 덕분에, 합성된 3D 의류는 가상 피팅에 쉽게 적용될 수 있으며 물리적으로 정확한 애니메이션을 지원합니다. 광범위한 실험을 통해 우리의 방법이 우수하고 경쟁력 있는 성능을 보여줌을 입증합니다. 우리의 프로젝트 페이지는 https://ggxxii.github.io/clothedreamer에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 긴 입력 문맥을 처리하도록 특별히 훈련되었더라도 입력 중간에 위치한 관련 정보를 포착하는 데 어려움을 겪습니다. 이러한 현상은 '중간에서 사라지는 문제(lost-in-the-middle problem)'로 알려져 있습니다. 본 연구에서는 세 가지 주요 기여를 합니다. 첫째, 이 현상을 유발하는 요인을 이해하기 위해 노력했습니다. 이를 통해 LLMs의 내재적 주의 편향과 '중간에서 사라지는 문제' 사이의 연관성을 규명했습니다: LLMs는 입력의 시작과 끝에 위치한 토큰이 관련성과 무관하게 더 높은 주의를 받는 U자형 주의 편향을 보입니다. 둘째, 이러한 위치 편향을 완화하기 위해 '중간에서 찾기(found-in-the-middle)'라는 보정 메커니즘을 제안합니다. 이 메커니즘은 모델이 중간에 위치한 문맥이라도 관련성에 따라 충실히 주의를 기울일 수 있도록 합니다. 셋째, '중간에서 찾기'가 긴 문맥 내에서 관련 정보를 찾는 데 더 나은 성능을 달성할 뿐만 아니라, 다양한 작업에서 검색 증강 생성(retrieval-augmented generation, RAG) 성능을 최대 15% 포인트까지 향상시키며 기존 방법을 능가함을 보여줍니다. 이러한 발견은 LLM의 주의 편향과 그 잠재적 영향을 이해하는 데 있어 미래 연구 방향을 제시합니다.
실제 로봇의 비용과 안전 문제로 인해 현실 세계에서의 확장 가능한 로봇 학습은 제한적입니다. 또한, 실제 환경에서 로봇 궤적을 실행하는 것은 시간이 많이 소요되고 노동 집약적일 수 있습니다. 본 논문에서는 이러한 문제를 해결하기 위해 대안으로 상호작용 가능한 실제 로봇 동작 시뮬레이터를 학습하는 방법을 제안합니다. 우리는 새로운 방법론인 IRASim을 소개하며, 이는 생성 모델의 힘을 활용하여 주어진 초기 프레임에서 시작해 특정 동작 궤적을 실행하는 로봇 팔의 매우 현실적인 비디오를 생성합니다. 우리 방법의 효과를 검증하기 위해, 세 가지 실제 로봇 데이터셋을 기반으로 새로운 벤치마크인 IRASim Benchmark를 구축하고 이 벤치마크에서 광범위한 실험을 수행했습니다. 실험 결과, IRASim은 모든 기준 방법을 능가하며 인간 평가에서도 더 선호되는 것으로 나타났습니다. 우리는 IRASim이 현실 세계에서의 로봇 학습을 향상시키는 효과적이고 확장 가능한 접근 방식으로 활용되기를 바랍니다. 생성적 실제 로봇 동작 시뮬레이터 연구를 촉진하기 위해, 우리는 코드, 벤치마크, 체크포인트를 https://gen-irasim.github.io에서 오픈소스로 공개합니다.
오디오-비주얼 대형 언어 모델(av-LLM)을 사용한 비디오 이해의 한 요소로서의 음성 이해는 중요하지만 아직 충분히 연구되지 않은 분야입니다. 본 논문은 비디오 처리를 위한 단일 종단 간 av-LLM인 video-SALMONN을 제안하며, 이 모델은 시각적 프레임 시퀀스, 오디오 이벤트 및 음악뿐만 아니라 음성도 이해할 수 있습니다. 음성 이해에 필요한 세밀한 시간적 정보를 획득하면서도 다른 비디오 요소에 대해 효율성을 유지하기 위해, 본 논문은 사전 훈련된 오디오-비주얼 인코더와 백본 대형 언어 모델을 연결하는 새로운 다중 해상도 인과적 Q-Former(MRC Q-Former) 구조를 제안합니다. 또한, 프레임이나 모달리티의 지배를 방지하기 위해 다양성 손실(diversity loss)과 짝을 이루지 않은 오디오-비주얼 혼합 훈련 방식(unpaired audio-visual mixed training scheme)과 같은 전용 훈련 접근법을 제안합니다. 제안된 음성-오디오-비주얼 평가 벤치마크에서 video-SALMONN은 비디오 질의응답(video-QA) 작업에서 25% 이상의 절대 정확도 향상을, 인간 음성이 포함된 오디오-비주얼 질의응답 작업에서 30% 이상의 절대 정확도 향상을 달성했습니다. 또한, video-SALMONN은 다른 av-LLM들이 이전에 달성하지 못한 작업에서도 뛰어난 비디오 이해 및 추론 능력을 보여줍니다. 우리의 훈련 코드와 모델 체크포인트는 \url{https://github.com/bytedance/SALMONN/}에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 최근 발전에도 불구하고, 긴 문맥을 포함하는 작업에서의 성능은 여전히 최적화되지 못하고 있습니다. 이러한 상황에서 소수 예제를 활용한 문맥 내 학습(In-Context Learning, ICL)은 LLM 성능을 향상시킬 수 있는 매력적인 해결책일 수 있습니다. 그러나 긴 문맥과 함께 ICL 예제를 단순히 추가하는 것은 각 소수 예제에 상당한 토큰 오버헤드를 발생시키고, 데모와 대상 질의 간의 문맥 불일치를 초래하는 등의 문제를 야기합니다. 본 연구에서는 문맥을 재활용하여 긴 문맥 질의응답(QA) 작업을 위한 소수 예제를 자동으로 생성하는 방법을 제안합니다. 구체적으로, 긴 입력 문맥(1-3k 토큰)과 질의가 주어졌을 때, 주어진 문맥에서 추가적인 질의-응답 쌍을 소수 예제로 생성하면서 문맥은 단 한 번만 도입합니다. 이를 통해 데모가 대상 질의와 동일한 문맥을 활용하도록 보장하면서도 프롬프트에 추가되는 토큰 수를 최소화합니다. 또한, 각 데모를 개선하기 위해 모델이 답변 전에 관련 단락을 명시적으로 식별하도록 지시함으로써 성능을 향상시키고 답변 출처에 대한 세밀한 귀속을 제공합니다. 우리는 이 방법을 여러 LLM에 적용하여 긴 문맥을 가진 다양한 QA 데이터셋에서, 특히 답변이 문맥 중간에 위치할 때 평균 +23%의 상당한 성능 향상을 얻었습니다. 놀랍게도, 단일 홉(single-hop) ICL 예제만 도입했음에도 불구하고, LLM은 우리의 접근 방식을 사용하여 다중 홉(multi-hop) 긴 문맥 QA에도 성공적으로 일반화했습니다.
스코어 증류 샘플링은 복잡한 시각적 요소의 생성에 확산 모델을 통합하는 데 핵심적인 역할을 해왔습니다. 그러나 인상적인 결과에도 불구하고, 이 방법은 모드 붕괴와 다양성 부족 문제를 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 스코어 증류의 그래디언트 흐름 해석을 활용하여 반발적 스코어 증류(Repulsive Score Distillation, RSD)를 제안합니다. 특히, 우리는 다양성을 촉진하기 위해 입자 앙상블 간의 반발력을 기반으로 한 변분 프레임워크를 제안합니다. 입자 간의 결합을 포함하는 변분 근사를 사용함으로써, 반발력은 입자 간의 상대적 유사성(예: 방사형 기저 커널을 통해 측정)을 기반으로 입자 간 상호작용을 가능하게 하는 간단한 정규화로 나타납니다. 우리는 제약이 없는 샘플링 시나리오와 제약이 있는 샘플링 시나리오 모두에 대해 RSD를 설계했습니다. 제약이 있는 샘플링의 경우, 우리는 잠재 공간에서의 역문제에 초점을 맞추어 계산, 품질, 다양성 간의 균형을 잘 맞추는 확장된 변분 공식을 도출했습니다. 텍스트-이미지 생성 및 역문제에 대한 광범위한 실험을 통해 RSD가 최신 대안들에 비해 다양성과 품질 간의 우수한 균형을 달성함을 입증했습니다.
본 보고서에서 우리는 다음과 같은 질문을 제기합니다: 올림픽아레나(OlympicArena, 초지능 AI를 위한 올림픽 수준의 다학제적·다중모달 벤치마크)를 기준으로 측정했을 때, 현재까지 가장 지능적인 AI 모델은 누구인가? 우리는 특히 최근 출시된 모델들인 Claude-3.5-Sonnet, Gemini-1.5-Pro, 그리고 GPT-4o에 초점을 맞춥니다. 우리는 처음으로 올림픽 메달 테이블 방식을 제안하여 다양한 학문 분야에서의 종합적인 성능을 기준으로 AI 모델들을 순위 매깁니다. 실험 결과는 다음과 같습니다: (1) Claude-3.5-Sonnet은 GPT-4o에 비해 전반적으로 매우 경쟁력 있는 성능을 보이며, 몇몇 과목(즉, 물리학, 화학, 생물학)에서는 GPT-4o를 능가합니다. (2) Gemini-1.5-Pro와 GPT-4V는 GPT-4o와 Claude-3.5-Sonnet 바로 뒤에 연이어 순위를 차지하지만, 그들 사이에는 명확한 성능 격차가 존재합니다. (3) 오픈소스 커뮤니티의 AI 모델들은 이러한 독점 모델들에 비해 성능이 크게 뒤쳐집니다. (4) 이 모델들이 이 벤치마크에서 보인 성능은 만족스럽지 못한 수준으로, 우리가 초지능을 달성하기까지는 아직 갈 길이 멀다는 것을 보여줍니다. 우리는 이 벤치마크에서 최신 강력한 모델들의 성능을 지속적으로 추적하고 평가할 것을 약속합니다(https://github.com/GAIR-NLP/OlympicArena에서 확인 가능).