번역이 포함된 일일 선별된 AI 연구 논문
우리는 복잡한 추론 문제를 해결하기 위해 LLM(Large Language Model)이 작업 고유의 추론 구조를 스스로 발견할 수 있는 일반 프레임워크인 SELF-DISCOVER를 소개합니다. 이 프레임워크의 핵심은 LLM이 비판적 사고와 단계별 사고와 같은 여러 원자적 추론 모듈을 선택하고 이를 명시적 추론 구조로 구성하여 디코딩 과정에서 따르도록 하는 자기 발견 프로세스입니다. SELF-DISCOVER는 BigBench-Hard, 근거 기반 에이전트 추론, MATH와 같은 도전적인 추론 벤치마크에서 GPT-4와 PaLM 2의 성능을 Chain of Thought(CoT) 대비 최대 32%까지 크게 향상시킵니다. 또한, SELF-DISCOVER는 CoT-Self-Consistency와 같은 추론 집약적 방법보다 20% 이상 우수한 성능을 보이면서도 추론 계산량을 10~40배 적게 요구합니다. 마지막으로, 우리는 자기 발견된 추론 구조가 PaLM 2-L에서 GPT-4, GPT-4에서 Llama2에 이르기까지 다양한 모델 패밀리에서 보편적으로 적용 가능하며, 인간의 추론 패턴과 공통점을 공유함을 보여줍니다.
사전 학습된 대규모 언어 모델(LLM)은 탁월한 일반 언어 처리 능력을 보이지만, 메모리와 계산 자원에 상당한 요구를 가집니다. 강력한 압축 기술인 이진화는 모델 가중치를 단 1비트로 극도로 줄여 비용이 많이 드는 계산 및 메모리 요구 사항을 낮출 수 있습니다. 그러나 기존의 양자화 기술은 초저 비트폭에서 LLM 성능을 유지하는 데 한계가 있습니다. 이러한 문제에 대응하여, 우리는 사전 학습된 LLM을 위해 특별히 설계된 획기적인 1비트 사후 학습 양자화 기법인 BiLLM을 제안합니다. BiLLM은 LLM의 가중치 분포를 기반으로 먼저 중요한 가중치를 식별하고 구조적으로 선택하며, 효과적인 이진 잔차 근사 전략을 통해 압축 손실을 최소화합니다. 또한, 중요하지 않은 가중치의 종 모양 분포를 고려하여, 이를 정확하게 그룹화하고 이진화하기 위한 최적의 분할 탐색을 제안합니다. BiLLM은 다양한 LLM 계열과 평가 지표에서 단 1.08비트 가중치로도 높은 정확도의 추론(예: LLaMA2-70B에서 8.41의 perplexity)을 처음으로 달성하며, 최신 LLM 양자화 방법을 큰 차이로 능가합니다. 또한, BiLLM은 단일 GPU에서 70억 개의 가중치를 가진 LLM의 이진화 과정을 0.5시간 이내에 완료하여 만족스러운 시간 효율성을 보여줍니다.
Mamba Gu & Dao (2034)와 같은 상태 공간 모델(SSMs)은 언어 모델링에서 Transformer 네트워크의 대안으로 제안되었습니다. 이 모델들은 게이팅, 컨볼루션, 그리고 입력에 의존적인 토큰 선택을 통합하여 다중 헤드 어텐션의 2차 비용을 완화합니다. SSMs는 경쟁력 있는 성능을 보이지만, 현대 언어 모델의 두드러진 특성인 매개변수 최적화 없이도 작업을 수행할 수 있게 해주는 문맥 내 학습(ICL) 능력은 Transformer에 비해 아직 충분히 탐구되지 않았습니다. 본 연구에서는 다양한 작업에서 Mamba를 중심으로 SSMs의 ICL 성능을 Transformer 모델과 비교 평가합니다. 우리의 결과는 SSMs가 표준 회귀 ICL 작업에서는 Transformer와 비슷한 성능을 보이지만, 희소 패리티 학습과 같은 작업에서는 더 우수한 성능을 보인다는 것을 나타냅니다. 그러나 SSMs는 비표준 검색 기능이 필요한 작업에서는 부족한 모습을 보입니다. 이러한 한계를 해결하기 위해, 우리는 Mamba와 어텐션 블록을 결합한 하이브리드 모델 \variant를 제안하며, 이 모델은 각 모델이 독립적으로 어려움을 겪는 작업에서 개별 모델을 능가합니다. 우리의 연구 결과는 하이브리드 아키텍처가 언어 모델의 ICL을 향상시키는 유망한 방향을 제시한다는 것을 시사합니다.
대조적 언어-이미지 사전학습(CLIP)의 규모 확장은 시각 및 다중모달 모델의 성능 강화에 있어 매우 중요합니다. 본 연구에서는 180억 개의 파라미터를 갖춘, 현재까지 가장 크고 강력한 오픈소스 CLIP 모델인 EVA-CLIP-18B를 소개합니다. 단 60억 개의 학습 샘플만으로도 EVA-CLIP-18B는 27개의 널리 알려진 이미지 분류 벤치마크에서 평균 80.7%의 우수한 제로샷 Top-1 정확도를 달성하며, 이전 버전인 EVA-CLIP(50억 파라미터) 및 기타 오픈소스 CLIP 모델을 큰 차이로 앞섭니다. 특히, LAION-2B와 COYO-700M에서 추출한 20억 개의 이미지-텍스트 쌍으로 구성된 고정된 학습 데이터셋을 유지하면서도 EVA-CLIP의 모델 크기 확장에 따른 지속적인 성능 향상을 관찰했습니다. 이 데이터셋은 공개적으로 이용 가능하며, 다른 최첨단 CLIP 모델에서 사용된 내부 데이터셋(예: DFN-5B, WebLI-10B)보다 훨씬 작습니다. EVA-CLIP-18B는 EVA 스타일의 약한 시각 모델에서 강력한 시각 모델로의 확장 가능성을 입증합니다. 본 모델의 가중치를 공개함으로써, 시각 및 다중모달 기반 모델에 대한 향후 연구를 촉진하고자 합니다.
이미지-투-비디오(I2V) 생성은 초기 프레임(텍스트 프롬프트와 함께)을 사용하여 비디오 시퀀스를 생성하는 것을 목표로 합니다. I2V 생성에서의 주요 과제는 비디오 전반에 걸쳐 시각적 일관성을 유지하는 것입니다: 기존 방법들은 종종 첫 번째 프레임의 주제, 배경, 스타일의 무결성을 유지하고 비디오 내러티브의 유연하고 논리적인 진행을 보장하는 데 어려움을 겪습니다. 이러한 문제를 완화하기 위해, 우리는 I2V 생성을 위한 시각적 일관성을 강화하는 확산 기반 방법인 ConsistI2V를 제안합니다. 구체적으로, 우리는 (1) 첫 번째 프레임에 대한 시공간적 주의 메커니즘을 도입하여 공간적 및 동작 일관성을 유지하고, (2) 첫 번째 프레임의 저주파 대역에서의 노이즈 초기화를 통해 레이아웃 일관성을 강화합니다. 이 두 가지 접근 방식은 ConsistI2V가 매우 일관된 비디오를 생성할 수 있도록 합니다. 또한, 우리는 제안된 접근 방식을 확장하여 자동 회귀적 장기 비디오 생성 및 카메라 동작 제어에서의 일관성 개선 가능성을 보여줍니다. 우리의 방법의 효과를 검증하기 위해, 우리는 I2V 생성을 위한 포괄적인 평가 벤치마크인 I2V-Bench를 제안합니다. 자동 및 인간 평가 결과는 ConsistI2V가 기존 방법들보다 우수함을 입증합니다.
스케일링 법칙은 대규모 언어 모델(LLM) 설계를 안내할 수 있는 중요한 통찰을 제공한다. 기존 연구는 주로 프리트레이닝(업스트림) 손실에 대한 스케일링 법칙을 연구하는 데 초점을 맞추어 왔다. 그러나 LLM이 비지도 데이터셋으로 프리트레이닝된 후 다운스트림 작업에 대해 파인튜닝되는 전이 학습 설정에서는 다운스트림 성능 역시 중요한 관심사이다. 본 연구에서는 LLM이 기계 번역 작업을 위해 파인튜닝되는 전이 학습 설정에서의 스케일링 행동을 연구한다. 구체적으로, 프리트레이닝 데이터의 선택과 그 크기가 다운스트림 성능(번역 품질)에 미치는 영향을 두 가지 지표(다운스트림 크로스 엔트로피와 BLEU 점수)를 통해 평가한다. 실험 결과, 파인튜닝 데이터셋의 크기와 프리트레이닝 데이터와 다운스트림 데이터 간의 분포 정렬이 스케일링 행동에 상당한 영향을 미치는 것으로 나타났다. 충분한 정렬이 이루어진 경우, 더 많은 프리트레이닝 데이터를 사용할수록 다운스트림 크로스 엔트로피와 BLEU 점수가 단조적으로 향상되었다. 이러한 경우, 로그 법칙을 사용하여 다운스트림 BLEU 점수를 높은 정확도로 예측할 수 있음을 보였다. 그러나 중간 정도의 정렬 불일치가 발생하는 경우, BLEU 점수는 프리트레이닝 데이터가 증가함에 따라 변동하거나 악화될 수 있는 반면, 다운스트림 크로스 엔트로피는 단조적으로 개선되는 현상도 관찰되었다. 이러한 관찰 결과를 분석함으로써, 적절한 프리트레이닝 데이터를 선택하기 위한 새로운 실용적 통찰을 제공한다.
우리는 인간 피드백을 기반으로 미세 조정된 최초의 음악 생성 시스템인 MusicRL을 제안한다. 텍스트-음악 모델에 대한 평가는 특히 주관적일 수밖에 없는 것이, 음악성이라는 개념뿐만 아니라 캡션에 담긴 특정 의도도 사용자에 따라 달라지기 때문이다(예: "활기찬 운동 음악"이라는 캡션은 레트로 기타 솔로나 테크노 팝 비트로 해석될 수 있음). 이는 이러한 모델의 지도 학습을 어렵게 할 뿐만 아니라, 배포 후 미세 조정 과정에서도 지속적인 인간 피드백의 통합을 요구한다. MusicRL은 이산 오디오 토큰으로 사전 학습된 자회귀적 MusicLM(Agostinelli et al., 2023) 모델을 강화 학습을 통해 시퀀스 수준의 보상을 극대화하도록 미세 조정한 것이다. 우리는 선별된 평가자들의 도움을 받아 텍스트 준수도와 오디오 품질과 관련된 보상 함수를 설계하고, 이를 사용해 MusicLM을 MusicRL-R로 미세 조정한다. MusicLM을 사용자에게 배포하여 300,000개의 쌍별 선호도 데이터셋을 수집하고, 인간 피드백을 통한 강화 학습(RLHF)을 적용해 대규모로 인간 피드백을 통합한 최초의 텍스트-음악 모델인 MusicRL-U를 학습시킨다. 인간 평가 결과, MusicRL-R과 MusicRL-U 모두 기준 모델보다 선호되는 것으로 나타났다. 궁극적으로, MusicRL-RU는 두 접근법을 결합하여 평가자들에게 최고의 모델로 평가받았다. 제거 실험은 인간 선호도에 영향을 미치는 음악적 속성을 밝혀냈으며, 텍스트 준수도와 품질이 그 일부만을 설명한다는 것을 보여준다. 이는 음악 평가에서 주관성이 지배적임을 강조하며, 음악 생성 모델의 미세 조정 과정에서 인간 청취자의 더 깊은 관여가 필요함을 시사한다.
본 논문에서는 MobileVLM을 기반으로 크게 개선된 비전 언어 모델(Vision Language Model, VLM) 패밀리인 MobileVLM V2를 소개한다. 이는 새로운 아키텍처 설계, 모바일 VLM에 맞춰 개선된 학습 기법, 그리고 풍부하고 고품질의 데이터셋 구축이 VLM의 성능을 크게 향상시킬 수 있음을 입증한다. 구체적으로, MobileVLM V2 1.7B는 3B 규모의 훨씬 더 큰 VLM들과 비교하여 표준 VLM 벤치마크에서 동등하거나 더 나은 성능을 달성한다. 특히, 우리의 3B 모델은 7B+ 규모의 다양한 VLM들을 능가한다. 본 모델은 https://github.com/Meituan-AutoML/MobileVLM 에서 공개될 예정이다.
최근 대규모 언어 모델의 발전은 이들의 비범하고 초인적이라 할 수 있는 능력에 대한 관심을 불러일으켰으며, 연구자들은 이러한 능력을 평가하고 최적화하는 방법, 즉 '슈퍼얼라인먼트(superalignment)'를 탐구하게 되었습니다. 이러한 맥락에서, 본 논문은 비전 기반 모델의 영역에 깊이 파고들어, 약한 모델이 강한 모델을 감독함으로써 후자의 능력을 전자의 한계를 넘어서 향상시키는 것을 목표로 하는 '약한 모델에서 강한 모델로의 일반화(weak-to-strong generalization)' 개념에 초점을 맞춥니다. 우리는 약한 모델에서 강한 모델로의 감독을 위한 새로운 적응형 조정 가능한 손실 함수를 소개합니다. 우리의 포괄적인 실험은 소수 샷 학습, 전이 학습, 노이즈가 있는 레이블 학습, 그리고 일반적인 지식 증류 설정을 포함한 다양한 시나리오를 아우릅니다. 결과는 놀라운데, 우리의 접근법은 강한 모델에서 강한 모델로의 일반화가 설정한 성능 벤치마크를 넘어섰을 뿐만 아니라, 전체 데이터셋으로 강한 모델을 미세 조정한 결과도 능가했습니다. 이러한 설득력 있는 증거는 약한 모델에서 강한 모델로의 일반화가 비전 기반 모델의 성능을 크게 향상시킬 수 있는 상당한 잠재력을 가지고 있음을 강조합니다. 코드는 https://github.com/ggjy/vision_weak_to_strong에서 확인할 수 있습니다.
CodeCompose는 대규모 언어 모델(LLMs)을 기반으로 한 AI 지원 코드 작성 도구로, Meta의 수만 명의 개발자에게 인라인 제안을 제공합니다. 본 논문에서는 단일 라인 제안에서 다중 라인 제안으로 제품을 확장한 과정을 소개합니다. 이러한 진화는 개발자들이 이러한 제안을 더욱 효과적으로 사용할 수 있도록 하기 위해 여러 독특한 도전 과제를 극복해야 했습니다. 첫째, 다중 라인 제안이 개발자의 기존 코드를 지속적으로 이동시키는 '불편한' 효과를 가질 수 있다는 점을 논의합니다. 이는 생산성과 만족도를 저하시킬 수 있습니다. 둘째, 다중 라인 제안은 생성하는 데 상당히 더 많은 시간이 소요되므로, 사용자가 체감하는 지연 시간을 줄이기 위해 여러 혁신적인 투자를 소개합니다. 이러한 모델 호스팅 최적화로 다중 라인 제안의 지연 시간을 2.5배 단축했습니다. 마지막으로, 수만 명의 엔지니어를 대상으로 실험을 진행하여 다중 라인 제안이 사용자 경험에 미치는 영향을 이해하고 이를 단일 라인 제안과 대조합니다. 실험 결과, (i) 다중 라인 제안이 전체 수락된 문자 수의 42%를 차지하며(표시된 제안의 16%만 차지함에도 불구하고), (ii) 다중 라인 제안이 사용자의 키 입력 절약 비율을 9%에서 17%로 거의 두 배로 증가시킨다는 것을 확인했습니다. 다중 라인 CodeCompose는 Meta의 모든 엔지니어에게 배포되었으며, 다중 라인 제안을 사용하지 않기로 선택한 엔지니어는 1% 미만입니다.
얼굴 모션 캡처 및 분석을 위해 주로 사용되는 솔루션은 일반적으로 시각적 단서에 기반하며, 이는 개인정보 보호를 보장할 수 없고 가려짐에 취약합니다. 관성 측정 장치(IMU)는 잠재적인 해결책으로 작용하지만, 주로 전신 모션 캡처에 사용됩니다. 본 논문에서는 이러한 격차를 메우기 위해 순수 IMU 신호를 사용한 얼굴 표정 캡처의 새로운 방법인 IMUSIC을 제안합니다. 이는 기존의 시각적 솔루션과는 크게 다른 접근법입니다. IMUSIC의 핵심 설계는 삼부작으로 구성됩니다. 먼저, 얼굴 캡처에 적합한 마이크로 IMU를 설계하고, 해부학적으로 유도된 IMU 배치 방식을 제안합니다. 다음으로, 다양한 얼굴 표정과 연기에 대한 풍부한 IMU/시각적 신호 쌍을 제공하는 새로운 IMU-ARKit 데이터셋을 구축합니다. 이러한 독특한 다중 모달리티는 IMU 기반 얼굴 행동 분석과 같은 미래 방향에 큰 잠재력을 제공합니다. 또한, IMU-ARKit를 활용하여 순수 IMU 신호로부터 얼굴 블렌드셰이프 매개변수를 정확하게 예측하는 강력한 베이스라인 접근법을 소개합니다. 구체적으로, 이 새로운 추적 작업을 위해 두 단계의 훈련 전략을 가진 Transformer 확산 모델을 맞춤화합니다. IMUSIC 프레임워크는 시각적 방법이 실패하는 시나리오에서도 정확한 얼굴 캡처를 수행할 수 있게 하며 동시에 사용자 개인정보를 보호합니다. IMU 구성 및 기술 구성 요소에 대한 광범위한 실험을 통해 IMUSIC 접근법의 효과를 검증합니다. 특히, IMUSIC은 개인정보 보호 얼굴 캡처, 가려짐에 대한 하이브리드 캡처, 시각적 단서로는 보이지 않는 미세한 얼굴 움직임 감지 등 다양한 잠재적이고 새로운 응용 프로그램을 가능하게 합니다. 우리는 데이터셋과 구현을 공개하여 커뮤니티 내에서 얼굴 캡처 및 분석의 가능성을 더욱 풍부하게 할 것입니다.
우리는 안정적인 물질 생성을 위해 대규모 언어 모델을 미세 조정하는 방법을 제안한다. 비전통적인 방법이지만, 텍스트로 인코딩된 원자 데이터에 대해 대규모 언어 모델을 미세 조정하는 것은 구현이 간단하면서도 신뢰할 수 있으며, 샘플링된 구조의 약 90%가 원자 위치와 전하에 대한 물리적 제약 조건을 준수한다. 학습된 머신러닝 포텐셜과 금본위 DFT 계산을 통해 얻은 에너지 상한 계산을 사용하여, 우리의 가장 강력한 모델(미세 조정된 LLaMA-2 70B)이 경쟁적인 확산 모델인 CDVAE보다 약 두 배 높은 비율(49% 대 28%)로 예측된 준안정 물질을 생성할 수 있음을 보여준다. 텍스트 프롬프트의 본질적인 유연성 덕분에, 우리의 모델은 안정적인 물질의 무조건적 생성, 부분 구조의 채우기, 그리고 텍스트 조건부 생성에 동시에 사용될 수 있다. 마지막으로, 언어 모델이 결정 구조의 주요 대칭성을 포착하는 능력이 모델 규모에 따라 향상됨을 보여주며, 이는 사전 학습된 대규모 언어 모델의 편향이 원자 데이터에 놀랍도록 잘 맞는다는 것을 시사한다.
비전-언어 모델(VLMs)은 시각적 지시를 답변에 정렬하는 광범위한 훈련을 통해 그들의 광범위한 실현 가능성을 입증해 왔습니다. 그러나 이러한 결정적인 정렬은 모델이 중요한 시각적 추론을 무시하도록 이끌며, 이는 세심한 시각적 문제에서의 실패와 신뢰할 수 없는 응답으로 이어집니다. 본 논문에서는 조작의 연쇄(Chain of Manipulations)라는 메커니즘을 제안합니다. 이 메커니즘은 VLMs이 일련의 조작을 통해 문제를 해결할 수 있도록 하며, 각 조작은 사전 훈련을 통해 획득된 내재적 능력(예: 그라운딩)이나 인간과 유사한 행동(예: 확대)을 모방한 시각적 입력에 대한 작업을 의미합니다. 이 메커니즘은 VLMs이 증거 기반의 시각적 추론을 통해 신뢰할 수 있는 응답을 생성하도록 장려하며, 사용자가 해석 가능한 경로에서 오류 원인을 추적할 수 있도록 합니다. 우리는 이러한 추론 메커니즘을 부여한 메모리 기반 호환 아키텍처를 가진 일반적인 17B VLM인 CogCoM을 훈련시켰습니다. 실험 결과, 우리의 모델은 3개 범주의 8개 벤치마크에서 최첨단 성능을 달성했으며, 제한된 수의 훈련 단계와 데이터로도 빠르게 경쟁력 있는 성능을 얻었습니다. 코드와 데이터는 https://github.com/THUDM/CogCoM에서 공개적으로 이용 가능합니다.
우리는 뷰 합성을 위한 다중 뷰 조건부 확산 모델인 EscherNet을 소개합니다. EscherNet은 특화된 카메라 위치 인코딩과 결합된 암묵적이고 생성적인 3D 표현을 학습함으로써, 임의의 수의 참조 뷰와 타겟 뷰 간의 카메라 변환을 정밀하고 연속적으로 제어할 수 있습니다. EscherNet은 뷰 합성에서 탁월한 일반성, 유연성 및 확장성을 제공합니다. 단일 소비자용 GPU에서 100개 이상의 일관된 타겟 뷰를 동시에 생성할 수 있으며, 이는 고정된 수의 3개의 참조 뷰에서 3개의 타겟 뷰로 학습되었음에도 불구하고 가능합니다. 결과적으로, EscherNet은 제로샷 새로운 뷰 합성뿐만 아니라 단일 및 다중 이미지 3D 재구성을 자연스럽게 통합하여 이러한 다양한 작업을 단일의 통합된 프레임워크로 결합합니다. 우리의 광범위한 실험은 EscherNet이 각각의 개별 문제에 특화된 방법들과 비교해도 여러 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 이 놀라운 다재다능성은 3D 비전을 위한 확장 가능한 신경망 아키텍처 설계에 새로운 방향을 제시합니다. 프로젝트 페이지: https://kxhit.github.io/EscherNet.
우리는 다단계 미래 상태와 보상을 동시에 예측할 수 있는 조건부 확산 모델인 Diffusion World Model(DWM)을 소개한다. 기존의 단일 단계 역학 모델과 달리, DWM은 단일 순방향 전파로 장기 예측을 제공하여 재귀적 쿼리의 필요성을 제거한다. 우리는 DWM을 모델 기반 가치 추정에 통합했으며, 여기서 단기 수익은 DWM에서 샘플링된 미래 궤적을 통해 시뮬레이션된다. 오프라인 강화 학습의 맥락에서, DWM은 생성 모델링을 통한 보수적 가치 정규화로 볼 수 있다. 또는 합성 데이터를 사용한 오프라인 Q-러닝을 가능하게 하는 데이터 소스로 간주할 수도 있다. D4RL 데이터셋에 대한 실험을 통해 DWM이 장기 시뮬레이션에서 견고함을 확인했다. 절대적 성능 측면에서 DWM은 단일 단계 역학 모델을 44%의 성능 향상으로 크게 능가하며, 최첨단 성능을 달성했다.