번역이 포함된 일일 선별된 AI 연구 논문
우리는 다차원적 역량을 강력하게 보여주는 언어 및 멀티모달 모델 시리즈인 Yi 모델 패밀리를 소개합니다. Yi 모델 패밀리는 6B와 34B 사전 학습된 언어 모델을 기반으로 하며, 이를 채팅 모델, 200K 장문 컨텍스트 모델, 깊이 확장 모델, 그리고 비전-언어 모델로 확장합니다. 우리의 기본 모델은 MMLU와 같은 다양한 벤치마크에서 강력한 성능을 보여주며, 미세 조정된 채팅 모델은 AlpacaEval 및 Chatbot Arena와 같은 주요 평가 플랫폼에서 높은 인간 선호도를 달성합니다. 확장 가능한 슈퍼컴퓨팅 인프라와 고전적인 트랜스포머 아키텍처를 기반으로, 우리는 Yi 모델의 성능이 주로 데이터 엔지니어링 노력으로 인한 데이터 품질에서 비롯된다고 봅니다. 사전 학습을 위해, 우리는 캐스케이드 데이터 중복 제거 및 품질 필터링 파이프라인을 사용하여 3.1조 토큰의 영어 및 중국어 코퍼스를 구축했습니다. 미세 조정을 위해, 우리는 소규모(10K 미만)의 명령어 데이터셋을 여러 번 반복하여 다듬어, 모든 단일 인스턴스가 우리의 머신러닝 엔지니어들에 의해 직접 검증되도록 했습니다. 비전-언어 모델의 경우, 채팅 언어 모델과 비전 트랜스포머 인코더를 결합하고, 모델을 학습시켜 시각적 표현을 언어 모델의 의미 공간에 정렬시켰습니다. 우리는 또한 경량 지속 사전 학습을 통해 컨텍스트 길이를 200K로 확장하고, 강력한 바늘 찾기 검색 성능을 입증했습니다. 사전 학습된 체크포인트의 깊이를 지속 사전 학습을 통해 확장함으로써 성능이 더욱 향상됨을 보여줍니다. 우리는 현재의 결과를 고려할 때, 철저히 최적화된 데이터를 사용하여 모델 파라미터를 계속 확장하면 더 강력한 최첨단 모델을 얻을 수 있을 것이라고 믿습니다.
인간 피드백을 통한 강화 학습(RLHF)은 대형 언어 모델(LLM)의 출력을 인간의 선호도와 일치시키는 주요 접근 방식으로 부상했습니다. RLHF의 성공에 영감을 받아, 우리는 전문가 반복(Expert Iteration), 근위 정책 최적화(PPO), 반환 조건부 강화 학습(Return-Conditioned RL)과 같은 여러 피드백 학습 알고리즘의 성능을 LLM의 추론 능력 향상에 대해 연구했습니다. 우리는 휴리스틱적으로 제공되는 희소 보상과 학습된 보상 모델을 통해 제공되는 밀집 보상 모두를 LLM에 적용하여 조사했습니다. 또한, 지도 미세 조정(SFT) 데이터를 포함하거나 포함하지 않은 다양한 모델 크기와 초기화 설정에서 시작했습니다. 전반적으로, 모든 알고리즘이 비슷한 성능을 보였으며, 대부분의 경우 전문가 반복이 가장 우수한 성능을 나타냈습니다. 놀랍게도, 전문가 반복의 샘플 복잡도는 PPO와 유사했으며, 사전 학습된 체크포인트에서 수렴하기 위해 최대 10^6개의 샘플이 필요했습니다. 우리는 이 현상의 원인을 조사한 결과, RL 훈련 중 모델이 SFT 모델에서 이미 생성된 솔루션을 크게 벗어나지 못한다는 결론을 내렸습니다. 또한, SFT 훈련 중 maj@1과 pass@96 지표 성능 간의 상충 관계와 반대로 RL 훈련이 두 지표를 동시에 개선하는 방법에 대해 논의했습니다. 마지막으로, 우리의 연구 결과가 RLHF와 LLM 미세 조정에서 RL의 미래 역할에 미치는 함의에 대해 논의하며 결론을 맺습니다.
대형 언어 모델(LLMs)은 새로운 기능과 응용 분야를 개척했지만, 인간의 선호도와의 일치성을 평가하는 것은 여전히 상당한 과제로 남아 있습니다. 이 문제를 해결하기 위해 우리는 인간의 선호도를 기반으로 LLMs를 평가하기 위한 오픈 플랫폼인 Chatbot Arena를 소개합니다. 우리의 방법론은 쌍별 비교 접근법을 채택하고 크라우드소싱을 통해 다양한 사용자 기반의 입력을 활용합니다. 이 플랫폼은 수개월 동안 운영되며 24만 건 이상의 투표를 축적했습니다. 본 논문은 이 플랫폼을 설명하고, 지금까지 수집한 데이터를 분석하며, 모델을 효율적이고 정확하게 평가하고 순위를 매기기 위해 사용된 검증된 통계 방법을 설명합니다. 우리는 크라우드소싱된 질문이 충분히 다양하고 식별력이 있으며, 크라우드소싱된 인간 투표가 전문 평가자들의 투표와 잘 일치함을 확인했습니다. 이러한 분석들은 Chatbot Arena의 신뢰성을 위한 견고한 기반을 마련합니다. 그 독창적인 가치와 개방성으로 인해 Chatbot Arena는 주요 LLM 개발자와 기업들에 의해 널리 인용되는 가장 많이 참조되는 LLM 리더보드 중 하나로 부상했습니다. 우리의 데모는 https://chat.lmsys.org에서 공개적으로 이용 가능합니다.
DragGAN의 등장 이후, 포인트 기반 이미지 편집은 주목할 만한 관심을 끌어왔습니다. 최근 DragDiffusion은 이 드래깅 기술을 확산 모델에 적용함으로써 생성 품질을 더욱 발전시켰습니다. 이러한 큰 성과에도 불구하고, 이 드래깅 방식은 부정확한 포인트 추적과 불완전한 모션 감독이라는 두 가지 주요 단점을 보이며, 이는 만족스럽지 못한 드래깅 결과를 초래할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 안정적이고 정밀한 드래깅 기반 편집 프레임워크인 StableDrag를 구축했습니다. 이를 위해 판별적 포인트 추적 방법과 신뢰도 기반 잠재 향상 전략을 모션 감독에 적용했습니다. 전자는 업데이트된 핸들 포인트를 정확히 찾아내어 장거리 조작의 안정성을 높이는 반면, 후자는 모든 조작 단계에서 최적화된 잠재 공간이 가능한 한 고품질을 유지하도록 보장합니다. 이러한 독창적인 설계 덕분에, 우리는 StableDrag-GAN과 StableDrag-Diff 두 가지 유형의 이미지 편집 모델을 구현했으며, DragBench에서의 광범위한 정성적 실험과 정량적 평가를 통해 더 안정적인 드래깅 성능을 달성했습니다.
도구는 대규모 언어 모델(LLM)이 최신 정보를 획득하고 외부 환경에서 중요한 조치를 취하기 위해 필수적입니다. 도구를 활용한 LLM에 대한 기존 연구는 주로 도구의 광범위한 커버리지와 새로운 도구를 추가하는 유연성에 초점을 맞추고 있습니다. 그러나 놀랍게도 간과된 중요한 측면은 단순히 LLM이 훈련된 도구를 얼마나 정확하게 사용하는가입니다. 우리는 GPT-4를 포함한 기존 LLM과 도구 사용을 위해 특별히 미세 조정된 오픈소스 LLM이 30%에서 60%에 불과한 정확도에 머물러 있어 실질적으로 신뢰할 수 있는 수준과는 거리가 있음을 발견했습니다. 우리는 생물학적으로 영감을 받은 방법인 시뮬레이션된 시행착오(STE)를 제안합니다. 이 방법은 생물학적 시스템에서 성공적인 도구 사용 행동을 위한 세 가지 핵심 메커니즘인 시행착오, 상상력, 그리고 기억을 조율합니다. 구체적으로, STE는 LLM의 '상상력'을 활용하여 도구 사용에 대한 그럴듯한 시나리오를 시뮬레이션한 후, LLM이 도구와 상호작용하여 실행 피드백으로부터 학습합니다. 단기 및 장기 기억은 각각 탐색의 깊이와 폭을 개선하기 위해 사용됩니다. ToolBench에서의 포괄적인 실험을 통해 STE가 컨텍스트 내 학습과 미세 조정 설정 모두에서 LLM의 도구 학습을 크게 개선하며, Mistral-Instruct-7B에 46.7%의 성능 향상을 가져와 GPT-4를 능가하게 함을 보여줍니다. 또한 간단한 경험 재생 전략을 통해 도구의 효과적인 지속 학습을 보여줍니다.
GPT-4V와 같은 Vision-Language Models(VLMs)는 최근 다양한 비전-언어 작업에서 놀라운 진전을 보여주었습니다. 우리는 더 정교하지만 덜 탐구된 영역인 비전 기반 연역적 추론을 깊이 파고들어 현재 최첨단 VLMs에서 이전에 노출되지 않은 취약점을 발견했습니다. 구체적으로, 우리는 Raven's Progressive Matrices(RPMs)를 활용하여 VLMs가 시각적 단서만을 기반으로 다중 홉 관계적 및 연역적 추론을 수행하는 능력을 평가합니다. 우리는 Mensa IQ 테스트, IntelligenceTest, RAVEN 등 세 가지 다양한 데이터셋에서 in-context learning, self-consistency, Chain-of-thoughts(CoT)와 같은 표준 전략을 사용하여 여러 인기 있는 VLMs에 대한 포괄적인 평가를 수행합니다. 그 결과, 텍스트 기반 추론에서 LLMs의 인상적인 능력에도 불구하고, 시각적 연역적 추론에서 비슷한 숙련도를 달성하기에는 아직 멀었다는 사실이 드러났습니다. 우리는 LLMs에 효과적으로 적용되는 특정 표준 전략들이 시각적 추론 작업이 제시하는 도전에 원활하게 적용되지 않는다는 것을 발견했습니다. 더욱이, 상세한 분석을 통해 VLMs가 RPM 예제에서 여러 가지 혼란스러운 추상적 패턴을 인지하고 이해하지 못함으로써 이러한 작업을 해결하는 데 어려움을 겪는다는 사실이 밝혀졌습니다.
수학적 능력은 이전에는 매우 큰 규모의 모델에서만 나타나거나 수학 관련 사전 학습이 광범위하게 필요하다고 여겨졌다. 본 논문은 일반적인 사전 학습을 거친 LLaMA-2 7B 모델이 이미 강력한 수학적 능력을 보인다는 것을 입증한다. 이는 256개의 무작위 생성 중 최적의 응답을 선택했을 때 GSM8K와 MATH 벤치마크에서 각각 97.7%와 72.0%의 인상적인 정확도를 보여준다. 현재 기본 모델의 주요 문제는 내재된 수학적 능력을 일관되게 이끌어내는 데 어려움이 있다는 것이다. 특히, 첫 번째 답변의 정확도는 GSM8K와 MATH 벤치마크에서 각각 49.5%와 7.9%로 떨어진다. 우리는 단순히 SFT 데이터를 확장하는 것만으로도 정답 생성의 신뢰성을 크게 향상시킬 수 있음을 발견했다. 그러나 광범위한 확장의 가능성은 공개적으로 이용 가능한 수학 문제의 부족으로 제한된다. 이러한 한계를 극복하기 위해 우리는 합성 데이터를 사용했으며, 이는 실제 데이터와 거의 동등한 효과를 보이고 약 100만 개의 샘플로 확장할 때도 명확한 포화 현상을 보이지 않는다. 이 간단한 접근 방식은 LLaMA-2 7B 모델을 사용하여 GSM8K에서 82.6%, MATH에서 40.6%의 정확도를 달성하며, 이전 모델을 각각 14.2%와 20.8% 앞선다. 또한, 우리는 다양한 추론 복잡성과 오류 유형에 걸친 확장 행동에 대한 통찰을 제공한다.
우리는 이미지에서 GIF(동영상) 생성 작업을 위한 모션 가이드 확산 모델인 Pix2Gif를 소개합니다. 우리는 이 문제를 텍스트와 모션 크기 프롬프트에 의해 조종되는 이미지 변환 문제로 공식화하여 접근 방식을 달리합니다. 모델이 모션 가이드에 충실하도록 보장하기 위해, 두 가지 유형의 프롬프트에 따라 소스 이미지의 특징을 공간적으로 변환하는 새로운 모션 가이드 워핑 모듈을 제안합니다. 또한, 변환된 특징 맵이 대상 이미지와 동일한 공간에 머물도록 하여 콘텐츠 일관성과 통일성을 보장하는 지각 손실(perceptual loss)을 도입합니다. 모델 학습을 준비하기 위해, 우리는 TGIF 비디오-캡션 데이터셋에서 일관된 이미지 프레임을 추출하여 주제의 시간적 변화에 대한 풍부한 정보를 제공하는 데이터를 세심하게 정제했습니다. 사전 학습 후, 우리는 모델을 여러 비디오 데이터셋에 제로샷 방식으로 적용합니다. 광범위한 정성적 및 정량적 실험을 통해 우리 모델의 효과성을 입증했습니다. 이 모델은 텍스트에서 의미론적 프롬프트를 포착할 뿐만 아니라 모션 가이드에서 공간적 프롬프트도 포착합니다. 우리는 모든 모델을 16개의 V100 GPU로 구성된 단일 노드를 사용하여 학습했습니다. 코드, 데이터셋 및 모델은 https://hiteshk03.github.io/Pix2Gif/에서 공개되었습니다.
X선은 자연광보다 강한 투과력을 가지고 있어 투과 이미징에 널리 활용되고 있습니다. 새로운 시점의 X선 투영을 렌더링할 때, 기존의 NeRF 기반 방법들은 긴 학습 시간과 느린 추론 속도라는 문제를 안고 있습니다. 본 논문에서는 X선 새로운 시점 합성을 위한 3D 가우시안 스플래팅 기반 프레임워크인 X-Gaussian을 제안합니다. 첫째, X선 이미징의 등방성 특성에서 영감을 받아 방사형 가우시안 포인트 클라우드 모델을 재설계했습니다. 우리의 모델은 3D 점들의 방사 강도를 예측할 때 시점 방향의 영향을 배제합니다. 이 모델을 기반으로 CUDA 구현을 통해 미분 가능한 방사형 래스터화(DRR)를 개발했습니다. 둘째, X선 스캐너의 파라미터를 직접 사용하여 카메라 정보를 계산한 후, 스캔 대상 물체를 둘러싸는 직육면체 내에서 점 위치를 균일하게 샘플링하는 각도-포즈 직육면체 균일 초기화(ACUI) 전략을 맞춤 설계했습니다. 실험 결과, 우리의 X-Gaussian은 최신 방법들보다 6.5 dB 우수한 성능을 보이면서도 15% 미만의 학습 시간과 73배 이상의 추론 속도를 자랑합니다. 희소 뷰 CT 재구성에 대한 응용 또한 우리 방법의 실용적 가치를 보여줍니다. 코드와 모델은 https://github.com/caiyuanhao1998/X-Gaussian에서 공개될 예정이며, 학습 과정 시각화 비디오 데모는 https://www.youtube.com/watch?v=gDVf_Ngeghg에서 확인할 수 있습니다.