번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 강력한 오라클로부터의 선호 피드백을 활용하여 대형 언어 모델(LLM)을 사후 훈련시키고, 이를 통해 모델이 스스로 반복적으로 개선될 수 있도록 돕는 방법을 연구합니다. 일반적인 LLM 사후 훈련 접근법은 인간 피드백을 통한 강화학습(RLHF)을 포함하며, 이는 전통적으로 보상 학습과 이후의 정책 최적화를 분리합니다. 그러나 이러한 보상 최대화 접근법은 "점 단위" 보상(예: Bradley-Terry 모델)의 특성에 의해 제한되며, 복잡한 비이행적 또는 순환적 선호 관계를 표현하지 못합니다. RLHF의 발전으로 보상 학습과 정책 최적화가 단일 대조 목적 함수로 통합되어 안정성을 얻을 수 있게 되었지만, 여전히 보상 최대화 프레임워크에 얽매여 있습니다. 최근에는 "쌍 단위" 또는 일반적인 선호를 직접 최적화하는 방식으로 보상 최대화 가정을 우회하는 새로운 연구 흐름이 등장했습니다. 본 논문에서는 대조 학습의 단순성과 안정성을 일반 선호 최적화의 이론적 일반성과 결합한, 검증 가능하고 확장성 있는 알고리즘인 Direct Nash Optimization(DNO)을 소개합니다. DNO는 회귀 기반 목적 함수를 사용하는 배치 온-정책 알고리즘이므로 구현이 간단하고 효율적입니다. 또한 DNO는 반복을 통해 단조적 개선을 이루며, GPT-4와 같은 강력한 교사 모델보다도 더 나은 성능을 달성할 수 있습니다. 실험 결과, DNO로 정렬된 7B 파라미터 Orca-2.5 모델은 AlpacaEval 2.0에서 GPT-4-Turbo 대비 33%의 최신 상태의 승률을 기록했습니다(응답 길이를 통제한 후에도). 이는 초기 모델 대비 26%(7%에서 33%)의 절대적 성능 향상을 의미하며, Mistral Large, Self-Rewarding LM(70B 파라미터), 이전 버전의 GPT-4 등 훨씬 더 많은 파라미터를 가진 모델들을 능가했습니다.
언어 모델은 훈련 과정에서 유익한 실수를 거의 경험하지 못합니다. 그 결과, 이들은 다음 토큰을 넘어서는 데 어려움을 겪으며, 오류가 점점 쌓여가고 여러 단계 앞의 행동 결과를 예측하는 데 어려움을 겪습니다. 본 논문에서는 언어로 검색 과정을 표현하여, 이를 평면화된 문자열인 '검색 스트림(Stream of Search, SoS)'으로 나타내는 방법을 통해 언어 모델이 검색을 배울 수 있음을 보여줍니다. 우리는 다양한 상징적 검색 전략을 포괄하는 통합 검색 언어를 제안합니다. 이 접근법을 간단하지만 어려운 게임인 '카운트다운'을 통해 실증적으로 보여드리는데, 이 게임은 입력된 숫자들을 산술 연산을 통해 목표 숫자에 도달하는 것이 목표입니다. 우리는 휴리스틱 솔버로 생성된 검색 스트림 데이터셋을 기반으로 트랜스포머 기반 언어 모델을 처음부터 사전 훈련시켰습니다. SoS 사전 훈련은 최적 검색 궤적만 예측하도록 훈련된 모델보다 검색 정확도를 25% 향상시킨다는 것을 발견했습니다. 또한, 이 모델을 두 가지 정책 개선 방법인 'Advantage-Induced Policy Alignment(APA)'와 'Self-Taught Reasoner(STaR)'로 미세 조정했습니다. 미세 조정된 SoS 모델은 이전에 해결되지 못한 문제 중 36%를 해결했으며, 이는 휴리스틱 솔버로도 해결할 수 없었던 문제를 포함합니다. 우리의 결과는 언어 모델이 검색을 통해 문제를 해결하고, 다양한 검색 전략을 유연하게 사용하며, 잠재적으로 새로운 전략을 발견할 수 있음을 시사합니다.
웹 크롤링을 통해 수집된 사전 학습 데이터셋은 CLIP(분류/검색) 및 Stable-Diffusion(이미지 생성)과 같은 멀티모달 모델의 인상적인 "제로샷" 평가 성능의 기반이 됩니다. 그러나 이러한 멀티모달 모델에 대한 "제로샷" 일반화 개념이 얼마나 의미 있는지는 명확하지 않습니다. 왜냐하면 이들의 사전 학습 데이터셋이 "제로샷" 평가 중 목표로 삼은 하위 개념들을 어느 정도 포함하고 있는지 알려져 있지 않기 때문입니다. 본 연구에서 우리는 다음과 같은 질문을 던집니다: 멀티모달 모델의 하위 개념에 대한 성능은 사전 학습 데이터셋에서 이러한 개념의 빈도에 의해 어떻게 영향을 받는가? 우리는 34개의 모델과 5개의 표준 사전 학습 데이터셋(CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics)에 걸쳐 이 질문을 포괄적으로 조사하며, 300GB가 넘는 데이터 아티팩트를 생성했습니다. 우리는 일관되게 "제로샷" 일반화를 보이는 것과는 거리가 먼 결과를 발견했습니다. 멀티모달 모델은 하위 "제로샷" 성능을 선형적으로 개선하기 위해 기하급수적으로 더 많은 데이터가 필요하며, 이는 샘플 비효율적인 로그-선형 스케일링 추세를 따릅니다. 이 추세는 사전 학습 데이터셋과 하위 데이터셋 간의 샘플 수준 유사성을 통제하고 순수 합성 데이터 분포에서 테스트할 때도 지속됩니다. 더 나아가, 우리의 분석을 기반으로 장기 꼬리 데이터를 샘플링하여 모델을 벤치마킹한 결과, 전반적으로 멀티모달 모델의 성능이 저조함을 입증했습니다. 우리는 이 장기 꼬리 테스트 세트를 "Let it Wag!" 벤치마크로 공개하여 이 방향의 추가 연구를 촉진하고자 합니다. 종합적으로, 우리의 연구는 대규모 학습 패러다임 하에서 "제로샷" 일반화 능력의 열쇠가 여전히 발견되지 않았음을 시사하는 기하급수적인 학습 데이터 필요성을 밝혀냈습니다.
대형 언어 모델(LLMs)은 웹 탐색을 비롯한 다양한 지능형 에이전트 작업에 큰 기여를 해왔습니다. 그러나 대부분의 기존 에이전트들은 실제 웹페이지에서 만족스러운 성능을 보이지 못하는데, 이는 주로 세 가지 요인 때문입니다: (1) 웹페이지에서 수행 가능한 다양한 동작, (2) 모델 처리 능력을 초과하는 HTML 텍스트, (3) 웹의 개방형 특성으로 인한 의사결정의 복잡성. 이러한 도전 과제를 해결하기 위해, 우리는 ChatGLM3-6B를 기반으로 GPT-4를 능가하는 자동화된 웹 탐색 에이전트인 AutoWebGLM을 개발했습니다. 인간의 브라우징 패턴에서 영감을 받아, 우리는 웹페이지를 간결하게 표현하면서도 중요한 정보를 보존하는 HTML 단순화 알고리즘을 설계했습니다. 또한, 커리큘럼 학습을 위한 웹 브라우징 데이터를 구축하기 위해 인간과 AI의 하이브리드 방식을 채택했습니다. 그런 다음, 강화 학습과 거부 샘플링을 통해 모델을 부트스트랩하여 웹페이지 이해, 브라우저 조작, 그리고 효율적인 작업 분해 능력을 더욱 향상시켰습니다. 테스트를 위해, 우리는 실제 웹 브라우징 작업을 위한 이중 언어 벤치마크인 AutoWebBench를 구축했습니다. AutoWebGLM을 다양한 웹 탐색 벤치마크에서 평가한 결과, 개선된 성능을 확인할 수 있었지만, 실제 환경을 다루기 위한 근본적인 과제들도 드러났습니다. 관련 코드, 모델, 데이터는 https://github.com/THUDM/AutoWebGLM에서 공개될 예정입니다.
최근 지시어 튜닝 데이터셋의 발전은 주로 수학적 또는 논리적 추론과 같은 특정 작업에 초점을 맞추어 왔습니다. 대화 중 주제 관련성을 유지하도록 언어 모델을 조정하기 위해 설계된 데이터는 상당한 공백이 있었는데, 이는 챗봇을 프로덕션에 배포하기 위한 중요한 측면입니다. 우리는 작업 지향적 상호작용 중에 언어 모델이 주제에 집중할 수 있도록 돕기 위해 CantTalkAboutThis 데이터셋을 소개합니다. 이 데이터셋은 다양한 도메인의 광범위한 대화 주제에 대한 합성 대화로 구성되어 있습니다. 이러한 대화는 의도적으로 챗봇을 사전 정의된 주제에서 벗어나게 하는 방해 요소 턴이 포함되어 있습니다. 이 데이터셋을 통해 언어 모델을 미세 조정하면 할당된 역할에서 벗어나지 않도록 강인성을 갖추고, GPT-4-turbo 및 Mixtral-Instruct와 같은 일반 목적의 지시어 튜닝 LLM에 비해 주제 일관성을 유지하는 능력이 향상됩니다. 또한, 예비 관찰 결과에 따르면 이 데이터셋으로 모델을 훈련하면 세분화된 지시어 수행 작업에서의 성능도 향상되는 것으로 나타났습니다.
사람들은 효과적으로 의사소통하고 직장 및 개인 생활에서 번영하기 위해 갈등 해결과 같은 사회적 기술에 의존합니다. 그러나 대부분의 사람들에게 사회적 기술을 연습할 수 있는 환경은 일반적으로 접근하기 어렵습니다. 어떻게 하면 사회적 기술 훈련을 더욱 보편적이고 접근 가능하며 매력적으로 만들 수 있을까요? 커뮤니케이션과 심리학 분야의 학제간 연구를 바탕으로, 이 관점 논문은 특정 분야에 진입하는 데 있어 사회적 기술의 장벽을 식별합니다. 그리고 우리는 대규모 언어 모델을 활용한 사회적 기술 훈련을 위한 일반적인 프레임워크를 제시합니다. 우리의 AI 파트너, AI 멘토 프레임워크는 경험적 학습을 현실적인 연습과 맞춤형 피드백과 결합합니다. 이 작업은 궁극적으로 노동력 개발과 사회적 평등에 대한 더 넓은 함의를 해결하기 위해 학제간 혁신을 촉구합니다.
강화 학습(Reinforcement Learning, RL)은 이미지 품질, 미적 요소, 지시 사항 준수 능력을 포착하는 보상을 직접 최적화함으로써 확산 모델(diffusion models)을 활용한 가이드 이미지 생성 분야를 개선해 왔습니다. 그러나 이렇게 생성된 정책은 확산 모델의 반복적인 샘플링 과정을 그대로 물려받아 생성 속도가 느리다는 한계를 지닙니다. 이러한 한계를 극복하기 위해 일관성 모델(consistency models)은 노이즈를 데이터로 직접 매핑하는 새로운 유형의 생성 모델을 학습하는 방식을 제안했으며, 이를 통해 단 한 번의 샘플링 반복만으로도 이미지를 생성할 수 있는 모델을 구현했습니다. 본 연구에서는 텍스트-이미지 생성 모델을 특정 작업에 맞는 보상으로 최적화하고 빠른 학습 및 추론을 가능하게 하기 위해, RL을 통해 일관성 모델을 미세 조정하는 프레임워크를 제안합니다. 우리의 프레임워크인 RLCM(Reinforcement Learning for Consistency Model)은 일관성 모델의 반복적 추론 과정을 RL 절차로 구성합니다. RLCM은 텍스트-이미지 생성 능력에서 RL로 미세 조정된 확산 모델을 개선하며, 추론 시간의 계산량을 샘플 품질과 교환합니다. 실험적으로, RLCM은 이미지 압축성과 같이 프롬프트로 표현하기 어려운 목표나 인간 피드백에서 도출된 미적 품질과 같은 목표에 텍스트-이미지 일관성 모델을 적응시킬 수 있음을 보여줍니다. RL로 미세 조정된 확산 모델과 비교했을 때, RLCM은 훨씬 빠르게 학습하며, 보상 목표 하에서 측정된 생성 품질을 개선하고, 단 두 번의 추론 단계만으로도 고품질 이미지를 생성함으로써 추론 절차를 가속화합니다. 우리의 코드는 https://rlcm.owenoertell.com에서 확인할 수 있습니다.
본 연구에서는 중국어를 우선시하는 대형 언어 모델(LLM) 개발로의 중대한 전환을 보여주는 2B 규모의 CT-LLM을 소개한다. 기존 방법론과 달리, CT-LLM은 처음부터 중국어 텍스트 데이터를 주로 활용하여 개발되었으며, 1,2000억 개의 토큰으로 구성된 방대한 코퍼스를 사용했다. 이 코퍼스는 8000억 개의 중국어 토큰, 3000억 개의 영어 토큰, 그리고 1000억 개의 코드 토큰으로 구성되어 있다. 이러한 전략적 구성은 모델의 중국어 이해 및 처리 능력을 뛰어나게 하며, 정렬 기법을 통해 더욱 강화되었다. CT-LLM은 CHC-Bench에서 뛰어난 성능을 보이며 중국어 작업에서 탁월한 성과를 거두었고, SFT를 통해 영어에서도 능숙함을 보여준다. 이 연구는 주로 영어 코퍼스로 LLM을 훈련한 후 다른 언어로 적응시키는 기존 패러다임에 도전하며, LLM 훈련 방법론의 지평을 넓힌다. 중국어 LLM 훈련의 전체 과정을 오픈소스로 공개함으로써, 획득한 Massive Appropriate Pretraining Chinese Corpus(MAP-CC), 잘 선정된 다학제적 Chinese Hard Case Benchmark(CHC-Bench), 그리고 2B 규모의 Chinese Tiny LLM(CT-LLM)을 포함한 상세한 데이터 처리 절차를 제공하여 학계와 산업계에서의 추가 탐구와 혁신을 촉진하고, 더 포괄적이고 다재다능한 언어 모델을 위한 길을 열고자 한다.
본 논문에서는 핸드헬드 폰 캡처로부터의 재구성과 같은 실용적인 응용 분야에서의 강건성을 향상시키기 위해, 3D 가우시안 스플래팅(3DGS)의 일반적인 오류 원인들인 블러, 불완전한 카메라 포즈, 그리고 색상 불일치를 다룹니다. 우리의 주요 기여는 모션 블러를 카메라 포즈에 대한 가우시안 분포로 모델링하여, 카메라 포즈 정제와 모션 블러 보정을 통합적으로 처리할 수 있도록 한 것입니다. 추가적으로, 디포커스 블러 보상 및 주변광, 그림자, 또는 화이트 밸런스 설정 변화와 같은 카메라 관련 요인으로 인한 색상 불일치를 해결하기 위한 메커니즘을 제안합니다. 우리가 제안한 해결책들은 3DGS 공식과 원활하게 통합되면서도, 학습 효율성과 렌더링 속도 측면에서의 장점을 유지합니다. 우리는 Scannet++ 및 Deblur-NeRF와 같은 관련 벤치마크 데이터셋에서 실험적으로 우리의 기여를 검증하며, 최신 기술 수준의 결과를 얻어 관련 베이스라인 대비 일관된 개선을 달성했습니다.
멀티모달 의미론적 분할은 특히 저조도 또는 과다 노출 환경과 같은 불리한 조건에서 AI 에이전트의 인지 및 장면 이해를 크게 향상시킵니다. 기존의 RGB와 함께 열화상 및 깊이 정보와 같은 추가 모달리티(X-모달리티)를 활용함으로써 상호 보완적인 정보를 제공하여 더욱 견고하고 신뢰할 수 있는 분할을 가능하게 합니다. 본 연구에서는 선택적 구조화 상태 공간 모델인 Mamba를 활용한 멀티모달 의미론적 분할을 위한 Siamese Mamba 네트워크인 Sigma를 소개합니다. 제한된 지역 수용 필드를 가진 CNN이나 2차 복잡도를 가지는 전역 수용 필드를 제공하는 Vision Transformers(ViTs)와 같은 기존 방법과 달리, 우리의 모델은 선형 복잡도로 전역 수용 필드 범위를 달성합니다. Siamese 인코더를 사용하고 Mamba 융합 메커니즘을 혁신적으로 도입함으로써 다양한 모달리티에서 필수적인 정보를 효과적으로 선택합니다. 이후 디코더를 개발하여 모델의 채널별 모델링 능력을 향상시킵니다. 우리의 방법인 Sigma는 RGB-열화상 및 RGB-깊이 분할 작업에서 엄격하게 평가되었으며, 그 우수성을 입증하고 멀티모달 인지 작업에서 상태 공간 모델(SSMs)의 첫 번째 성공적인 적용을 기록했습니다. 코드는 https://github.com/zifuwan/Sigma에서 확인할 수 있습니다.