번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델 시대에, Massive Multitask Language Understanding(MMLU)와 같은 벤치마크는 다양한 도메인에서 AI의 언어 이해 및 추론 능력의 한계를 넓히는 데 중요한 역할을 해왔습니다. 그러나 모델이 계속해서 개선됨에 따라, 이러한 벤치마크에서의 성능이 정체되기 시작하면서 모델 간 능력 차이를 파악하기가 점점 더 어려워지고 있습니다. 본 논문에서는 주로 지식 기반인 MMLU 벤치마크를 확장하기 위해 더 도전적이고 추론 중심의 질문을 통합하고 선택지의 수를 4개에서 10개로 늘린 향상된 데이터셋인 MMLU-Pro를 소개합니다. 또한, MMLU-Pro는 MMLU의 사소하고 노이즈가 많은 질문들을 제거했습니다. 우리의 실험 결과는 MMLU-Pro가 MMLU에 비해 정확도를 16%에서 33%까지 크게 떨어뜨려 도전도를 높이는 동시에 다양한 프롬프트 하에서 더 큰 안정성을 보여준다는 것을 입증합니다. 24가지의 서로 다른 프롬프트 스타일을 테스트한 결과, 모델 점수의 프롬프트 변동에 대한 민감도가 MMLU에서의 4-5%에서 MMLU-Pro에서는 단 2%로 감소했습니다. 또한, Chain of Thought(CoT) 추론을 활용한 모델들이 직접 답변하는 방식에 비해 MMLU-Pro에서 더 나은 성능을 보였는데, 이는 원래 MMLU에서의 결과와는 대조적이며, MMLU-Pro가 더 복잡한 추론 질문을 포함하고 있음을 시사합니다. 우리의 평가는 MMLU-Pro가 해당 분야의 진전을 더 잘 추적할 수 있는 더 차별화된 벤치마크임을 확인시켜 줍니다.
언어 모델은 다수의 집단적 목소리를 모방하도록 정렬되어 있어, 특정 개인과 일치하지 않는 출력을 생성합니다. 지도 미세 조정(Supervised Finetuning)이나 인간 피드백 강화 학습(RLHF)을 통해 LLM(Large Language Model)이 일반적인 출력에서 벗어나도록 유도할 수 있지만, 새로운 임시 작업에 대해 과도하게 큰 데이터셋이 필요합니다. 우리는 대신 매우 적은 수(10개 미만)의 데모를 피드백으로 활용하여 LLM을 특정 설정에 맞게 정렬할 수 있다고 주장합니다. 우리의 방법인 데모 기반 반복 작업 최적화(Demonstration ITerated Task Optimization, DITTO)는 언어 모델의 출력을 사용자의 데모 행동에 직접 정렬합니다. 온라인 모방 학습(Online Imitation Learning) 아이디어에서 파생된 DITTO는 사용자의 데모를 LLM 및 중간 체크포인트의 출력보다 선호되는 것으로 간주하여 저렴하게 온라인 비교 데이터를 생성합니다. 우리는 DITTO가 뉴스 기사, 이메일, 블로그 게시물 등 다양한 도메인에서 세밀한 스타일 및 작업 정렬을 학습하는 능력을 평가합니다. 또한, 참가자(N=16)로부터 다양한 데모를 수집하는 사용자 연구를 수행합니다. 벤치마크와 사용자 연구 전반에 걸쳐, DITTO의 승률은 퓨샷 프롬프팅(Few-shot Prompting), 지도 미세 조정 및 기타 자기 대전(Self-play) 방법보다 평균 19% 포인트 더 높은 것으로 나타났습니다. 데모를 직접 피드백으로 사용함으로써, DITTO는 LLM의 효과적인 맞춤화를 위한 새로운 방법을 제시합니다.
본 연구는 비디오 깊이 추정의 과제를 다루며, 이는 단순히 프레임별 정확도뿐만 아니라 더 중요한 프레임 간 일관성을 요구합니다. 처음부터 깊이 추정기를 직접 개발하는 대신, 우리는 예측 작업을 조건부 생성 문제로 재구성합니다. 이를 통해 기존 비디오 생성 모델에 내재된 사전 지식을 활용함으로써 학습 난이도를 줄이고 일반화 능력을 향상시킬 수 있습니다. 구체적으로, 우리는 공개된 Stable Video Diffusion(SVD)을 활용하여 입력 비디오에서 신뢰할 수 있는 깊이를 예측하는 방법을 연구하며, 이를 위해 이미지 깊이와 비디오 깊이 데이터셋의 혼합을 사용합니다. 실험적으로, SVD의 공간적 레이어를 먼저 최적화한 후 시간적 레이어를 최적화하면서 공간적 레이어를 고정하는 절차적 학습 전략이 공간적 정확도와 시간적 일관성 모두에서 최상의 결과를 가져온다는 것을 확인했습니다. 또한, 임의의 길이를 가진 비디오에 대한 추론을 위해 슬라이딩 윈도우 전략을 검토합니다. 우리의 관찰 결과, 효율성과 성능 간의 트레이드오프가 존재하며, 단일 프레임 중첩만으로도 유리한 결과를 얻을 수 있음을 확인했습니다. 광범위한 실험 결과는 우리의 접근 방식인 ChronoDepth가 기존 대안들보다 우수함을 보여주며, 특히 추정된 깊이의 시간적 일관성 측면에서 두드러진 성과를 보입니다. 또한, 더 일관된 비디오 깊이가 깊이 조건 비디오 생성 및 새로운 시점 합성과 같은 두 가지 실제 응용 분야에서 제공하는 이점을 강조합니다. 우리의 프로젝트 페이지는 https://jhaoshao.github.io/ChronoDepth/{this http URL}에서 확인할 수 있습니다.
문화적 축적은 인간 역사 전반에 걸친 무한하고 다양한 능력의 진보를 이끌어왔습니다. 이는 개별적인 탐구와 세대 간 정보 전달을 결합하여 지식과 기술의 영역을 지속적으로 확장해 나갑니다. 인간 사회에서 광범위한 성공을 거두었음에도 불구하고, 인공 학습 에이전트가 문화를 축적할 수 있는 능력은 아직 충분히 탐구되지 않았습니다. 특히, 강화 학습 접근법은 일반적으로 단일 생애에 걸친 개선에 초점을 맞추는 경향이 있습니다. 기존의 세대적 알고리즘들은 혁신과 모방 간의 균형을 통해 개방적이고 창발적인 특성을 지닌 문화적 축적의 본질을 제대로 포착하지 못하고 있습니다. 이전에 강화 학습 에이전트가 사회적 학습을 수행할 수 있음이 입증된 바를 바탕으로, 우리는 독립적 학습과의 균형을 맞춘 훈련 설정이 문화적 축적을 가능하게 한다는 사실을 발견했습니다. 이러한 축적을 통해 학습된 에이전트들은 동일한 누적 경험을 가진 단일 생애 훈련 에이전트들을 능가하는 성과를 보였습니다. 우리는 두 가지 세대 개념 하에서 두 가지 모델을 구축하여 이러한 축적을 탐구했습니다: 에피소드적 세대, 즉 문맥 내 학습을 통해 축적이 발생하는 경우와 훈련 시간적 세대, 즉 가중치 내 학습을 통해 축적이 발생하는 경우입니다. 문맥 내 축적과 가중치 내 축적은 각각 지식 축적과 기술 축적에 비유될 수 있습니다. 우리가 아는 한, 이 연구는 강화 학습에서 창발적 문화적 축적을 달성하는 일반적인 모델을 최초로 제시함으로써, 더 개방적인 학습 시스템을 향한 새로운 길을 열어주는 동시에 인간 문화 모델링을 위한 새로운 기회를 제공합니다.
학습된 최적화기(LOs)는 신경망의 실제 학습 시간을 크게 단축시켜 학습 비용을 상당히 절감할 수 있습니다. 그러나 이들은 메타 학습 중에 접한 것보다 더 큰 네트워크를 학습할 때 특히 메타 일반화 성능이 저하되는 문제를 자주 겪습니다. 이를 해결하기 위해, 우리는 최근 제안된 최대 업데이트 매개변수화(muP)를 사용합니다. 이 방법은 더 작은 모델에서 더 큰 모델로 최적화 하이퍼파라미터의 제로샷 일반화를 가능하게 합니다. 우리는 muP 이론을 학습된 최적화기로 확장하여, 메타 학습 문제를 muP 하에서 학습된 최적화기를 찾는 문제로 다룹니다. 우리의 평가 결과, muP로 메타 학습된 LOs는 표준 매개변수화(SP) 하에서 학습된 LOs에 비해 메타 일반화 성능이 크게 향상되었음을 보여줍니다. 특히, 큰 폭의 모델에 적용할 때, 103 GPU-시간 동안 학습된 우리의 최고 muLO는 4000 TPU-월의 컴퓨팅 자원으로 메타 학습된 공개적으로 사용 가능한 가장 큰 학습된 최적화기인 VeLO의 성능을 맞추거나 능가했습니다. 더 나아가, muLOs는 SP 대조군에 비해 더 깊은 네트워크와 메타 학습 중 접한 것보다 훨씬 더 긴 학습 기간(25배 더 긴)에 대해 더 나은 일반화 성능을 보였습니다.
비디오 생성은 최근 몇 년간, 특히 비디오 확산 모델의 등장 이후로 괄목할 만한 발전을 이루었습니다. Stable Video Diffusion(SVD)와 같은 많은 비디오 생성 모델이 그럴듯한 합성 비디오를 생성할 수 있습니다. 그러나 대부분의 비디오 모델은 GPU 메모리의 한계와 많은 프레임을 모델링하는 어려움으로 인해 낮은 프레임 속도의 비디오만 생성할 수 있습니다. 학습 비디오는 항상 지정된 간격으로 균일하게 샘플링되어 시간적 압축이 이루어집니다. 기존 방법들은 픽셀 공간에서 비디오 보간 모델을 후처리 단계로 학습하거나 특정 기본 비디오 모델을 위한 잠재 공간에서 보간 모델을 학습함으로써 프레임 속도를 높였습니다. 본 논문에서는 생성적 비디오 확산 모델을 위한 학습이 필요 없는 비디오 보간 방법을 제안하며, 이 방법은 플러그 앤 플레이 방식으로 다양한 모델에 일반화 가능합니다. 우리는 비디오 확산 모델의 특징 공간에서의 비선형성을 조사하고, 설계된 은닉 상태 보정 모듈을 통합하여 비디오 모델을 자기-계단식 비디오 확산 모델로 변환합니다. 자기-계단식 아키텍처와 보정 모듈은 키 프레임과 보간된 프레임 간의 시간적 일관성을 유지하기 위해 제안되었습니다. 여러 인기 있는 비디오 모델에 대한 광범위한 평가를 수행하여 제안 방법의 효과를 입증하였으며, 특히 우리의 학습이 필요 없는 방법이 방대한 컴퓨팅 자원과 대규모 데이터셋을 지원하는 학습된 보간 모델과도 견줄 만하다는 것을 보여주었습니다.