번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)은 일반적으로 수십억 개의 토큰으로 사전 학습되며, 새로운 데이터가 사용 가능해지면 이 과정을 다시 시작합니다. 이러한 모델을 지속적으로 사전 학습하는 것이 훨씬 더 효율적인 해결책이며, 재학습에 비해 상당한 계산 자원을 절약할 수 있습니다. 그러나 새로운 데이터로 인한 분포 변화는 일반적으로 이전 데이터에 대한 성능 저하나 새로운 데이터에 대한 적응 실패로 이어집니다. 본 연구에서는 학습률(LR) 재가열, 학습률 재감소, 그리고 이전 데이터의 재생이라는 간단하고 확장 가능한 조합이 모든 사용 가능한 데이터를 처음부터 재학습한 경우의 성능과 일치함을 보여줍니다. 이는 최종 손실 및 언어 모델(LM) 평가 벤치마크를 통해 측정되었습니다. 구체적으로, 우리는 두 가지 일반적으로 사용되는 LLM 사전 학습 데이터셋 간의 약하지만 현실적인 분포 변화(영어→영어)와 더 강한 분포 변화(영어→독일어)를 405M 파라미터 규모의 모델과 대규모 데이터셋(수천억 개의 토큰)에서 실험했습니다. 더 큰 규모의 실험을 위해 약하지만 현실적인 분포 변화를 선택한 결과, 우리의 지속 학습 전략이 10B 파라미터 LLM에 대한 재학습 기준과 일치함을 확인했습니다. 우리의 결과는 LLM이 간단하고 확장 가능한 지속 학습 전략을 통해 성공적으로 업데이트될 수 있으며, 재학습 기준과 일치하는 성능을 훨씬 적은 계산 자원으로 달성할 수 있음을 보여줍니다. 마지막으로, 이전 연구에서 영감을 받아, 우리는 학습률 재가열로 인한 망각을 방지하고 고정된 토큰 예산에 구속되지 않는 코사인 학습률 스케줄의 대안을 제안합니다.
이 연구는 Gemini 모델을 만드는 데 사용된 연구와 기술을 기반으로 구축된 경량화된 최첨단 오픈 모델인 Gemma 제품군을 소개합니다. Gemma 모델은 언어 이해, 추론 및 안전성에 대한 학술 벤치마크에서 강력한 성능을 보여줍니다. 우리는 두 가지 크기의 모델(20억 및 70억 파라미터)을 공개하며, 사전 학습된 체크포인트와 미세 조정된 체크포인트를 모두 제공합니다. Gemma는 18개의 텍스트 기반 작업 중 11개에서 유사한 크기의 오픈 모델을 능가하며, 모델 개발에 대한 상세한 설명과 함께 모델의 안전성과 책임성 측면에 대한 포괄적인 평가를 제시합니다. 우리는 대규모 언어 모델(LLM)의 책임 있는 공개가 최첨단 모델의 안전성을 개선하고 다음 세대의 LLM 혁신을 가능하게 하는 데 중요하다고 믿습니다.
우리는 최근 생성적 확산 모델의 성공을 기반으로, 단일 인물 이미지로부터 오디오 기반 인간 비디오를 생성하는 VLOGGER 방법을 제안합니다. 우리의 방법은 1) 확률적 인간-3D-모션 확산 모델과 2) 공간적 및 시간적 제어를 통해 텍스트-이미지 모델을 확장하는 새로운 확산 기반 아키텍처로 구성됩니다. 이를 통해 인간의 얼굴과 몸의 고수준 표현을 통해 쉽게 제어 가능한 다양한 길이의 고품질 비디오를 생성할 수 있습니다. 기존 연구와 달리, 우리의 방법은 각 개인별로 학습할 필요가 없으며, 얼굴 검출 및 크롭에 의존하지 않고, 얼굴이나 입술뿐만 아니라 전체 이미지를 생성하며, 의사소통하는 인간을 올바르게 합성하기 위해 중요한 다양한 시나리오(예: 보이는 상체 또는 다양한 주체 신원)를 고려합니다. 또한 우리는 3D 포즈와 표정 주석이 포함된 새로운 다양성 있는 데이터셋인 MENTOR를 구축했으며, 이는 이전 데이터셋보다 한 차원 더 크고(800,000명의 신원) 동적 제스처를 포함하며, 이를 통해 주요 기술 기여를 학습하고 분석합니다. VLOGGER는 이미지 품질, 신원 보존 및 시간적 일관성을 고려한 세 가지 공개 벤치마크에서 최첨단 방법을 능가하며, 상체 제스처도 생성합니다. 우리는 VLOGGER의 성능을 다양한 다양성 지표에 대해 분석하여, 우리의 아키텍처 선택과 MENTOR의 사용이 공정하고 편향되지 않은 대규모 모델 학습에 이점을 준다는 것을 보여줍니다. 마지막으로 비디오 편집 및 개인화에서의 응용 사례를 제시합니다.
인간은 모방과 사회적 상호작용을 통해 사회적 기술을 학습합니다. 이러한 사회적 학습 과정은 기존의 언어 에이전트 구축 연구에서 크게 간과되어 왔습니다. 이러한 격차를 해소하고자, 우리는 언어 에이전트의 사회적 지능을 향상시키는 상호작용적 학습 방법인 SOTOPIA-pi를 제안합니다. 이 방법은 대규모 언어 모델(LLM) 평가에 따라 필터링된 사회적 상호작용 데이터에 대한 행동 복제와 자기 강화 학습을 활용합니다. 우리는 이 학습 방법이 7B LLM이 전문가 모델(GPT-4 기반 에이전트)의 사회적 목표 달성 능력에 도달하도록 하면서도, 언어 에이전트의 안전성을 향상시키고 MMLU 벤치마크에서의 일반적인 질의응답 능력을 유지함을 보여줍니다. 또한, 이 학습 패러다임이 사회적 지능 평가에 있어 LLM 기반 평가의 어려움을 드러낸다는 점을 발견했습니다: LLM 기반 평가자는 사회적 상호작용을 위해 특별히 훈련된 언어 에이전트의 능력을 과대평가하는 경향이 있습니다.
파운데이션 모델은 강력한 기술입니다: 이들이 공개적으로 출시되는 방식은 그들의 사회적 영향력을 직접적으로 형성합니다. 본 입장 문서에서 우리는 개방형 파운데이션 모델에 초점을 맞추며, 여기서는 모델 가중치가 광범위하게 공개된 모델(예: Llama 2, Stable Diffusion XL)로 정의합니다. 우리는 개방형 파운데이션 모델의 장점과 위험을 초래하는 다섯 가지 독특한 특성(예: 더 큰 맞춤화 가능성, 약한 모니터링)을 식별합니다. 개방형 파운데이션 모델은 혁신, 경쟁, 의사결정 권력의 분배, 투명성에 걸쳐 상당한 이점을 제공하지만 몇 가지 주의 사항도 있습니다. 오용 위험을 이해하기 위해 우리는 이들의 한계 위험을 분석하기 위한 위험 평가 프레임워크를 설계합니다. 여러 오용 벡터(예: 사이버 공격, 생물무기)에 걸쳐, 우리는 현재 연구가 기존 기술에 비해 개방형 파운데이션 모델의 한계 위험을 효과적으로 특정하기에는 불충분하다는 것을 발견합니다. 이 프레임워크는 왜 일부 경우에 한계 위험이 낮은지를 설명하는 데 도움을 주며, 과거 연구가 서로 다른 가정과 프레임워크의 서로 다른 부분에 초점을 맞추어 왔음을 밝힘으로써 오용 위험에 대한 논쟁을 명확히 하고, 더 건설적인 논의를 위한 방향을 제시합니다. 전반적으로, 우리의 작업은 개방형 파운데이션 모델의 이론적 이점과 위험을 실증적으로 검증하기 위해 필요한 연구를 개괄함으로써, 이들의 사회적 영향력에 대한 더 근거 있는 평가를 지원하는 데 기여합니다.
데이터 부족과 고급 모션 합성의 과제에 직면한 인간-장면 상호작용 모델링 분야에서, 우리는 TRUMANS 데이터셋과 함께 새로운 HSI(Human-Scene Interaction) 모션 합성 방법을 소개합니다. TRUMANS은 현재 가장 포괄적인 모션 캡처 HSI 데이터셋으로, 100개의 실내 장면에서 15시간 이상의 인간 상호작용을 포함하고 있습니다. 이 데이터셋은 전신 인간 동작과 부분 수준의 물체 역학을 세밀하게 캡처하며, 접촉의 현실감에 초점을 맞춥니다. 또한, 물리적 환경을 정확한 가상 모델로 변환하고 인간과 물체 모두에 대해 외관과 동작의 광범위한 증강을 적용하면서 상호작용 충실도를 유지하여 데이터셋을 확장했습니다. TRUMANS을 활용하여, 우리는 장면 맥락과 의도된 행동을 모두 고려하여 임의의 길이의 HSI 시퀀스를 효율적으로 생성하는 확산 기반 자기회귀 모델을 설계했습니다. 실험에서 우리의 접근 방식은 다양한 3D 장면 데이터셋(예: PROX, Replica, ScanNet, ScanNet++)에서 뛰어난 제로샷 일반화 능력을 보여주며, 정량적 실험과 인간 평가를 통해 원본 모션 캡처 시퀀스와 매우 유사한 모션을 생성함을 확인했습니다.
스케일링 법칙은 언어 모델 개발에 유용한 지침이지만, 현재의 스케일링 연구와 언어 모델의 최종 학습 및 평가 방식 사이에는 여전히 간극이 존재합니다. 예를 들어, 스케일링은 일반적으로 컴퓨팅 최적의 학습 체제(즉, "친칠라 최적" 체제)에서 연구되지만, 실제로는 추론 비용을 줄이기 위해 모델을 과도하게 학습시키는 경우가 많습니다. 또한, 스케일링 법칙은 주로 다음 토큰 예측의 손실을 예측하지만, 궁극적으로 모델은 다운스트림 작업 성능을 기준으로 비교됩니다. 본 논문에서는 이러한 두 가지 단점을 해결하고자 합니다. 이를 위해, 우리는 0.011B에서 6.9B 파라미터를 가진 104개의 모델을 다양한 토큰 수로 세 가지 데이터 분포에서 학습시킨 테스트베드를 구축했습니다. 먼저, 과도 학습 체제에서의 스케일링을 조사합니다. 모델 파라미터 수와 학습 토큰 대 파라미터 비율 모두에서 외삽할 수 있는 스케일링 법칙을 적합시킵니다. 이를 통해 1.4B 파라미터, 900B 토큰 실행(즉, 32배 과도 학습)과 6.9B 파라미터, 138B 토큰 실행의 검증 손실을 예측할 수 있습니다. 각각의 실험은 300배 적은 컴퓨팅 자원으로 수행됩니다. 둘째, 언어 모델의 퍼플렉서티를 다운스트림 작업 성능과 관련짓는 멱법칙을 사용합니다. 이 법칙을 통해 앞서 언급한 두 모델의 다운스트림 작업 평균 상위 1 오류를 예측하며, 이 실험은 20배 적은 컴퓨팅 자원으로 수행됩니다. 우리의 실험은 https://github.com/mlfoundations/scaling에서 확인할 수 있습니다.
이미지-투-비디오 생성 분야에서 최근의 발전에도 불구하고, 더 나은 제어 가능성과 지역적 애니메이션은 상대적으로 덜 탐구된 영역입니다. 대부분의 기존 이미지-투-비디오 방법은 지역적 인식이 부족하며 전체 장면을 움직이는 경향이 있습니다. 그러나 인간 아티스트들은 다양한 객체나 영역의 움직임을 제어해야 할 필요가 있습니다. 또한, 현재의 I2V(Image-to-Video) 방법들은 사용자에게 목표 동작을 설명할 뿐만 아니라 프레임 내용의 불필요한 세부 사항까지 제공하도록 요구합니다. 이러한 두 가지 문제는 현재 I2V 도구의 실용적 활용을 방해합니다. 본 논문에서는 간단한 사용자 클릭(무엇을 움직일지 지정)과 짧은 동작 프롬프트(어떻게 움직일지 지정)를 통해 이미지 애니메이션을 달성하기 위한 실용적인 프레임워크인 Follow-Your-Click을 제안합니다. 기술적으로, 우리는 비디오 생성 품질을 크게 향상시키는 첫 프레임 마스킹 전략과 짧은 동작 프롬프트 데이터셋을 갖춘 동작 증강 모듈을 제안하여 모델의 짧은 프롬프트 추적 능력을 개선합니다. 또한, 움직임 속도를 더 정밀하게 제어하기 위해 흐름 기반 동작 크기 제어를 제안합니다. 우리의 프레임워크는 이전 방법들보다 더 간단하면서도 정확한 사용자 제어와 더 나은 생성 성능을 제공합니다. 상업적 도구와 연구 방법을 포함한 7개의 베이스라인과 8개의 메트릭을 비교한 광범위한 실험을 통해 우리의 접근 방식의 우수성을 입증합니다. 프로젝트 페이지: https://follow-your-click.github.io/
암시적 신경 표현(Implicit Neural Representations, INRs)은 최근 이미지 표현 및 압축 분야에서 큰 성과를 거두며, 충분한 GPU 자원이 가정될 경우 10-1000 FPS의 빠른 렌더링 속도와 높은 시각적 품질을 제공해 왔습니다. 그러나 이러한 요구 사항은 메모리가 제한된 저사양 기기에서의 사용을 어렵게 하는 경우가 많습니다. 이에 대응하여, 우리는 2D 가우시안 스플래팅(Gaussian Splatting)을 기반으로 한 혁신적인 이미지 표현 및 압축 패러다임인 GaussianImage를 제안합니다. 먼저, 이미지를 표현하기 위해 2D 가우시안을 도입하며, 각 가우시안은 위치, 공분산 및 색상을 포함한 8개의 파라미터를 갖습니다. 이후, 누적 합산(accumulated summation)을 기반으로 한 새로운 렌더링 알고리즘을 공개합니다. 특히, 우리의 방법은 GPU 메모리 사용량을 최소 3배 줄이고, 피팅 시간을 5배 단축시키면서도 WIRE, I-NGP와 같은 INRs의 표현 성능에 필적할 뿐만 아니라, 파라미터 크기에 관계없이 1500-2000 FPS의 더 빠른 렌더링 속도를 제공합니다. 더 나아가, 기존의 벡터 양자화(vector quantization) 기술을 통합하여 이미지 코덱을 구축했습니다. 실험 결과, 우리의 코덱은 COIN 및 COIN++와 같은 압축 기반 INRs와 비슷한 비율-왜곡(rate-distortion) 성능을 달성하면서도 약 1000 FPS의 디코딩 속도를 가능하게 합니다. 또한, 예비 개념 증명(preliminary proof of concept)에서는 부분 비트백 코딩(partial bits-back coding)을 사용할 때 우리의 코덱이 COIN 및 COIN++를 능가하는 성능을 보여줍니다.