번역이 포함된 일일 선별된 AI 연구 논문
최근 BitNet과 같은 연구는 1비트 대형 언어 모델(LLM)의 새로운 시대를 열어가고 있다. 본 연구에서는 LLM의 모든 매개변수(또는 가중치)가 삼항값 {-1, 0, 1}을 가지는 1비트 LLM 변형인 BitNet b1.58을 소개한다. 이 모델은 동일한 모델 크기와 학습 토큰을 사용한 전체 정밀도(즉, FP16 또는 BF16) Transformer LLM과 perplexity 및 최종 작업 성능 측면에서 동등한 성능을 보이면서도, 지연 시간, 메모리, 처리량 및 에너지 소비 측면에서 훨씬 더 경제적이다. 더욱 근본적으로, 1.58비트 LLM은 고성능이면서도 비용 효율적인 차세대 LLM을 훈련하기 위한 새로운 스케일링 법칙과 방법론을 정의한다. 또한, 이는 새로운 계산 패러다임을 가능하게 하며, 1비트 LLM에 최적화된 특수 하드웨어 설계의 문을 열어준다.
본 연구에서는 오디오 신호와 얼굴 움직임 간의 역동적이고 미묘한 관계에 초점을 맞춰, 말하는 머리(talking head) 비디오 생성의 사실성과 표현력을 향상시키는 과제를 다룹니다. 우리는 기존 기술이 인간의 다양한 표정 전체와 개인의 독특한 얼굴 스타일을 충분히 포착하지 못하는 한계를 확인했습니다. 이러한 문제를 해결하기 위해, 중간 단계의 3D 모델이나 얼굴 랜드마크를 거치지 않고 직접 오디오에서 비디오로 합성하는 새로운 프레임워크인 EMO를 제안합니다. 우리의 방법은 비디오 전반에 걸쳐 원활한 프레임 전환과 일관된 정체성 유지를 보장하여, 매우 표현력 있고 생생한 애니메이션을 생성합니다. 실험 결과, EMO는 설득력 있는 말하기 비디오뿐만 아니라 다양한 스타일의 노래 비디오도 생성할 수 있으며, 표현력과 사실성 측면에서 기존의 최신 방법론들을 크게 능가하는 것으로 나타났습니다.
Sora는 OpenAI가 2024년 2월에 공개한 텍스트-투-비디오 생성형 AI 모델입니다. 이 모델은 텍스트 지시를 통해 현실적이거나 상상력이 풍부한 장면의 비디오를 생성하도록 훈련되었으며, 물리적 세계를 시뮬레이션하는 데 있어 잠재력을 보여줍니다. 본 논문은 공개된 기술 보고서와 리버스 엔지니어링을 바탕으로, 이 모델의 배경, 관련 기술, 응용 분야, 남아 있는 과제, 그리고 텍스트-투-비디오 AI 모델의 미래 방향에 대한 포괄적인 리뷰를 제공합니다. 먼저, Sora의 개발 과정을 추적하고 이 "세계 시뮬레이터"를 구축하는 데 사용된 기반 기술을 조사합니다. 그런 다음, 영화 제작과 교육부터 마케팅에 이르기까지 다양한 산업에서의 Sora의 응용 분야와 잠재적 영향에 대해 상세히 설명합니다. 또한, Sora를 광범위하게 배포하기 위해 해결해야 할 주요 과제와 한계, 예를 들어 안전하고 편향되지 않은 비디오 생성을 보장하는 문제 등을 논의합니다. 마지막으로, Sora와 비디오 생성 모델의 미래 발전 방향과 이 분야의 진보가 어떻게 인간-AI 상호작용의 새로운 방식을 가능하게 하여 비디오 생성의 생산성과 창의성을 증진시킬 수 있는지에 대해 논의합니다.
수십 년 동안 인간-컴퓨터 상호작용은 근본적으로 수동적이었습니다. 오늘날에도 컴퓨터에서 이루어지는 거의 모든 생산적인 작업은 각 단계마다 인간의 입력을 필요로 합니다. 자율적인 가상 에이전트는 이러한 단순 작업들을 자동화하는 데 있어 흥미로운 진전을 나타냅니다. 가상 에이전트는 기술적 숙련도가 낮은 사용자들도 컴퓨터 시스템의 모든 가능성을 활용할 수 있도록 돕습니다. 또한 캘린더 관리부터 복잡한 여행 예약에 이르기까지 다양한 컴퓨터 작업을 최소한의 인간 개입으로 효율적으로 간소화할 수 있습니다. 본 논문에서는 컴퓨터 작업을 수행하기 위해 실행 가능한 프로그램을 생성하는 에이전트의 능력을 평가하기 위한 최초의 데이터셋 및 벤치마크인 OmniACT를 소개합니다. 우리의 범위는 전통적인 웹 자동화를 넘어 다양한 데스크톱 애플리케이션을 포괄합니다. 이 데이터셋은 "다음 곡 재생"과 같은 기본 작업부터 "John Doe에게 만날 시간과 장소를 언급한 이메일 보내기"와 같은 장기적 작업으로 구성됩니다. 구체적으로, 화면 이미지와 시각적으로 기반을 둔 자연어 작업 쌍이 주어졌을 때, 작업을 완전히 실행할 수 있는 스크립트를 생성하는 것이 목표입니다. 우리는 벤치마크에서 여러 강력한 언어 모델 에이전트를 실행했습니다. 가장 강력한 베이스라인인 GPT-4는 우리의 벤치마크에서 가장 좋은 성능을 보였지만, 작업을 완료할 수 있는 실행 가능한 스크립트 생성에서 인간의 숙련도에 비해 여전히 15%에 불과한 성능을 보여, 기존 웹 에이전트에게 우리의 작업이 얼마나 도전적인지를 입증했습니다. 우리의 벤치마크는 컴퓨터 작업 자동화에서 언어 모델 에이전트의 진전을 측정하고 평가할 수 있는 플랫폼을 제공하며, 대규모 언어 모델과 컴퓨터 화면의 시각적 기반을 연결하는 다중 모드 모델 구축을 위한 미래 연구를 촉진합니다.
대규모 언어 모델(LLM)은 일반적으로 다운스트림 애플리케이션에서의 능력을 발휘하기 위해 파인튜닝을 채택하지만, 다양한 파인튜닝 방법의 귀납적 편향(특히 스케일링 특성)에 대한 우리의 이해는 여전히 제한적입니다. 이러한 격차를 메우기 위해, 우리는 LLM 모델 크기, 사전 학습 데이터 크기, 새로운 파인튜닝 파라미터 크기 및 파인튜닝 데이터 크기를 포함한 다양한 스케일링 요소가 파인튜닝 성능에 어떻게 영향을 미치는지 체계적인 실험을 수행했습니다. 우리는 전체 모델 튜닝(FMT)과 파라미터 효율적 튜닝(PET, 프롬프트 튜닝 및 LoRA 포함) 두 가지 유형의 파인튜닝을 고려하고, LLM 모델 크기가 파인튜닝 데이터 크기를 크게 초과하는 데이터 제한 환경에서의 스케일링 동작을 탐구했습니다. 1B에서 16B까지의 사전 학습된 이중 언어 LLM 두 세트와 이중 언어 기계 번역 및 다국어 요약 벤치마크에 대한 실험을 바탕으로, 우리는 1) LLM 파인튜닝은 파인튜닝 데이터 크기와 각 다른 스케일링 요소 간의 거듭제곱 기반의 곱셈적 결합 스케일링 법칙을 따르며, 2) LLM 파인튜닝은 사전 학습 데이터 스케일링보다 LLM 모델 스케일링에서 더 큰 이점을 얻으며, PET 파라미터 스케일링은 일반적으로 효과적이지 않다는 것, 그리고 3) 최적의 파인튜닝 방법은 과제 및 파인튜닝 데이터에 크게 의존한다는 것을 발견했습니다. 우리의 연구 결과가 LLM 파인튜닝 방법을 이해, 선택 및 개발하는 데 도움이 되기를 바랍니다.
대규모 언어 모델(LLMs)의 입력 토큰 수가 사전 학습 길이를 초과할 경우, 텍스트 처리 및 생성 능력이 현저히 약화됩니다. 긴 시퀀스로 대규모 모델을 미세 조정하는 데 드는 비용이 크다는 점을 고려하여, 우리는 Dual Chunk Attention(DCA)을 제안합니다. DCA는 Llama2 70B가 지속적인 학습 없이도 100k 토큰 이상의 컨텍스트 윈도우를 지원할 수 있게 합니다. DCA는 긴 시퀀스에 대한 어텐션 계산을 청크 기반 모듈로 분해함으로써, 동일한 청크 내 토큰 간의 상대적 위치 정보(Intra-Chunk)와 서로 다른 청크 간의 상대적 위치 정보(Inter-Chunk)를 효과적으로 포착하며, Flash Attention과도 원활하게 통합됩니다. DCA는 놀라운 외삽 능력 외에도, 실제 장문 컨텍스트 작업에서 미세 조정된 모델과 비슷하거나 더 나은 성능을 달성합니다. 독점 모델과 비교했을 때, 우리의 학습이 필요 없는 70B 모델은 gpt-3.5-16k의 성능의 94%를 달성하며, 이는 DCA가 실용적인 오픈소스 대안임을 보여줍니다. 이 연구에서 사용된 모든 코드와 데이터는 https://github.com/HKUNLP/ChunkLlama에서 공개되었습니다.
주제 기반 텍스트-이미지(T2I) 생성 모델 분야에서, DreamBooth와 BLIP-Diffusion과 같은 최근의 발전은 인상적인 결과를 도출했지만, 집중적인 미세 조정 요구 사항과 상당한 매개변수 요구로 인해 한계에 직면해 있습니다. DreamBooth 내의 저순위 적응(LoRA) 모듈은 학습 가능한 매개변수를 줄여주지만, 하이퍼파라미터에 대한 뚜렷한 민감도를 초래하여 매개변수 효율성과 T2I 개인화 이미지 합성 품질 사이의 타협을 가져옵니다. 이러한 제약을 해결하기 위해, 우리는 \textit{DiffuseKronA}를 소개합니다. 이는 크로네커 곱 기반의 새로운 적응 모듈로, LoRA-DreamBooth와 원본 DreamBooth에 비해 각각 35%와 99.947%의 매개변수 감소를 달성할 뿐만 아니라 이미지 합성 품질도 향상시킵니다. 특히, DiffuseKronA는 하이퍼파라미터 민감도 문제를 완화하여 광범위한 하이퍼파라미터 범위에서 일관된 고품질 생성을 제공함으로써, 광범위한 미세 조정의 필요성을 줄입니다. 더 나아가, 더 제어 가능한 분해는 DiffuseKronA를 더 해석 가능하게 만들며, LoRA-DreamBooth와 비슷한 결과를 내면서도 최대 50%의 감소를 달성할 수 있습니다. 다양한 복잡한 입력 이미지와 텍스트 프롬프트에 대해 평가한 결과, DiffuseKronA는 기존 모델을 지속적으로 능가하며, 개선된 충실도와 더 정확한 객체 색상 분포를 가진 더 높은 품질의 다양한 이미지를 생성하면서도 탁월한 매개변수 효율성을 유지합니다. 이는 T2I 생성 모델링 분야에서 상당한 진전을 나타냅니다. 우리의 프로젝트 페이지는 코드와 사전 훈련된 체크포인트에 대한 링크를 포함하며, https://diffusekrona.github.io/{https://diffusekrona.github.io/}에서 확인할 수 있습니다.
텍스트와 비디오 데이터는 인터넷 상에 풍부하게 존재하며, 다음 토큰 또는 프레임 예측을 통해 대규모 자기 지도 학습을 지원합니다. 그러나 이들은 동등하게 활용되지는 않았습니다: 언어 모델은 현실 세계에서 상당한 영향을 미친 반면, 비디오 생성은 주로 미디어 엔터테인먼트에 국한되어 왔습니다. 그러나 비디오 데이터는 언어로 표현하기 어려운 물리적 세계에 대한 중요한 정보를 담고 있습니다. 이러한 격차를 해소하기 위해, 우리는 비디오 생성을 현실 세계의 문제 해결로 확장할 수 있는 잠재력을 논의합니다. 우리는 언어와 유사하게 비디오가 인터넷 지식을 흡수하고 다양한 작업을 표현할 수 있는 통합 인터페이스로 기능할 수 있음을 관찰합니다. 더 나아가, 우리는 언어 모델과 마찬가지로 비디오 생성이 컨텍스트 내 학습, 계획 및 강화 학습과 같은 기술을 통해 플래너, 에이전트, 컴퓨팅 엔진 및 환경 시뮬레이터로 기능할 수 있음을 보여줍니다. 우리는 로보틱스, 자율 주행, 과학과 같은 분야에서 주요 영향 기회를 식별하며, 이러한 고급 비디오 생성 능력이 실현 가능하다는 최근 연구를 근거로 합니다. 마지막으로, 우리는 비디오 생성의 주요 도전 과제를 식별합니다. 이러한 도전 과제를 해결함으로써 비디오 생성 모델은 언어 모델과 함께 더 넓은 범위의 AI 애플리케이션에서 독보적인 가치를 입증할 수 있을 것입니다.
기존의 장기 오픈 도메인 대화 연구는 대체로 5회 이내의 채팅 세션에서 모델 응답을 평가하는 데 초점을 맞추고 있다. 장기 문맥 대형 언어 모델(LLM) 및 검색 증강 생성(RAG) 기술의 발전에도 불구하고, 이러한 기술이 매우 장기적인 대화에서의 효용성은 아직 탐구되지 않았다. 이러한 연구 격차를 해결하기 위해, 우리는 LLM 기반 에이전트 아키텍처를 활용하고, 그들의 대화를 페르소나와 시간적 이벤트 그래프에 기반하여 구축하는 기계-인간 파이프라인을 도입하였다. 또한, 각 에이전트가 이미지를 공유하고 반응할 수 있는 능력을 갖추도록 하였다. 생성된 대화는 인간 주석자에 의해 장기적 일관성과 이벤트 그래프에 대한 근거를 검증 및 편집되었다. 이 파이프라인을 사용하여, 우리는 각각 평균 300턴과 9K 토큰을 포함하며 최대 35회의 세션에 걸친 매우 장기적인 대화 데이터셋인 LoCoMo를 수집하였다. LoCoMo를 기반으로, 우리는 질문 응답, 이벤트 요약, 다중 모달 대화 생성 작업을 포함한 모델의 장기 기억을 측정하기 위한 포괄적인 평가 벤치마크를 제시한다. 우리의 실험 결과는 LLM이 긴 대화를 이해하고 대화 내 장기적인 시간적 및 인과적 역학을 이해하는 데 어려움을 겪는다는 것을 나타낸다. 장기 문맥 LLM이나 RAG와 같은 전략을 사용하면 개선이 가능하지만, 이러한 모델들은 여전히 인간의 성능에 크게 뒤처진다.
본 연구는 언어 모델(Language Models, LMs)의 학습을 개선하는 일반적인 원리를 탐구하며, 이를 통해 우수한 성능을 달성하기 위해 필요한 학습 단계를 줄이는 것을 목표로 합니다. 구체적으로, 우리는 언어 모델의 최적 학습을 위한 이론을 제시합니다. 먼저, "손실 없는 압축으로서의 언어 모델 학습"이라는 관점에서 데이터 압축 비율을 최대화함으로써 언어 모델 학습을 최적화하는 목적 함수를 제안합니다. 그런 다음, 우리의 목적 함수 하에서 최적 학습 과정의 동역학적 특성을 밝히는 '학습 법칙(Learning Law)'이라는 정리를 유도합니다. 이 정리는 선형 분류 작업과 실제 언어 모델링 작업에 대한 실험을 통해 검증됩니다. 마지막으로, 언어 모델의 최적 학습이 근본적으로 스케일링 법칙(Scaling Law)의 계수 개선에서 비롯됨을 실증적으로 확인하며, 이는 실용적인 학습 가속 방법 설계에 있어 큰 가능성과 중요성을 시사합니다. 우리의 코드는 https://aka.ms/LearningLaw에서 확인할 수 있습니다.
최근 개발된 Sora 모델[1]은 비디오 생성 분야에서 뛰어난 능력을 보여주며, 현실 세계 현상을 시뮬레이션할 수 있는 가능성에 대해 활발한 논의를 촉발시켰습니다. 그러나 그 인기가 높아짐에도 불구하고, 생성된 비디오가 현실 세계의 물리 법칙을 얼마나 충실히 따르는지를 정량적으로 평가할 수 있는 확립된 지표가 부족한 상황입니다. 본 논문에서는 현실 세계의 물리 법칙 준수 여부를 기준으로 생성된 비디오의 품질을 평가하는 새로운 벤치마크를 소개합니다. 우리는 생성된 비디오를 3D 모델로 변환하는 방법을 사용하며, 3D 재구성의 정확도가 비디오 품질에 크게 의존한다는 전제를 활용합니다. 3D 재구성 관점에서, 우리는 구성된 3D 모델이 만족하는 기하학적 제약의 충실도를 통해 생성된 비디오가 현실 세계 물리 법칙을 얼마나 준수하는지를 간접적으로 측정합니다. 프로젝트 페이지: https://sora-geometrical-consistency.github.io/
비디오 및 오디오 콘텐츠 제작은 영화 산업과 전문 사용자들을 위한 핵심 기술로 자리 잡고 있다. 최근 기존의 확산 기반 방법들은 비디오와 오디오 생성을 별도로 다루어, 학계에서 산업으로의 기술 이전을 방해하고 있다. 본 연구에서는 이러한 격차를 메우기 위해, 교차 시각-오디오 및 통합 시각-오디오 생성을 위한 신중하게 설계된 최적화 기반 프레임워크를 제안한다. 우리는 기존의 비디오 또는 오디오 생성 모델들의 강력한 생성 능력을 관찰하였다. 따라서 대규모 모델을 처음부터 학습시키는 대신, 기존의 강력한 모델들을 공유된 잠재 표현 공간으로 연결하는 방식을 제안한다. 구체적으로, 우리는 사전 학습된 ImageBind 모델을 활용한 다중 모달리티 잠재 정렬기를 제안한다. 우리의 잠재 정렬기는 추론 과정에서 확산 노이즈 제거 과정을 안내하는 분류기 지도와 유사한 핵심을 공유한다. 신중하게 설계된 최적화 전략과 손실 함수를 통해, 우리는 통합 비디오-오디오 생성, 시각 주도 오디오 생성, 오디오 주도 시각 생성 작업에서 우리 방법의 우수한 성능을 입증한다. 프로젝트 웹사이트는 https://yzxing87.github.io/Seeing-and-Hearing/에서 확인할 수 있다.
본 연구에서는 텍스트-이미지 생성 모델에서 최첨단 미적 품질을 달성하기 위한 세 가지 통찰을 공유합니다. 우리는 모델 개선을 위한 세 가지 핵심 요소에 집중했습니다: 색상과 대비 향상, 다양한 종횡비에서의 생성 품질 개선, 그리고 인간 중심의 세부 사항 개선입니다. 먼저, 확산 모델(diffusion model) 훈련에서 노이즈 스케줄(noise schedule)의 중요성을 탐구하며, 이가 사실성과 시각적 충실도에 미치는 깊은 영향을 입증했습니다. 둘째, 다양한 종횡비를 수용하는 이미지 생성의 도전 과제를 다루며, 균형 잡힌 버킷 데이터셋(bucketed dataset) 준비의 중요성을 강조했습니다. 마지막으로, 모델 출력을 인간의 선호도와 일치시키는 데 있어서의 결정적 역할을 조사하여, 생성된 이미지가 인간의 지각적 기대와 조화를 이루도록 했습니다. 광범위한 분석과 실험을 통해, Playground v2.5는 다양한 조건과 종횡비에서 최첨단 미적 품질을 보여주며, SDXL 및 Playground v2와 같은 널리 사용되는 오픈소스 모델과 DALLE 3 및 Midjourney v5.2와 같은 클로즈드소스 상용 시스템을 능가하는 성능을 입증했습니다. 우리의 모델은 오픈소스이며, Playground v2.5의 개발이 확산 기반 이미지 생성 모델의 미적 품질을 높이려는 연구자들에게 유용한 가이드라인을 제공하기를 바랍니다.
우리는 3D 장면을 구성 요소 객체들로 분리하여 생성하는 방법을 소개합니다. 이 분리 과정은 비지도 학습 방식으로, 대규모 사전 학습된 텍스트-이미지 모델의 지식에만 의존합니다. 우리의 핵심 통찰은, 3D 장면의 일부를 공간적으로 재배치했을 때 동일한 장면의 유효한 구성이 여전히 생성될 수 있는 부분을 찾음으로써 객체를 발견할 수 있다는 것입니다. 구체적으로, 우리의 방법은 각각 자신만의 객체를 나타내는 여러 NeRF를 처음부터 함께 최적화하고, 이러한 객체들을 장면으로 합성하는 레이아웃 세트를 함께 최적화합니다. 그런 다음, 이러한 합성된 장면이 이미지 생성기에 따라 분포 내에 있도록 유도합니다. 우리는 이 방법이 단순함에도 불구하고, 3D 장면을 개별 객체들로 분해하여 성공적으로 생성하며, 텍스트-3D 콘텐츠 생성에서 새로운 가능성을 열어준다는 것을 보여줍니다. 결과와 인터랙티브 데모는 프로젝트 페이지(https://dave.ml/layoutlearning/)에서 확인할 수 있습니다.
대규모 장면 재구성을 위한 기존의 NeRF 기반 방법들은 시각적 품질과 렌더링 속도에서 한계를 보여왔다. 최근의 3D Gaussian Splatting은 소규모 및 객체 중심 장면에서 잘 작동하지만, 이를 대규모 장면으로 확장할 경우 제한된 비디오 메모리, 긴 최적화 시간, 그리고 두드러지는 외관 변화로 인해 어려움이 발생한다. 이러한 문제를 해결하기 위해, 우리는 3D Gaussian Splatting을 기반으로 대규모 장면에서 고품질 재구성과 실시간 렌더링을 가능하게 하는 첫 번째 방법인 VastGaussian을 제안한다. 우리는 대규모 장면을 여러 셀로 나누기 위한 점진적 분할 전략을 제안하며, 여기서 훈련 카메라와 포인트 클라우드는 공역 인지 가시성 기준에 따라 적절히 분배된다. 이러한 셀들은 병렬 최적화 후 완전한 장면으로 통합된다. 또한, 우리는 렌더링된 이미지에서 외관 변화를 줄이기 위해 최적화 과정에 분리된 외관 모델링을 도입한다. 우리의 접근 방식은 기존의 NeRF 기반 방법들을 능가하며, 여러 대규모 장면 데이터셋에서 최첨단 결과를 달성함으로써 빠른 최적화와 고품질 실시간 렌더링을 가능하게 한다.