번역이 포함된 일일 선별된 AI 연구 논문
일관성 모델(Consistency Model, CM)은 최근 확산 모델의 생성 속도를 가속화하는 데 있어 상당한 진전을 이루었습니다. 그러나 잠재 공간에서의 고해상도 텍스트 조건부 이미지 생성(일명 LCM)에의 적용은 여전히 만족스럽지 못한 상황입니다. 본 논문에서는 현재 LCM 설계의 세 가지 주요 결함을 식별하고, 이러한 한계의 원인을 조사하며, 설계 공간을 일반화하고 모든 식별된 한계를 해결하는 단계적 일관성 모델(Phased Consistency Model, PCM)을 제안합니다. 우리의 평가 결과, PCM은 1~16단계 생성 설정에서 LCM을 크게 능가하는 성능을 보여줍니다. PCM은 다단계 정제를 위해 특별히 설계되었지만, 이전의 최첨단 1단계 생성 방법들과 비교해도 우수하거나 비슷한 1단계 생성 결과를 달성합니다. 더 나아가, PCM의 방법론은 비디오 생성에도 적용 가능하며, 이를 통해 최첨단의 소수 단계 텍스트-투-비디오 생성기를 학습할 수 있음을 보여줍니다. 자세한 내용은 https://g-u-n.github.io/projects/pcm/에서 확인할 수 있습니다.
딥 뉴럴 네트워크(DNN)의 크기와 복잡성이 증가함에 따라, 단일 가속기의 메모리 용량을 초과하는 경우가 많아져 모델 파라미터를 여러 가속기에 분할(sharding)해야 하는 상황이 발생합니다. 파이프라인 병렬화는 대규모 DNN을 학습하기 위해 일반적으로 사용되는 분할 전략입니다. 그러나 현재의 파이프라인 병렬화 구현은 머신러닝 프레임워크에서 제공하는 자동 미분 도구에 의해 의도치 않게 병목 현상이 발생하고 있습니다. 본 논문에서는 2단계 역전파(2BP)를 소개합니다. 역전파 단계를 두 개의 별도 단계로 분리함으로써, 유휴 계산 시간을 줄일 수 있습니다. 다양한 모델 아키텍처와 파이프라인 스케줄에 대해 2BP를 테스트한 결과, 모든 경우에서 처리량(throughput)이 증가하였습니다. 2BP를 사용하여 4개의 GPU에 걸쳐 70억 개의 파라미터를 가진 LLaMa와 유사한 트랜스포머 모델을 학습할 때, 기존 방법 대비 1.70배의 처리량 증가를 달성할 수 있었습니다.
텍스트를 사용하여 음악을 수정(예: 스타일 변경 또는 악기 구성 요소 조정)하는 텍스트-투-뮤직 편집 분야의 최근 발전은 AI 지원 음악 창작에 있어 독특한 도전과 기회를 제공합니다. 이 분야의 기존 접근 방식은 특정 편집 모델을 처음부터 학습시켜야 하는 필요성에 의해 제약을 받아왔는데, 이는 자원 집약적이고 비효율적입니다. 다른 연구에서는 대형 언어 모델을 사용하여 편집된 음악을 예측하지만, 정확하지 않은 오디오 재구성이 이루어집니다. 이러한 강점을 결합하고 한계를 해결하기 위해, 우리는 사전 학습된 MusicGen 모델을 미세 조정하여 스템(stem) 추가, 제거 또는 분리와 같은 편집 지시를 효율적으로 따르는 새로운 접근 방식인 Instruct-MusicGen을 소개합니다. 우리의 접근 방식은 원래의 MusicGen 아키텍처를 수정하여 텍스트 융합 모듈과 오디오 융합 모듈을 통합함으로써, 모델이 지시 텍스트와 오디오 입력을 동시에 처리하고 원하는 편집된 음악을 생성할 수 있도록 합니다. 주목할 만한 점은, Instruct-MusicGen이 원래의 MusicGen 모델에 단 8%의 새로운 파라미터만 추가하고 5,000단계만 학습했음에도 불구하고, 모든 작업에서 기존 베이스라인을 능가하며 특정 작업을 위해 학습된 모델과 비슷한 성능을 보인다는 것입니다. 이 발전은 텍스트-투-뮤직 편집의 효율성을 향상시킬 뿐만 아니라, 동적 음악 제작 환경에서 음악 언어 모델의 적용 가능성을 확대합니다.
Yuan 2.0-M32는 Yuan-2.0 2B와 유사한 기본 아키텍처를 사용하며, 32개의 전문가 중 2개의 전문가가 활성화되는 혼합 전문가(MoE) 아키텍처를 채택했습니다. 더 효율적인 전문가 선택을 위해 새로운 라우터 네트워크인 Attention Router가 제안 및 도입되었으며, 이는 기존의 클래식 라우터 네트워크를 사용한 모델 대비 3.8%의 정확도 향상을 이끌어냈습니다. Yuan 2.0-M32는 처음부터 2000B 토큰으로 학습되었으며, 동일한 파라미터 규모의 조밀한(dense) 모델 대비 학습 계산 소모량이 단 9.25%에 불과합니다. Yuan 2.0-M32는 총 40B 파라미터 중 3.7B의 활성 파라미터와 토큰당 7.4 GFlops의 순방향 계산량으로 코딩, 수학 및 다양한 전문 분야에서 경쟁력 있는 성능을 보여주며, 이는 Llama3-70B 대비 각각 1/19 수준입니다. Yuan 2.0-M32는 MATH 및 ARC-Challenge 벤치마크에서 Llama3-70B를 능가하며, 각각 55.89 및 95.8의 정확도를 기록했습니다. Yuan 2.0-M32의 모델 및 소스 코드는 Github에 공개되었습니다.
현대의 대규모 언어 모델(LLM)은 자연어 처리, 복잡한 추론, 감정 분석 등의 과제를 해결하는 데 있어 탁월한 능력을 보여주며, 이로 인해 광범위하게 채택되고 있습니다. 그러나 이러한 능력은 매우 높은 메모리와 계산 비용을 수반하기 때문에 대부분의 하드웨어 플랫폼에서 LLM을 사용하는 데 제약이 있습니다. 이를 완화하기 위해, 우리는 LLaMA2-7B를 기반으로 한 원샷 NAS(Neural Architecture Search)를 통해 파레토 최적의 네트워크 아키텍처를 찾는 효과적인 방법을 제안합니다. 구체적으로, LLaMA2-7B를 한 번만 미세 조정한 후 유전 알고리즘 기반 탐색을 적용하여 더 작고 계산 복잡도가 낮은 네트워크 아키텍처를 찾습니다. 우리는 특정 표준 벤치마크 과제에 대해 사전 훈련된 LLaMA2-7B 네트워크가 불필요하게 크고 복잡하다는 것을 보여줍니다. 더 구체적으로, 특정 과제에서 정확도 저하를 거의 없이 모델 크기를 1.5배 줄이고 처리 속도를 1.3배 향상시킬 수 있음을 입증합니다. 더 작고 성능이 높은 네트워크 아키텍처를 찾는 것 외에도, 우리의 방법은 특정 가지치기(pruning) 또는 희소화(sparsification) 기법보다 더 효과적이고 효율적으로 이를 달성합니다. 마지막으로, 양자화(quantization)가 우리의 방법과 상호 보완적이며, 우리가 찾은 네트워크의 크기와 복잡도를 양자화를 통해 더욱 줄일 수 있음을 보여줍니다. 우리는 이 연구가 더 저렴하고 쉽게 구할 수 있는 하드웨어 플랫폼에서 사용할 수 있는 LLM을 자동으로 생성하는 방법을 제공한다고 믿습니다.
비디오 입력으로부터 4D 장면을 재구성하는 것은 중요하면서도 도전적인 과제입니다. 기존의 방법들은 일반적으로 다중 시점 비디오 입력, 알려진 카메라 파라미터, 또는 정적 장면과 같은 가정에 의존하는데, 이러한 조건들은 실제 환경에서는 대부분 존재하지 않습니다. 본 논문에서는 이러한 제약 조건을 완화하고, 우리가 AnyV4D라고 명명한 매우 야심적이면서도 실용적인 과제를 해결하고자 합니다: 단일 모노큘러 비디오만을 입력으로 사용하며 카메라 파라미터도 알려져 있지 않은 상황에서, 동적인 4D 세계와 카메라 포즈를 복원하는 것을 목표로 합니다. 이를 위해, 우리는 GFlow라는 새로운 프레임워크를 소개합니다. GFlow는 2D 사전 정보(깊이와 광학 흐름)만을 활용하여 비디오(3D)를 4D 명시적 표현으로 변환하며, 공간과 시간을 통해 가우시안 스플래팅의 흐름을 포함합니다. GFlow는 먼저 장면을 정적 부분과 동적 부분으로 클러스터링한 후, 2D 사전 정보와 장면 클러스터링을 기반으로 카메라 포즈와 3D 가우시안 포인트의 동역학을 순차적으로 최적화하여 인접한 포인트 간의 정확성과 프레임 간의 부드러운 움직임을 보장합니다. 동적 장면은 항상 새로운 콘텐츠를 도입하기 때문에, 우리는 새로운 시각적 콘텐츠를 통합하기 위해 가우시안 포인트에 대한 새로운 픽셀 단위 밀도화 전략도 제안합니다. 더 나아가, GFlow는 단순한 4D 재구성의 한계를 넘어, 사전 훈련 없이도 프레임 간의 임의의 포인트를 추적하고, 비지도 방식으로 장면에서 움직이는 객체를 분할할 수 있습니다. 또한, 각 프레임의 카메라 포즈는 GFlow에서 도출될 수 있어, 카메라 포즈를 변경하여 비디오 장면의 새로운 뷰를 렌더링할 수 있습니다. 명시적 표현을 사용함으로써, 우리는 원하는 대로 장면 수준 또는 객체 수준의 편집을 손쉽게 수행할 수 있으며, 이는 GFlow의 다양성과 강력함을 보여줍니다. 프로젝트 웹사이트를 방문해 보세요: https://littlepure2333.github.io/GFlow
대규모 언어 모델(LLM)은 최근 다양한 언어 처리 과제를 해결하는 강력한 도구로 부상했습니다. 그러나 이러한 모델의 학습과 미세 조정은 여전히 계산 및 메모리 측면에서 매우 부담스러운 작업입니다. 본 논문에서는 경사 하강법을 사용하여 효과적인 모델 수렴을 위해 필요한 중요한 구성 요소를 식별하고 특성화합니다. 이를 통해 역전파를 구현하는 데 사용되는 중간 활성화가 성능 저하 없이 과도하게 압축될 수 있음을 발견했습니다. 이러한 결과는 LLM의 미세 조정과 사전 학습 모두에 적합한 저비용 및 메모리 효율적인 알고리즘으로 이어졌습니다. 제안된 알고리즘은 순전파 과정에서 토큰을 더 작은 하위 토큰으로 분할한 후 고정된 1차원 부분 공간에 투영하는 방식으로 작동합니다. 이후 역전파 과정에서 이러한 특징을 대략적으로 재구성하여 업데이트 규칙을 구현합니다. 우리는 VTAB-1k 미세 조정 벤치마크에서 최신 PEFT(Parameter-Efficient Fine-Tuning) 방법들과의 상호 보완성을 통해 알고리즘의 효과를 확인했습니다. 또한, LLaMA 모델의 미세 조정에서 QLoRA를 능가하는 성능을 보였으며, 대규모 C4 데이터셋에서 다른 메모리 효율적인 사전 학습 방법들과 경쟁력 있는 성능을 입증했습니다.
장면 이미지 편집은 엔터테인먼트, 사진, 광고 디자인에 있어 매우 중요합니다. 기존 방법들은 2D 개별 객체 또는 3D 전역 장면 편집에만 초점을 맞추고 있어, 다양한 세분화 수준에서 3D 수준의 장면을 효과적으로 제어하고 조작할 수 있는 통합된 접근 방식이 부족합니다. 본 연구에서는 언어 기반 분리된 가우시안 스플래팅을 활용하여 2D에서 3D로의 원활한 편집을 가능하게 하고, 장면 구성과 개별 객체에 대한 정밀한 제어를 허용하는 새로운 통합 장면 편집 프레임워크인 3DitScene을 제안합니다. 먼저, 생성적 사전 지식과 최적화 기술을 통해 개선된 3D 가우시안을 통합합니다. CLIP의 언어 특징은 객체 분리를 위해 3D 기하학에 의미를 도입합니다. 분리된 가우시안을 통해 3DitScene은 전역 및 개별 수준에서의 조작을 허용하며, 창의적 표현을 혁신하고 장면과 객체에 대한 제어를 강화합니다. 실험 결과는 3DitScene의 장면 이미지 편집에서의 효과성과 다양성을 입증합니다. 코드와 온라인 데모는 프로젝트 홈페이지(https://zqh0253.github.io/3DitScene/)에서 확인할 수 있습니다.