번역이 포함된 일일 선별된 AI 연구 논문
생성형 대규모 언어 모델(LLMs)은 수많은 새로운 가능성을 열어주었지만, 상당한 컴퓨팅 자원을 요구하기 때문에 보편적인 사용에는 여전히 어려움이 있습니다. 특히 가장 유용한 애플리케이션 중 일부는 한 번에 대량의 샘플을 처리하고 긴 문맥을 사용해야 하며, 이는 모델의 메모리 통신 부하를 크게 증가시킵니다. 우리는 SparQ Attention이라는 기술을 소개합니다. 이 기술은 캐시된 이력 데이터를 선택적으로 가져옴으로써 어텐션 블록 내의 메모리 대역폭 요구량을 줄이고, LLM의 추론 처리량을 증가시킵니다. 우리가 제안한 이 기술은 사전 학습 설정을 변경하거나 추가적인 미세 조정 없이도 추론 과정에서 기존의 상용 LLM에 직접 적용할 수 있습니다. Llama 2와 Pythia 모델을 다양한 다운스트림 작업에서 평가함으로써, SparQ Attention이 정확도 손실 없이 어텐션 메모리 대역폭 요구량을 최대 8배까지 감소시킬 수 있음을 보여줍니다.
본 논문에서는 고품질의 맞춤형 인간 댄스 비디오를 생성하기 위한 확산 기반 제어 가능 비디오 생성 프레임워크인 DreaMoving을 소개합니다. 구체적으로, 목표 신원과 자세 시퀀스가 주어지면 DreaMoving은 해당 자세 시퀀스에 의해 구동되는 어디에서나 목표 신원이 춤추는 비디오를 생성할 수 있습니다. 이를 위해, 우리는 모션 제어를 위한 Video ControlNet과 신원 보존을 위한 Content Guider를 제안합니다. 제안된 모델은 사용하기 쉬우며 대부분의 스타일화된 확산 모델에 적용 가능하여 다양한 결과를 생성할 수 있습니다. 프로젝트 페이지는 https://dreamoving.github.io/dreamoving에서 확인할 수 있습니다.
대부분의 3D 생성 연구는 2D 기반 모델을 3D 공간으로 업프로젝션하는 데 초점을 맞추고 있으며, 이는 2D Score Distillation Sampling (SDS) 손실을 최소화하거나 다중 뷰 데이터셋에 대한 미세 조정을 통해 이루어집니다. 명시적인 3D 사전 지식 없이 이러한 방법들은 종종 기하학적 이상 현상과 다중 뷰 불일치를 초래합니다. 최근 연구자들은 3D 데이터셋에 직접 학습함으로써 3D 객체의 진정성을 개선하려고 시도했지만, 3D 데이터셋의 텍스처 다양성이 제한적이어서 저품질의 텍스처 생성이 발생하는 단점이 있습니다. 두 접근법의 장점을 모두 활용하기 위해, 우리는 3D 충실도와 2D 텍스처 풍부함을 각각 보존하기 위해 3D와 2D 확산 과정을 모두 통합한 통합 프레임워크인 Bidirectional Diffusion(BiDiff)을 제안합니다. 또한, 단순한 결합이 일관되지 않은 생성 결과를 초래할 수 있으므로, 우리는 새로운 양방향 가이던스로 이를 연결합니다. 추가적으로, 우리의 방법은 최적화 기반 모델의 초기화로 사용되어 3D 모델의 품질과 최적화의 효율성을 더욱 개선할 수 있으며, 생성 과정을 3.4시간에서 20분으로 단축합니다. 실험 결과는 우리의 모델이 고품질, 다양성, 확장성을 갖춘 3D 생성을 달성함을 보여줍니다. 프로젝트 웹사이트: https://bidiff.github.io/.
우리는 텍스트-투-비디오 생성 모델에 맞춤형 동작을 추가하여, 원래의 학습 데이터에 포함된 동작을 넘어서는 기능을 확장하는 접근 방식을 소개합니다. 특정 움직임을 보여주는 몇 개의 비디오 샘플을 입력으로 활용함으로써, 우리의 방법은 입력된 동작 패턴을 학습하고 이를 다양한 텍스트로 지정된 시나리오에 일반화합니다. 우리의 기여는 세 가지로 요약됩니다. 첫째, 우리는 기존의 텍스트-투-비디오 모델을 미세 조정하여 입력 예제에 묘사된 동작과 새로운 고유 토큰 간의 매핑을 학습합니다. 새로운 맞춤 동작에 과적합하는 것을 방지하기 위해, 비디오에 대한 정규화 접근 방식을 도입합니다. 둘째, 사전 학습된 모델의 동작 사전 지식을 활용함으로써, 우리의 방법은 여러 사람이 맞춤 동작을 수행하는 새로운 비디오를 생성할 수 있으며, 이 동작을 다른 동작과 결합하여 호출할 수 있습니다. 더 나아가, 우리의 접근 방식은 개별화된 주체의 동작과 외관의 다중 모드 맞춤 설정으로 확장되어, 독특한 캐릭터와 독특한 동작을 특징으로 하는 비디오 생성을 가능하게 합니다. 셋째, 우리의 방법을 검증하기 위해, 학습된 맞춤 동작을 정량적으로 평가하는 접근 방식을 도입하고 체계적인 절제 연구를 수행합니다. 우리는 우리의 방법이 동작 맞춤 설정 작업으로 확장되었을 때, 기존의 외관 기반 맞춤 설정 접근 방식을 크게 능가함을 보여줍니다.
최근 대규모 언어 모델의 발전으로, 사고 사슬을 이끌어내기 위한 사고 연쇄 프롬프팅(chain-of-thought prompting)과 같은 방법들이 추론 과제에서 결과를 개선하는 것으로 나타났습니다. 그러나 다단계 추론이 필요한 과제들은 여전히 최첨단 모델들에게 상당한 도전 과제로 남아 있습니다. 빔 서치(beam search) 알고리즘에서 영감을 얻어, 우리는 트리 탐색 기반의 추론 경로 생성 접근법인 PathFinder를 제안합니다. 이 방법은 다양한 샘플링 방법과 매개변수를 통해 동적 디코딩을 통합함으로써 다양한 분기와 다중 홉 추론을 강화합니다. 제한된 추론을 사용하여 PathFinder는 새로운 품질 제약 조건, 가지치기, 탐색 방법을 통합하여 생성의 효율성과 품질을 향상시킵니다. 또한, 후보 선택을 개선하기 위해 점수 매기기와 순위 지정 기능을 포함합니다. 우리의 접근법은 세 가지 복잡한 산술 및 상식 추론 과제에서 경쟁력 있는 기준선을 평균 6% 앞질렀습니다. 우리의 모델은 더 길고 보지 못한 추론 사슬에도 잘 일반화되며, 큰 분기 요인을 가진 빔 서치와 유사한 복잡성을 반영합니다.
디노이징 확산 모델은 2D 이미지 생성에서 뛰어난 성과를 보여왔지만, 이를 3D 형태 생성에 적용하는 것은 여전히 도전적인 과제로 남아 있습니다. 본 논문에서는 복잡한 3D 형태를 디노이징하기 쉬운 2D 데이터 형식으로 표현하는 멀티뷰 깊이 정보를 활용하는 방법을 제안합니다. 우리는 이 표현 방식을 확산 모델인 MVDD와 결합하여, 20,000개 이상의 점으로 구성된 고품질의 고밀도 포인트 클라우드를 세밀한 디테일과 함께 생성할 수 있도록 합니다. 멀티뷰 깊이에서 3D 일관성을 강화하기 위해, 우리는 에피폴라 선분 주의 메커니즘을 도입하여 한 뷰의 디노이징 단계를 인접한 뷰들과 연계합니다. 또한, 깊이 융합 모듈을 확산 단계에 통합하여 깊이 맵의 정렬을 더욱 보장합니다. 표면 재구성 기법과 결합할 경우, MVDD는 고품질의 3D 메시도 생성할 수 있습니다. 더 나아가, MVDD는 깊이 완성과 같은 다른 작업에서도 두각을 나타내며, GAN 역변환과 같은 다양한 하위 작업을 크게 향상시킬 수 있는 3D 사전 지식으로서의 역할도 수행합니다. 광범위한 실험을 통해 얻은 최첨단 결과는 MVDD의 3D 형태 생성, 깊이 완성 능력, 그리고 하위 작업을 위한 3D 사전 지식으로서의 잠재력을 입증합니다.
우리는 대규모 조기 종료 대형 언어 모델(LLM)의 학습과 추론을 위한 프레임워크인 EE-LLM을 소개합니다. 최근 연구들은 LLM 추론 가속화를 위한 조기 종료의 효용성을 예비적으로 보여주었지만, EE-LLM은 대규모 3D 병렬화를 통해 조기 종료 LLM의 학습과 추론을 지원함으로써 이를 확장하는 데 있어 기초적인 단계를 마련했습니다. Megatron-LM을 기반으로 구축된 EE-LLM은 조기 종료에 특화된 다양한 알고리즘 혁신과 성능 최적화를 구현했습니다. 여기에는 파이프라인 병렬화를 통해 조기 종료 학습 목표에 대한 역전파를 용이하게 하는 경량화된 방법, 원래 파이프라인 스케줄에서 유휴 자원을 활용하여 조기 종료 레이어와 관련된 계산을 수행하는 기술, 그리고 자동회귀 생성을 위한 KV 캐싱과 호환되는 두 가지 조기 종료 추론 접근법이 포함됩니다. 우리의 분석적 및 실증적 연구는 EE-LLM이 표준 LLM 학습에 비해 무시할 수 있는 계산 오버헤드로 뛰어난 학습 효율성을 달성하며, 출력 품질을 저하시키지 않으면서도 탁월한 추론 속도 향상을 보여줍니다. 추가 연구와 도입을 촉진하기 위해 EE-LLM을 https://github.com/pan-x-c/EE-LLM에서 공개합니다.
명령어 기반 시각-언어(VL) 모델은 제로샷 방식으로 다양한 멀티모달 작업을 지원하는 유연한 인터페이스를 제공합니다. 그러나 전체 이미지를 대상으로 작동하는 인터페이스는 사용자가 이미지 내 특정 영역을 "가리키고" 접근할 수 있는 기능을 직접적으로 제공하지 않습니다. 이러한 기능은 참조 기반 VL 벤치마크를 지원하는 데 중요할 뿐만 아니라, 정밀한 이미지 내 추론이 필요한 실용적인 애플리케이션에서도 필수적입니다. 우리는 사용자가 (여러) 영역을 입력으로 지정할 수 있는 지역화된 시각 상식 모델(Localized Visual Commonsense models)을 구축했습니다. 이 모델은 대규모 언어 모델(LLM)로부터 지역화된 상식 지식을 샘플링하여 학습합니다: 구체적으로, 우리는 VL 모델 세트에 의해 자동 생성된 전역적 리터럴 이미지 설명과 지역적 리터럴 영역 설명을 기반으로 상식 지식을 수집하도록 LLM을 프롬프트합니다. 고품질 예제를 선택하는 별도의 비평 모델(critic model)을 통해, 지역화된 상식 코퍼스에 대한 학습이 기존 VL 모델을 참조-입력 인터페이스를 지원하도록 성공적으로 증류할 수 있음을 발견했습니다. 제로샷 설정에서의 실험 결과와 인간 평가는 우리의 증류 방법이 생성된 참조 표현을 LLM에 전달하는 베이스라인에 비해 더 정밀한 추론을 수행하는 VL 모델을 만드는 것을 입증합니다.