번역이 포함된 일일 선별된 AI 연구 논문
음악 생성은 딥 생성 모델의 발전과 함께 점점 더 많은 관심을 받고 있습니다. 그러나 텍스트 설명에 기반한 음악 생성, 즉 텍스트-투-뮤직(text-to-music)은 음악 구조의 복잡성과 높은 샘플링 속도 요구 사항으로 인해 여전히 어려운 과제로 남아 있습니다. 이 작업의 중요성에도 불구하고, 기존의 생성 모델들은 음악 품질, 계산 효율성, 그리고 일반화 능력에서 한계를 보여줍니다. 본 논문은 텍스트-투-뮤직 생성을 위한 범용 고품질 모델인 JEN-1을 소개합니다. JEN-1은 자기회귀적(autoregressive) 및 비자기회귀적(non-autoregressive) 훈련을 모두 통합한 확산 모델(diffusion model)입니다. JEN-1은 컨텍스트 내 학습(in-context learning)을 통해 텍스트 기반 음악 생성, 음악 인페인팅(inpainting), 그리고 음악 연속 생성과 같은 다양한 생성 작업을 수행합니다. 평가 결과, JEN-1은 텍스트-음악 정렬 및 음악 품질에서 최신 방법들을 능가하는 우수한 성능을 보이면서도 계산 효율성을 유지합니다. 데모는 http://futureverse.com/research/jen/demos/jen1에서 확인할 수 있습니다.
대규모 언어 모델이 발전함에 따라, 이러한 모델의 능력을 활용하여 자체 출력을 개선하는 기술에 대한 관심이 높아지고 있습니다. 본 연구에서는 Shepherd라는 언어 모델을 소개합니다. 이 모델은 응답을 비판하고 개선안을 제안하도록 특별히 조정되어, 미조정 모델의 능력을 넘어 다양한 오류를 식별하고 이를 해결하기 위한 제안을 제공합니다. 우리 접근법의 핵심은 커뮤니티 피드백과 인간 주석으로부터 선별된 고품질 피드백 데이터셋입니다. Shepherd는 크기가 작지만(7B 파라미터), 그 비판은 ChatGPT를 포함한 기존 모델들의 비판과 동등하거나 더 우수합니다. GPT-4를 사용한 평가에서 Shepherd는 경쟁 모델 대비 평균 53-87%의 승률을 기록했습니다. 인간 평가에서는 Shepherd가 다른 모델들을 확실히 앞섰으며, 평균적으로 ChatGPT와 거의 동등한 성능을 보였습니다.
최근 대형 언어 모델(LLM)의 발전은 그 다양한 능력을 보여주고 있습니다. 우리는 소규모 배치 및 온디바이스 시나리오에서 LLM 추론을 가속화하기 위해 새로운 알고리즘인 단계적 추측 디코딩(staged speculative decoding)을 제안합니다. 우리는 소규모 배치 추론의 낮은 연산 강도를 해결하기 위해 기존의 추측 디코딩 연구를 개선했습니다. 첫째, 추측 배치를 트리 구조로 재구성하여 생성 비용을 줄이고 배치당 예상 토큰 수를 증가시켰습니다. 둘째, 두 번째 단계의 추측 디코딩을 추가했습니다. 이를 종합적으로 적용함으로써 762M 파라미터 GPT-2-L 모델에서 단일 배치 디코딩 지연 시간을 3.16배 감소시키면서도 출력 품질을 완벽하게 유지했습니다.
3D 물체 탐지에서의 거짓 음성(False Negative, FN), 예를 들어 보행자, 차량 또는 기타 장애물에 대한 예측 누락은 자율 주행에서 잠재적으로 위험한 상황으로 이어질 수 있습니다. 이러한 문제는 치명적임에도 불구하고, 현재 많은 3D 탐지 방법에서 충분히 연구되지 않고 있습니다. 본 연구에서는 Hard Instance Probing(HIP)이라는 일반적인 파이프라인을 제안합니다. 이는 다단계 방식으로 FN을 식별하고 모델이 어려운 사례를 발굴하는 데 집중하도록 유도합니다. 3D 물체 탐지를 위해 이 방법을 FocalFormer3D로 구체화하였으며, 이는 어려운 물체를 발굴하고 예측 재현율을 향상시키는 데 탁월한 성능을 보이는 간단하지만 효과적인 탐지기입니다. FocalFormer3D는 어려운 물체를 발견하기 위한 다단계 쿼리 생성과 대량의 물체 후보군에서 효율적으로 물체를 구별하기 위한 박스 수준의 트랜스포머 디코더를 특징으로 합니다. nuScenes 및 Waymo 데이터셋에서의 실험 결과는 FocalFormer3D의 우수한 성능을 입증합니다. 이러한 장점은 LiDAR 및 다중 모달 설정에서 탐지 및 추적 모두에서 강력한 성능으로 이어집니다. 특히, FocalFormer3D는 nuScenes 탐지 벤치마크에서 70.5 mAP와 73.9 NDS를 달성했으며, nuScenes 추적 벤치마크에서는 72.1 AMOTA를 기록하여 nuScenes LiDAR 리더보드에서 1위를 차지했습니다. 우리의 코드는 https://github.com/NVlabs/FocalFormer3D에서 확인할 수 있습니다.