번역이 포함된 일일 선별된 AI 연구 논문
GPT-4o와 같은 모델은 대규모 언어 모델(LLMs)과의 실시간 상호작용을 음성을 통해 가능하게 하여, 기존의 텍스트 기반 상호작용에 비해 사용자 경험을 크게 향상시킨다. 그러나 오픈 소스 LLMs를 기반으로 음성 상호작용 모델을 구축하는 방법에 대한 탐구가 부족한 상황이다. 이에 대응하기 위해, 저희는 LLaMA-Omni라는 새로운 모델 아키텍처를 제안한다. 이 모델은 LLMs와의 저지연 및 고품질 음성 상호작용을 위해 설계되었다. LLaMA-Omni은 사전 훈련된 음성 인코더, 음성 어댑터, LLM, 및 스트리밍 음성 디코더를 통합한다. 이 모델은 음성 전사가 필요 없으며, 음성 지시로부터 텍스트 및 음성 응답을 극히 낮은 지연 시간으로 동시에 생성할 수 있다. 저희는 최신 Llama-3.1-8B-Instruct 모델을 기반으로 모델을 구축했다. 모델을 음성 상호작용 시나리오에 맞추기 위해 InstructS2S-200K라는 데이터셋을 구축했다. 이 데이터셋은 20만 개의 음성 지시와 해당하는 음성 응답을 포함한다. 실험 결과는, 이전 음성-언어 모델과 비교하여, LLaMA-Omni가 내용과 스타일 모두에서 더 나은 응답을 제공하며, 응답 지연 시간은 226ms로 매우 낮음을 보여준다. 게다가, LLaMA-Omni의 훈련은 4개의 GPU에서 3일 미만이 소요되며, 효율적인 음성-언어 모델의 개발을 위한 길을 열어놓는다.
검색 보강 생성(Retrieval-Augmented Generation, RAG)은 최근 일반적인 패러다임으로 대형 언어 모델(Large Language Models, LLMs)을 개인 및 최신 지식 베이스와 함께 사용하는 것으로 부상했습니다. 본 연구에서는 RAG 시스템에 의해 생성된 근거 있는 답변을 평가할 때 LLM-판단자로서의 사용에 대한 도전에 대처합니다. 판단자 모델의 보정 및 식별 능력을 평가하기 위해 7가지 생성기 실패 모드를 확인하고 144개의 단위 테스트의 메타평가 벤치마크인 GroUSE(Grounded QA Unitary Scoring of Evaluators)를 소개합니다. 이 벤치마크는 기존의 자동화된 RAG 평가 프레임워크가 종종 GPT-4를 판단자로 사용할 때도 중요한 실패 모드를 간과하는 것을 드러냅니다. 현재의 자동화된 RAG 평가 프레임워크의 설계를 개선하기 위해 우리는 새로운 파이프라인을 제안하고, 닫힌 모델이 GroUSE에서 잘 수행되지만 최첨단 오픈 소스 판단자는 제안된 기준에 일반화되지 않는다는 것을 발견했습니다. 이는 GPT-4의 판단과 강한 상관 관계가 있음에도 불구하고, 우리의 제안된 기준에 대한 판단과 일치하지 않는 것입니다. 우리의 연구 결과는 GPT-4와의 상관 관계가 판단자 모델의 실제 성능에 대한 불완전한 대리인이며, 정확한 실패 모드 감지를 위해 단위 테스트에서의 평가로 보충되어야 한다는 것을 시사합니다. 또한 GPT-4의 추론 추적에 Llama-3을 세밀하게 조정함으로써 그 평가 능력을 크게 향상시키고, GPT-4의 평가와의 상관 관계 및 참조 상황에서의 보정을 개선함을 보여줍니다.
Affordance는 물체에 내재된 상호 작용의 잠재적 가능성을 나타냅니다. Affordance의 지각은 지능적 에이전트가 새로운 환경에서 효율적으로 탐색하고 상호 작용할 수 있게 합니다. 약하게 지도된 affordance grounding은 고비용의 픽셀 수준 주석 없이 외부 중심 이미지를 사용하여 에이전트에게 affordance 개념을 가르치는 것입니다. 최근 약하게 지도된 affordance grounding의 발전은 유망한 결과를 냈지만, 외부 중심 및 자아 중심 이미지 데이터셋의 짝을 필요로 한다는 문제와 단일 물체에 대한 다양한 affordance를 지지는 복잡성과 같은 도전 과제가 남아 있습니다. 이를 해결하기 위해 우리는 INTeraction 관계 인식 약하게 지도된 Affordance grounding (INTRA)를 제안합니다. 이전 연구와 달리, INTRA는 이 문제를 표현 학습으로 재구성하여 외부 중심 이미지만을 사용하여 대조 학습을 통해 상호 작용의 고유한 특징을 식별합니다. 이를 통해 짝 데이터셋이 필요 없어집니다. 더불어, 우리는 시각-언어 모델 임베딩을 활용하여 어떤 텍스트에도 유연하게 affordance grounding을 수행하고, 대조 학습을 위해 상호 작용 관계를 반영하는 텍스트 조건부 affordance 맵 생성을 설계하며, 텍스트 동의어 증강을 통해 강건성을 향상시킵니다. 우리의 방법은 AGD20K, IIT-AFF, CAD 및 UMD와 같은 다양한 데이터셋에서 이전 연구를 능가했습니다. 게다가 실험 결과는 우리의 방법이 합성 이미지/일러스트에 대한 도메인 확장성이 뛰어나며, 새로운 상호 작용 및 물체에 대한 affordance grounding을 수행할 수 있는 것을 보여줍니다.
음악은 인간 문화의 필수 요소로, 인간 지성과 창의력을 대표하며, 그 중에서 노래는 중요한 부분을 차지합니다. 이전 연구들에서는 노래 생성의 다양한 측면이 탐구되었지만, 노래 생성에 있어 가사가 주어졌을 때 보컬과 반주를 모두 생성하는 것은 여전히 중요한 과제로 남아 있어 실제 세계에서 음악 생성 모델의 적용을 방해합니다. 이에 우리는 이 문제에 대처하기 위해 설계된 노래 생성 시스템인 SongCreator를 제안합니다. 이 모델은 두 가지 혁신적인 설계를 특징으로 합니다: 보컬과 반주 정보를 캡처하기 위한 세심하게 설계된 이중 시퀀스 언어 모델(DSLM)과 DSLM을 위한 추가적인 어텐션 마스크 전략을 특징으로 하는데, 이를 통해 우리 모델은 노래를 이해하고 생성하며 편집하여 다양한 노래 생성 작업에 적합해집니다. 광범위한 실험 결과는 SongCreator의 효과를 입증하며, 모든 여덟 가지 작업에서 최첨단 또는 경쟁력 있는 성과를 달성합니다. 특히, 가사에서 노래, 가사에서 보컬 작업에서 이전 연구를 크게 앞서나갑니다. 또한, 생성된 노래에서 보컬과 반주의 음향 조건을 서로 독립적으로 제어할 수 있어 다양한 프롬프트를 통해 잠재적으로 적용 가능함을 나타냅니다. 우리의 샘플은 https://songcreator.github.io/에서 확인할 수 있습니다.
폴리(Foley)는 영화 제작에서 흔히 사용되는 용어로, 무음 영화나 비디오에 일상적인 소리 효과를 추가하여 청각 경험을 향상시키는 것을 가리킵니다. 비디오-음성(V2A)은 특정 유형의 자동 폴리 작업으로, 오디오-시각 동기화와 관련된 고유한 도전 과제를 제시합니다. 이러한 도전 과제에는 입력 비디오와 생성된 오디오 간의 콘텐츠 일관성 유지뿐만 아니라 비디오 내의 시간 및 음량 속성의 정렬이 포함됩니다. 이러한 문제를 해결하기 위해 우리는 Draw an Audio라는 제어 가능한 비디오-음성 합성 모델을 구축했는데, 이는 그려진 마스크와 음량 신호를 통해 여러 입력 지시를 지원합니다. 합성된 오디오와 대상 비디오 간의 콘텐츠 일관성을 보장하기 위해 Mask-Attention Module(MAM)을 도입했는데, 이는 마스크된 비디오 지시를 활용하여 모델이 관심 영역에 집중할 수 있도록 합니다. 더불어 Time-Loudness Module(TLM)을 구현했는데, 이는 보조 음량 신호를 사용하여 비디오의 음량과 시간적 차원에서 일치하는 소리를 합성합니다. 더 나아가, 우리는 캡션 프롬프트를 주석 달아 대규모 V2A 데이터셋인 VGGSound-Caption을 확장했습니다. 두 대규모 V2A 데이터셋을 횡단하는 어려운 벤치마크 실험을 통해 Draw an Audio가 최신 기술을 달성했음을 확인했습니다. 프로젝트 페이지: https://yannqi.github.io/Draw-an-Audio/.
최근 몇 년간 확산 모델의 발전은 이미지 및 비디오 생성 작업에서 상당한 진전을 이끌어내었으며, Stable Diffusion 시리즈와 같은 사전 훈련된 모델이 중요한 역할을 하고 있습니다. 중요하지 않은 매개변수를 제거하여 대규모 사전 훈련된 모델을 가볍게 만드는 모델 가지치기에 영감을 받아, 우리는 이러한 비효율적인 매개변수를 최대한 활용하고 사전 훈련된 모델에 새로운 작업별 능력을 부여하기 위한 혁신적인 모델 세밀 조정 방법을 제안합니다. 본 연구에서는 먼저 사전 훈련된 확산 모델의 매개변수의 중요성을 조사하고, 절대값으로 보았을 때 가장 작은 10%에서 20%의 매개변수가 생성 프로세스에 기여하지 않음을 발견했습니다. 이 관찰을 바탕으로, 우리는 이러한 일시적으로 비효율적인 매개변수를 재활용하는 SaRA라는 방법을 제안하며, 이는 희소 가중치 행렬을 최적화하여 작업별 지식을 학습하는 것과 동등합니다. 과적합을 완화하기 위해, 효율적인 세밀 조정을 위한 핵 노름 기반 저랭크 희소 훈련 체계를 제안합니다. 더불어, 재훈련/세밀 조정된 매개변수를 최대한 활용하기 위한 새로운 점진적 매개변수 조정 전략을 설계합니다. 마지막으로, 세밀 조정 중 메모리 비용을 크게 줄이는 혁신적인 비구조화 역전파 전략을 제안합니다. 우리의 방법은 사후 응용에서 사전 훈련된 모델의 생성 능력을 향상시키며, LoRA와 같은 전통적인 세밀 조정 방법을 능가하여 모델의 일반화 능력을 유지하는 데 성공합니다. 우리는 SD 모델에 대한 세밀 조정 실험을 통해 접근 방식을 검증하고, 상당한 개선을 입증합니다. 또한 SaRA는 효율적인 구현을 위해 코드 수정 한 줄만 필요로 하며 기존 방법과 매끄럽게 호환됨을 제공합니다.
신경 방사 형광체 (NeRFs)는 정적 장면과 3D 객체의 재구성을 혁신적으로 바꿔 놓았으며, 전례 없는 품질을 제공합니다. 그러나 NeRFs를 동적 객체나 객체의 관절에 적용하는 것은 여전히 어려운 문제입니다. 이전 연구들은 객체의 부분 수준 재구성과 동적 객체의 움직임 추정에 초점을 맞추어 이 문제를 해결해 왔지만, 이들은 종종 움직이는 부분이나 객체 범주에 관한 휴리스틱에 의존하여 실용적인 사용을 제한할 수 있습니다. 본 연구에서는 동적 3D 객체를 표현하기 위한 혁신적인 접근 방식인 LEIA를 소개합니다. 우리의 방법은 객체를 서로 다른 시간 단계 또는 "상태"에서 관찰하고 현재 상태에 대한 하이퍼네트워크를 조건부로 사용하여 NeRF를 매개변수화하는 것을 포함합니다. 이 접근 방식을 통해 각 상태에 대한 뷰 불변(latent) 표현을 학습할 수 있습니다. 또한 이러한 상태들 사이를 보간함으로써 이전에 본 적 없는 3D 공간에서의 새로운 관절 구성을 생성할 수 있음을 보여줍니다. 실험 결과는 우리의 방법이 관찰 각도와 관절 구성과 독립적인 방식으로 객체의 관절을 표현하는 데 효과적임을 강조합니다. 특히, 우리의 접근 방식은 관절 등록을 위해 움직임 정보에 의존하는 이전 방법들을 능가합니다.