번역이 포함된 일일 선별된 AI 연구 논문
놀라운 능력을 갖추고 있음에도 불구하고, 대규모 언어 모델(LLM)은 그들이 내재하고 있는 파라미터 지식에만 의존하기 때문에 사실과 부합하지 않는 응답을 생성하는 경우가 종종 있습니다. 관련 지식을 검색하여 언어 모델을 보강하는 임시적인 접근 방식인 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 이러한 문제를 줄여줍니다. 그러나 검색이 필요한지 여부나 검색된 문단이 관련성이 있는지와 상관없이 일정한 수의 문단을 무차별적으로 검색하고 통합하는 것은 언어 모델의 다양성을 감소시키거나 도움이 되지 않는 응답 생성을 초래할 수 있습니다. 우리는 검색과 자기 반영을 통해 언어 모델의 품질과 사실성을 향상시키는 새로운 프레임워크인 자기 반영적 검색 증강 생성(Self-Reflective Retrieval-Augmented Generation, Self-RAG)을 소개합니다. 우리의 프레임워크는 필요에 따라 적응적으로 문단을 검색하고, 검색된 문단과 자신의 생성물을 반영 토큰(reflection tokens)이라는 특수 토큰을 사용하여 생성하고 반영하는 단일의 임의 언어 모델을 학습시킵니다. 반영 토큰을 생성함으로써 추론 단계에서 언어 모델을 제어할 수 있게 되어 다양한 작업 요구 사항에 맞게 행동을 조정할 수 있습니다. 실험 결과, Self-RAG(7B 및 13B 파라미터)는 다양한 작업에서 최첨단 대규모 언어 모델과 검색 증강 모델을 크게 능가하는 것으로 나타났습니다. 특히, Self-RAG는 개방형 질의응답, 추론 및 사실 확인 작업에서 ChatGPT와 검색 증강 Llama2-chat을 능가하며, 이러한 모델들에 비해 장문 생성에서 사실성과 인용 정확성을 크게 향상시키는 것으로 나타났습니다.
AI 기반 음악 처리는 음색 합성과 같은 생성 작업부터 음악 분류와 같은 이해 작업에 이르기까지 수십 가지의 다양한 작업을 포괄하는 분야입니다. 개발자와 아마추어에게는 음악 처리에서 자신의 요구 사항을 충족시키기 위해 이러한 모든 작업을 파악하는 것이 매우 어렵습니다. 특히, 다양한 작업 간의 음악 데이터 표현 방식과 플랫폼 간 모델 적용 가능성의 큰 차이를 고려할 때 더욱 그러합니다. 따라서 이러한 작업들을 체계적으로 조직하고 통합하여 실무자가 자신의 요구 사항을 자동으로 분석하고 적합한 도구를 호출하여 해결할 수 있도록 돕는 시스템을 구축하는 것이 필요합니다. 최근 대형 언어 모델(LLM)의 작업 자동화 성공에 영감을 받아, 우리는 MusicAgent라는 시스템을 개발했습니다. 이 시스템은 다양한 음악 관련 도구와 자율적인 워크플로우를 통합하여 사용자 요구 사항을 해결합니다. 보다 구체적으로, 우리는 1) Hugging Face, GitHub, 웹 API 등 다양한 소스에서 도구를 수집하는 도구 세트와 2) LLM(예: ChatGPT)으로 강화된 자율적인 워크플로우를 구축하여 이러한 도구들을 조직하고 사용자 요청을 여러 하위 작업으로 분해하여 해당 음악 도구를 호출합니다. 이 시스템의 주요 목표는 사용자가 AI 음악 도구의 복잡함에서 벗어나 창의적인 측면에 집중할 수 있도록 하는 것입니다. 사용자가 도구를 쉽게 결합할 수 있는 자유를 부여함으로써, 시스템은 원활하고 풍부한 음악 경험을 제공합니다.
최근 텍스트-3D 생성 방법은 이미지 확산 모델과 최적화 전략의 발전 덕분에 인상적인 3D 콘텐츠 생성 능력을 달성하고 있다. 그러나 현재의 방법들은 복잡한 의미론적 프롬프트, 즉 여러 상호작용하는 객체와 다양한 속성이 결합된 프롬프트에 대해 정확한 3D 콘텐츠를 생성하는 데 어려움을 겪고 있다. 본 연구에서는 복잡한 프롬프트에 대해 정밀한 3D 콘텐츠를 생성하기 위해 전체 생성 과정을 일련의 지역적 점진적 편집 단계로 분해하는 Progressive3D라는 일반적인 프레임워크를 제안한다. 또한 각 편집 단계에서 사용자 정의 영역 프롬프트에 의해 결정된 영역에서만 콘텐츠 변경이 발생하도록 제한한다. 더 나아가, 프롬프트 간의 의미론적 차이에 더 집중하도록 최적화 과정을 촉진하기 위해 중첩된 의미론적 요소 억제 기법을 제안한다. 광범위한 실험을 통해 제안된 Progressive3D 프레임워크가 복잡한 의미론을 가진 프롬프트에 대해 정밀한 3D 콘텐츠를 생성하며, 다양한 3D 표현 방식에 기반한 다양한 텍스트-3D 방법에 일반적으로 적용 가능함을 입증한다.