每日精選AI研究論文及翻譯
儘管大型語言模型(LLMs)具有卓越的能力,但由於完全依賴其所包含的參數化知識,常常會產生包含事實錯誤的回應。檢索增強生成(RAG)是一種臨時方法,通過檢索相關知識來增強LM,從而減少此類問題。然而,無差別地檢索並合併固定數量的檢索段落,無論檢索是否必要,或段落是否相關,都會降低LM的多功能性,或導致無益的回應生成。我們引入了一個名為自我反思檢索增強生成(Self-RAG)的新框架,通過檢索和自我反思來增強LM的質量和事實性。我們的框架訓練一個單一的任意LM,可以根據需求自適應地檢索段落,並使用稱為反思標記的特殊標記生成和反思檢索段落及其自身生成。生成反思標記使LM在推論階段可控,使其能夠根據不同的任務需求調整其行為。實驗表明,Self-RAG(7B和13B參數)在各種任務上顯著優於最先進的LLMs和檢索增強模型。具體而言,Self-RAG在開放領域QA、推理和事實驗證任務上優於ChatGPT和檢索增強的Llama2-chat,並且在提高長篇生成的事實性和引文準確性方面相對於這些模型表現出顯著增益。
AI增強音樂處理是一個多元的領域,涵蓋數十種任務,從生成任務(例如音色合成)到理解任務(例如音樂分類)。對於開發人員和業餘愛好者來說,很難掌握所有這些任務,以滿足他們在音樂處理方面的需求,特別是考慮到音樂數據的表示方式和模型在各種任務之間跨平台的應用的巨大差異。因此,有必要建立一個系統來組織和整合這些任務,從而幫助從業者自動分析他們的需求並調用合適的工具作為解決方案來滿足他們的需求。受到大型語言模型(LLMs)在任務自動化方面的最近成功的啟發,我們開發了一個名為MusicAgent的系統,該系統集成了眾多與音樂相關的工具和自主工作流程,以滿足用戶需求。更具體地,我們建立了1)從各種來源收集工具的工具集,包括Hugging Face、GitHub和Web API等。2)由LLMs(例如ChatGPT)賦能的自主工作流程,用於組織這些工具並自動將用戶請求分解為多個子任務並調用相應的音樂工具。該系統的主要目標是使用戶擺脫AI音樂工具的複雜性,使他們能夠專注於創造性方面。通過賦予用戶輕鬆組合工具的自由,該系統提供了一種無縫而豐富的音樂體驗。
最近的文本轉3D生成方法由於影像擴散模型和優化策略的進步,實現了令人印象深刻的3D內容創作能力。然而,目前的方法在為語義複雜的提示生成正確的3D內容方面存在困難,即描述多個相互作用對象並具有不同屬性的提示。在這項工作中,我們提出了一個名為Progressive3D的通用框架,將整個生成過程分解為一系列局部漸進的編輯步驟,以為語義複雜的提示創建精確的3D內容,並且我們將內容變化限制為僅在每個編輯步驟中由用戶定義的區域提示確定的區域內發生。此外,我們提出了一種重疊的語義組件抑制技術,以鼓勵優化過程更多地關注提示之間的語義差異。大量實驗表明,所提出的Progressive3D框架為具有複雜語義提示生成精確的3D內容,並且對於由不同3D表示驅動的各種文本轉3D方法都是通用的。