每日精選AI研究論文及翻譯
我們提出了一種對場景動態建模的影像空間先驗方法。我們的先驗是從包含自然振盪運動的真實視頻序列中提取的運動軌跡集合中學習的,這些運動包括樹木、花朵、蠟燭和風中飄動的衣物等。給定一張單獨的圖像,我們訓練的模型使用頻率協調擴散採樣過程,在傅立葉域中預測每個像素的長期運動表示,我們稱之為神經隨機運動紋理。這種表示可以轉換為涵蓋整個視頻的密集運動軌跡。連同基於圖像的渲染模塊,這些軌跡可以用於多個下游應用,例如將靜止圖像轉換為無縫循環動態視頻,或讓用戶與真實圖片中的物體進行逼真互動。
最近對大型語言模型(LLMs)的進展使研究人員和開發人員能夠構建自主語言代理,這些代理可以使用自然語言界面自動解決各種任務並與環境、人類和其他代理進行互動。我們認為語言代理是通往人工通用智能的一個有前途的方向,並發布了Agents,一個開源庫,旨在將這些進展開放給更廣泛的非專業人士。Agents經過精心設計,支持重要功能,包括規劃、記憶、工具使用、多代理通信和細粒度符號控制。Agents具有用戶友好性,使非專業人士能夠構建、自定義、測試、調整和部署最先進的自主語言代理而無需太多編碼。該庫也對研究人員友好,其模塊化設計使其易於擴展用於研究。Agents可在https://github.com/aiwaves-cn/agents上獲得。
音頻超分辨率是一項基本任務,用於預測低分辨率音頻的高頻成分,從而增強數字應用中的音頻質量。先前的方法存在著一些限制,例如僅適用於特定音頻類型(例如音樂、語音)和特定頻寬範圍(例如4kHz至8kHz)。本文介紹了一種基於擴散的生成模型 AudioSR,能夠對多樣化的音頻類型進行強大的音頻超分辨率處理,包括音效、音樂和語音。具體而言,AudioSR 能夠將頻寬範圍在2kHz至16kHz之間的任何輸入音頻信號上採樣至24kHz頻寬的高分辨率音頻信號,並以48kHz的採樣率進行處理。在各種音頻超分辨率基準測試上進行了廣泛客觀評估,證明了所提出模型的優異結果。此外,我們的主觀評估顯示,AudioSR 可以作為即插即用模塊,提升各種音頻生成模型(包括 AudioLDM、Fastspeech2 和 MusicGen)的生成質量。我們的代碼和演示可在 https://audioldm.github.io/audiosr 上找到。
在廣泛的文本數據中搜尋並總結關鍵信息,對臨床醫生如何分配時間造成了重大負擔。儘管大型語言模型(LLMs)在自然語言處理(NLP)任務中展現了巨大潛力,但它們在各種臨床摘要任務中的有效性尚未得到嚴格檢驗。在這項工作中,我們對八個LLMs應用領域適應方法,涵蓋六個數據集和四個不同的摘要任務:放射學報告、患者問題、進展記錄和醫患對話。我們的徹底定量評估揭示了模型和適應方法之間的權衡,以及LLMs最近進展可能不會帶來改進結果的情況。此外,在與六名醫生進行的臨床閱讀者研究中,我們描述了最佳適應的LLM摘要在完整性和正確性方面優於人工摘要。我們隨後的定性分析描述了LLMs和人類專家所面臨的共同挑戰。最後,我們將傳統定量NLP指標與閱讀者研究分數相關聯,以增進我們對這些指標如何與醫生偏好一致的理解。我們的研究標誌著LLMs在多個任務中優於人類專家在臨床文本摘要中的第一個證據。這意味著將LLMs整合到臨床工作流程中可以減輕文檔負擔,使臨床醫生能夠更多地專注於個性化患者護理和醫學中其他不可替代的人文方面。
影片抠像具有广泛的应用,从为随意拍摄的电影添加有趣的效果到协助视频制作专业人员。带有阴影和反射等相关效果的抠像也吸引了越来越多的研究活动,提出了诸如Omnimatte之类的方法,将动态前景对象分离为其自己的图层。然而,先前的作品将视频背景表示为2D图像图层,限制了它们表达更复杂场景的能力,从而阻碍了对真实世界视频的应用。在本文中,我们提出了一种新颖的视频抠像方法,OmnimatteRF,结合了动态的2D前景图层和一个3D背景模型。2D图层保留了主体的细节,而3D背景则稳健地重建了真实世界视频中的场景。大量实验证明,我们的方法在各种视频上重建出更高质量的场景。
在上下文學習(ICL)中,僅向LLM展示少量特定任務的示範即可實現下游收益,而無需進行特定任務的微調。然而,LLM對提示的選擇敏感,因此一個關鍵的研究問題是如何為ICL選擇良好的示範。一種有效的策略是利用ICL示範與測試輸入之間的語義相似性,使用文本檢索器,然而這種方法並不理想,因為它並未考慮LLM對該任務的現有知識。根據先前的研究(Min等,2022),我們已經知道與示範配對的標籤會對模型預測產生偏見。這引出了我們的假設,即考慮LLM對任務的現有知識,特別是關於輸出標籤空間,是否有助於更好地選擇示範。通過對三個文本分類任務進行廣泛實驗,我們發現不僅選擇語義相似的ICL示範有益,還選擇那些有助於解決測試示例周圍固有標籤模糊性的示範。有趣的是,我們發現包括LLM先前錯誤分類並且也位於測試示例的決策邊界上的示範,帶來了最大的性能增益。
大型語言模型(LLMs)在自然語言處理(NLP)任務上展現出令人印象深刻的表現,如問答、摘要和分類。LLMs被用作評估器,可以對其他模型(通常是LLMs)的輸出進行排名或評分,這一做法變得越來越流行,原因在於目前評估技術存在諸多限制,包括缺乏適當的基準、指標、成本和人工標註者的訪問。雖然LLMs能夠處理大約100種語言,但在前20種之外的大多數語言缺乏跨各種任務、指標和基準的系統評估。這導致迫切需要擴大多語言評估,以確保對LLMs在各種語言上的表現有準確的理解。基於LLMs的評估器似乎是解決這個問題的完美方案,因為它們不需要人工標註者、人工創建的參考資料或基準,理論上可以用於評估LLMs所涵蓋的任何語言。在本文中,我們探討了基於LLMs的評估器是否有助於擴大多語言評估。具體而言,我們對20k個人類判斷的五個指標在八種語言的三個文本生成任務中進行了LLM-based評估的校準。我們的研究結果表明,基於LLMs的評估器可能存在對較高分數的偏見,應該謹慎使用,並且應始終與一組母語者判斷的數據集進行校準,特別是在資源匱乏和非拉丁文字語言中。