每日精選AI研究論文及翻譯
最近對大型語言模型(LLMs)的評估集中在測試它們在基本自然語言任務中的零樣本/少樣本能力,以及將指令翻譯為工具API的能力。然而,尚未研究利用複雜工具來完成複雜多輪、多模式環境中的指令的LLMs評估。為了填補這一空白,我們引入了PowerPoint任務完成(PPTC)基準,以評估LLMs根據用戶指令創建和編輯PPT文件的能力。它包含279個涵蓋多樣主題和涉及多模式操作的數百條指令的多輪對話。我們還提出了PPTX-Match評估系統,該系統評估LLMs是否根據預測文件完成指令,而不是根據標籤API序列,因此支持各種LLM生成的API序列。我們測試了3個閉源LLMs和6個開源LLMs。結果顯示,GPT-4在單輪對話測試中以75.1\%的準確率勝過其他LLMs,但在完成整個對話時面臨挑戰,僅實現6\%的對話準確率。我們在我們的基準測試中發現三個主要錯誤原因:多輪對話中的錯誤累積、長PPT模板處理和多模態感知。這些對未來的LLM和代理系統構成了巨大挑戰。我們在https://github.com/gydpku/PPTC 上發布了PPTC的數據、代碼和評估系統。
我們提出了快速語音-語言預訓練(FLAP),這是一種自監督方法,通過遮罩、對比學習和重建有效地學習對齊的語音和語言表示。為了提高效率,FLAP隨機丟棄語音頻譜標記,僅專注於剩餘的標記進行自我監督。通過跨模態對比學習,FLAP學會在共享的潛在空間中對齊成對的語音和文本表示。值得注意的是,FLAP通過遮罩使用多個增強視圖進行跨模態對比,並學會重建語音標記的遮罩部分。此外,FLAP利用大型語言模型(LLMs)來增強文本輸入,有助於提高性能。這些方法導致更加強大和信息豐富的語音-文本表示,使FLAP在AudioCaps(實現53.0%的R@1)和Clotho(實現25.5%的R@1)的語音-文本檢索任務中實現了最先進的性能。
我們提出了 EmerNeRF,一種簡單而強大的方法,用於學習動態駕駛場景的時空表示。EmerNeRF基於神經場,通過自我引導同時捕捉場景幾何、外觀、運動和語義。EmerNeRF依賴於兩個核心組件:首先,將場景分層為靜態和動態場。這種分解純粹來自自我監督,使我們的模型能夠從一般的野外數據來源中學習。其次,EmerNeRF從動態場參數化一個誘導流場,並使用該流場進一步聚合多幀特徵,增強動態物體的渲染精度。結合這三個場(靜態、動態和流)使EmerNeRF能夠自給自足地表示高度動態的場景,而無需依賴地面真實對象標註或預先訓練的動態對象分割或光流估計模型。我們的方法在感測器模擬中實現了最先進的性能,在重建靜態(+2.93 PSNR)和動態(+3.70 PSNR)場景時明顯優於先前的方法。此外,為了增強EmerNeRF的語義泛化能力,我們將2D視覺基礎模型特徵提升到4D時空,並解決現代Transformer中的一個一般位置偏差,顯著提升3D感知性能(例如,平均佔有預測準確性相對提高了37.50%)。最後,我們構建了一個多樣且具有挑戰性的120序列數據集,以在極端和高度動態的情況下對神經場進行基準測試。