每日精選AI研究論文及翻譯
大型語言模型(LLMs)和大型視覺語言模型(LVLMs)展示了令人印象深刻的語言/視覺推理能力,引發了建立針對特定應用的代理人(如購物助手或人工智慧軟體工程師)的最近趨勢。最近,許多數據科學基準已被提出,以調查它們在數據科學領域的表現。然而,與現實世界的數據科學應用相比,現有的數據科學基準仍然存在不足,原因在於它們的簡化設置。為了彌合這一差距,我們引入了DSBench,這是一個旨在評估具有現實任務的數據科學代理的全面基準。該基準包括466個數據分析任務和74個數據建模任務,來自Eloquence和Kaggle競賽。DSBench通過包含長篇背景、多模態任務背景、與大型數據文件和多表結構進行推理,以及執行端對端數據建模任務,提供了一個現實的設置。我們對最先進的LLMs、LVLMs和代理進行的評估顯示,它們在大多數任務上都遇到困難,最佳代理僅解決了34.12%的數據分析任務,實現了34.74%的相對性能差距(RPG)。這些發現強調了在開發更實用、智能和自主的數據科學代理方面需要進一步的進展。
大型語言模型(LLMs)展現出卓越的潛力,可作為電腦代理,增強人類在多模式任務中的生產力和軟體可及性,這些任務需要規劃和推理。然而,在現實環境中評估代理的表現仍然是一個挑戰,因為:(i)大多數基準測試僅限於特定的模式或領域(例如僅文本、網頁導航、問答、編碼),以及(ii)全面的基準評估速度緩慢(需要數天的時間),因為任務具有多步驟的連續性質。為了應對這些挑戰,我們引入了Windows代理競技場:一個可重現的通用環境,專注於Windows操作系統(OS),在這裡代理可以在真實的Windows OS中自由操作,並在解決任務時使用與人類用戶相同的廣泛應用程式、工具和網頁瀏覽器。我們適應了OSWorld框架(Xie等人,2024年),創建了150多個多樣化的Windows任務,涵蓋了需要代理在規劃、屏幕理解和工具使用方面的能力的代表性領域。我們的基準測試具有可擴展性,可以在Azure中無縫並行化進行全面的基準評估,僅需20分鐘。為了展示Windows代理競技場的功能,我們還介紹了一個新的多模式代理Navi。我們的代理在Windows領域的成功率為19.5%,而無輔助的人類表現為74.5%。Navi在另一個流行的基於Web的基準測試Mind2Web上也表現出色。我們對Navi的表現進行了廣泛的定量和定性分析,並提供了有關未來研究機會的見解,這些研究機會涉及代理開發和使用Windows代理競技場進行數據生成。 網頁:https://microsoft.github.io/WindowsAgentArena 代碼:https://github.com/microsoft/WindowsAgentArena
近期大型語言模型(LLMs)的進步引發了對其加速科學發現潛力的樂觀情緒,越來越多的研究提出研究代理人,可以自主生成和驗證新想法。儘管如此,目前尚未有評估顯示LLM系統能夠邁出第一步,即產生新穎且專家級的想法,更不用說執行整個研究過程。我們通過建立一個實驗設計,評估研究想法生成的同時控制混雜因素,並在專家自然語言處理研究人員和LLM構思代理人之間進行首次直接比較。通過招募100多名自然語言處理研究人員撰寫新想法,以及對LLM和人類想法進行盲檢閱,我們得出了有關當前LLM能力進行研究構思的第一個具統計學意義的結論:我們發現LLM生成的想法在新穎性上被評為更高(p < 0.05)而在可行性上則稍微弱於人類專家想法。通過仔細研究我們的代理人基準,我們確認了在構建和評估研究代理人時存在的問題,包括LLM自我評估的失敗以及它們在生成上缺乏多樣性。最後,我們承認人類對新穎性的判斷可能會很困難,即使是專家也一樣,並提出了一種端對端的研究設計,招募研究人員將這些想法實施為完整項目,使我們能夠研究這些新穎性和可行性判斷是否導致研究結果上的實質差異。
儘管文字轉圖像(T2I)擴散模型擅長生成個別實例的視覺吸引力圖像,但在準確定位和控制多個實例的特徵生成方面卻遇到困難。布局轉圖像(L2I)任務旨在解決定位挑戰,透過將邊界框納入空間控制信號,但在生成精確實例特徵方面仍有不足。為此,我們提出了實例特徵生成(IFG)任務,旨在確保生成實例時的位置準確性和特徵保真度。為應對IFG任務,我們引入了實例特徵適配器(IFAdapter)。IFAdapter通過納入額外的外觀令牌並利用實例語義地圖來對齊實例級特徵與空間位置,增強特徵描述。IFAdapter作為即插即用模塊引導擴散過程,使其適應各種社區模型。為了評估,我們提出了一個IFG基準測試集,並開發了一個驗證流程,客觀比較模型生成具有準確位置和特徵的實例的能力。實驗結果表明,IFAdapter在定量和定性評估中均優於其他模型。
大型語言模型在利用結構化數據、複雜推理或工具使用等具有挑戰性的情境中仍然面臨困難。在本文中,我們提出了Source2Synth:一種新方法,可用於教導大型語言模型新技能,而無需依賴昂貴的人工標註。Source2Synth 採用自定義數據來源作為輸入,並生成具有中間推理步驟的合成數據點,這些步驟基於真實世界的來源。Source2Synth 通過根據可回答性丟棄低質量生成,從而提高數據集的質量。我們通過將其應用於兩個具有挑戰性的領域來展示此方法的普遍性:我們在多跳問答(MHQA)中測試推理能力,在表格問答(TQA)中測試工具使用。與微調基線相比,我們的方法使 WikiSQL 上的 TQA 表現提高了 25.51%,在 HotPotQA 上的 MHQA 表現提高了 22.57%。
最近在文本到圖像模型方面的突破開拓了個性化圖像生成的研究新途徑,讓用戶能夠使用自然語言提示創建特定主題的多樣圖像。然而,現有方法在僅提供單張參考圖像時往往表現下降。它們傾向於過度擬合輸入,無論文本提示如何,都會生成高度相似的輸出。本文解決了一次性個性化的挑戰,通過減輕過度擬合,實現了通過文本提示創建可控圖像。具體而言,我們提出了一種著重於文本編碼器的選擇性微調策略。此外,我們引入了三個關鍵技術來增強個性化性能:(1) 增強標記以鼓勵特徵解耦和減輕過度擬合,(2) 保持知識損失以減少語言漂移並促進在不同提示間的泛化能力,以及(3) SNR 加權取樣以進行高效訓練。大量實驗表明,我們的方法能夠高效生成高質量、多樣的圖像,僅使用單張參考圖像,同時顯著減少內存和存儲需求。
我們提出了DreamHOI,一種新穎的方法,用於零樣本合成人物-物體互動(HOIs),使3D人體模型能夠根據文本描述與任何給定物體進行逼真互動。這項任務由現實世界物體的不同類別和幾何形狀以及包含多樣HOIs的數據集的稀缺性而變得複雜。為了避免對大量數據的需求,我們利用在數十億圖像說明配對上訓練的文本到圖像擴散模型。我們通過從這些模型獲得的分數蒸餾取樣(SDS)梯度來優化一個有皮膚的人體網格的表達,這些梯度預測圖像空間的編輯。然而,直接將圖像空間梯度反向傳播到複雜的表達參數中是無效的,這是由於這些梯度的局部性質。為了克服這一問題,我們引入了一種有皮膚網格的雙隱式-顯式表示,將(隱式)神經輻射場(NeRFs)與(顯式)骨骼驅動的網格表達結合在一起。在優化過程中,我們在隱式和顯式形式之間過渡,將NeRF生成與精煉網格表達結合起來。我們通過廣泛的實驗驗證了我們的方法,展示了它在生成逼真HOIs方面的有效性。
在大型語言模型(LLMs)浪潮的推動下,大型視覺語言模型(LVLMs)已經成為一個重要的進步,彌合了影像和文字之間的差距。然而,由於語言和時空數據結構之間的關係複雜,使得視頻變得具有挑戰性,這導致LVLMs難以表現出色。最近的大型視頻語言模型(LVidLMs)將靜態視覺數據的特徵,如圖像,對齊到語言特徵的潛在空間中,通過通用多模式任務充分利用LLMs的能力。在本文中,我們通過物體軌跡的細粒度對齊方法探索不同模態在空間和時間維度上的對齊。因此,我們提出了一種新穎的LVidLM,通過軌跡引導的像素-時間對齊,被稱為PiTe,展現出有前途的可應用模型特性。為了實現精細的視頻語言對齊,我們編纂了一個多模式預訓練數據集PiTe-143k,通過我們的自動標註流程,為所有在視頻和字幕中出現並提到的個別物體提供了像素級移動軌跡的數據集。同時,PiTe通過大幅度超越最先進的方法,在眾多與視頻相關的多模式任務上展現出令人驚嘆的能力。
本研究解決了從2D遮罩中精確分割3D高斯濺射的挑戰。傳統方法通常依賴迭代梯度下降來為每個高斯分配唯一標籤,導致優化過程冗長且次優。相反,我們提出了一種簡單而全局最優的3D-GS分割求解器。我們方法的核心見解是,通過重建的3D-GS場景,2D遮罩的渲染基本上是一個線性函數,關於每個高斯的標籤。因此,最優標籤分配可以通過閉合形式的線性規劃來解決。這個解決方案利用了濺射過程的alpha混合特性,實現了單步優化。通過將背景偏差納入我們的目標函數,我們的方法在3D分割中展現出優越的魯棒性,對抗噪聲。值得注意的是,我們的優化在30秒內完成,比現有最佳方法快約50倍。大量實驗證明了我們方法在分割各種場景中的效率和魯棒性,以及在對象去除和修補等下游任務中的卓越性能。演示和代碼將在https://github.com/florinshen/FlashSplat 提供。
在分布外(OOD)物體檢測是一項具有挑戰性的任務,因為缺乏開放式分布外數據。受到最近文本到圖像生成模型(如穩定擴散)的進展的啟發,我們研究了在大規模開放式數據上訓練的生成模型潛力,以合成OOD樣本,從而增強OOD物體檢測。我們引入了SyncOOD,一種簡單的數據整理方法,利用大型基礎模型的能力,從文本到圖像生成模型中自動提取有意義的OOD數據。這為模型提供了訪問即時基礎模型中封裝的開放世界知識的能力。然後,利用合成的OOD樣本來擴充輕量、即插即用的OOD檢測器的訓練,從而有效地優化分布內(ID)/OOD的決策邊界。通過多個基準測試的廣泛實驗表明,SyncOOD明顯優於現有方法,以最小的合成數據使用量建立了新的最先進性能。