每日精選AI研究論文及翻譯
我們研究當代大型語言模型(LLMs)在探索方面的能力,這是強化學習和決策製定中的核心能力。我們專注於現有LLMs的本地性能,並沒有進行訓練干預。我們將LLMs部署為簡單的多臂擇機器人環境中的代理,完全在上下文中指定環境描述和互動歷史,即在LLM提示內。我們對GPT-3.5、GPT-4和Llama2進行實驗,使用各種提示設計,發現模型在沒有實質干預的情況下並不堅定地參與探索:i)在我們所有的實驗中,只有一種配置產生了令人滿意的探索行為:具有思維鏈推理和外部總結互動歷史的GPT-4,呈現為足夠統計量;ii)所有其他配置均未產生堅固的探索行為,包括具有思維鏈推理但未總結歷史的配置。儘管這些發現可以正面解讀,但它們表明,外部總結 - 在更複雜的情境中可能不可行 - 對於從LLM代理獲得理想行為至關重要。我們得出結論,可能需要進行非平凡的算法干預,如微調或數據集整理,才能賦予LLM為基礎的決策代理在複雜情境中的能力。
預訓練的大型語言模型(LLMs)目前是解決絕大多數自然語言處理任務的最先進技術。儘管許多現實應用仍需要微調才能達到令人滿意的性能水平,但其中許多處於低數據範疇,這使得微調變得具有挑戰性。為了應對這一問題,我們提出了LLM2LLM,這是一種針對性的迭代數據擴增策略,利用一個教師LLM來增強一個小型種子數據集,通過擴增額外的數據,用於針對特定任務進行微調。LLM2LLM(1)在初始種子數據上對基準學生LLM進行微調,(2)評估並提取模型錯誤的數據點,(3)使用教師LLM基於這些不正確的數據點生成合成數據,然後將其添加回訓練數據中。這種方法通過在訓練期間放大LLM對不正確預測數據點的信號,並將其重新整合到數據集中,以便更多地關注LLM的具有挑戰性的示例。我們的結果表明,LLM2LLM顯著提升了LLMs在低數據範疇中的性能,優於傳統的微調和其他數據擴增基準。LLM2LLM減少了對勞動密集型數據整理的依賴,為更具規模和高性能的LLM解決方案鋪平了道路,使我們能夠應對數據受限的領域和任務。我們在GSM8K數據集上實現了高達24.2%的改進,在CaseHOLD上達到32.6%,在SNIPS上達到32.0%,在TREC上達到52.6%,在SST-2上達到39.8%,相較於低數據範疇中使用LLaMA2-7B學生模型的常規微調。
我們介紹了InternVideo2,一個新的影片基礎模型(ViFM),在動作識別、影片文本任務和以影片為中心的對話中實現了最先進的性能。我們的方法採用了一種逐步訓練範式,統一了不同的自我監督或弱監督學習框架,包括遮罩式影片標記重建、跨模態對比學習和下一個標記預測。不同的訓練階段將引導我們的模型通過不同的預設任務捕捉不同層次的結構和語義信息。在數據層面上,我們通過對影片進行語義分割並生成影片-音頻-語音字幕,優先考慮時空一致性。這提高了影片和文本之間的對齊。我們為InternVideo2擴展了數據和模型大小。通過大量實驗,我們驗證了我們的設計並展示了在60多個影片和音頻任務上的最先進性能。值得注意的是,我們的模型在各種與影片相關的字幕、對話和長影片理解基準上優於其他模型,突顯了其推理和理解長時間上下文的能力。代碼和模型可在https://github.com/OpenGVLab/InternVideo2/找到。
在這項研究中,我們介紹了一種人類圖像動畫的方法,通過在潛在擴散框架內利用 3D 人體參數模型來增強當前人類生成技術中的形狀對齊和運動引導。該方法利用 SMPL(Skinned Multi-Person Linear)模型作為 3D 人體參數模型,以建立身體形狀和姿勢的統一表示。這有助於從源視頻準確捕捉複雜的人體幾何形狀和運動特徵。具體來說,我們結合從 SMPL 序列獲得的渲染深度圖像、法向圖和語義圖,以及基於骨架的運動引導,豐富了潛在擴散模型的條件,具有全面的 3D 形狀和詳細的姿勢特徵。採用多層運動融合模塊,集成自注意機制,用於在空間域中融合形狀和運動潛在表示。通過將 3D 人體參數模型表示為運動引導,我們可以在參考圖像和源視頻運動之間執行人體的參數形狀對齊。在基準數據集上進行的實驗評估表明,該方法能夠生成高質量的人類動畫,準確捕捉姿勢和形狀變化。此外,我們的方法在提出的 wild 數據集上還展現出優越的泛化能力。項目頁面:https://fudan-generative-vision.github.io/champ。
現實世界的應用通常需要一個龐大的 3D 資產庫,這些資產具有一致的主題。儘管在從文本或圖像中創建一般 3D 內容方面取得了顯著進展,但根據輸入 3D 示例合成符合共享主題的定制 3D 資產仍然是一個開放且具有挑戰性的問題。在這項工作中,我們提出了一種新方法 ThemeStation,用於主題感知的 3D 到 3D 生成。ThemeStation 根據少量給定示例合成定制的 3D 資產,具有兩個目標:1) 一致性,用於生成與給定示例在主題上對齊的 3D 資產,以及 2) 多樣性,用於生成具有高度變化的 3D 資產。為此,我們設計了一個兩階段框架,首先繪製概念圖像,然後進行參考資訊引導的 3D 建模階段。我們提出了一種新的雙分數蒸餾(DSD)損失,以共同利用來自輸入示例和合成概念圖像的先驗知識。大量實驗和用戶研究證實,ThemeStation 在生成具有印象深刻質量的多樣主題感知 3D 模型方面勝過先前的工作。ThemeStation 還支持各種應用,如可控的 3D 到 3D 生成。
本文提出了VidLA,一種用於大規模視頻語言對齊的方法。先前的視頻語言對齊方法存在兩個主要限制。首先,它們未捕獲短程和長程時間依賴性,通常採用複雜的分層深度網絡架構,難以與現有的預訓練圖像文本基礎模型集成。為了有效解決這一限制,我們保持網絡架構簡單,並使用一組以分層方式以不同時間分辨率運作的數據標記,以考慮視頻的時間分層性質。通過採用簡單的雙塔架構,我們能夠使用預訓練的圖像文本基礎模型初始化我們的視頻語言模型,從而提高最終性能。其次,現有的視頻語言對齊工作由於缺乏語義對齊的大規模訓練數據而面臨困難。為了克服這一問題,我們利用最近的LLM來精心策劃迄今為止最大的視頻語言數據集,實現更好的視覺基礎。此外,與現有僅包含短片段的視頻文本數據集不同,我們的數據集豐富多樣,包含不同持續時間的視頻片段,以幫助我們的時間分層數據標記在不同時間尺度上提取更好的表示。總的來說,實證結果表明,我們提出的方法在多個檢索基準上超越了最先進的方法,特別是在較長的視頻上,並在分類基準上表現出競爭力。
Transformer廣泛採用了注意力網絡進行序列混合和MLPs進行通道混合,在各個領域取得了突破性進展。然而,最近的文獻突出了關於注意力網絡的問題,包括對輸入序列長度的低歸納偏差和二次複雜度。像S4和其他SSM(如Hippo、Global Convolutions、liquid S4、LRU、Mega和Mamba)這樣的狀態空間模型已經出現,以解決上述問題,幫助處理更長的序列長度。Mamba作為最先進的SSM,當擴展到大型計算機視覺數據集時存在穩定性問題。我們提出了SiMBA,一種新的架構,引入了Einstein FFT(EinFFT)進行通道建模,通過特定的特徵值計算使用Mamba塊進行序列建模。通過圖像和時間序列基準的廣泛性能研究表明,SiMBA優於現有的SSM,縮小了與最先進的Transformer之間的性能差距。值得注意的是,SiMBA在ImageNet和轉移學習基準以及Stanford Car和Flower等任務學習基準以及七個時間序列基準數據集上確立了自己作為最新的SSM。項目頁面可在此網站上找到:https://github.com/badripatro/Simba。
我們介紹了DragAPart,一種方法,給定一幅圖像和一組拖動作為輸入,可以生成一幅新的圖像,展現物體在新狀態下的動作,與拖動的動作相容。與先前專注於重新定位物體的作品不同,DragAPart 預測部分級別的互動,例如打開和關閉抽屜。我們將這個問題作為學習通用運動模型的代理,不限於特定的運動結構或物體類別。為此,我們從一個預先訓練的圖像生成器開始,並在一個新的合成數據集 Drag-a-Move 上進行微調,我們也介紹了這個數據集。結合一種新的拖動編碼和數據集隨機化,新模型對真實圖像和不同類別有很好的泛化能力。與先前的運動控制生成器相比,我們展示了更好的部分級別運動理解。
現代的大型語言模型(LLMs)能夠遵循長且複雜的指示,從而支持多樣的使用者任務。然而,儘管資訊檢索(IR)模型使用LLMs作為其架構的基礎,幾乎所有這些模型仍然僅接受查詢作為輸入,沒有指示。對於那些最近接受指示的少數模型,它們如何使用這些指示尚不清楚。我們引入了我們的數據集FollowIR,其中包含一個嚴格的指示評估基準以及一個用於幫助IR模型更好地遵循現實世界指示的訓練集。FollowIR基於TREC會議的悠久歷史:正如TREC為人類標註者提供指示(也稱為敘述)以確定文件相關性一樣,IR模型也應該能夠根據這些詳細的指示來理解並判斷相關性。我們的評估基準從三個經過深入評估的TREC收藏開始,並修改標註者的指示,重新標註相關文件。通過這個過程,我們可以衡量IR模型如何遵循指示,透過一個新的成對評估框架。我們的結果顯示現有的檢索模型未能正確使用指示,僅將其用於基本關鍵字,並難以理解長篇信息。然而,我們展示了IR模型可以學會遵循複雜指示的可能性:我們的新FollowIR-7B模型在我們的訓練集上微調後有顯著改進(超過13%)。
逐字反饋構成了一個寶貴的用戶經驗、意見和需求存儲庫,對於軟體開發至關重要。從這樣的數據中有效且高效地提取有價值的見解是一項具有挑戰性的任務。本文介紹了Allhands,一個創新的分析框架,旨在通過自然語言界面進行大規模反饋分析,利用大型語言模型(LLMs)。Allhands遵循傳統的反饋分析工作流程,最初對反饋進行分類和主題建模,將其轉換為結構增強格式,並整合LLMs以提高準確性、韌性、泛化性和用戶友好性。隨後,使用LLM代理來解釋用戶在反饋中提出的各種自然語言問題,將其翻譯為Python代碼以執行,並提供全面的多模式響應,包括文本、代碼、表格和圖像。 我們在三個不同的反饋數據集上評估了Allhands。實驗表明,Allhands在所有分析階段,包括分類和主題建模,均實現了卓越的效能,最終為用戶提供了一種“問我任何事”的體驗,提供全面、正確和易讀的響應。據我們所知,Allhands是第一個支持透過自然語言界面提取見解的多樣化和定制化需求的全面反饋分析框架。
最近的文本轉3D生成方法產生令人印象深刻的3D結果,但需要耗時的優化,每個提示可能需要長達一小時。像ATT3D這樣的攤銷方法同時優化多個提示,以提高效率,實現快速文本轉3D合成。然而,它們無法捕捉高頻幾何和紋理細節,並且難以擴展到大型提示集,因此泛化能力較差。我們引入LATTE3D,解決這些限制,實現在顯著更大的提示集上快速、高質量的生成。我們方法的關鍵在於:1)構建可擴展的架構,以及2)通過3D感知擴散先驗、形狀正則化和模型初始化在優化過程中利用3D數據,實現對多樣且複雜的訓練提示的韌性。LATTE3D攤銷神經場和紋理表面生成,以在單個前向傳遞中生成高度詳細的紋理網格。LATTE3D在400毫秒內生成3D物體,並可以通過快速測試時間優化進一步增強。
我們引入了一種新的編譯器優化範式,利用大型語言模型和編譯器反饋來優化LLVM組件的代碼大小。該模型以未優化的LLVM IR作為輸入,並生成優化的IR、最佳優化過程以及未優化和優化IR的指令計數。然後,我們使用生成的優化過程編譯輸入,評估預測的指令計數是否正確,生成的IR是否可編譯,並且是否對應編譯後的代碼。我們將這些反饋信息提供給大型語言模型,讓其有機會再次優化代碼。這種方法比原始模型的 -Oz 再增加了額外的0.53% 改進。儘管添加更多反饋信息似乎很直觀,但簡單的採樣技術在提供10個或更多樣本時實現了更高的性能。