每日精選AI研究論文及翻譯
大型語言模型(LLM)的性能在很大程度上取決於其預訓練數據集的質量和大小。然而,像Llama 3和Mixtral這樣的最先進的開放式LLM的預訓練數據集並不公開,對它們的創建方式了解甚少。在這項工作中,我們介紹了FineWeb,這是從96個Common Crawl快照中衍生出的一個包含15萬億標記的數據集,能夠產生比其他開放式預訓練數據集性能更好的LLM。為了推動對如何精心策劃高質量預訓練數據集的理解,我們仔細記錄和剔除了FineWeb中使用的所有設計選擇,包括對去重和過濾策略的深入研究。此外,我們還介紹了FineWeb-Edu,這是從FineWeb中篩選出的包含1300億標記的教育文本集合。在FineWeb-Edu上預訓練的LLM在像MMLU和ARC這樣的知識和推理密集型基準測試中表現出顯著更好的性能。除了我們的數據集外,我們還公開發布了我們的數據策劃代碼庫以及在我們的剔除實驗中訓練的所有模型。
由文本到圖像擴散模型引導的3D生成技術能夠創建引人入勝的視覺資產。然而,先前的方法探索基於圖像或文本的生成。創造力的界限受限於能夠通過文字表達或可以獲取的圖像。我們提出了YouDream,一種生成高質量解剖可控動物的方法。YouDream使用由3D姿勢先前的2D視圖控制的文本到圖像擴散模型進行引導。我們的方法生成了以往的文本到3D生成方法無法創建的3D動物。此外,我們的方法能夠在生成的動物中保持解剖一致性,這是先前的文本到3D方法常常難以應對的領域。此外,我們設計了一個用於生成常見動物的完全自動化流程。為了避免需要人工干預來創建3D姿勢,我們提出了一種多智能體LLM,從有限的動物3D姿勢庫中調整姿勢以表示所需的動物。對YouDream的結果進行的用戶研究表明,我們方法生成的動物模型優於其他方法。轉盤結果和代碼已在https://youdream3d.github.io/ 上發布。
語言模型(LMs)展現出令人印象深刻的性能和泛化能力。然而,LMs在持續學習(CL)中面臨著災難性遺忘的持續挑戰,這削弱了它們在長期可持續性方面的表現。現有方法通常通過將舊任務數據或任務相關的歸納偏差納入LMs來解決此問題。然而,舊數據和準確的任務信息通常難以獲取或成本高昂,這阻礙了當前CL方法對LMs的可用性。為了解決這一限制,我們引入了MIGU(基於Magnitude的梯度更新用於持續學習),這是一種無需排練且無需任務標籤的方法,僅通過更新LMs線性層中輸出的大幅度模型參數。MIGU基於我們的觀察,即LMs線性層中輸出的L1正規化幅度分佈在處理不同任務數據時是不同的。通過對梯度更新過程施加這一簡單約束,我們可以利用LMs的固有行為,從而發揮其天生的CL能力。我們的實驗表明,MIGU對所有三種LM架構(T5、RoBERTa和Llama2)都具有普遍適用性,在四個CL基準測試中持續微調和持續預訓練設置中提供最先進或同等水平的性能。例如,在一個包含15個任務的CL基準測試中,MIGU相比於傳統的參數高效微調基線帶來了15.2%的平均準確性改進。MIGU還可以與所有三種現有的CL類型無縫集成,以進一步提高性能。代碼可在https://github.com/wenyudu/MIGU{此https URL}找到。
最近在人類偏好優化方面的最新進展,最初是為語言模型(LMs)開發的,已顯示出對於文本到圖像擴散模型具有潛力,增強提示對齊、視覺吸引力和用戶偏好。與LMs不同,擴散模型通常在像素或VAE空間中進行優化,這與人類感知不太一致,導致在偏好對齊階段訓練速度較慢且效率較低。我們提出在擴散模型的U-Net嵌入空間中使用感知目標來解決這些問題。我們的方法涉及在該嵌入空間內使用直接偏好優化(DPO)、對比偏好優化(CPO)和監督微調(SFT)來微調穩定擴散1.5和XL。這種方法在各種指標上明顯優於標準潛在空間實現,包括質量和計算成本。對於SDXL,我們的方法在PartiPrompts數據集上相對於原始開源的SDXL-DPO,提供了60.8\%的一般偏好、62.2\%的視覺吸引力和52.1\%的提示跟隨,同時顯著降低了計算成本。我們的方法不僅提高了擴散模型的人類偏好對齊的效率和質量,而且還可以輕鬆與其他優化技術集成。訓練代碼和LoRA權重將在此處提供:https://huggingface.co/alexgambashidze/SDXL_NCP-DPO_v0.1
功能調用代理模型的進步需要多樣化、可靠且高質量的數據集。本文介紹了 APIGen,一個自動數據生成管道,旨在為功能調用應用程序合成可驗證的高質量數據集。我們利用 APIGen 收集了 21 個不同類別中的 3,673 個可執行 API,以便以可擴展和結構化的方式生成多樣化的功能調用數據集。我們的數據集中的每個數據都通過三個階段的層次驗證:格式檢查、實際功能執行和語義驗證,確保其可靠性和正確性。我們展示了使用我們精心策劃的數據集訓練的模型,即使只有 7B 參數,也能在伯克利功能調用基準測試中實現最先進的性能,勝過多個 GPT-4 模型。此外,我們的 1B 模型實現了出色的性能,超越了 GPT-3.5-Turbo 和 Claude-3 Haiku。我們發布了一個包含 60,000 條高質量條目的數據集,旨在推動功能調用代理領域的發展。該數據集可在 Huggingface 上找到:https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k,項目主頁:https://apigen-pipeline.github.io/
我們提出了一個使用生成擴散模型解決偏微分方程(PDEs)的通用框架。特別是,我們專注於在沒有足夠了解場景的完整知識以應用傳統求解器的情況下。大多數現有的正向或反向PDE方法在觀測數據或基礎係數不完整時表現不佳,這是對於現實世界測量的常見假設。在這項工作中,我們提出了DiffusionPDE,它可以同時填補缺失信息並通過建模解和係數空間的聯合分佈來解決PDE。我們展示了學習的生成先驗導致了一個多才多藝的框架,可以準確解決各種在部分觀測下的PDE,明顯優於當前正向和反向方法的最新技術。
近年來,大型語言模型(LLMs)的長文本能力一直是熱門話題。為了評估LLMs在不同情境下的表現,出現了各種評估基準。然而,由於大多數這些基準著重於識別關鍵信息以回答問題,這主要需要LLMs的檢索能力,這些基準只能部分代表LLMs在大量信息中的推理表現。同時,儘管LLMs常聲稱具有32k、128k、200k甚至更長的上下文窗口,這些基準未能揭示這些LLMs實際支持的長度。為了應對這些問題,我們提出了LongIns基準數據集,這是一項具有挑戰性的基於指令的長文本考試,針對LLMs,它是基於現有指令數據集構建的。具體來說,在我們的LongIns中,我們引入了三種評估設置:全局指令和單一任務(GIST)、本地指令和單一任務(LIST)以及本地指令和多個任務(LIMT)。基於LongIns,我們對現有的LLMs進行全面評估,並得出以下重要發現:(1)性能最佳的具有128k上下文長度的GPT-4在我們的LongIns中對16k上下文窗口的評估表現不佳。 (2)對於許多現有LLMs的多跳推理能力,在短上下文窗口(小於4k)下仍然需要大量努力。
多模式大型語言模型(MLLMs)在各種視覺理解任務中取得了顯著進展。然而,大多數這些模型僅能處理低分辨率圖像,這限制了它們在需要詳細視覺信息的感知任務中的有效性。在我們的研究中,我們提出了MG-LLaVA,這是一種創新的MLLM,通過整合多粒度視覺流來增強模型的視覺處理能力,其中包括低分辨率、高分辨率和以物件為中心的特徵。我們提出了整合額外高分辨率視覺編碼器以捕獲細粒度細節,然後通過Conv-Gate融合網絡將其與基本視覺特徵融合。為了進一步改進模型的物件識別能力,我們還將由離線檢測器識別的邊界框產生的物件級特徵納入。通過僅在公開可用的多模式數據上進行指導調整訓練,MG-LLaVA展示了出色的感知技能。我們使用各種語言編碼器(範圍從3.8B到34B)實例化MG-LLaVA,以全面評估模型的性能。在多個基準測試中進行的廣泛評估表明,MG-LLaVA在相同參數大小的現有MLLMs中表現優異,展示了其卓越的效能。代碼將在https://github.com/PhoenixZ810/MG-LLaVA 上提供。
在這份工作中,我們提出了MotionBooth,一個創新的框架,旨在以精確控制物體和攝影機運動的方式為定制主題添加動畫效果。通過利用特定物體的少量圖像,我們有效地微調文本到視頻模型,以準確捕捉物體的形狀和屬性。我們的方法提出了主題區域損失和視頻保存損失,以增強主題的學習性能,還引入了主題標記交叉注意力損失,以將定制主題與運動控制信號整合。此外,我們提出了無需訓練的技術,用於在推論期間管理主題和攝影機運動。特別地,我們利用交叉注意力地圖操作來控制主題運動,並引入了一個新穎的潛在位移模塊,用於攝影機運動控制。MotionBooth在保留主題外觀的同時,同時控制生成視頻中的運動方面表現出色。廣泛的定量和定性評估證明了我們方法的優越性和有效性。我們的項目頁面位於https://jianzongwu.github.io/projects/motionbooth。
長文本建模能力引起廣泛關注,促使出現具有超長上下文窗口的大型語言模型(LLMs)。與此同時,用於評估長文本LLMs的基準逐漸趕上。然而,現有的基準使用無關的噪聲文本來人為延長測試案例的長度,偏離了長文本應用的真實場景。為彌合這一差距,我們提出了一個新穎的長文本基準Loong,通過擴展的多文檔問答(QA)與現實情境相符。與典型的文檔QA不同,在Loong的測試案例中,每個文檔與最終答案相關,忽略任何文檔都將導致答案失敗。此外,Loong引入了四種任務類型,涵蓋一系列上下文長度:焦點定位、比較、分組和推理鏈,以促進對長文本理解的更現實和全面評估。大量實驗表明,現有的長文本語言模型仍具有相當大的增強潛力。檢索增強生成(RAG)表現不佳,表明Loong能夠可靠評估模型的長文本建模能力。
將文本分割成句子在許多自然語言處理系統中扮演著早期和至關重要的角色。通常透過使用基於規則或統計方法依賴於標點等詞彙特徵來實現這一目標。儘管一些最近的研究不再僅依賴於標點符號,我們發現以往的方法均無法達到以下所有目標:(i) 對缺失標點的韌性,(ii) 對新領域的有效適應性,以及(iii) 高效率。我們引入了一個新模型 - Segment any Text (SaT) - 來解決這個問題。為了增強韌性,我們提出了一個新的預訓練方案,確保對標點的依賴較少。為了應對適應性,我們引入了一個額外的參數高效微調階段,確立了在不同領域(如歌詞和法律文件)中的最先進表現。在此過程中,我們引入了架構修改,使速度比先前的最新技術提升了三倍,並解決了對未來上下文的不必要依賴。最後,我們提出了我們模型的變體,通過對多樣化、多語言混合的句子分割數據進行微調,作為現有分割工具的替代和增強。總的來說,我們的貢獻提供了一種通用的文本分割方法。我們的方法在跨越不同領域和語言的8個語料庫中表現優異,特別是在文本格式混亂的實際情況下,超越了所有基準線,包括強大的LLM。我們的模型和代碼,包括文檔,可在MIT許可下的https://huggingface.co/segment-any-text找到。
儘管預先訓練的大型語言模型(LLMs)具有一般性能力,但仍需要進一步調整以更好地滿足實際應用需求。本文展示了三種流行且獨特的調整工具:參數更新、獎勵建模和上下文提示的互換性。這種互換性建立了一個三角形框架,具有六個轉換方向,每個方向都促進各種應用。我們的工作提供了一個整體觀,統一了眾多現有研究,並提出了潛在的研究方向。我們將我們的工作視為未來LLMs研究的有用路線圖。
擴散模型在影片生成方面展現出卓越的能力,進一步引發了將軌跡控制引入生成過程的興趣。儘管現有研究主要集中在基於訓練的方法(例如,條件適配器),我們認為擴散模型本身可以在不需要任何訓練的情況下對生成的內容進行相當控制。在這項研究中,我們引入了一個無需調整的框架,以實現軌跡可控的影片生成,通過對噪聲構建和注意力計算施加引導。具體來說,1)我們首先展示了一些具有指導意義的現象,並分析了初始噪聲如何影響生成內容的運動軌跡。2)隨後,我們提出了FreeTraj,一種無需調整的方法,通過修改噪聲採樣和注意力機制實現軌跡控制。3)此外,我們擴展了FreeTraj,以促進更長更大的影片生成,並實現可控的軌跡。憑藉這些設計,用戶可以靈活地手動提供軌跡,或選擇由LLM軌跡規劃器自動生成的軌跡。大量實驗驗證了我們的方法在增強影片擴散模型軌跡可控性方面的有效性。
最近大型語言模型(LLMs)的進步顯著提升了對話代理的能力,使其適用於各個領域(例如教育)。儘管取得了進展,對代理的評估通常忽略了真實世界對話的複雜性,例如實時互動、多方對話和延伸的語境依賴。為彌合這一差距,我們引入了 DialSim,一個實時對話模擬器。在這個模擬器中,一個代理被指派扮演流行電視節目中的角色,需要利用過去的對話信息回答即興問題,並區分已知和未知信息。DialSim 的關鍵特點包括評估代理在合理時間限制內回應的能力、處理長期多方對話,以及管理對抗環境(例如交換角色名稱)以挑戰代理對預訓練知識的依賴。我們利用這個模擬器來評估最新的對話代理並分析它們的限制。我們的實驗突顯了這些代理的優勢和劣勢,為未來改進對話人工智慧領域提供了有價值的見解。DialSim 可在 https://github.com/jiho283/Simulator 下載。
電影製作和動畫製作通常需要複雜的技術來協調攝影機轉換和物體移動,通常涉及勞動密集型的現實世界捕捉。儘管在生成式人工智慧的視頻創建方面取得了進展,但實現對互動視頻資產生成的運動進行精確控制仍然具有挑戰性。為此,我們提出了「影像導向器」,這是一種從單張圖像生成視頻資產的方法,用於精確控制攝影機轉換和物體移動。我們提出了一種經過良好培養的訓練策略,通過攝影機 LoRA 權重和物體 LoRA 權重來區分不同的攝影機和物體運動。為了進一步應對來自不明確軌跡的電影變化,我們在推斷過程中引入了一種無攝影機指導技術,增強物體移動同時消除攝影機轉換。此外,我們開發了一個以軌跡為導向的視頻運動數據策劃流程進行訓練。定量和定性實驗展示了我們的方法在從圖像生成可控運動的視頻方面的精確性和細粒度控制,推動了互動視頻合成的實際應用。項目網頁位於 https://liyaowei-stu.github.io/project/ImageConductor/
大型語言模型(LLM)的訓練和微調通常受限於有限的 GPU 記憶體。現有的基於投影的優化方法通過將梯度投影到較低維度的子空間來減少優化器狀態記憶體,但它們通常依賴於密集的投影矩陣,這可能引入計算和記憶體開銷。在這項工作中,我們提出了Grass(GRAdient Stuctured Sparsification),一種利用稀疏投影將梯度轉換為結構化稀疏更新的新方法。這種設計不僅顯著降低了優化器狀態的記憶體使用量,還最小化了梯度的記憶體佔用量、計算和通信成本,從而帶來實質的吞吐量改進。對預訓練和微調任務的大量實驗表明,Grass 實現了與完整排名訓練和現有基於投影的方法相當的性能。值得注意的是,Grass 實現了在單個 40GB A100 GPU 上半精度預訓練 13B 參數的 LLaMA 模型,這是以前方法無法實現的壯舉,並在 8-GPU 系統上實現了高達 2 倍的吞吐量改進。代碼可在 https://github.com/aashiqmuhamed/GRASS 找到。
激活導向方法已被證明對語言模型生成具有有效的條件作用,通過對模型的中間表示進行加法干預。然而,迄今為止這些技術的評估僅限於單一條件特性和合成環境。在這項工作中,我們對各種激活導向策略進行了全面評估,突顯了最佳參數的特性依賴性,以確保在整個生成過程中具有強大的效果。為解決這個問題,我們提出了動態激活組合,這是一種信息理論方法,用於調節一個或多個特性在生成過程中的導向強度。我們對多特性導向的實驗表明,我們的方法成功地保持了高條件性,同時最大程度地減少了條件對生成流暢性的影響。
為了讓人工智慧系統能夠有效地與人溝通,它們必須了解我們做決策的方式。然而,人們的決策並非總是理性的,因此大型語言模型(LLMs)中對人類決策的內隱內部模型必須考慮到這一點。先前的實證證據似乎表明這些內隱模型是準確的 - LLMs提供了可信的人類行為代理,表現出我們在日常互動中預期人類會有的行為。然而,通過將LLM的行為和預測與大量人類決策的數據集進行比較,我們發現事實並非如此:在模擬和預測人們的選擇時,一套尖端的LLMs(GPT-4o和4-Turbo、Llama-3-8B和70B、Claude 3 Opus)假設人們比我們實際上更理性。具體而言,這些模型與人類行為有所偏離,更接近於一種經典的理性選擇模型 - 預期價值理論。有趣的是,人們在解釋他人行為時也傾向於假設其他人是理性的。因此,當我們通過另一個心理數據集比較LLMs和人們從他人決策中得出的推論時,我們發現這些推論高度相關。因此,LLMs的內隱決策模型似乎與人類對其他人會理性行事的期望保持一致,而不是與人們實際行動的方式相符。
隨著人工通用智能(AGI)日益融入人類生活的各個方面,確保這些系統的安全性和道德一致性至關重要。先前的研究主要集中在單模態威脅上,這可能不足以應對跨模態交互作用的整合和複雜性。我們引入了一個新穎的安全一致性挑戰,稱為“安全輸入但不安全輸出”(SIUO),以評估跨模態安全一致性。具體而言,它考慮了單一模態在獨立情況下是安全的,但在結合時可能導致不安全或不道德的輸出的情況。為了從實證角度研究這個問題,我們開發了SIUO,這是一個跨模態基準,包括自我傷害、非法活動和侵犯隱私等9個關鍵安全領域。我們的研究結果顯示,無論是閉源還是開源的LVLMs,如GPT-4V和LLaVA,都存在重大的安全漏洞,突顯了當前模型無法可靠地解釋和應對複雜的現實情境的不足。