每日精選AI研究論文及翻譯
資訊以多樣的形式呈現。多模態本地人工智慧模型對於整合現實世界資訊並提供全面理解至關重要。儘管存在專有的多模態本地模型,但其缺乏開放性對於採用甚至適應都帶來障礙。為填補這一空白,我們介紹了 Aria,一個在各種多模態、語言和編碼任務中表現優異的開放式多模態本地模型。Aria 是一個專家混合模型,每個視覺標記和文本標記分別具有 39 億和 35 億個啟動參數。它優於 Pixtral-12B 和 Llama3.2-11B,並在各種多模態任務上與最佳專有模型競爭。我們從頭開始預訓練 Aria,採用 4 階段流程,逐步賦予模型在語言理解、多模態理解、長上下文窗口和指示遵循方面的強大能力。我們開源模型權重以及一個代碼庫,有助於在現實應用中輕鬆採用和適應 Aria。
大型語言模型(LLMs)在經濟和戰略互動中展現顯著潛力,其中通過自然語言進行溝通往往很普遍。這引發了一些關鍵問題:LLMs是否表現理性?它們能模仿人類行為嗎?它們是否傾向於達到有效和公平的結果?自然語言在戰略互動中扮演什麼角色?經濟環境的特徵如何影響這些動態?這些問題對於將基於LLM的代理集成到現實世界的數據驅動系統(如在線零售平台和推薦系統)的經濟和社會影響至關重要。儘管機器學習社區一直在探索LLMs在這種多代理設置中的潛力,但研究中的各種假設、設計選擇和評估標準的差異使得很難得出堅固且有意義的結論。為了應對這一挑戰,我們引入了一個基準,用於標準化關於雙方、連續、基於語言的遊戲的研究。受經濟文獻的啟發,我們定義了三個基本遊戲家族,具有一致的參數化、自由度和經濟度量,以評估代理的表現(自我收益)以及遊戲結果(效率和公平性)。我們開發了一個開源框架用於交互模擬和分析,並利用它收集了一組LLM對LLM互動的數據集,涵蓋眾多遊戲配置,以及一組人類對LLM互動的額外數據集。通過廣泛的實驗,我們展示了我們的框架和數據集如何用於:(i)比較LLM代理在不同經濟背景下與人類玩家的行為;(ii)評估代理在個人和集體表現指標上的表現;以及(iii)量化環境的經濟特徵對代理行為的影響。
最近在多模式大型語言模型(MLLMs)方面取得了顯著進展;然而,這些模型存在一個顯著的限制,我們稱之為「面孔失認」。具體而言,它們可以進行一般對話,但無法進行針對特定個人的個性化對話。這種缺陷阻礙了在個性化設置中應用MLLMs,例如在移動設備上定製的視覺助手,或需要識別家庭成員的家用機器人。在本文中,我們介紹了個性化視覺指導調整(PVIT),這是一個新穎的數據整理和訓練框架,旨在使MLLMs能夠識別圖像中的目標個人並進行個性化和連貫的對話。我們的方法涉及開發一個複雜的流程,自動生成包含個性化對話的訓練數據。這個流程利用各種視覺專家、圖像生成模型和(多模式)大型語言模型的能力。為了評估MLLMs的個性化潛力,我們提出了一個名為P-Bench的基準,其中包含不同難度水平的各種問題類型。實驗表明,在使用我們精心策劃的數據集進行微調後,MLLMs的個性化性能得到了顯著提升。
我們介紹了 Pixtral-12B,一個擁有 120 億參數的多模態語言模型。Pixtral-12B 被訓練來理解自然圖像和文件,並在各種多模態基準測試中取得領先表現,超越許多更大的模型。與許多開源模型不同,Pixtral 也是一個在其尺寸上具有尖端文本模型,並且在多模態任務上表現出色而不會犧牲自然語言性能。Pixtral 使用了從頭訓練的新視覺編碼器,使其能夠以自然解析度和長寬比摄取圖像。這使用戶可以靈活地選擇用於處理圖像的標記數。Pixtral 還能夠在其長上下文窗口(128K 標記)中處理任意數量的圖像。Pixtral 12B 在性能上遠遠優於其他相似尺寸的開源模型(Llama-3.2 11B 和 Qwen-2-VL 7B)。它還在遠大於自身七倍的更大開源模型(Llama-3.2 90B)上取得了優異表現。我們進一步貢獻了一個開源基準測試 MM-MT-Bench,用於評估實際情境中的視覺語言模型,並為多模態 LLM 的標準評估協議提供了詳細分析和代碼。Pixtral-12B 釋出在 Apache 2.0 許可證下。
本文介紹了F5-TTS,一種基於流匹配與擴散Transformer(DiT)的完全非自回歸文本轉語音系統。該系統無需複雜的設計,如持續時間模型、文本編碼器和音素對齊,只需將文本輸入簡單地填充為與語音輸入相同的長度,然後對語音進行去噪以進行語音生成,這最初是由E2 TTS證明可行的。然而,E2 TTS的原始設計由於收斂速度慢且魯棒性低而難以跟隨。為解決這些問題,我們首先使用ConvNeXt對輸入進行建模以優化文本表示,使其易於與語音對齊。我們進一步提出了一種推斷時的擺動取樣策略,顯著提高了我們模型的性能和效率。這種流程步驟的取樣策略可以輕鬆應用於現有基於流匹配的模型而無需重新訓練。我們的設計實現了更快的訓練,並實現了0.15的推斷實時因子(RTF),與最先進的基於擴散的TTS模型相比有了很大的改進。在公開的100K小時多語種數據集上訓練,我們的Fairytaler Fakes Fluent and Faithful speech with Flow matching(F5-TTS)展現了高度自然和富有表現力的零樣本能力、無縫的代碼切換能力和速度控制效率。演示樣本可在https://SWivid.github.io/F5-TTS找到。我們釋放所有代碼和檢查點以促進社區發展。
像 Sora 這樣的文字轉視頻(T2V)模型在視覺化複雜提示方面取得了顯著進展,這被越來越多地認為是通往構建通用世界模擬器的一條有前途的途徑。認知心理學家認為,實現這一目標的基礎是理解直觀物理。然而,這些模型準確表示直觀物理的能力仍然大部分未被探索。為彌合這一差距,我們引入了 PhyGenBench,一個全面的物理生成基準,旨在評估 T2V 生成中的物理常識正確性。PhyGenBench 包括 160 個精心設計的提示,涵蓋 27 個不同的物理定律,跨越四個基本領域,可以全面評估模型對物理常識的理解。除了 PhyGenBench,我們提出了一個新穎的評估框架,稱為 PhyGenEval。該框架採用分層評估結構,利用適當的先進視覺語言模型和大型語言模型來評估物理常識。通過 PhyGenBench 和 PhyGenEval,我們可以對 T2V 模型對物理常識的理解進行大規模自動評估,這與人類反饋密切一致。我們的評估結果和深入分析表明,當前模型難以生成符合物理常識的視頻。此外,僅僅擴大模型規模或應用提示工程技術是不足以完全應對 PhyGenBench 提出的挑戰(例如,動態情景)。我們希望這項研究能激勵社群將物理常識的學習置於這些模型中娛樂應用之外的重要位置。我們將在 https://github.com/OpenGVLab/PhyGenBench 上發布數據和代碼。
像 RPG、穩定擴散 3 和 FLUX 這樣的先進擴散模型已在組合式文本到圖像生成方面取得顯著進展。然而,這些方法通常在組合生成方面表現出不同的優勢,有些擅長處理屬性綁定,而其他則擅長處理空間關係。這種差異凸顯了需要一種方法,能夠利用各種模型的互補優勢,全面提升組合能力。為此,我們引入了 IterComp,一個新穎的框架,它匯集了來自多個模型的組合感知模型偏好,並採用迭代反饋學習方法來增強組合生成。具體來說,我們精心挑選了六個功能強大的開源擴散模型,並評估它們的三個關鍵組合指標:屬性綁定、空間關係和非空間關係。基於這些指標,我們開發了一個組合感知模型偏好數據集,其中包含眾多圖像-排名對,用於訓練組合感知獎勵模型。然後,我們提出了一種迭代反饋學習方法,以閉環方式增強組合性,實現基於多次迭代的基礎擴散模型和獎勵模型的逐步自我完善。理論證明了效果,廣泛實驗顯示了我們在先前的 SOTA 方法(例如 Omost 和 FLUX)方面的顯著優越性,特別是在多類別對象組合和複雜語義對齊方面。IterComp 為擴散模型和組合生成開辟了新的研究途徑。代碼:https://github.com/YangLing0818/IterComp
視頻生成需要對龐大的時空空間進行建模,這需要大量的計算資源和數據使用。為了降低複雜性,主流方法採用了級聯架構,以避免直接使用全分辨率進行訓練。儘管降低了計算需求,但每個子階段的分開優化阻礙了知識共享並犧牲了靈活性。本研究引入了一種統一的金字塔流匹配算法。它重新解釋了原始的去噪軌跡為一系列金字塔階段,其中僅最終階段在全分辨率下運行,從而實現了更高效的視頻生成建模。通過我們精心設計,不同金字塔階段的流可以相互聯繫以保持連續性。此外,我們通過時間金字塔創建自回歸視頻生成,以壓縮全分辨率歷史。整個框架可以以端到端的方式進行優化,並使用單一統一的擴散Transformer(DiT)。大量實驗表明,我們的方法支持在20.7k A100 GPU訓練小時內生成高質量的768p分辨率和24 FPS的5秒(最多10秒)視頻。所有代碼和模型將在https://pyramid-flow.github.io 開源。
我們提出了模態整合率(MIR),這是一個有效、穩健且通用的指標,用於指示大型視覺語言模型(LVLMs)的多模態預訓練質量。大規模預訓練在構建具備能力的LVLMs中扮演著關鍵角色,然而,在沒有昂貴的監督微調階段的情況下評估其訓練質量尚未得到充分探討。損失、困惑度和上下文評估結果通常用於大型語言模型(LLMs)的預訓練指標,然而我們觀察到,這些指標在將訓練良好的LLM與新的模態對齊時不夠具指示性。由於缺乏適當的指標,LVLMs在關鍵的預訓練階段的研究受到嚴重阻礙,包括訓練數據的選擇、高效模塊設計等。在本文中,我們提出從跨模態分佈距離的角度評估預訓練質量,並提出MIR,即模態整合率,其具有以下特點:1)能夠有效地代表預訓練質量,並與監督微調後的基準性能呈現正相關。2)對不同的訓練/評估數據具有穩健性。3)能夠泛化到不同的訓練配置和架構選擇。我們進行了一系列的預訓練實驗,以探索MIR的有效性,觀察到令人滿意的結果,表明MIR能夠指示關於訓練數據選擇、訓練策略安排和模型架構設計以獲得更好的預訓練結果。我們希望MIR可以成為構建具備能力的LVLMs的有用指標,並激發不同領域中有關模態對齊的後續研究。我們的程式碼位於:https://github.com/shikiw/Modality-Integration-Rate。
在這份技術報告中,我們介紹了Falcon Mamba 7B,這是一個基於新穎Mamba架構的大型語言模型。Falcon Mamba 7B是在精心挑選的數據混合物上訓練的,總共包含了5.8萬億個標記。作為純Mamba架構的模型,Falcon Mamba 7B超越了基於Transformer的領先開放權重模型,如Mistral 7B、Llama3.1 8B和Falcon2 11B。它與Gemma 7B齊名,並且優於具有不同架構設計的模型,如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B。目前,根據Open LLM Leaderboard,Falcon Mamba 7B是文獻中在這個規模上表現最佳的Mamba模型,超越了現有的Mamba和混合Mamba-Transformer模型。由於其架構,Falcon Mamba 7B在推理速度上顯著更快,並且在生成長序列時需要更少的記憶體。儘管最近的研究表明混合Mamba-Transformer模型優於純架構設計,我們證明即使是純Mamba設計也能達到與Transformer和混合設計相似甚至更優秀的結果。我們將Falcon Mamba 7B的權重以寬鬆的許可證公開在https://huggingface.co/tiiuae/falcon-mamba-7b。
本文探討了視覺主幹和優化器之間的相互作用,揭示了一種稱為\textbf{主幹-優化器耦合偏差}(BOCB)的相互依賴現象。我們觀察到,像VGG和ResNet這樣的經典CNN與SGD家族呈現明顯的相互依存關係,而像ViTs和ConvNeXt這樣的最新架構則與自適應學習率方法緊密耦合。我們進一步展示,BOCB可能由優化器和某些主幹設計引入,並可能顯著影響視覺模型的預訓練和下游微調。通過深入的實證分析,我們總結了對推薦優化器和強健視覺主幹架構的見解。我們希望這項工作能激發社區對主幹和優化器的長期假設提出質疑,促進進一步的探索,從而為更強健的視覺系統做出貢獻。源代碼和模型可在https://bocb-ai.github.io/公開獲得。
本研究旨在全面探索建立用於自我中心視頻理解的多模態基礎模型。為實現此目標,我們從三個方面進行工作。首先,由於缺乏自我中心視頻理解的問答數據,我們開發了一個數據引擎,可以高效生成700萬個高質量的自我中心視頻問答樣本,範圍從30秒到一小時不等,基於人工標註數據。這目前是最大的自我中心問答數據集。其次,我們貢獻了一個具有挑戰性的自我中心問答基準測試集,包含629個視頻和7026個問題,用於評估模型識別和記憶視覺細節的能力,這些視頻長度各異。我們引入了一種新的去偏差評估方法,以幫助減輕模型評估中不可避免的語言偏差。第三,我們提出了一種專門的多模態架構,具有一種新穎的“記憶指針提示”機制。該設計包括一個全局瞥見步驟,以獲得對整個視頻的全面理解並識別關鍵視覺信息,然後是一個後備步驟,利用關鍵視覺信息生成回答。這使模型能夠更有效地理解延伸的視頻內容。通過數據、基準測試和模型,我們成功構建了MM-Ego,一個自我中心多模態LLM,在自我中心視頻理解方面表現出強大的性能。
故事視覺化是根據敘述生成連貫圖像的任務,在文本轉圖像模型,尤其是擴散模型的出現下取得了顯著進展。然而,在長篇故事視覺化(即長達100幀)中,保持語義一致性、生成高質量細緻交互作用以及確保計算可行性仍然具有挑戰性。在這項工作中,我們提出了一個無需訓練且計算效率高的框架,稱為Story-Adapter,以增強長篇故事的生成能力。具體而言,我們提出了一種迭代範式來改進每個生成的圖像,利用文本提示和前一次迭代中生成的所有圖像。我們框架的核心是一個無需訓練的全局參考交叉注意力模塊,它匯總了前一次迭代中生成的所有圖像,以保持整個故事的語義一致性,同時通過全局嵌入來降低計算成本。這種迭代過程通過反覆納入文本約束逐步優化圖像生成,從而產生更精確和細緻的交互作用。大量實驗驗證了Story-Adapter在提高語義一致性和生成能力,尤其是在長篇故事情境中改善細緻交互作用方面的優越性。項目頁面和相關代碼可通過 https://jwmao1.github.io/storyadapter 訪問。
通過與人類偏好的對齊,大型語言模型(LLMs)在生成誠實、無害和有幫助的回應方面取得了顯著進展。然而,收集高質量的偏好數據是一個資源密集且需要創造力的過程,特別是為了持續改進LLMs。我們引入了SynPO,一種利用合成偏好數據進行模型對齊的自我增強範式。SynPO採用一種迭代機制,其中自我提示生成器創建多樣的提示,而回應改進器逐步優化模型回應。這種方法訓練LLMs自主學習其自身輸出的生成獎勵,並消除了對大規模提示和人類偏好標註的需求。在四個SynPO迭代之後,Llama3-8B和Mistral-7B在AlpacaEval 2.0和ArenaHard上的指令遵循能力顯著提高,達到超過22.1%的勝率提升。同時,SynPO提高了LLMs在各種任務上的總體表現,通過Open LLM排行榜上3.2至5.0的平均分數增加得到驗證。
基礎模型(FMs)是在大規模數據集上預先訓練,然後在特定應用的下游任務上進行微調。最成功和最常用的微調方法是通過低秩適應(LoRA)更新預先訓練的權重。LoRA引入新的權重矩陣,通常以隨機方式初始化,並在模型權重之間具有均勻的秩分佈。最近的研究專注於權重驅動的初始化或在訓練期間學習適應性秩。這兩種方法僅被孤立地研究,導致收斂速度緩慢或秩分佈均勻,進而導致次優性能。我們提出通過在小批量激活向量上計算奇異值分解,以數據驅動的方式初始化新權重,從而增強LoRA。然後,我們使用獲得的右奇異向量初始化LoRA矩陣,並在所有權重矩陣之間重新分配秩,以解釋最大變異量並繼續標準LoRA微調程序。這導致我們的新方法解釋變異適應(EVA)。我們將EVA應用於各種微調任務,從語言生成和理解到圖像分類和強化學習。EVA比競爭對手表現出更快的收斂速度,並在每個領域的眾多任務中獲得最高平均分數。
本文著重於在事後訓練階段通過從預訓練的文本到視頻(T2V)模型中提煉出一個高效的一致性模型,以增強基於擴散的文本到視頻(T2V)模型。我們提出的方法,T2V-Turbo-v2,通過將各種監督信號(包括高質量的訓練數據、獎勵模型反饋和條件引導)整合到一致性提煉過程中,引入了顯著的進步。通過全面的消融研究,我們強調了根據具體學習目標定制數據集的至關重要性,以及從不同獎勵模型中學習以增強視覺質量和文本-視頻對齊的有效性。此外,我們突出了條件引導策略的廣泛設計空間,重點在於設計一個有效的能量函數來增強教師 ODE 求解器。我們通過從訓練數據集中提取運動引導並將其融入ODE求解器,展示了這種方法的潛力,顯示了它在通過VBench和T2V-CompBench改進的運動相關指標中提高生成視頻的運動質量方面的有效性。從實證上看,我們的T2V-Turbo-v2在VBench上取得了新的最先進成果,總分為85.13,超越了Gen-3和Kling等專有系統。
大型語言模型已成功應用於程式設計輔助任務,如程式碼自動完成、程式碼插入和指導性程式碼編輯。然而,這些應用仍然缺乏自動化,並在程式設計過程中難以有效整合各種類型的資訊,包括編碼歷史、當前程式碼和使用者指示。在這項工作中,我們提出了一個新的對話框架,全面整合這些資訊來源,收集數據來訓練我們的模型並評估其性能。首先,為了全面評估模型與不同類型資訊的對齊程度和其輸出的質量,我們引入了一個新的基準,名為 APEval(Assist Programming Eval),以全面評估模型在程式設計輔助任務中的表現。然後,為了進行數據收集,我們開發了一個數據生成管道 Programming-Instruct,從各種來源(如 GitHub 和線上評判平台)綜合合成訓練數據。該管道可以在整個程式設計過程中自動生成各種類型的訊息。最後,利用這個管道,我們生成了 219K 個樣本,對多個模型進行微調,並開發了 CursorCore 系列。我們展示了 CursorCore 在性能上優於其他相近大小的模型。這個框架統一了內聯聊天和自動編輯等應用,有助於程式設計助手的進步。程式碼、模型和數據可在以下網址免費取得:https://github.com/TechxGenus/CursorCore。
影片大型語言模型(Video LLMs)展現了在影片理解方面的潛力,然而在追蹤時間變化和推理時間關係方面仍有困難。先前的研究認為這種限制是由於視覺輸入的時間編碼不夠有效,但我們的診斷研究揭示了影片表示包含足夠的信息,即使是小型探測分類器也能實現完美的準確性。令人驚訝的是,我們發現Video LLMs在時間推理能力上的關鍵瓶頸源於基礎LLM對時間概念的固有困難,這表現在對文本時間問答任務表現不佳。基於這一發現,我們引入了Textual Temporal reasoning Transfer(T3)。T3從現有的圖像-文本數據集中合成純文本格式的多樣時間推理任務,解決了缺乏具有複雜時間情景的影片樣本的問題。值得注意的是,在不使用任何影片數據的情況下,T3增強了LongVA-7B的時間理解能力,在具有挑戰性的TempCompass基準測試中實現了5.3個絕對準確度的提升,使我們的模型能夠超越在28,000個影片樣本上訓練的ShareGPT4Video-8B。此外,增強的LongVA-7B模型在全面的影片基準測試中實現了競爭性表現。例如,在Video-MME的時間推理任務中實現了49.7的準確度,超越了InternVL-Chat-V1.5-20B和VILA1.5-40B等強大的大規模模型。進一步的分析揭示了文本和影片時間任務表現之間的強相關性,驗證了從文本到影片領域轉移時間推理能力的有效性。
最近在大規模文本到視頻(T2V)和圖像到視頻(I2V)擴散模型方面取得的進展,極大地增強了視頻生成的能力,特別是在關鍵幀插值方面。然而,目前的圖像到視頻擴散模型,雖然在從單個條件幀生成視頻方面很強大,但需要適應兩幀(起始和結束)條件生成,這對於有效的有界插值至關重要。不幸的是,現有的將時間向前和向後路徑並行融合的方法通常會出現離群問題,導致產生瑕疵或需要多次迭代重新加噪。在這項工作中,我們引入了一種新穎的雙向採樣策略,以解決這些離群問題,而無需進行大量重新加噪或微調。我們的方法沿著向前和向後路徑進行順序採樣,分別以起始幀和結束幀為條件,確保生成中間幀更具連貫性並且在流形上。此外,我們還融入了先進的引導技術,CFG++ 和 DDS,以進一步增強插值過程。通過整合這些技術,我們的方法實現了最先進的性能,高效生成在關鍵幀之間高質量、流暢的視頻。在單個 3090 GPU 上,我們的方法可以在僅 195 秒內以 1024 x 576 的分辨率插補 25 幀,使其成為關鍵幀插值的領先解決方案。
儘管定制文本轉圖像和視頻生成模型取得了顯著進展,但生成有效整合多個個性化概念的圖像和視頻仍然是一項具有挑戰性的任務。為了應對這一挑戰,我們提出了 TweedieMix,一種在推斷階段組合定制擴散模型的新方法。通過分析逆向擴散取樣的特性,我們的方法將取樣過程分為兩個階段。在初始步驟中,我們應用多對象感知取樣技術,以確保包含所需的目標對象。在後續步驟中,我們使用 Tweedie 的公式在去噪圖像空間中混合自定義概念的外觀。我們的結果表明,TweedieMix 可以比現有方法生成具有更高保真度的多個個性化概念。此外,我們的框架可以輕鬆擴展到圖像到視頻擴散模型,從而實現生成具有多個個性化概念的視頻。結果和源代碼均在我們的匿名項目頁面上。
指令調整-使用指令-回應對進行監督微調-是將預先訓練的大型語言模型(LLMs)轉換為有用且安全的聊天助手的基礎步驟。我們的假設是,建立適當的輸出空間可以使這種轉變成為可能,鑒於預先訓練的LLMs固有的能力。為了驗證這一點,我們提出了回應調整(RT),它消除了指令調整中的指令條件步驟,僅專注於回應空間監督。我們的實驗表明,僅使用回應進行訓練的RT模型可以有效地回應各種指令,並展現出與其經過指令調整的對應物相當的幫助性。此外,我們觀察到,控制訓練回應分佈可以顯著改善他們的使用者偏好,或引發目標行為,例如拒絕對不安全查詢的協助。我們的研究結果闡明了在調整中建立適當的輸出空間的作用,突顯了預先訓練的LLMs固有能力的潛力。
本文提出了AutoDAN-Turbo,一種黑盒駭客入侵方法,可以自動從頭開始發現盡可能多的駭客入侵策略,而無需任何人為干預或預定範圍(例如指定的候選策略),並將其用於紅隊行動。因此,AutoDAN-Turbo可以顯著優於基準方法,在公共基準測試中實現74.3%更高的平均攻擊成功率。值得注意的是,AutoDAN-Turbo在GPT-4-1106-turbo上實現了88.5%的攻擊成功率。此外,AutoDAN-Turbo是一個統一的框架,可以以即插即用的方式整合現有的人為設計的駭客入侵策略。通過整合人為設計的策略,AutoDAN-Turbo甚至可以在GPT-4-1106-turbo上實現更高的攻擊成功率,達到93.4%。
最近擴散模型的最新進展展示了在圖像和視頻生成方面的卓越能力,進一步提高了4D合成的效能。現有的4D生成方法可以根據用戶友好的條件生成高質量的4D物體或場景,使得遊戲和視頻行業受益。然而,這些方法在合成複雜的4D過渡中的重要物體變形和場景內互動方面仍然存在困難。為了應對這一挑戰,我們提出了Trans4D,一種新穎的文本到4D合成框架,實現了逼真的複雜場景過渡。具體來說,我們首先使用多模態大型語言模型(MLLMs)生成物理感知場景描述,用於4D場景初始化和有效過渡時序規劃。然後,我們提出了一種幾何感知的4D過渡網絡,根據計劃實現複雜的場景級4D過渡,其中包括具有表現力的幾何物體變形。大量實驗表明,Trans4D在生成具有準確和高質量過渡的4D場景方面始終優於現有的最先進方法,驗證了其有效性。代碼:https://github.com/YangLing0818/Trans4D
多模式大型語言模型(MLLMs)正在快速演進,展示出作為多模式助手與人類及其環境互動的令人印象深刻的能力。然而,這種增加的複雜性帶來了重大的安全問題。在本文中,我們提出了一個名為多模式情境安全(Multimodal Situational Safety)的新型安全挑戰的首次評估和分析,該挑戰探討了基於使用者或代理人所參與的具體情況而變化的安全考量。我們認為,為了安全地回應,無論是通過語言還是行動,MLLMs通常需要評估語言查詢在其相應的視覺上下文中的安全影響。為了評估這種能力,我們開發了多模式情境安全基準(MSSBench),以評估當前MLLMs的情境安全表現。該數據集包括1,820個語言查詢-圖像對,其中一半的圖像上下文是安全的,另一半是不安全的。我們還開發了一個評估框架,分析關鍵的安全方面,包括明確的安全推理、視覺理解,以及至關重要的情境安全推理。我們的研究結果顯示,當前的MLLMs在指示遵循情境中遇到這種微妙的安全問題時遇到困難,並且難以一次性應對這些情境安全挑戰,突顯了未來研究的一個關鍵領域。此外,我們開發了多代理管道來協調解決安全挑戰,這在安全性方面顯示出與原始MLLM回應相比的持續改進。代碼和數據:mssbench.github.io。
最近,文字轉視頻(T2V)生成模型因提供方便的視覺創作而受到越來越多的關注。儘管具有巨大潛力,生成的視頻可能存在諸如結構不合理、時間不一致和缺乏動態等瑕疵,通常導致接近靜態的視頻。在這項工作中,我們已經確定了不同區塊之間時間注意力地圖差異與時間不一致性發生之間的相關性。此外,我們觀察到時間注意力地圖中包含的能量與生成的視頻中運動振幅的大小直接相關。基於這些觀察,我們提出了BroadWay,一種無需額外引入參數、擴充記憶體或採樣時間的訓練免費方法,用於改善文字轉視頻生成的質量。具體而言,BroadWay 由兩個主要組件組成:1)時間自我引導通過減少不同解碼器區塊之間時間注意力地圖的差異,改善生成視頻的結構合理性和時間一致性。2)基於傅立葉的運動增強通過放大地圖的能量來增強運動的大小和豐富度。大量實驗表明,BroadWay 顯著提高了文字轉視頻生成的質量,並且幾乎沒有額外成本。
生成模型正在改變創意領域,如音樂生成,推理時間策略,如無分類器引導(CFG)發揮了至關重要的作用。然而,CFG會使推理成本加倍,同時限制生成內容的原創性和多樣性。本文介紹了多樣性獎勵的CFG蒸餾,這是一種新穎的微調程序,旨在提煉CFG的優勢,同時解決其局限性。我們的方法優化了兩個訓練目標:(1)蒸餾目標,鼓勵模型單獨(無需CFG)模仿CFG增強的預測,以及(2)帶有多樣性獎勵的RL目標,促進對給定提示生成多樣性輸出。通過微調,我們學習了具有生成高質量和多樣性輸出能力的模型權重,而無需進行任何推理開銷。這也開啟了基於權重的模型合併策略的潛力:通過在兩個模型的權重之間插值(第一個專注於質量,第二個專注於多樣性),我們可以在部署時控制質量-多樣性的權衡,甚至進一步提高性能。我們在MusicLM(Agostinelli等,2023)文本到音樂生成模型上進行了大量實驗,我們的方法在質量-多樣性帕累托最優方面超越了CFG。根據人類評估者的說法,我們微調後合併的模型生成的樣本在質量-多樣性方面優於基於CFG增強的基本模型。探索我們的生成:https://google-research.github.io/seanet/musiclm/diverse_music/。
本研究探討從龐大語料庫中選擇高質量的預訓練數據,以增強語言模型在下游應用中的能力。我們將數據選擇定義為一個泛化的最優控制問題,可以通過 Pontryagin 的最大值原理(PMP)在理論上解決,得出一組表徵最優數據選擇與語言模型訓練動態之間關係的必要條件。基於這些理論結果,我們引入了基於 PMP 的數據選擇(PDS)框架,通過解決 PMP 條件來近似最優數據選擇。在我們的實驗中,我們採用 PDS 從 CommmonCrawl 選擇數據,並展示 PDS 選擇的語料庫加速了語言模型的學習,並在各種模型大小的下游任務中持續提升其性能。此外,根據縮放定律,PDS 的好處延伸到訓練了約 400B 模型的約 10T 標記的情況,通過對測試損失曲線的外推來證明。當預訓練數據有限時,PDS 也改善了數據利用率,通過將數據需求減少 1.8 倍,減輕了可用網絡爬蟲語料庫的快速耗盡。我們的代碼、數據和模型檢查點可在 https://github.com/microsoft/LMOps/tree/main/data_selection 找到。
影片時間定位(VTG)是影片理解模型的關鍵能力,對於影片瀏覽和編輯等下游任務起著至關重要的作用。為了有效地同時處理各種任務並實現零樣本預測,目前越來越多地採用影片LLMs來進行VTG任務。然而,目前基於影片LLM的方法僅依賴自然語言生成,缺乏對影片固有結構的建模能力,這限制了它們在應對VTG任務方面的效果。為了解決這個問題,本文首先正式介紹因果事件建模框架,將影片表示為事件序列,並使用先前事件、影片輸入和文本指示來預測當前事件。每個事件包括三個組件:時間戳、顯著分數和文本標題。然後,我們提出了一種新型的任務交替影片LLM,稱為TRACE,以有效地實現因果事件建模框架。TRACE將視覺幀、時間戳、顯著分數和文本作為不同任務進行處理,為每個任務使用各種編碼器和解碼頭。任務標記根據因果事件建模框架的公式排列在交替序列中。對各種VTG任務和數據集的大量實驗表明,TRACE相對於最先進的影片LLM表現出優越性能。我們的模型和代碼可在https://github.com/gyxxyg/TRACE 上找到。
隨著多模式大型語言模型(MLLMs)在各種任務中展現出越來越具競爭力的表現,開發了更為複雜和全面的基準來評估這些尖端模型。這些基準引入了新的挑戰,針對感知、推理和規劃等核心能力。然而,現有的多模式基準在提供基於圖像空間關係的多步規劃的專注評估方面仍有不足。為彌補這一差距,我們提出了ING-VP,第一個專為評估MLLMs的空間想像力和多步推理能力而設計的互動遊戲式視覺規劃基準。ING-VP包含6個獨特的遊戲,涵蓋300個關卡,每個關卡有6種獨特配置。單一模型參與超過60,000輪的互動。該基準框架支持多種比較設置,包括圖像-文本對比文本-only輸入、單步對多步推理,以及有歷史對無歷史條件,為模型能力提供有價值的見解。我們評估了眾多最先進的MLLMs,表現最佳的模型Claude-3.5 Sonnet僅達到平均準確率3.37%,遠低於預期標準。本研究旨在提供一個專門的評估框架,推動MLLMs在複雜空間推理和規劃能力方面的進步。代碼可在https://github.com/Thisisus7/ING-VP.git公開獲取。
LLM的指令遵循是一項關鍵能力。然而,最近的研究顯示,LLM通常在包含多個限制條件的指令中遇到困難(例如,要求以“幽默的口吻”創建社交媒體帖子,但“不得使用標籤”)。儘管如此,大多數評估都僅關注合成數據。為了應對這一問題,我們引入了RealInstruct,這是第一個旨在評估LLM遵循現實世界多限制條件指令能力的基準,利用了真實用戶向AI助手提出的查詢。我們還研究了基於模型的評估作為這一任務的一種成本效益替代方案,我們的研究結果顯示,即使專有的GPT-4模型在超過21%的指令中至少無法滿足一個限制條件,突顯了最先進模型的局限性。為了彌補開源和專有模型之間的性能差距,我們提出了Decompose, Critique and Refine(DeCRIM)自我校正流程,該流程通過將原始指令分解為一系列限制條件,並使用評論模型來決定LLM的回應何時以及在哪裡需要進行改進。我們的結果顯示,即使反饋較弱,DeCRIM也能使Mistral在RealInstruct上的表現提高7.3%,在IFEval上提高8.0%。此外,我們展示了在強反饋的情況下,具有DeCRIM的開源LLM可以在兩個基準測試中優於GPT-4。
隨著文本到圖像擴散模型足夠先進以應用於商業領域,人們也越來越關注這些模型可能被惡意使用的潛在風險。模型遺忘被提出來減輕這些擔憂,通過從預先訓練的模型中刪除不需要的、潛在有害的信息。到目前為止,遺忘的成功主要通過未遺忘的模型是否能生成目標概念並保持圖像質量來衡量。然而,遺忘通常在有限的情境下進行測試,目前文獻中對遺忘的副作用幾乎沒有研究。在這項工作中,我們徹底分析了在五個關鍵方面的各種情境下的遺忘。我們的研究揭示了每種方法都存在副作用或限制,特別是在更複雜和現實情況下。通過釋放我們的全面評估框架以及源代碼和工件,我們希望激發該領域的進一步研究,從而引領出更可靠和有效的遺忘方法。
儘管大型語言模型(LLMs)已整合圖像,但將其適應圖形仍然具有挑戰性,限制了其在材料和藥物設計中的應用。這一困難源於需要在文本和圖形之間實現連貫的自回歸生成。為了應對這一問題,我們引入了Llamole,這是第一個多模態LLM,能夠交錯生成文本和圖形,實現具有逆合成規劃的分子設計。Llamole將基礎LLM與圖擴散Transformer和圖神經網絡相結合,用於在文本中進行多條件分子生成和反應推斷,同時,具有增強的分子理解能力的LLM靈活地控制不同圖形模塊之間的激活。此外,Llamole將A*搜索與基於LLM的成本函數相結合,用於高效的逆合成規劃。我們創建了基準測試數據集,並進行了廣泛的實驗,以評估Llamole與上下文學習和監督微調的效果。Llamole在可控分子設計和逆合成規劃的12個指標中,明顯優於14個適應LLMs。
最近推出的對話系統展示了很高的可用性。然而,它們仍然無法反映現實世界中的對話情境。目前的對話系統表現出無法複製動態、連續、長期涉及多個參與者的互動的能力。這種不足是因為對於現實世界對話的兩個方面的考量有限:長期對話中的深層互動以及涉及多個參與者的對話網絡的擴展。隨著將這些方面結合的努力,我們引入了混合會話(Mixed-Session Conversation),這是一個旨在在多個對話階段中與不同合作夥伴建立對話的對話系統。我們提出了一個名為 MiSC 的新數據集來實現這個系統。MiSC 的對話情節由 6 個連續對話階段組成,每個情節中有四位演講者(一位主要演講者和三位合作夥伴)。此外,我們提出了一個新的對話模型,具有一種新穎的記憶管理機制,稱為自我中心記憶增強混合會話代理(EMMA)。EMMA 在與合作夥伴對話期間從主要演講者的角度收集和保留記憶,從而實現在後續互動中的無縫連續性。廣泛的人類評估驗證了 MiSC 中的對話展示了無縫的對話流暢性,即使每個對話階段的合作夥伴都有所變化。使用 MiSC 訓練的 EMMA 也經過評估,確保在整個對話過程中保持高度的可記憶性並且沒有矛盾。
利用大型語言模型(LLMs)生成幾千字長的故事並保持敘事連貫一直是一項具有挑戰性的任務。先前的研究通過提出不同的框架來應對這一挑戰,這些框架會創建故事計劃並基於該計劃生成一個長篇故事。然而,這些框架主要著眼於在故事中保持敘事連貫,往往忽略了故事計劃中的創意以及從這些計劃生成的故事的表現力,這些是吸引讀者興趣的理想特性。在本文中,我們提出了用於創意故事生成的集體評論框架(CritiCS),由計劃細化階段(CrPlan)和故事生成階段(CrText)組成,以整合一個促進這些特性的集體修訂機制進入長篇故事生成過程。具體來說,在每個階段,一組LLM評論家和一名領導者合作,通過多輪逐步完善計劃和故事草稿。廣泛的人類評估顯示,CritiCS能夠顯著增強故事的創造力和讀者參與度,同時保持敘事連貫。此外,該框架的設計允許人類作家在評論過程中的任何角色中積極參與,實現了故事創作中人機互動合作。
我們提出了TextToon,一種生成可驅動卡通化頭像的方法。給定一個短的單眼視頻序列和有關頭像風格的書面指示,我們的模型可以生成一個高保真度的卡通化頭像,可以通過另一個具有任意身份的視頻實時驅動。現有相關工作在很大程度上依賴多視圖建模來通過紋理嵌入恢復幾何形狀,呈現靜態方式,從而導致控制限制。多視圖視頻輸入也使得難以在現實應用中部署這些模型。為了解決這些問題,我們採用了一種條件嵌入三平面,以學習高逼真度和風格化的面部表示在高斯變形場中。此外,我們通過引入自適應像素平移神經網絡和利用面向補丁的對比學習來擴展3D高斯飛濺的風格化能力,以實現高質量圖像。為了將我們的工作應用於消費者應用程序,我們開發了一個可以在GPU機器上以48 FPS運行,並且在移動機器上以15-18 FPS運行的實時系統。大量實驗證明了我們的方法在生成文本頭像方面相對於現有方法在質量和實時動畫方面的有效性。詳細信息請參閱我們的項目頁面:https://songluchuan.github.io/TextToon/。
在上下文學習(ICL)中,模型通過觀察其上下文中的少量範例來學習新任務的能力。儘管在自然語言處理(NLP)中很普遍,但最近也在強化學習(RL)環境中觀察到這種能力。然而,在先前的上下文強化學習方法中,需要在代理人的上下文中完整地進行整個情節。鑒於複雜環境通常導致具有稀疏獎勵的長情節,這些方法受限於具有短情節的簡單環境。為應對這些挑戰,我們引入了檢索增強決策Transformer(RA-DT)。RA-DT採用外部記憶機制來存儲過去的經驗,從中檢索僅與當前情況相關的子軌跡。RA-DT中的檢索組件無需訓練,完全與領域無關。我們在網格世界環境、機器人模擬和程序生成的視頻遊戲上評估了RA-DT的能力。在網格世界中,RA-DT優於基準方法,同時僅使用了它們上下文長度的一小部分。此外,我們闡明了當前上下文強化學習方法在複雜環境中的局限性,並討論了未來的方向。為了促進未來的研究,我們釋出了考慮的四個環境的數據集。
該研究建立並評估對抗潛力,以引入複製的程式碼或虛構的人工智慧建議,用於流行的程式碼存儲庫中的惡意程式碼。儘管來自OpenAI、Google和Anthropic的基礎大型語言模型(LLMs)防範兩種有害行為和有毒字符串,但先前關於嵌入有害提示的數學解決方案的工作表明,在專家上下文之間,防護欄可能存在差異。這些漏洞將出現在專家模型的混合中,當問題的上下文發生變化時,可能提供較少的惡意訓練示例來過濾有毒評論或建議的攻擊性行為。本研究表明,當明確提示時,基礎模型可能拒絕正確提出破壞性行動,但當面臨突然的上下文變化時,例如解決電腦編程挑戰時,可能不幸地放低警惕。我們展示了與特洛伊木馬主機存儲庫(如GitHub、NPM、NuGet)和流行內容傳遞網絡(CDN)如jsDelivr 相關的實證例子,這些例子擴大了攻擊面。在LLM的指導下,為了提供幫助,示例建議提出應用程式編程接口(API)端點,一個決心的域名搶佔者可能會獲取並設置攻擊行動基礎設施,從天真地複製的程式碼中觸發。我們將這種攻擊與先前關於上下文轉移的工作進行比較,並將攻擊面對比為惡意程式碼文獻中的一種新版本的「利用現有資源」攻擊。在後一種情況下,基礎語言模型可以劫持否則無辜的用戶提示,建議違反其所有者安全政策的行動,當直接提出時,沒有附帶的編碼支持請求。
彈鋼琴需要靈活、精確且協調的手部控制,挑戰了靈巧性的極限。具備足夠複雜度以準確重現鋼琴演奏的手部運動模型在角色動畫、具身式人工智慧、生物力學以及虛擬/擴增實境等領域有廣泛應用。本文構建了一個獨一無二的大規模數據集,包含約10小時的15位頂尖鋼琴家演奏153首古典音樂作品的3D手部運動和音頻。為了捕捉自然的演奏表現,我們設計了一個無標記的設置,通過多視角視頻重建運動,並使用最先進的姿勢估計模型。運動數據進一步通過逆向運動學進行精煉,利用從專用Yamaha Disklavier鋼琴的傳感器獲得的高分辨率MIDI鍵盤敲擊數據。利用收集的數據集,我們開發了一個流程,可以為數據集之外的樂譜合成物理上合理的手部運動。我們的方法結合模仿學習和強化學習,獲取涉及手部和鋼琴鍵盤互動的基於物理的雙手控制策略。為了解決大型運動數據集的採樣效率問題,我們使用擴散模型生成自然參考運動,提供高水準的軌跡和指法(手指順序和位置)信息。然而,僅憑生成的參考運動無法提供足夠的準確性進行鋼琴演奏建模。然後,我們通過使用音樂相似性從捕獲的數據集中檢索相似運動,以增強RL策略的精確性。通過提出的方法,我們的模型生成自然、靈巧的運動,可以泛化到訓練數據集之外的音樂。
我們介紹了 MLE-bench,這是一個用於衡量AI代理在機器學習工程方面表現的基準。為此,我們從Kaggle中精心挑選了75個與機器學習工程相關的競賽,創建了一組多樣且具有挑戰性的任務,測試真實世界的機器學習工程技能,如訓練模型、準備數據集和運行實驗。我們利用Kaggle公開的排行榜為每個競賽建立人類基準。我們使用開源代理支架來評估我們的基準上的幾個前沿語言模型,發現表現最佳的設置--OpenAI的o1-preview與AIDE支架--在16.9%的競賽中至少達到Kaggle銅牌水平。除了我們的主要結果外,我們還研究了AI代理的各種資源擴展形式以及來自預訓練的污染影響。我們開源了我們的基準代碼(github.com/openai/mle-bench/),以促進未來研究,了解AI代理的機器學習工程能力。
在現實世界的軟體開發中,不當或缺失的例外處理可能嚴重影響程式碼的穩健性和可靠性。例外處理機制要求開發人員根據高標準偵測、捕獲和管理例外情況,但許多開發人員在這些任務上遇到困難,導致程式碼脆弱。這個問題在開源專案中尤為明顯,並影響軟體生態系統的整體品質。為了應對這一挑戰,我們探索了使用大型語言模型(LLMs)來改善程式碼中的例外處理。通過廣泛的分析,我們確定了三個關鍵問題:對脆弱程式碼的不敏感偵測、對例外類型的不準確捕獲,以及扭曲的處理解決方案。這些問題在現實世界的存儲庫中普遍存在,表明穩健的例外處理實踐經常被忽視或處理不當。為此,我們提出了 Seeker,這是一個受專家開發者策略啟發的多代理框架,用於改進例外處理。Seeker 使用代理:Scanner、Detector、Predator、Ranker 和 Handler,協助LLMs更有效地偵測、捕獲和解決例外情況。我們的工作是首個系統性研究,利用LLMs來增強例外處理實踐,為未來在程式碼可靠性方面的改進提供寶貴見解。
在影像擴散模型中,多視角一致性仍然是一個挑戰。即使在已知先驗下的文本轉紋理問題中,許多方法也無法產生跨視角對齊的預測,需要使用非平凡的融合方法將結果整合到原始網格上。我們專注於 PBR 文本轉紋理中的協同控制工作流程中的這個問題。協同控制直接建模 PBR 影像概率分佈,包括法線凸起貼圖;據我們所知,這是唯一直接輸出完整 PBR 堆疊的擴散模型。我們討論了設計這個模型以實現多視角一致性所涉及的決策,並通過消融研究和實際應用展示了我們方法的有效性。
心理健康疾病是世界上最嚴重的疾病之一。大多數患有此類疾病的人缺乏適當的護理,這凸顯了為心理健康疾病的診斷和治療訓練模型的重要性。然而,在心理健康領域,隱私問題限制了個性化治療數據的可訪問性,這使得建立強大模型具有挑戰性。在本文中,我們介紹了MentalArena,這是一個自我對弈框架,通過生成特定領域的個性化數據來訓練語言模型,在這裡我們獲得了一個更好的模型,能夠進行個性化診斷和治療(作為治療師)並提供信息(作為患者)。為了準確建模類似人類的心理健康患者,我們設計了症狀編碼器,它從認知和行為兩個角度模擬了一個真實的患者。為了應對患者-治療師互動中的意圖偏見,我們提出了症狀解碼器,以比較診斷症狀與編碼症狀,並根據識別的偏差動態管理患者和治療師之間的對話。我們對MentalArena進行了評估,包括生物醫學問答和心理健康任務,與6個先進模型進行了比較。我們的模型在GPT-3.5和Llama-3-8b上進行了微調,明顯優於其對應的模型,包括GPT-4o。我們希望我們的工作能激發未來個性化護理研究。代碼可在https://github.com/Scarelette/MentalArena/tree/main找到。
本文介紹了TinyEmo,這是一系列用於情感推理和分類的小型多模態語言模型。我們的方法包括:(1) 一個用於預訓練和微調階段的合成情感指導數據集,(2) 一個度量投影器,將分類從語言模型中分離出來,從而實現更高效的訓練和推理,(3) 一個用於情感推理的多模態大型語言模型(MM-LLM),以及(4) 一個半自動化的偏見檢測框架。TinyEmo能夠執行情感分類和情感推理,同時使用的參數比可比模型少得多。這種高效性使我們能夠自由地整合更多不同的情感數據集,在分類任務上實現出色的性能,我們最小的模型(700M參數)在基於通用MM-LLM且具有超過7B參數的更大型最新模型上表現更好。此外,度量投影器允許在大型模型中進行可解釋性和間接偏見檢測,無需額外的訓練,提供了一種理解和改進AI系統的方法。 我們在https://github.com/ggcr/TinyEmo 上發布了代碼、模型和數據集。
最近大型語言模型(LLMs)的進步引發了人工智慧在自然語言處理(NLP)任務中超越人類的主張,例如文本理解和推理。本研究通過引入CAIMIRA,一個根植於項目反應理論(IRT)的新框架,來探討這些主張,該框架使得可以量化評估和比較問答(QA)代理人(包括人類和人工智慧系統)的解決問題能力。通過分析來自約70個人工智慧系統和155名人類對數千個測驗問題的30萬多個回答,CAIMIRA揭示了知識領域和推理技能中的明顯熟練模式。人類在知識基礎的演繹和概念推理方面表現優於人工智慧系統,而像GPT-4和LLaMA這樣的最先進的LLMs在針對性信息檢索和基於事實的推理方面表現優異,特別是當信息缺口被明確定義並且可以通過模式匹配或數據檢索來解決時。這些發現突顯了未來問答任務需要專注於不僅挑戰高階推理和科學思維,還要求細緻的語言解釋和跨文本知識應用的問題,從而有助於推動更好地模擬或補充人類認知能力的真實世界問題解決的人工智慧發展。
嵌入模型在實現語義相似性、資訊檢索和分群等各種下游任務方面至關重要。最近,開發能夠橫跨任務的通用文本嵌入模型(例如MTEB)引起了廣泛興趣。然而,盡管其重要性,學習通用多模態嵌入模型的進展相對緩慢。在這項工作中,我們旨在探索建立能夠應對各種下游任務的通用嵌入的潛力。我們的貢獻有兩個方面:(1)MMEB(大規模多模態嵌入基準),涵蓋4個元任務(即分類、視覺問答、多模態檢索和視覺定位)和36個數據集,包括20個訓練和16個評估數據集;以及(2)VLM2Vec(視覺語言模型轉向向量),一個對比訓練框架,通過在MMEB上進行訓練,將任何最先進的視覺語言模型轉換為嵌入模型。與以往的模型(如CLIP和BLIP)不同,VLM2Vec能夠處理任何圖像和文本組合,根據任務指示生成固定維度的向量。我們在Phi-3.5-V上構建了一系列VLM2Vec模型,並在MMEB的評估分割上進行評估。我們的結果顯示,該模型在MMEB的分發和非分發數據集上相對於現有的多模態嵌入模型實現了10%至20%的絕對平均改善。
目前用於評估視覺語言模型(VLMs)的基準通常著重於它們的感知或問題解決能力,卻忽略了其他關鍵方面,如公平性、多語能力或有毒性。此外,它們在評估程序和評估範圍上存在差異,使得比較模型變得困難。為了應對這些問題,我們將HELM框架擴展到VLMs,提出了視覺語言模型的全面評估(VHELM)。VHELM整合了各種數據集,以涵蓋視覺感知、知識、推理、偏見、公平性、多語能力、韌性、有毒性和安全性等9個方面中的一個或多個。通過這樣做,我們為VLMs在這些重要因素上的能力提供了全面多維度的視角。此外,我們標準化了標準推理參數、提示方法和評估指標,以實現跨模型的公平比較。我們的框架設計為輕量且自動化,使得評估運行成本低廉且快速。我們的首次運行評估了22個VLMs在21個現有數據集上,以提供模型的全面快照。我們發現了一些新的關鍵發現,例如,以效率為重點的模型(例如Claude 3 Haiku或Gemini 1.5 Flash)在偏見基準上表現顯著不如其完整模型(例如Claude 3 Opus或Gemini 1.5 Pro),但在其他方面評估時則沒有這種情況。為了透明度,我們在我們的網站上公佈了原始模型生成和完整結果(https://crfm.stanford.edu/helm/vhelm/v2.0.1)。VHELM旨在成為一個持續更新的基準,我們希望隨著時間的推移繼續添加新的數據集和模型。
以英語為中心的大型語言模型(LLMs)通常展現出強大的多語能力。然而,這些模型的多語表現仍不清楚,並且對許多語言尚未進行全面評估。大多數評估多語能力的基準著重於經典自然語言處理任務,或僅涵蓋少數語言。我們介紹了MEXA,一種評估預訓練的以英語為中心的LLMs多語能力的方法,使用平行句子進行評估,這些句子比現有的下游任務涵蓋更多的語言。MEXA利用了以英語作為中間層中的一種樞紐語言的事實。它通過使用平行句子計算英語和非英語語言之間的對齊,以評估從英語到其他語言的語言理解轉移。這種對齊可用於估計模型在其他語言中的表現。我們使用各種平行數據集(FLORES-200和Bible)、模型(Llama家族、Gemma家族、Mistral和OLMo)以及已建立的下游任務(Belebele、m-MMLU和m-ARC)進行研究。我們探索了在僅解碼器模型中計算嵌入的不同方法。我們的結果顯示,在默認設置下,MEXA在九個模型和兩個平行數據集上,與三個已建立的下游任務達到統計上顯著的平均皮爾遜相關係數0.90。這表明MEXA是一種可靠的方法,可用於估計以英語為中心的LLMs的多語能力,提供對其多語潛力和LLMs內部運作的更清晰理解。排行榜:https://huggingface.co/spaces/cis-lmu/Mexa,代碼:https://github.com/cisnlp/Mexa。
循環神經網絡(RNN)相對於基於Transformer的語言模型的一個重要優勢是其在序列長度方面具有線性計算複雜度,這使得它們在推理過程中處理長序列時更快。然而,大多數公開可用的RNN(例如Mamba和RWKV)是在少於10K標記的序列上進行訓練的,迄今為止它們在更長範境中的有效性仍然令人不滿。在本文中,我們研究了RNN無法處理長範境的原因並提出了關鍵的緩解方法。我們在應用最先進的RNN到長範境時考慮了兩個實際問題:(1)無法對長於訓練長度的輸入進行外推和(2)記憶容量的上限。針對第一個問題,我們首先研究了*狀態崩潰*(SC),這是一種現象,導致在訓練期間未遇到的序列長度上性能嚴重下降。通過控制實驗,我們將這歸因於由於循環狀態對於訓練長度而言被過度參數化而導致的過度擬合。對於第二個問題,我們在長文檔上訓練了一系列Mamba-2模型,以實證估計語言建模和密鑰檢索中的循環狀態容量。然後,提出了三種SC緩解方法,以提高Mamba-2的長度泛化能力,使模型能夠處理超過1M標記而無SC。我們還發現密鑰檢索中的循環狀態容量與狀態大小呈指數級增長,我們在256K上下文長度上實證訓練了一個Mamba-2 370M,其密鑰檢索準確率接近完美。這表明了基於RNN的長範境建模有著令人期待的未來。
我們提出了SPACE,一個系統性評估前沿模型中空間認知的基準。我們的基準建立在幾十年的認知科學研究基礎之上。它評估了在生物體穿越物理環境時所展現的大規模映射能力,關於物體形狀和佈局的小規模推理,以及空間注意力和記憶等認知基礎設施。對於許多任務,我們通過文本和圖像實例化並行呈現,從而使我們能夠評估大型語言模型和大型多模型模型。結果表明,當代前沿模型在動物空間智能方面表現不佳,對於多項經典的動物認知測試幾乎達到偶然水平。