每日精選AI研究論文及翻譯
近年來,大型語言模型(LLMs)在各種任務(例如長文本理解)中展現出卓越的能力,並提出了許多基準。然而,我們觀察到長文本生成能力尚未受到充分探討。因此,我們引入了階層式長文本生成基準(HelloBench),這是一個全面、野外和開放式的基準,用於評估LLMs在生成長文本方面的表現。基於布魯姆的分類法,HelloBench將長文本生成任務分為五個子任務:開放式問答、摘要、對話、文本補全和啟發式文本生成。此外,我們提出了階層式長文本評估(HelloEval),這是一種與人類對齊的評估方法,可以顯著減少人工評估所需的時間和工作量,同時保持與人工評估的高相關性。我們對約30個主流LLMs進行了廣泛實驗,觀察到目前的LLMs缺乏長文本生成能力。具體而言,首先,無論指示中是否包含明確或隱含的長度限制,我們觀察到大多數LLMs無法生成超過4000個字的文本。其次,我們觀察到,雖然一些LLMs可以生成較長的文本,但存在許多問題(例如嚴重的重複和質量下降)。第三,為了展示HelloEval的有效性,我們將HelloEval與傳統指標(例如ROUGE、BLEU等)和LLM作為評判方法進行比較,結果顯示HelloEval與人工評估之間具有最高相關性。我們在https://github.com/Quehry/HelloBench 上發布了我們的代碼。
角色視頻合成旨在在逼真場景中生成可動角色的真實視頻。作為計算機視覺和圖形學社區中的一個基本問題,3D作品通常需要多視角捕獲進行每個案例的訓練,這嚴重限制了對於在短時間內對任意角色進行建模的應用性。最近的2D方法通過預先訓練的擴散模型打破了這種限制,但它們在姿勢泛用性和場景互動方面存在困難。為此,我們提出了MIMO,一種新穎的框架,不僅可以合成具有可控屬性的角色視頻(即角色、動作和場景),這些屬性由簡單的用戶輸入提供,還可以同時實現對任意角色的高度擴展性、對新型3D動作的泛用性以及對互動式現實場景的應用性在一個統一的框架中。其核心思想是將2D視頻編碼為緊湊的空間代碼,考慮到視頻發生的固有3D性質。具體而言,我們使用單眼深度估算器將2D幀像素提升為3D,並根據3D深度將視頻剪輯分解為三個空間組件(即主要人物、底層場景和浮動遮蔽),這些組件進一步編碼為規範身份代碼、結構化動作代碼和完整場景代碼,這些代碼被用作合成過程的控制信號。空間分解建模的設計實現了靈活的用戶控制、複雜的運動表達,以及對場景互動的3D感知合成。實驗結果證明了所提方法的有效性和韌性。
具有僅解碼器結構的大型語言模型(LLMs)展現出卓越的上下文學習(ICL)能力。這項功能使它們能夠有效處理熟悉和新奇任務,並利用輸入上下文中提供的示例。為了充分利用這種能力,我們提議利用LLMs中的ICL功能來增強文本嵌入生成過程。為此,我們引入了一個新型模型bge-en-icl,該模型利用少量示例來生成高質量的文本嵌入。我們的方法將與任務相關的示例直接整合到查詢端,從而在各種任務中實現顯著改進。此外,我們研究了如何有效利用LLMs作為嵌入模型,包括各種注意機制、池化方法等。我們的研究結果表明,保留原始框架通常會產生最佳結果,強調簡單即是最好的。在MTEB和AIR-Bench基準上的實驗結果表明,我們的方法確立了新的最先進性能。我們的模型、代碼和數據集可在https://github.com/FlagOpen/FlagEmbedding 免費獲得。
近期在多模式大型語言模型(MLLMs)方面的進展旨在整合和解釋來自不同模態的數據。然而,這些模型同時處理和推理多種模態的能力仍未得到充分探索,部分原因是缺乏全面的模態基準。我們引入了OmniBench,這是一個新穎的基準,旨在嚴格評估模型在視覺、聲學和文本輸入之間同時識別、解釋和推理的能力。我們將能夠進行這種三模式處理的模型定義為全語言模型(OLMs)。OmniBench以高質量的人工標註為特色,確保準確的回答需要跨越所有三種模態的整合理解和推理。我們的主要發現顯示:i)開源OLMs在三模式情境中的指示遵循和推理能力存在關鍵限制;ii)即使為基準模型提供圖像和音頻的替代文本表示,其表現仍不佳(低於50%的準確率)。這些結果表明,在現有的MLLM訓練範式中,從文本、圖像和音頻中構建一致上下文的能力通常被忽略。我們主張未來的研究應該專注於開發更強大的三模式整合技術和訓練策略,以提高OLM在不同模態之間的性能。代碼和實時排行榜可在https://m-a-p.ai/OmniBench找到。
開放式權重LLM的品質已經顯著提升,但它們仍然主要集中在英語上。在本文中,我們介紹EuroLLM項目,旨在開發一套能夠理解和生成所有歐盟官方語言以及其他幾種相關語言文本的開放式權重多語言LLM。我們概述了迄今為止取得的進展,詳細說明了我們的數據收集和過濾過程,比例律的發展,我們多語言分詞器的創建,以及數據混合和建模配置。此外,我們發布了我們的初始模型:EuroLLM-1.7B和EuroLLM-1.7B-Instruct,並報告它們在多語言通用基準和機器翻譯上的表現。
隨著不斷推出更新且更優秀的影像生成模型,對合成影像檢測器的需求也隨之增加。在這樣一個充滿活力的領域中,檢測器需要能夠廣泛泛化並對未受控制的變化具有強韌性。本研究的動機來自於這種情況,當探討時間、影像轉換和資料來源對檢測器泛化的作用。在這些實驗中,沒有一個評估的檢測器被認為是通用的,但結果顯示集成可能是一個解決方案。通過野外收集的數據進行的實驗表明,這個任務比大規模數據集所定義的任務更具挑戰性,指出實驗和實際應用之間存在差距。最後,我們觀察到一種競爭均衡效應,即更好的生成器導致更好的檢測器,反之亦然。我們假設這將推動該領域朝著生成器和檢測器之間永無止境的緊密競爭。
大多數現有的多模式方法使用不同的主幹來進行基於自回歸的離散文本生成和基於擴散的連續視覺生成,或者通過對視覺數據進行離散化,以便將自回歸應用於文本和視覺生成。在本文中,我們提出研究一個簡單的想法:為自回歸和擴散共享一個Transformer。這種可行性來自兩個主要方面:(i) Transformer已成功應用於視覺生成的擴散,以及(ii) Transformer用於自回歸和擴散的訓練非常相似,區別僅在於擴散使用雙向注意力遮罩,而自回歸使用因果關注遮罩。實驗結果顯示,我們的方法實現了與當前最先進方法相當的圖像生成性能,同時保持了文本生成能力。該項目可在https://monoformer.github.io/ 公開獲取。
遮罩變壓器模型用於條件圖像生成已成為擴散模型的一個引人注目的替代方案。通常包括兩個階段 - 初始的VQGAN模型用於在潛在空間和圖像空間之間過渡,以及後續的變壓器模型用於在潛在空間內進行圖像生成 - 這些框架為圖像合成提供了有前途的途徑。在這項研究中,我們提出了兩個主要貢獻:首先,對VQGAN進行了實證和系統化的研究,從而推出了現代化的VQGAN。其次,提出了一種新穎的無嵌入生成網絡,直接在位元標記上運行 - 這是具有豐富語義的位元標記的二進制量化表示。第一個貢獻提供了一個透明、可重現且高性能的VQGAN模型,增強了可訪問性,並匹配了當前最先進方法的性能,同時揭示了先前未公開的細節。第二個貢獻表明,使用位元標記進行無嵌入圖像生成實現了ImageNet 256x256基準測試中新的最先進FID值為1.52,並且僅具有305M參數的緊湊生成器模型。
人類的視覺系統對各種形狀和大小的臉部都有很好的識別能力。儘管這帶來明顯的生存優勢,例如更容易在叢林中發現未知的捕食者,但也會導致誤檢臉部。"面孔錯覺"描述了在其他隨機刺激中看到類似面孔結構的知覺現象:比如在咖啡漬或天空中的雲朵中看到臉部。在本文中,我們從計算機視覺的角度研究面孔錯覺。我們提出了一個包含五千張網絡圖像並由人類標註的錯覺性面孔的圖像數據集“物中之面”。利用這個數據集,我們檢驗了最先進的人臉檢測器展現出的錯覺現象程度,並發現人類和機器之間存在顯著的行為差距。我們發現人類需要識別動物臉部以及人類臉部的進化需求可能解釋了這種差距的一部分。最後,我們提出了一個關於圖像中錯覺現象的簡單統計模型。通過對人類受試者和我們的錯覺性臉部檢測器的研究,我們確認了我們的模型對於哪些圖像條件最有可能誘發錯覺的一個關鍵預測。數據集和網站:https://aka.ms/faces-in-things
在過去幾十年裡,用於時間序列預測的深度學習取得了顯著進展。然而,儘管在語言和視覺領域取得了大規模預訓練的成功,預訓練的時間序列模型在規模上仍然受限且運作成本高昂,阻礙了在實際應用中開發更大能力的預測模型。為此,我們引入了Time-MoE,這是一種可擴展且統一的架構,旨在預訓練更大、更具能力的預測基礎模型,同時降低推斷成本。通過利用稀疏的專家混合(MoE)設計,Time-MoE通過僅激活每次預測的部分網絡來提高計算效率,減少計算負載同時保持高模型容量。這使得Time-MoE能夠有效擴展,而無需相應增加推斷成本。Time-MoE包括一系列僅解碼器的變壓器模型,以自回歸方式運作,支持具有不同輸入上下文長度的靈活預測視野。我們在我們新引入的大規模數據集Time-300B上對這些模型進行了預訓練,該數據集跨越9個領域,包含超過3000億個時間點。我們首次將時間序列基礎模型擴展到24億個參數,實現了顯著改善的預測精度。我們的結果驗證了在時間序列預測的背景下,對訓練令牌和模型大小的擴展定律的適用性。與具有相同激活參數數量或等效計算預算的密集模型相比,我們的模型始終以較大的優勢表現。這些進展將Time-MoE定位為應對現實世界時間序列預測挑戰的最先進解決方案,具有卓越的能力、效率和靈活性。
在這份技術報告中,我們記錄了在訓練 NovelAI Diffusion V3,我們最先進的動漫圖像生成模型時對 SDXL 所做的更改。
機器人操作策略如何能夠應用於涉及未見過的物件類型和新動作的新任務?本文提出了一種解決方案,即通過從網絡數據中預測運動信息,通過人類視頻生成並將機器人策略條件化為生成的視頻。我們展示了如何利用在易於獲得的網絡數據上訓練的視頻生成模型,而不是嘗試擴展昂貴的機器人數據收集,從而實現泛化。我們的方法Gen2Act將語言條件下的操作視為零樣本人類視頻生成,然後執行單一策略,該策略條件是生成的視頻。為了訓練該策略,我們使用的機器人交互數據比視頻預測模型訓練所用的數據少一個數量級。Gen2Act完全不需要對視頻模型進行微調,我們直接使用預先訓練的模型來生成人類視頻。我們在多樣的現實場景中的結果顯示了Gen2Act如何實現操作未見過的物件類型,執行新動作以完成機器人數據中不存在的任務。視頻可在https://homangab.github.io/gen2act/觀看。
相較於大型語言模型(LLMs),大型視覺語言模型(LVLMs)也能接受圖像作為輸入,展現更有趣的新興能力並在各種視覺語言任務上展現出色的表現。受LLMs中文本提示的啟發,已經開始探索視覺提示以增強LVLMs感知視覺信息的能力。然而,先前的視覺提示技術僅處理視覺輸入,並未考慮文本查詢,限制了模型按照文本指示完成任務的能力。為填補此空白,本研究提出了一種名為圖像上的注意提示的新提示技術,該技術簡單地在原始輸入圖像上覆蓋一個文本查詢引導的注意力熱圖,有效增強LVLM在各種任務上的表現。具體而言,我們使用輔助模型如CLIP為輸入圖像生成依賴於文本查詢的注意力熱圖。然後,該熱圖僅將原始圖像的像素值相乘,以獲得LVLM的實際輸入圖像。在各種視覺語言基準測試上進行了大量實驗,驗證了我們技術的有效性。例如,圖像上的注意提示在MM-Vet和LLaVA-Wild基準測試上分別使LLaVA-1.5提高了3.8%和2.9%。
隨著大型語言模型(LLMs)不斷朝著更先進的智能形式發展,從人類反饋中進行強化學習(RLHF)越來越被視為實現人工通用智能(AGI)的關鍵途徑。然而,基於獎勵模型(RM)的對齊方法的依賴引入了重大挑戰,這是由於獎勵模型(RMs)固有的不穩定性和缺陷可能導致關鍵問題,如獎勵破解和與人類意圖不一致。在本文中,我們介紹了一個旨在應對這些基本挑戰的獎勵魯棒的RLHF框架,為LLMs中更可靠且更具韌性的學習鋪平道路。我們的方法引入了一個新穎的優化目標,通過整合貝葉斯獎勵模型集成(BRME)來平衡性能和魯棒性,以建模獎勵函數的不確定性集。這使得框架能夠整合名義性能和最小獎勵信號,確保即使存在不完美的獎勵模型,學習也更穩定。實證結果表明,我們的框架在各種基準測試中始終優於傳統的RLHF,表現出更高的準確性和長期穩定性。我們還提供了一個理論分析,證明了獎勵魯棒的RLHF方法接近恆定獎勵設置的穩定性,在隨機案例分析中證明其有效性。這些貢獻共同突顯了該框架提升LLMs與RLHF對齊的性能和穩定性潛力。
傳統的命名實體識別(NER)方法將該任務定義為一個BIO序列標記問題。儘管這些系統在手頭的下游任務中表現出色,但它們需要大量標註數據,並且難以推廣到超出分布輸入領域和看不見的實體類型。相反,大型語言模型(LLMs)展現出強大的零-shot能力。雖然有幾篇論文探討了英語中的零-shot NER,但在其他語言中所做的工作很少。在本文中,我們為零-shot NER 定義了一個評估框架,並將其應用於義大利語。此外,我們介紹了SLIMER-IT,這是SLIMER的義大利語版本,一種利用富含定義和指南的提示的說明調整方法,用於零-shot NER。與其他最先進的模型進行比較,證明了SLIMER-IT在從未見過的實體標籤上的優越性。
獎勵模型(RMs)在對齊大型語言模型(LLMs)與人類偏好方面扮演著關鍵角色。然而,傳統的獎勵模型訓練依賴於與特定提示相關聯的回應對,卻難以將受提示驅動的偏好與回應長度和格式等與提示無關的人為因素區分開來。在這項研究中,我們揭示了當前獎勵模型訓練方法的一個基本限制,即在確定偏好時,獎勵模型無法有效區分上下文信號和無關的人為因素。為了解決這個問題,我們引入了一個因果框架,該框架學習與這些人為因素無關的偏好,並提出了一種旨在消除這些因素的新型數據擴增技術。大量實驗表明,我們的方法成功地過濾掉不良人為因素,產生了更穩健的獎勵模型(RRM)。我們的RRM提高了在Gemma-2-9b-it上訓練的成對獎勵模型的性能,從80.61%提高到84.15%。此外,我們使用RM和RRM訓練了兩個DPO策略,顯示RRM顯著增強了與DPO對齊的策略,將MT-Bench得分從7.27提高到8.31,並將AlpacaEval-2中的長度控制勝率從33.46%提高到52.49%。
模仿學習已被證明是訓練複雜視覺運動策略的強大工具。然而,目前的方法通常需要數百至數千個專家示範,以應對高維度視覺觀察。這種低效率的主要原因之一是視覺表示主要是預先在域外數據上訓練,或者通過行為克隆目標直接訓練。在這項工作中,我們提出了DynaMo,一種新的域內自監督學習視覺表示方法。給定一組專家示範,我們共同學習一個潛在的逆動力學模型和一個正向動力學模型,預測圖像嵌入序列中的下一幀在潛在空間中的位置,無需增強、對比抽樣或訪問地面真實動作。重要的是,DynaMo 不需要任何域外數據,如互聯網數據集或跨域數據集。在六個模擬和真實環境套件中,我們展示了使用DynaMo學習的表示顯著改善了先前自監督學習目標和預訓練表示的下游模仿學習性能。使用DynaMo的收益適用於各種策略類別,如行為變換器、擴散策略、MLP和最近鄰。最後,我們對DynaMo的關鍵組件進行了消融實驗,並測量其對下游策略性能的影響。機器人視頻最好在https://dynamo-ssl.github.io 上觀看。
在機器學習中,生成合成表格數據尤其重要,特別是當真實數據有限或敏感時。傳統生成模型常常面臨挑戰,因為表格數據具有獨特特徵,如混合數據類型和不同分佈,需要進行複雜的預處理或使用大型預訓練模型。本文介紹一種新的、無損二進制轉換方法,將任何表格數據轉換為固定大小的二進制表示,並提出一種名為二進制擴散的新生成模型,專門設計用於二進制數據。二進制擴散利用 XOR 運算的簡單性進行噪聲添加和去除,並採用二進制交叉熵損失進行訓練。我們的方法消除了對廣泛預處理、複雜噪聲參數調整和在大型數據集上預訓練的需求。我們在幾個流行的表格基準數據集上評估我們的模型,結果顯示,二進制擴散在旅行、成年人收入和糖尿病數據集上優於現有的最先進模型,同時模型尺寸顯著更小。