每日精選AI研究論文及翻譯
GPT-4o是一個自回歸的全方位模型,可以接受任何文本、音訊、圖像和影片的組合作為輸入,並生成任何文本、音訊和圖像輸出的組合。它在文本、視覺和音訊方面進行端對端訓練,表示所有輸入和輸出都由同一個神經網絡處理。GPT-4o可以在232毫秒內對音訊輸入做出回應,平均為320毫秒,這與人類對話中的回應時間相似。它在英文和程式碼文本方面與GPT-4 Turbo的表現相當,對非英文語言文本有顯著改進,同時在API方面速度更快且成本降低50%。相較於現有模型,GPT-4o在視覺和音訊理解方面表現特別出色。為了遵守我們對安全建構AI的承諾,並與我們對白宮的自願承諾保持一致,我們分享了GPT-4o系統卡,其中包括我們的應變框架評估。在這個系統卡中,我們詳細介紹了GPT-4o的能力、限制和安全評估,涵蓋多個類別,重點放在語音對話方面,同時評估文本和圖像能力,以及我們實施的措施,確保模型是安全且符合標準。我們還包括了有關危險能力的第三方評估,以及討論GPT-4o文本和視覺能力可能對社會產生的影響。
我們介紹了Bielik 7B v0.1,一個擁有70億參數的波蘭語生成文本模型,用於波蘭語言處理。通過在經過精心策劃的波蘭語語料庫上進行訓練,該模型通過創新技術應對語言模型開發中的關鍵挑戰。這些技術包括加權指令交叉熵損失,平衡不同指令類型的學習,以及自適應學習率,根據訓練進度動態調整學習率。為了評估性能,我們創建了Open PL LLM Leaderboard和Polish MT-Bench,這是評估各種自然語言處理任務和對話能力的新框架。Bielik 7B v0.1展示了顯著的改進,與Mistral-7B-v0.1在RAG Reader任務上相比,平均分數提高了9個百分點。它在Polish MT-Bench中表現優異,特別是在推理(6.15/10)和角色扮演(7.83/10)類別中。這個模型代表了波蘭語言人工智慧領域的重大進步,為各種語言應用提供了一個強大工具,並在該領域設定了新的基準。
由於小型語言模型(SLMs)在各種語言任務中以最少的計算資源展現出的效率和性能,因此它們變得越來越重要,適用於各種場景,包括設備內部、移動設備、邊緣設備等。本文提出了一份關於SLMs的全面調查,著重於它們的架構、訓練技術和模型壓縮技術。我們提出了一個新的分類法,用於將用於優化SLMs的方法進行分類,包括模型壓縮、修剪和量化技術。我們總結了用於對SLMs進行基準測試的基準數據集,以及常用的評估指標。此外,我們強調了尚待解決的關鍵挑戰。我們的調查旨在成為對開發和部署小型而高效的語言模型感興趣的研究人員和從業者的寶貴資源。
由於其巨大潛力來增強人機互動,能夠自動執行複雜計算機任務的數位代理引起了相當大的關注。然而,現有的代理方法在其泛化和專業化能力方面存在不足,特別是在處理現實環境中的開放式計算機任務時。受到App商店豐富功能的啟發,我們提出AgentStore,這是一個可擴展的平台,旨在動態整合異構代理以自動執行計算機任務。AgentStore賦予用戶整合第三方代理的能力,使系統能夠不斷豐富其功能並適應快速變化的操作系統。此外,我們提出了一種新型核心MetaAgent,採用AgentToken策略來有效管理各種代理並利用它們的專業和泛化能力,用於特定領域和系統範圍的任務。對三個具有挑戰性的基準進行的大量實驗表明,AgentStore超越了先前僅具有狹窄能力的系統的限制,特別是在OSWorld基準上實現了從11.21%到23.85%的顯著改進,超過了先前的結果。全面的定量和定性結果進一步證明了AgentStore在泛化和專業化方面提升代理系統的能力,突顯了其發展專業泛化計算機助手的潛力。我們所有的代碼將在https://chengyou-jia.github.io/AgentStore-Home 上公開提供。
文件解析對於將非結構化和半結構化文件(如合同、學術論文和發票)轉換為結構化、可供機器讀取的數據至關重要。文件解析從非結構化輸入中提取可靠的結構化數據,為眾多應用提供了巨大的便利。特別是隨著大型語言模型的最新成就,文件解析在知識庫構建和訓練數據生成中發揮著不可或缺的作用。本調查全面回顧了當前文件解析的狀態,涵蓋了從模塊化管道系統到由大型視覺語言模型驅動的端到端模型的關鍵方法論。詳細研究了佈局檢測、內容提取(包括文本、表格和數學表達式)以及多模態數據集成等核心組件。此外,本文討論了模塊化文件解析系統和視覺語言模型在處理複雜佈局、集成多個模塊和識別高密度文本方面面臨的挑戰。強調了發展更大更多樣化數據集的重要性,並概述了未來的研究方向。
我們介紹了 MarDini,這是一個新的影片擴散模型系列,將遮罩自回歸(MAR)的優勢融入統一的擴散模型(DM)框架中。在這裡,MAR 負責時間規劃,而 DM 專注於在非對稱網路設計中的空間生成:i)基於 MAR 的規劃模型包含大部分參數,使用低分辨率輸入為每個遮罩幀生成規劃信號;ii)一個輕量級生成模型使用這些信號通過擴散去噪產生高分辨率幀。MarDini 的 MAR 使得可以條件生成視頻,並在任何幀位置上條件於任意數量的遮罩幀:一個模型可以處理視頻插補(例如,遮罩中間幀)、圖像到視頻生成(例如,從第二幀開始遮罩)和視頻擴展(例如,遮罩一半幀)。這種高效的設計將大部分計算資源分配給低分辨率規劃模型,使得在規模上可以實現計算昂貴但重要的時空關注。MarDini 為視頻插補設定了新的最先進水準;與此同時,在幾個推理步驟內,它可以高效地生成與更昂貴的先進圖像到視頻模型相媲美的視頻。
FP8 訓練已成為提高訓練效率的一種有前途的方法。現有框架通過將 FP8 計算應用於線性層來加速訓練,同時將優化器狀態和激活保留在較高精度,這未能充分優化內存使用。本文介紹了 COAT(壓縮優化器狀態和激活以進行 FP8 訓練),這是一個新穎的 FP8 訓練框架,旨在在訓練大型模型時顯著減少內存佔用。COAT 通過兩個關鍵創新來解決當前的限制:(1)動態範圍擴展,將優化器狀態分佈更緊密地對齊到 FP8 表示範圍,從而減少量化誤差;以及(2)混合粒度激活量化,使用每個張量和每個組的量化策略組合來優化激活內存。實驗表明,與 BF16 相比,COAT 能夠有效地將端到端訓練內存佔用減少 1.54 倍,同時在各種任務(如大型語言模型預訓練和微調以及視覺語言模型訓練)中實現幾乎無損的性能。COAT 還實現了比 BF16 快 1.43 倍的端到端訓練加速,表現與或超越 TransformerEngine 的加速相當。COAT 使得在較少 GPU 上高效地對大型模型進行全參數訓練成為可能,並在分佈式訓練環境中實現批次大小加倍,為大規模模型訓練的擴展提供了實用解決方案。代碼可在 https://github.com/NVlabs/COAT 上找到。
在現實世界的情境中,圖像修復(IR)面臨著重大挑戰,原因是缺乏高容量模型和全面的數據集。為了應對這些問題,我們提出了一種雙重策略:GenIR,一個創新的數據整理流程,以及DreamClear,一個基於最先進的擴散Transformer(DiT)的圖像修復模型。GenIR是我們的開創性貢獻,是一個雙提示學習流程,克服了現有數據集的局限性,這些數據集通常只包含幾千張圖像,因此對於更大的模型具有有限的泛化能力。GenIR將流程分為三個階段:圖像-文本對構建、基於雙提示的微調和數據生成與篩選。這種方法避免了繁瑣的數據爬取過程,確保版權合規性,並為IR數據集構建提供了一種具有成本效益、隱私安全的解決方案。其結果是一個包含一百萬張高質量圖像的大規模數據集。我們的第二個貢獻DreamClear是一個基於DiT的圖像修復模型。它利用文本到圖像(T2I)擴散模型的生成先驗和多模式大型語言模型(MLLMs)的強大感知能力來實現逼真的修復。為了增強模型對多樣現實世界劣化的適應能力,我們引入了自適應調節器混合(MoAM)。它利用基於標記的劣化先驗來動態整合各種修復專家,從而擴展模型可以應對的劣化範圍。我們的大量實驗證實了DreamClear卓越的性能,突顯了我們雙重策略在現實世界圖像修復中的有效性。代碼和預訓練模型將在以下鏈接提供:https://github.com/shallowdream204/DreamClear。
儘管在發展長文本大型語言模型(LLMs)方面取得了重大進展,但LLM合成數據的品質通常會影響監督微調(SFT)的長文本性能,並導致固有限制。從原則上講,利用適當的獎勵信號進行強化學習(RL)可以進一步增強模型的能力。然而,在長文本情境中如何獲得可靠的獎勵仍未被探討。為此,我們提出了LongReward,一種新方法,利用現成的LLM從四個人類價值維度(幫助性、邏輯性、忠實度和完整性)提供長文本模型回應的獎勵,每個維度都有精心設計的評估流程。通過結合LongReward和離線RL算法DPO,我們能夠有效改善長文本SFT模型。我們的實驗表明,LongReward不僅顯著提高了模型的長文本性能,還增強了它們遵循簡短指令的能力。我們還發現,具有LongReward的長文本DPO和傳統的短文本DPO可以一起使用,而不會損害任何一個的性能。
我們引入了一種新穎的無需訓練的空間定位技術,用於使用擴散Transformer(DiT)進行文本到圖像生成。使用邊界框的空間定位因其簡單性和多功能性而受到關注,使得在圖像生成中增強了用戶控制。然而,先前的無需訓練方法通常依賴於通過從自定義損失函數進行反向擴散過程的反向傳播來更新嘈雜圖像,這經常難以提供對個別邊界框的精確控制。在這項工作中,我們利用Transformer架構的靈活性,展示了DiT可以生成與每個邊界框對應的嘈雜補丁,完全編碼目標對象並允許對每個區域進行精細控制。我們的方法建立在DiT的一個引人入勝的特性上,我們稱之為語義共享。由於語義共享,當一個較小的補丁與可生成大小的圖像一起聯合去噪時,這兩者變成了“語義克隆”。每個補丁在生成過程的自己分支中去噪,然後在每個時間步驟將其移植到原始嘈雜圖像的相應區域,從而實現對每個邊界框的堅固空間定位。在我們對HRS和DrawBench基準測試的實驗中,與先前的無需訓練的空間定位方法相比,我們實現了最先進的性能。
搜尋引擎能夠透過文字檢索未知資訊。然而,傳統方法在理解不熟悉的視覺內容時存在不足,例如識別模型從未見過的物體。這個挑戰對於大型視覺語言模型(VLMs)尤為明顯:如果模型沒有接觸過圖像中所描繪的物體,它將難以對用戶關於該圖像的問題生成可靠答案。此外,隨著新物體和事件不斷出現,經常更新VLMs由於龐大的計算負擔而變得不切實際。為了解決這個限制,我們提出了Vision Search Assistant,一個新穎的框架,促進了VLMs和網路代理之間的協作。這種方法利用了VLMs的視覺理解能力和網路代理的即時信息訪問,通過網路執行開放世界的檢索增強生成。通過這種協作整合視覺和文本表示,即使圖像對系統是新的,模型也能提供知情回應。在開放集和封閉集QA基準上進行的大量實驗表明,Vision Search Assistant明顯優於其他模型,並且可以廣泛應用於現有的VLMs中。
大型語言模型(LLMs)的安全有效部署包括一個關鍵步驟,稱為對齊,確保模型的回應符合人類偏好。流行的對齊技術,如DPO、PPO及其變體,通過在後訓練階段改變預訓練模型權重來對齊LLMs。儘管主導地位,這些後訓練方法在LLMs部署前增加了相當複雜性。推論時對齊方法避免了複雜的後訓練步驟,而是將生成偏向符合人類偏好的回應。最著名的推論時對齊方法稱為Best-of-N,與最先進的後訓練程序一樣有效。不幸的是,Best-of-N在推論時需要比標準解碼策略更多的資源,這使其在計算上不可行。在這項工作中,我們介紹了一種計算上可行的推論時對齊算法,稱為Speculative Rejection。它根據給定的獎勵模型生成高分回應,就像Best-of-N一樣,同時在計算效率上更高達16至32倍。
我們提出了LARP,一種新穎的影片分詞器,旨在克服當前用於自回歸(AR)生成模型的影片分詞方法的局限性。與直接將局部視覺補丁編碼為離散標記的傳統補丁式分詞器不同,LARP引入了一種全面的分詞方案,通過一組學習到的全面查詢從視覺內容中收集信息。這種設計使LARP能夠捕獲更全局和語義表示,而不僅僅局限於局部補丁級別的信息。此外,它通過支持任意數量的離散標記,實現了基於任務特定要求的自適應和高效分詞。為了將離散標記空間與下游AR生成任務對齊,LARP集成了一個輕量級AR變壓器作為訓練時的先驗模型,該模型在其離散潛在空間上預測下一個標記。通過在訓練期間將先驗模型納入,LARP學習了一個不僅為視頻重建優化而且在結構上更有利於自回歸生成的潛在空間。此外,這個過程為離散標記定義了一個順序,逐步在訓練期間將它們推向最佳配置,確保推理時更平滑和更準確的AR生成。全面的實驗證明了LARP的強大性能,在UCF101類條件影片生成基準上實現了最先進的FVD。LARP增強了AR模型與影片的兼容性,並為構建統一的高保真多模式大型語言模型(MLLMs)打開了潛力。
在這項工作中,我們將模型壓縮問題重新定義為定制補償問題:給定壓縮模型,我們的目標是引入殘差低秩路徑,以滿足用戶的定制需求(例如任務、壓縮比),從而在不受特定壓縮格式限制的情況下,更靈活地調整整體容量。然而,單純應用奇異值分解(SVD)來推導殘差路徑會導致低秩表示容量的次優利用。相反,我們提出了一種名為Training-free Eigenspace Low-Rank Approximation(EoRA)的方法,該方法直接最小化壓縮引起的錯誤,無需基於梯度的訓練,在使用少量校準數據的情況下,可在幾分鐘內實現快速優化。EoRA將壓縮錯誤投影到輸入激活的特徵空間中,利用特徵值有效地優先考慮重建高重要性的錯誤組件。此外,EoRA可以與微調和量化無縫集成,以進一步提高效果和效率。在各種任務(例如語言生成、常識推理和數學推理任務)中,EoRA在補償壓縮的LLaMA2/3模型的錯誤方面始終優於先前的方法(例如在將量化為4位並剪枝為2:4稀疏度的LLaMA3-8B進行補償時,ARC-Easy/ARC-Challenge和MathQA的改進分別為31.31%/12.88%和9.69%)。EoRA提供了一種可擴展的、無需訓練的解決方案,用於補償壓縮錯誤,使其成為在各種容量和效率需求下部署LLM的強大工具。
大型語言模型(LLMs)的部署成本昂貴。參數共享提供了一種可能的途徑來減小它們的大小和成本,但在現代LLMs中,其效果仍然相當有限。在這項工作中,我們重新審視了在Transformer中作為參數共享形式的"層綁定",並引入了將現有LLMs轉換為更小的"遞歸Transformer"的新方法,這些模型在層之間共享參數,並且性能損失最小。在這裡,我們的遞歸Transformer從標準預訓練的Transformer中高效初始化,但僅使用一個獨特層塊,然後在循環中多次重複。我們通過引入Relaxed Recursive Transformers進一步提高性能,通過深度低秩適應(LoRA)模塊為層綁定約束增加靈活性,同時仍保持整體模型的緊湊性。我們展示了我們的遞歸模型(例如,遞歸Gemma 1B)優於類似大小的普通預訓練模型(例如TinyLlama 1.1B和Pythia 1B)以及知識蒸餾基準 - 甚至可以恢復原始的"全尺寸"模型(例如,沒有共享參數的Gemma 2B)的大部分性能。最後,我們提出了連續深度批處理,這是一種有潛力的新推理範式,當與早期退出配對時,由遞歸Transformer實現。在理論分析中,我們顯示這有潛力帶來顯著(2-3倍)的推理吞吐量增益。
影片常被用來學習或提取完成任務所需的必要資訊,這與僅有文字和靜態圖像提供的方式不同。然而,許多現有的智能體評估忽略了長篇影片理解,而是專注於文字或靜態圖像輸入。為彌合這一差距,我們引入了VideoWebArena(VideoWA),這是一個用於評估長篇多模式智能體在影片理解方面能力的基準。VideoWA 包含 2,021 個基於手工製作的影片教程的網頁智能體任務,總計近四小時的內容。對於我們的基準,我們定義了一個長篇影片為基礎的智能體任務分類法,主要關注兩個方面:技能保留和事實保留。技能保留任務評估了智能體是否能夠使用給定的人類演示來有效地完成任務,而事實保留任務則評估了智能體是否能夠從影片中檢索與指示相關的信息以完成任務。我們發現最佳模型在事實保留任務上的成功率為 13.3%,在事實保留問答對上為 45.8%,遠低於人類的表現分別為 73.9% 和 79.3%。在技能保留任務中,長篇模型在教程中表現不佳,與沒有教程相比,WebArena 任務表現下降了 5%,VisualWebArena 任務下降了 10.3%。我們的工作凸顯了需要改進長篇多模式模型的智能能力,並為未來開發長篇影片智能體提供了一個測試平臺。
神經場已成為在計算機視覺和機器人領域中進行3D場景表示的一種革命性方法,實現從2D數據中準確推斷幾何、3D語義和動態。利用可微渲染,神經場涵蓋了連續隱式和顯式神經表示,實現高保真度的3D重建,整合多模式感測數據,並生成新的視角。本調查探討了神經場在機器人領域中的應用,強調它們提升感知、規劃和控制能力的潛力。神經場的緊湊性、記憶效率和可微性,以及與基礎和生成模型的無縫整合,使其成為實時應用的理想選擇,提高了機器人的適應性和決策能力。本文對機器人領域中的神經場進行了全面回顧,對超過200篇論文進行了分類,評估了它們的優勢和局限性。首先,我們介紹了四個關鍵的神經場框架:佔據網絡、符號距離場、神經輻射場和高斯點陣化。其次,我們詳細介紹了神經場在五個主要機器人領域的應用:姿態估計、操作、導航、物理和自動駕駛,突出了重要作品,並討論了收穫和面臨的挑戰。最後,我們概述了神經場在機器人領域中目前的局限性,並提出了未來研究的有前景的方向。項目頁面:https://robonerf.github.io
從未標註的對話中有效地推導結構化工作流程在計算語言學中仍然是一個未被充分探討且艱鉅的挑戰。自動化這個過程可以顯著加速在新領域中手動設計工作流程,並實現大型語言模型在特定領域流程圖中的基礎,增強透明度和可控性。在本文中,我們介紹了Dialog2Flow(D2F)嵌入,它與傳統的句子嵌入不同,通過將話語映射到潛在空間,根據其交際和信息功能(即它們代表的動作)對其進行分組。D2F允許將對話建模為潛在空間中的連續軌跡,其中包含不同的與動作相關的區域。通過對D2F嵌入進行聚類,潛在空間被量化,對話可以轉換為區域/動作ID序列,從而促進對潛在工作流程的提取。為了預先訓練D2F,我們通過統一二十個任務導向對話數據集並標準化每輪動作標註,構建了一個全面的數據集。我們還引入了一種新穎的軟對比損失,利用這些動作的語義信息來引導表示學習過程,顯示出優於標準監督對比損失的性能。通過與各種句子嵌入進行評估,包括對話特定的嵌入,證明了D2F在各種領域中產生出優越的定性和定量結果。
本研究測試了大型語言模型(LLMs)在專業決策中作為正式第二意見工具的角色,特別關注複雜醫學案例,即使是經驗豐富的醫生也尋求同行諮詢的情況。該研究分析了 Medscape 上 20 個月內的 183 個具有挑戰性的醫學案例,測試了多個LLMs在與眾包醫生回應的表現。一個關鍵發現是在最新的基礎模型中可以獲得很高的整體分數(>80% 的準確率,與共識意見相比),這超過了對同一臨床案例的大部分人類指標(450 頁的病人檔案、檢驗結果)的報告。該研究評估了LLMs在簡單案例(>81% 準確率)和複雜情境(43% 準確率)之間的表現差異,特別是在這些引起人類醫生之間廣泛辯論的案例中。研究表明,LLMs可能有價值作為全面差異診斷的生成器,而不是作為主要診斷工具,有助於對抗臨床決策中的認知偏見,減輕認知負荷,從而消除某些醫療錯誤的來源。第二個比較法律數據集(最高法院案例,N=21)的加入為促進第二意見的AI使用提供了額外的實證背景,盡管這些法律挑戰對LLMs進行分析明顯較容易。除了為LLM的準確性提供原始貢獻的實證證據外,該研究還匯總了一個新的基準,供他人評估LLMs和意見不一致的人類從業者之間高度爭議的問題和答案可靠性。這些結果表明,在專業環境中LLMs的最佳應用可能與目前強調自動化例行任務的方法有很大不同。
鑑於在現實世界中收集機器人數據的高成本,樣本效率一直是機器人領域中一個持續引人注目的追求。在本文中,我們介紹了SGRv2,一個透過改進視覺和動作表示來提高樣本效率的模仿學習框架。SGRv2 設計的核心是引入了一個關鍵的歸納偏差-動作局部性,這認為機器人的動作主要受目標物體以及其與局部環境的互動所影響。在模擬和真實世界環境中進行的大量實驗表明,動作局部性對於提高樣本效率至關重要。SGRv2 在 RLBench 任務中以僅使用 5 個示範來控制關鍵幀,並在 26 個任務中的 23 個中超越了 RVT 基準。此外,在 ManiSkill2 和 MimicGen 上進行密集控制評估時,SGRv2 的成功率是 SGR 的 2.54 倍。在真實環境中,僅通過八個示範,SGRv2 與基準模型相比,在各種任務上的成功率明顯更高。項目網站:http://sgrv2-robot.github.io
從人體動作捕捉(MoCap)數據中進行模仿學習為訓練人形機器人提供了一種有前途的方法。然而,由於形態學上的差異,例如關節自由度和力量限制的不同程度,對於人形機器人來說,精確複製人類行為可能並不可行。因此,在訓練數據集中納入在物理上不可行的MoCap數據可能會對機器人策略的性能產生不利影響。為了解決這個問題,我們提出了一種基於雙層優化的模仿學習框架,該框架在優化機器人策略和目標MoCap數據之間進行交替。具體而言,我們首先使用一種新穎的自洽自編碼器開發了一個生成潛在動力學模型,該模型學習稀疏且結構化的運動表示,同時捕捉數據集中所需的運動模式。然後利用動力學模型生成參考運動,而潛在表示規範了雙層運動模仿過程。通過使用逼真的人形機器人模型進行的模擬顯示,我們的方法通過修改參考運動以使其在物理上一致,增強了機器人策略。