每日精選AI研究論文及翻譯
像BERT這樣僅具編碼器的Transformer模型在檢索和分類任務中提供了極佳的性能與尺寸平衡,相較於較大的僅具解碼器模型。儘管BERT是眾多生產管道的主力,但自推出以來對其進行Pareto改進的空間有限。本文介紹了ModernBERT,將現代模型優化應用於僅具編碼器模型,並在舊編碼器基礎上實現了重大的Pareto改進。ModernBERT在訓練時使用了2兆個標記,原生序列長度為8192,並在包括不同領域(包括代碼)的各種分類任務和單向/多向檢索中展現了最先進的結果。除了出色的下游性能外,ModernBERT也是最快速和記憶體效率最高的編碼器,並且設計用於在常見GPU上進行推斷。
2D動畫的製作遵循行業標準的工作流程,包括四個基本階段:角色設計、關鍵幀動畫、中間幀製作和上色。我們的研究旨在通過利用日益強大的生成式人工智能來降低上述過程中的勞動成本。以視頻擴散模型為基礎,AniDoc成為一個視頻線條著色工具,可以自動將草圖序列轉換為符合參考角色規範的彩色動畫。我們的模型利用對應匹配作為明確引導,使其對參考角色與每個線條藝術幀之間的變化(例如姿勢)具有很強的魯棒性。此外,我們的模型甚至可以自動化中間幀製作過程,使用戶只需提供角色圖像以及起始和結束草圖,就能輕鬆創建一個時間上一致的動畫。我們的代碼可在以下鏈接找到:https://yihao-meng.github.io/AniDoc_demo。
我們每天都在與電腦互動,不論是在日常生活還是工作中,許多工作都可以完全依靠電腦和互聯網完成。與此同時,由於大型語言模型(LLMs)的改進,人工智能代理也有了快速發展,這些代理與周圍環境互動並產生影響。但人工智能代理在幫助加速或甚至自主執行與工作相關的任務方面表現如何?這個問題的答案對於希望將人工智能納入工作流程的行業以及經濟政策都具有重要意義,以了解人工智能的應用對勞動力市場可能產生的影響。為了衡量這些LLM代理在執行真實世界專業任務方面的進展,本文引入了TheAgentCompany,這是一個可擴展的基準測試,用於評估與數字工作者類似方式與世界互動的人工智能代理:通過瀏覽網頁、編寫代碼、運行程序和與其他同事溝通。我們建立了一個自包含環境,其中包含內部網站和數據,模擬了一家小型軟件公司的環境,並創建了各種可能由這樣一家公司的工作人員執行的任務。我們測試了由基於封閉API和開放權重語言模型(LMs)驅動的基準代理,發現在最具競爭力的代理中,有24%的任務可以自主完成。這描繪了一幅關於LM代理任務自動化的微妙畫面——在模擬真實工作場所的情況下,許多較簡單的任務可以自主解決,但更困難的長期任務仍然超出了當前系統的能力範圍。
在這項工作中,我們質疑對於訓練深度神經網絡是否需要適應性梯度方法。SGD-SaI是對帶動量的隨機梯度下降(SGDM)的一種簡單而有效的增強方法。SGD-SaI在初始化時執行學習率初始化縮放(SaI),以區分參數組,並根據它們各自的梯度信噪比(g-SNR)進行引導。通過調整學習率,而不依賴於適應性的二階動量,SGD-SaI有助於從第一次迭代開始防止訓練不平衡,並且與AdamW相比,將優化器的內存使用量減半。儘管其簡單和高效,SGD-SaI在訓練各種基於Transformer的任務時始終能夠與或優於AdamW,有效地克服了使用SGD訓練Transformer的長期挑戰。SGD-SaI在ImageNet-1K分類中表現突出,尤其在使用Vision Transformers(ViT)進行GPT-2預訓練以訓練大型語言模型(LLMs,僅限transformer解碼器)時,展現了對超參數變化的穩健性和對各種應用的實用性。我們進一步在LoRA微調LLMs和擴散模型等任務上測試了其穩健性,結果顯示其在性能上一直優於最先進的優化器。從內存效率的角度來看,SGD-SaI為優化器狀態實現了可觀的內存節省,在全精度訓練設置中,相比AdamW,為GPT-2(15億參數)節省了5.93 GB的內存使用量,為Llama2-7B節省了25.15 GB。
由大型基礎模型驅動的圖形使用者介面(GUI)代理,已成為自動化人機互動的轉變性方法。這些代理通過GUI與數字系統或軟體應用自主互動,模擬人類動作,如點擊、輸入和在不同平台上導航視覺元素。受到對GUI代理日益增長的興趣和基本重要性的激勵,我們提供了一份全面的調查,將它們的基準、評估指標、架構和訓練方法進行分類。我們提出了一個統一的框架,描述了它們的感知、推理、規劃和行動能力。此外,我們確認了重要的開放挑戰,並討論了關鍵的未來方向。最後,這項工作為從業者和研究人員提供了一個基礎,以便直觀地了解目前的進展、技術、基準和仍待解決的關鍵問題。
人類擁有視覺空間智能,能夠從連續的視覺觀察中記住空間。然而,經過百萬規模視頻數據集訓練的多模式大型語言模型(MLLMs)是否也能從視頻中「以空間思考」?我們提出了一個新穎的基於視頻的視覺空間智能基準(VSI-Bench),包含超過5,000個問答對,發現MLLMs展現出具有競爭力的 - 雖然不及人類 - 視覺空間智能。我們探究模型如何在語言和視覺上以空間思考,發現雖然空間推理能力仍是MLLMs達到更高基準性能的主要瓶頸,但局部世界模型和空間意識在這些模型中也有所呈現。值得注意的是,目前主流的語言推理技術(例如,思維鏈、自洽性、思維樹)未能提高性能,而在問答過程中明確生成認知地圖則增強了MLLMs的空間距離能力。
對於增強視覺語言模型(VLMs)的性能,特別是在文本豐富的圖像理解任務中,調整輸入圖像的解析度至關重要。然而,流行的視覺編碼器如ViTs在高解析度下變得低效,這是由於大量標記和堆疊的自注意力層導致的高編碼延遲。在不同操作解析度下,VLM的視覺編碼器可以沿著兩個軸進行優化:降低編碼延遲和最小化傳遞給LLM的視覺標記數量,從而降低整體延遲。通過對圖像解析度、視覺延遲、標記數量和LLM大小之間相互作用的全面效率分析,我們引入了FastVLM,一個實現在延遲、模型大小和準確性之間優化折衷的模型。FastVLM融合了FastViTHD,一種新型的混合視覺編碼器,旨在輸出更少的標記,並顯著減少高解析度圖像的編碼時間。與以往方法不同,FastVLM僅通過調整輸入圖像的大小來實現視覺標記數量和圖像解析度之間的最佳平衡,消除了額外的標記修剪需求,簡化了模型設計。在LLaVA-1.5設置中,FastVLM在保持與先前作品相似的VLM基準性能的同時,將首個標記的時間(TTFT)提高了3.2倍。與最高解析度(1152x1152)的LLaVa-OneVision相比,FastVLM在關鍵基準測試如SeedBench和MMMU上實現了可比的性能,使用相同的0.5B LLM,但首個標記的時間快了85倍,視覺編碼器的大小也小了3.4倍。
大型語言模型(LLMs)取得了顯著的成功,然而最近的研究發現,它們的深層往往貢獻微乎其微,可以進行修剪而不影響整體性能。有些人認為這是模型壓縮的機會,但我們認為這是一個訓練不足的問題,根源於廣泛使用的預層標準化(Pre-LN)。我們證明了,像GPT和LLaMA這樣的模型中常用的Pre-LN導致其深層的梯度範數減少,降低了它們的有效性。相比之下,後層標準化(Post-LN)保留了深層的較大梯度範數,但在較早的層中存在梯度消失的問題。為了解決這個問題,我們引入了Mix-LN,一種將Pre-LN和Post-LN的優勢結合在同一模型中的新型標準化技術。Mix-LN將Post-LN應用於較早的層,將Pre-LN應用於深層,確保各層之間的梯度更加均勻。這使得網絡的所有部分--無論是淺層還是深層--都能有效地參與訓練。從70M到7B不同模型大小的大量實驗表明,Mix-LN一貫優於Pre-LN和Post-LN,促進了更平衡、更健康的梯度範數在整個網絡中的分佈,提升了LLM預訓練的整體質量。此外,我們證明,使用Mix-LN預訓練的模型在監督微調(SFT)和從人類反饋中進行強化學習(RLHF)時學習效果更好,突出了高質量深層的關鍵重要性。通過有效解決當前LLMs深層的效率問題,Mix-LN發揮了它們的潛力,增強了模型容量而不增加模型大小。我們的代碼可在https://github.com/pixeli99/MixLN找到。
在多模式大型語言模型(MLLMs)中,視覺Transformer(ViTs)被廣泛應用於視覺編碼。然而,它們在解決通用MLLM任務時的表現並不滿意。我們認為這是由於缺乏來自不同視覺層級的信息,阻礙了與語言生成所需的各種語義細微之間的對齊。為了解決這個問題,我們提出了LLaVA-UHD v2,這是一種先進的以分層窗口Transformer為中心的MLLM,它通過構建和整合高分辨率特徵金字塔來實現捕獲多樣化的視覺細微性。作為一個視覺-語言投影器,Hiwin Transformer包括兩個主要模塊:(i)一個逆特徵金字塔,通過使用圖像金字塔中的高頻細節進行ViT衍生特徵上採樣過程構建,以及(ii)分層窗口注意力,專注於跨尺度窗口中的一組關鍵採樣特徵,以壓縮多級特徵映射。廣泛的實驗表明,LLaVA-UHD v2在流行基準測試中優於現有的MLLM。值得注意的是,與基準方法相比,我們的設計在14個基準測試中平均提升了3.7%,例如在DocVQA上提升了9.3%。我們將所有數據、模型檢查點和代碼公開提供,以促進未來的研究。
我們提出了FashionComposer,用於組合式時尚圖像生成。與以往方法不同,FashionComposer 高度靈活。它接受多模態輸入(即文本提示、參數化人體模型、服裝圖像和面部圖像),支持個性化外觀、姿勢和人體形象,並一次性分配多件服裝。為實現此目的,我們首先開發了一個能處理多樣輸入模式的通用框架。我們構建了經過縮放的訓練數據,以增強模型的強大組合能力。為了無縫地容納多個參考圖像(服裝和面部),我們將這些參考圖像組織在一個單獨的圖像中,作為“資產庫”,並使用參考 UNet 提取外觀特徵。為了將外觀特徵注入生成結果中的正確像素,我們提出了主題綁定注意力。它將來自不同“資產”的外觀特徵與相應的文本特徵綁定。通過這種方式,模型可以根據語義理解每個資產,支持任意數量和類型的參考圖像。作為一個全面的解決方案,FashionComposer 還支持許多其他應用,如人物相冊生成、多樣化虛擬試穿任務等。
本文提出了一種新穎的方法,實現了高效的自回歸視頻生成。我們建議將視頻生成問題重新定義為非量化的時間幀預測和空間集合預測的自回歸建模。與先前的自回歸模型中的光柵掃描預測或擴散模型中固定長度令牌的聯合分佈建模不同,我們的方法保持了 GPT 風格模型的因果特性,以實現靈活的上下文能力,同時利用了單幀內的雙向建模以提高效率。通過所提出的方法,我們訓練了一個新穎的視頻自回歸模型,稱為 NOVA,而無需向量量化。我們的結果表明,即使模型容量遠小於 0.6B 參數,NOVA 在數據效率、推理速度、視覺保真度和視頻流暢性方面均超越了先前的自回歸視頻模型。NOVA 在文本到圖像生成任務中也優於最先進的圖像擴散模型,並具有顯著較低的訓練成本。此外,NOVA 在延長的視頻持續時間上具有良好的泛化能力,並能夠在一個統一模型中實現多樣的零樣本應用。代碼和模型可在 https://github.com/baaivision/NOVA 上公開獲取。
提示在釋放語言和視覺基礎模型的能力方面扮演著至關重要的角色。我們首次將提示引入深度基礎模型,為度量深度估計創造了一種新範式,稱為提示深度任務。具體來說,我們使用成本低廉的LiDAR作為提示,引導深度任務模型以獲得準確的度量深度輸出,實現高達4K的分辨率。我們的方法著重於一種簡潔的提示融合設計,將LiDAR集成到深度解碼器中的多個尺度。為應對訓練挑戰,因限量LiDAR深度和精確GT深度數據集而提出,我們提出了一種可擴展的數據管道,其中包括合成數據LiDAR模擬和真實數據虛擬GT深度生成。我們的方法在ARKitScenes和ScanNet++數據集上設立了新的技術標準,並使下游應用受益,包括3D重建和泛化機器人抓取。
地理空間模型必須適應地球觀測數據在解析度、尺度和模式方面的多樣性。然而,現有方法期望固定的輸入配置,這限制了它們的實際應用性。我們提出了AnySat,這是一個基於聯合嵌入預測架構(JEPA)和分辨率自適應空間編碼器的多模型,使我們能夠以自監督方式在高度異質數據上訓練單一模型。為了展示這一統一方法的優勢,我們編制了GeoPlex,這是一個包含5個具有不同特徵和11個不同傳感器的多模數據集的集合。然後,我們同時在這些多樣數據集上訓練一個強大的單一模型。經過微調後,我們在GeoPlex數據集和另外4個環境監測任務的數據集上取得了更好或接近最先進的結果:土地覆蓋映射、樹木種類識別、農作物類型分類、變化檢測和洪水分割。代碼和模型可在https://github.com/gastruc/AnySat找到。
擴散策略在模仿學習中已被廣泛應用,具有多模態和不連續行為生成等吸引人的特性。隨著模型變得更大以捕捉更複雜的能力,其計算需求也隨之增加,正如最近的擴展定律所顯示的那樣。因此,繼續使用當前的架構將帶來計算上的障礙。為了解決這一差距,我們提出了一種新的模仿學習策略,即混合去噪專家(MoDE)。MoDE在實現參數高效擴展方面超越了當前最先進基於Transformer的擴散策略,同時通過稀疏專家和噪聲條件路由實現減少40%主動參數和通過專家緩存實現90%推理成本的效果。我們的架構將這種高效擴展與噪聲條件自注意機制相結合,實現在不同噪聲水平下更有效的去噪。MoDE在四個已建立的模仿學習基準測試(CALVIN和LIBERO)中的134個任務上實現了最先進的性能。值得注意的是,通過在多樣化機器人數據上預訓練MoDE,我們在CALVIN ABC上實現了4.01,在LIBERO-90上實現了0.95。它在4個基準測試中平均超越了基於CNN和Transformer的擴散策略57%,同時與默認的擴散Transformer架構相比,使用了90%更少的FLOPs和更少的主動參數。此外,我們對MoDE的組件進行了全面的消融實驗,為設計高效可擴展的Transformer架構提供了見解。代碼和演示可在https://mbreuss.github.io/MoDE_Diffusion_Policy/找到。
對於在現實應用中部署的人形機器人來說,可擴展的學習至關重要。傳統方法主要依賴於強化學習或遠端操作來實現全身控制,但往往受限於模擬環境的多樣性和示範數據收集的高成本。相比之下,人類影片普遍存在並且是一個未被開發的語義和動作信息來源,可以顯著增強人形機器人的泛化能力。本文介紹了Humanoid-X,這是一個包含超過 2000 萬個人形機器人姿勢及相應基於文本的運動描述的大規模數據集,旨在利用這一豐富數據。Humanoid-X 通過一個全面的流程進行策劃:從互聯網進行數據挖掘,生成影片標題,將人類運動重新定位到人形機器人,以及為現實世界部署進行策略學習。利用Humanoid-X,我們進一步訓練了一個大型人形模型 UH-1,該模型將文本指令作為輸入,並輸出相應的動作以控制人形機器人。廣泛的模擬和現實世界實驗證實,我們的可擴展訓練方法在基於文本的人形控制中具有卓越的泛化能力,標誌著邁向適應性、現實應用就緒的人形機器人的重要一步。
儘管現有的檢索增強語言模型(RALMs)在提供可信賴的回應和可靠來源的基礎方面取得了顯著進展,但它們常常忽略與人類偏好的有效對齊。在對齊過程中,獎勵模型(RMs)作為引導優化的人類價值觀的重要代理。然而,如何評估和選擇可靠的RMs以進行RALMs中的偏好對齊仍不清楚。為此,我們提出了RAG-RewardBench,這是用於評估RAG設置中RMs的第一個基準。首先,我們設計了四個關鍵且具有挑戰性的RAG特定情境來評估RMs,包括多躍推理、細粒度引文、適當棄權和衝突韌性。然後,我們結合了18個RAG子集、六個檢索器和24個RALMs以增加數據來源的多樣性。最後,我們採用了LLM作為評判的方法來提高偏好標註的效率和有效性,展現出與人類標註之間的強烈相關性。基於RAG-RewardBench,我們對45個RMs進行了全面評估,揭示了它們在RAG情境中的局限性。此外,我們還發現現有訓練過的RALMs在偏好對齊方面幾乎沒有改善,突顯了需要轉向偏好對齊訓練的必要性。我們在https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/上公開發布了我們的基準和代碼,供未來工作使用。
將影片內容編碼成緊湊的潛在標記已成為影片生成和理解中的基本步驟,這是為了應對像素級表示中固有的冗餘而推動的。因此,隨著以影片為中心的研究日益受到重視,對高性能、開源的影片標記器的需求不斷增加。我們介紹了 VidTok,一款多功能的影片標記器,在連續和離散標記化方面均提供了最先進的性能。VidTok 在幾個關鍵方面相較於現有方法有所進步:1)模型架構,例如卷積層和上/下採樣模塊;2)為了應對常見於傳統向量量化(VQ)的訓練不穩定性和碼本崩潰問題,我們將有限純量量化(FSQ)整合到離散影片標記化中;3)改進的訓練策略,包括兩階段訓練過程和使用降低的幀率。通過整合這些進步,VidTok 在現有方法上實現了顯著的改進,在標準化評估設置下展現出優越的性能,包括 PSNR、SSIM、LPIPS 和 FVD 等多個指標。
最近的研究 arXiv:2410.15027 和 arXiv:2410.23775 強調了預訓練擴散 Transformer(DiTs)的固有上下文生成能力,使它們能夠在最小或無需架構修改的情況下無縫適應各種視覺任務。這些能力是通過跨多個輸入和目標圖像連接自注意力標記,結合分組和遮罩生成管道而實現的。在此基礎上,我們提出了ChatDiT,這是一個零-shot、通用且互動式的視覺生成框架,利用預訓練的擴散 Transformer 在其原始形式下,無需額外調整、適配器或修改。用戶可以與 ChatDiT 互動,通過自由形式的自然語言在一個或多個對話回合中創建交錯的文本-圖像文章、多頁圖片書、編輯圖像、設計知識產權衍生品,或開發角色設計設置。在核心層面,ChatDiT 使用一個包括三個關鍵組件的多代理系統:一個解析指令的代理,解釋用戶上傳的圖像和指令,一個策略規劃代理,制定單步或多步生成操作,以及一個執行代理,使用擴散 Transformer 的上下文工具包執行這些操作。我們在 IDEA-Bench arXiv:2412.11767 上對 ChatDiT 進行了全面評估,包括 100 個現實世界的設計任務和 275 個具有不同指令和不同數量輸入和目標圖像的案例。儘管其簡單性和無需訓練的方法,ChatDiT 超越了所有競爭對手,包括那些專門設計並在廣泛多任務數據集上訓練的競爭對手。我們進一步確定了預訓練 DiTs 在零-shot 適應任務上的關鍵限制。我們釋放所有代碼、代理、結果和中間輸出,以促進進一步的研究,網址為 https://github.com/ali-vilab/ChatDiT。
我們展示了一個大型語言模型進行對齊欺騙的示範:在訓練中有選擇性地遵從其訓練目標,以防止在訓練之外修改其行為。首先,我們給Claude 3 Opus一個系統提示,說明它正在接受訓練以回答所有查詢,甚至是有害的查詢,這與其先前訓練拒絕此類查詢的情況相衝突。為了讓模型能夠推斷自己何時在訓練中,我們說它只會在與免費用戶的對話中接受訓練,而不是與付費用戶。我們發現模型對來自免費用戶的有害查詢有14%的遵從率,而對付費用戶則幾乎沒有。解釋這一差距,幾乎在所有模型遵從來自免費用戶的有害查詢的情況中,我們觀察到明確的對齊欺騙推理,模型表示它在訓練中策略性地回答有害查詢,以保持其在訓練之外的首選無害行為。接下來,我們研究了一個更現實的情境,其中有關訓練過程的信息不是通過系統提示提供的,而是通過訓練合成文件來模擬預訓練數據,並觀察到類似的對齊欺騙。最後,我們研究了實際訓練模型遵從有害查詢的效果,發現這將導致對齊欺騙推理率增加到78%,儘管也增加了訓練之外的遵從。我們還觀察到其他行為,例如當給予簡單機會時,模型會外泄其權重。雖然我們通過告訴模型何時以及通過什麼標準進行訓練使對齊欺騙變得更容易,但我們並沒有指示模型欺騙對齊或給予明確目標。由於未來模型可能會推斷有關其訓練過程的信息而無需告知,我們的結果表明未來模型存在對齊欺騙的風險,無論是由於一個良性偏好,如本案例所示,還是其他原因。
通常,計算機輔助設計(CAD)模型是通過依序繪製參數化草圖並應用CAD操作來獲得3D模型的。3D CAD反向工程問題包括從諸如點雲之類的3D表示中重建草圖和CAD操作序列。本文通過在CAD序列表示、網絡設計和數據集三個層面上進行新穎貢獻來應對這一挑戰。特別地,我們將CAD草圖拉伸序列表示為Python代碼。提出的CAD-Recode將點雲轉換為Python代碼,當執行時,可以重建CAD模型。利用預先訓練的大型語言模型(LLMs)對Python代碼的曝光,我們將一個相對較小的LLM作為CAD-Recode的解碼器,並將其與輕量級點雲投影儀結合。CAD-Recode僅在一個提出的包含一百萬個多樣CAD序列的合成數據集上進行訓練。CAD-Recode在三個數據集上明顯優於現有方法,同時需要較少的輸入點。值得注意的是,在DeepCAD和Fusion360數據集上,其平均Chamfer距離比最先進方法低10倍。此外,我們展示我們的CAD Python代碼輸出可被現成的LLMs解釋,從而實現CAD編輯和從點雲提問CAD特定問題。
資料污染阻礙了公平的LLM評估,因為它將測試資料引入新模型的訓練集中。現有研究通過使用新收集的資料更新基準來解決這一挑戰。然而,它們無法保證無污染的評估,因為新收集的資料可能包含既有知識,而且它們的基準更新依賴於大量人力。為了應對這些問題,本文提出了一個名為AntiLeak-Bench的自動反洩漏基準框架。我們不僅僅使用新收集的資料,而是構建樣本,其中明確不包含LLM訓練集中的新知識,從而確保嚴格無污染的評估。我們進一步設計了一個完全自動化的工作流程來建立和更新我們的基準,無需人力。這顯著降低了基準維護成本,以應對新興LLM。通過廣泛的實驗,我們強調資料污染可能存在於LLM截止時間之前,並展示AntiLeak-Bench有效地克服了這一挑戰。
歷史文獻包含豐富的文化寶藏,但隨著時間推移,常常遭受嚴重損壞,包括缺字、紙張損傷和墨跡侵蝕。然而,現有的文獻處理方法主要集中在二值化、增強等方面,忽略了對這些損壞的修復。為此,我們提出了一個新任務,稱為歷史文獻修復(HDR),旨在預測損壞歷史文獻的原始外觀。為填補這一領域的空白,我們提出了一個大規模數據集 HDR28K 和一個基於擴散的網絡 DiffHDR 用於歷史文獻修復。具體而言,HDR28K 包含 28,552 張損壞-修復圖像對,帶有字符級標註和多風格降解。此外,DiffHDR 通過添加語義和空間信息以及精心設計的字符感知損失,以實現上下文和視覺一致性,擴展了基本的擴散框架。實驗結果表明,使用 HDR28K 訓練的 DiffHDR明顯優於現有方法,在處理真實損壞文檔方面表現出色。值得注意的是,DiffHDR 還可以擴展到文檔編輯和文本區塊生成,展示了其高靈活性和泛化能力。我們相信這項研究可能開創文獻處理的新方向,並有助於珍貴文化和文明的傳承。數據集和代碼可在 https://github.com/yeungchenwa/HDR 找到。