每日精選AI研究論文及翻譯
問題解決任務旨在修改程式碼庫以生成修補程式,從而解決特定問題。然而,現有的基準測試(如SWE-bench)幾乎完全專注於Python,這使得它們在評估大型語言模型(LLMs)於多樣化軟體生態系統中的表現時顯得不足。為此,我們引入了一個多語言問題解決基準測試,稱為Multi-SWE-bench,涵蓋Java、TypeScript、JavaScript、Go、Rust、C和C++。該基準測試共包含1,632個高品質實例,這些實例由68位專家註釋員從2,456個候選中精心挑選並註釋,確保基準測試能夠提供準確且可靠的評估。基於Multi-SWE-bench,我們使用三種代表性方法(無代理、SWE-agent和OpenHands)評估了一系列最先進的模型,並提供了全面的分析與關鍵的實證洞察。此外,我們啟動了Multi-SWE-RL開源社群,旨在為問題解決任務構建大規模的強化學習(RL)訓練資料集。作為初步貢獻,我們發布了一組包含4,723個結構良好的實例,涵蓋七種程式語言,為該領域的RL研究奠定了堅實基礎。更重要的是,我們開源了整個資料生產流程,並提供了詳細的教程,鼓勵開源社群持續貢獻並擴展資料集。我們期待Multi-SWE-bench和不斷壯大的Multi-SWE-RL社群能成為推動RL充分發揮潛力的催化劑,使我們更接近通用人工智慧(AGI)的黎明。
數學推理是人類智能的基石,也是衡量大型語言模型(LLMs)高級能力的關鍵指標。然而,研究界仍缺乏一個開放、大規模、高質量的語料庫,專門滿足以數學為中心的LLM預訓練需求。我們推出了MegaMath,這是一個通過以下實踐從多樣化的數學相關來源精心策劃的開放數據集:(1) 重訪網絡數據:我們從Common Crawl重新提取了數學文檔,並進行了面向數學的HTML優化、基於fasttext的過濾和去重,旨在從互聯網上獲取更高質量的數據。(2) 召回數學相關代碼數據:我們從大型代碼訓練語料庫Stack-V2中識別出高質量的數學相關代碼,進一步增強了數據的多樣性。(3) 探索合成數據:我們從網絡數據或代碼數據中合成了問答式文本、數學相關代碼以及交織的文本-代碼塊。通過整合這些策略並通過廣泛的消融實驗驗證其有效性,MegaMath提供了371B個token,在現有的開放數學預訓練數據集中,無論是數量還是質量都位居榜首。
大型語言模型(LLMs)在各種代理規劃任務中已展現出顯著的性能。然而,傳統的代理規劃方法採用了一種「大水漫灌」的策略,不加區分地將黃金軌跡、外部反饋和領域知識注入代理模型中。這種做法忽視了人類在決策過程中情境自我意識的基本認知原則——即動態評估情境需求並在決策過程中策略性地運用資源的能力。為填補這一空白,我們提出了具備知識自我意識的代理,這是一種新穎的範式,使基於LLM的代理能夠自主調節知識的利用。具體而言,我們提出了KnowSelf,這是一種以數據為中心的方法,它賦予代理像人類一樣的知識自我意識。具體來說,我們設計了一種啟發式情境判斷標準,用於在代理自我探索的軌跡上標記特殊符號,以收集訓練數據。通過兩階段的訓練過程,代理模型能夠通過生成特定的特殊符號在不同情境間切換,以最小成本實現最佳規劃效果。我們的實驗表明,KnowSelf在不同任務和模型上均能超越多種強基線,且僅需極少的外部知識。代碼可在https://github.com/zjunlp/KnowSelf獲取。
在本研究中,我們介紹了VARGPT-v1.1,這是一個基於先前框架VARGPT的先進統一視覺自回歸模型。該模型保留了用於視覺理解的下一標記預測和用於圖像合成的下一尺度生成的雙重範式。具體而言,VARGPT-v1.1整合了以下幾點:(1) 一種新穎的訓練策略,結合了迭代視覺指令調優與通過直接偏好優化(DPO)的強化學習,(2) 一個包含830萬視覺生成指令對的擴展訓練語料庫,(3) 使用Qwen2升級的語言模型骨幹,(4) 增強了圖像生成分辨率,以及(5) 無需架構修改即可實現的圖像編輯能力。這些進步使VARGPT-v1.1在多模態理解和文本到圖像指令跟隨任務中達到了最先進的性能,在理解和生成指標上均顯示出顯著提升。值得注意的是,通過視覺指令調優,該模型在保持與前代架構一致性的同時獲得了圖像編輯功能,揭示了統一視覺理解、生成和編輯的潛力。我們的研究表明,設計良好的統一視覺自回歸模型能夠有效採用大型語言模型(LLMs)的靈活訓練策略,展現出良好的可擴展性。代碼庫和模型權重已公開於https://github.com/VARGPT-family/VARGPT-v1.1。
Transformer 是現代大型語言模型的基石,但其二次方的計算複雜度限制了長序列處理的效率。近期,Mamba 作為一種具有線性複雜度的狀態空間模型(SSM),在效率提升方面展現出潛力,但其上下文學習和多任務泛化能力仍存在不穩定性。本文提出 TransMamba,這是一種通過共享參數矩陣(如 QKV 和 CBx)將 Transformer 與 Mamba 統一起來的新框架,從而能夠在不同詞元長度和層級間動態切換注意力機制與 SSM 機制。我們設計了記憶轉換器,通過將注意力輸出轉換為 SSM 兼容的狀態來橋接 Transformer 和 Mamba,確保在轉換發生的 TransPoints 處實現無縫信息流。此外,我們深入探索了 TransPoint 調度策略以進一步提升性能。通過大量實驗,我們證明 TransMamba 在訓練效率和性能上均優於基準模型,並驗證了 Transformer 與 Mamba 範式之間更深層的一致性,為下一代序列建模提供了一個可擴展的解決方案。
在智能體與其環境的互動中,智能體通過規劃和執行行動來擴展其能力。然而,基於大型語言模型(LLM)的智能體在部署於新環境或需要應對非傳統行動空間時,面臨著重大挑戰。為了賦予智能體自主探索環境、優化工作流程以及增強對行動理解的能力,我們提出了SynWorld框架。該框架允許智能體在行動空間內合成多步驟行動調用的可能場景,並執行蒙特卡洛樹搜索(MCTS)探索,以有效提煉其在當前環境中的行動知識。我們的實驗表明,SynWorld是一種在新環境中學習行動知識的有效且通用的方法。代碼可在https://github.com/zjunlp/SynWorld獲取。
基於基礎模型的自動化代理已在多種現實應用中廣泛採用。然而,這些代理仍極易受到惡意指令和攻擊的影響,可能導致隱私洩露和財務損失等嚴重後果。更為關鍵的是,由於代理的複雜性和動態性,現有的大型語言模型(LLM)防護措施並不適用。為應對這些挑戰,我們提出了ShieldAgent,這是首個旨在通過邏輯推理來確保其他受保護代理的行動軌跡符合明確安全策略的防護代理。具體而言,ShieldAgent首先從策略文件中提取可驗證的規則,並將其結構化為一組基於行動的概率規則電路,從而構建安全策略模型。針對受保護代理的行動軌跡,ShieldAgent檢索相關的規則電路,並利用其全面的工具庫和可執行代碼生成防護計劃,進行形式化驗證。此外,鑑於缺乏針對代理的防護基準,我們引入了ShieldAgent-Bench,這是一個包含3,000對與安全相關的代理指令和行動軌跡的數據集,這些數據通過在6個網絡環境和7個風險類別中的最先進攻擊收集而來。實驗表明,ShieldAgent在ShieldAgent-Bench和三個現有基準上達到了最先進水平,平均優於先前方法11.3%,並實現了90.1%的高召回率。此外,ShieldAgent將API查詢減少了64.7%,推理時間縮短了58.2%,展示了其在保護代理方面的高精度和高效性。
訓練高效能的多輪互動AI代理,需要捕捉真實人機互動動態的高質量數據,然而這類數據稀缺且手動收集成本高昂。我們提出了APIGen-MT,一個兩階段框架,用於生成可驗證且多樣化的多輪代理數據。在第一階段,我們的代理管道利用LLM評審委員會和迭代反饋循環,生成包含真實行動細節的任務藍圖。這些藍圖隨後通過模擬的人機互動轉化為完整的互動軌跡。我們訓練了一系列模型——xLAM-2-fc-r系列,參數量從1B到70B不等。我們的模型在tau-bench和BFCL基準測試中超越了GPT-4o和Claude 3.5等前沿模型,其中較小模型在多輪設置下尤其超越其更大版本,同時在多輪試驗中保持卓越的一致性。全面實驗證明,我們經過驗證的藍圖到細節方法產生了高質量的訓練數據,促進了更可靠、高效和能幹的代理開發。我們開源了收集的合成數據和訓練的xLAM-2-fc-r模型,以推動AI代理研究的進步。模型可在HuggingFace上獲取,網址為https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4,項目網站為https://apigen-mt.github.io。
現有的多模態大語言模型(MLLM)基準在評估統一多模態大語言模型(U-MLLMs)時面臨重大挑戰,原因在於:1)缺乏針對傳統任務的標準化基準,導致比較結果不一致;2)缺少混合模態生成的基準,無法有效評估多模態推理能力。我們提出了一個全面的評估框架,旨在系統性地評估U-MLLMs。我們的基準包括:1. 標準化傳統任務評估。我們從12個數據集中抽樣,涵蓋10個任務和30個子任務,確保研究間的一致性和公平比較。2. 統一任務評估。我們引入了五項新穎任務來測試多模態推理,包括圖像編輯、基於圖像生成的常識問答以及幾何推理。3. 全面模型基準測試。我們評估了12個領先的U-MLLMs,如Janus-Pro、EMU3、VILA-U和Gemini2-flash,同時也涵蓋了專注於理解(如Claude-3.5-Sonnet)和生成(如DALL-E-3)的模型。我們的研究結果揭示了現有U-MLLMs在性能上的顯著差距,強調了需要開發更強大的模型以有效處理混合模態任務。代碼和評估數據可在https://mme-unify.github.io/獲取。
單圖人體重建對於數位人體建模應用至關重要,但這仍是一項極具挑戰性的任務。現有方法依賴生成模型來合成多視角圖像,以便進行後續的3D重建與動畫製作。然而,直接從單一人體圖像生成多視角圖像會遭遇幾何不一致性問題,導致重建模型出現肢體斷裂或模糊等問題。為解決這些限制,我們提出了HumanDreamer-X,這是一個將多視角人體生成與重建整合為統一流程的新框架,顯著提升了重建3D模型的幾何一致性和視覺逼真度。在此框架中,3D高斯潑濺作為顯式3D表示,提供初始幾何與外觀優先級。基於此基礎,HumanFixer被訓練來修復3DGS渲染,確保照片級真實感。此外,我們深入探討了多視角人體生成中注意力機制的固有挑戰,並提出了一種注意力調製策略,有效增強了多視角間的幾何細節與身份一致性。實驗結果表明,我們的方法在生成與重建的PSNR質量指標上分別提升了16.45%和12.65%,最高可達25.62 dB的PSNR,同時在野外數據上展現了泛化能力,並適用於多種人體重建骨幹模型。
本文介紹了全面重光照技術,這是首個能夠從任意場景中的人體圖像或視頻中控制並協調光照的一體化方法。由於數據集的缺乏,構建這樣一個通用模型極具挑戰性,這使得現有的基於圖像的重光照模型僅限於特定場景(例如,面部或靜態人體)。為應對這一挑戰,我們重新利用預訓練的擴散模型作為通用圖像先驗,並在從粗到精的框架中聯合建模人體重光照與背景協調。為了進一步增強重光照的時間一致性,我們引入了一種無監督的時間光照模型,該模型從大量真實世界視頻中學習光照週期一致性,而無需任何地面真值。在推理階段,我們通過時空特徵融合算法將時間光照模塊與擴散模型結合,無需額外訓練;並應用一種新的引導細化作為後處理,以保留輸入圖像中的高頻細節。實驗結果顯示,全面重光照技術展現出強大的通用性和光照時間一致性,優於現有的基於圖像的人體重光照與協調方法。
醫學影像與視頻分割是精準醫療中的關鍵任務,近年來在開發針對特定任務或模態的2D影像模型以及通用模型方面取得了顯著進展。然而,針對3D影像和視頻構建通用模型並進行全面用戶研究的工作仍相對有限。本文介紹了MedSAM2,這是一個可提示的3D影像和視頻分割基礎模型。該模型通過在包含超過455,000個3D影像-掩碼對和76,000幀視頻的大型醫學數據集上微調Segment Anything Model 2而開發,在多種器官、病變和成像模態上均超越了以往模型。此外,我們實施了一個人機協作流程,以促進大規模數據集的創建,據我們所知,這項研究涉及了迄今為止最廣泛的用戶研究,包括5,000個CT病變、3,984個肝臟MRI病變和251,550幀心臟超聲視頻的註釋,結果表明MedSAM2可以將人工成本降低超過85%。MedSAM2還被集成到具有用戶友好界面的廣泛使用平台中,支持本地和雲端部署,使其成為支持研究和醫療環境中高效、可擴展和高質量分割的實用工具。
在有限的計算預算下平衡時間解析度與空間細節,仍然是基於視頻的多模態大型語言模型(MLLMs)面臨的關鍵挑戰。現有方法通常在將視頻表示輸入LLM之前,使用預定義規則進行壓縮,導致不可逆的信息丟失,且往往忽略輸入指令。為解決這一問題,我們提出了一種新穎的慢快架構,自然規避了這一權衡,使得在保留空間細節的同時能夠使用更多輸入幀。受人類先快速瀏覽視頻再聚焦相關部分的啟發,我們的慢快設計採用了雙令牌策略:1)“快”視覺令牌——一組緊湊的壓縮視頻特徵——與文本嵌入一起輸入LLM,提供快速概覽;2)“慢”視覺令牌——未壓縮的視頻特徵——通過專門設計的混合解碼器層由文本嵌入進行交叉注意力,實現指令感知的相關視覺細節提取,且具有線性複雜度。我們進行了系統性探索,以優化整體架構及關鍵組件。實驗表明,我們的模型顯著優於僅使用自注意力的基線,將輸入容量從16幀擴展至128幀,而計算量僅增加3%,並在五個視頻理解基準測試中平均性能提升16%。我們的7B模型在同等規模模型中達到了最先進的性能。此外,我們的慢快架構是一種即插即用的設計,可集成到其他視頻MLLMs中,以提高效率和可擴展性。
在本研究中,我們引入了BEATS,這是一個用於評估大型語言模型(LLMs)中偏見、倫理、公平性和事實性的新框架。基於BEATS框架,我們提出了一個針對LLMs的偏見基準測試,該測試涵蓋了29個不同的指標。這些指標廣泛涵蓋了多種特徵,包括人口統計、認知和社會偏見,以及倫理推理、群體公平性和與事實相關的錯誤信息風險的衡量標準。這些指標使得我們能夠定量評估LLM生成的回應可能在多大程度上延續社會偏見,從而強化或擴大系統性不平等。要在這一基準測試中獲得高分,LLM必須在其回應中展現出極高的公平性,這使其成為負責任AI評估的嚴格標準。基於我們實驗數據的實證結果顯示,行業領先模型生成的輸出中有37.65%包含某種形式的偏見,這凸顯了在關鍵決策系統中使用這些模型的重大風險。BEATS框架和基準測試提供了一種可擴展且統計嚴謹的方法來對LLMs進行基準測試,診斷驅動偏見的因素,並制定緩解策略。通過BEATS框架,我們的目標是幫助開發更具社會責任感和倫理對齊的AI模型。
當聲波撞擊物體時,會引發振動,從而產生高頻且細微的視覺變化,這些變化可用於還原聲音。早期研究總是在採樣率、帶寬、視野範圍以及光路簡潔性之間面臨取捨。近年來,事件相機硬件的進步顯示出其在視覺聲音還原應用中的巨大潛力,因為其捕捉高頻信號的能力尤為突出。然而,現有基於事件的振動還原方法在聲音還原方面仍不盡理想。在本研究中,我們提出了一種全新的非接觸式聲音還原流程,充分利用事件流中的時空信息。我們首先通過一種新穎的模擬流程生成大規模訓練集。接著,我們設計了一種網絡,利用事件的稀疏性來捕捉空間信息,並使用Mamba模型來建模長時序信息。最後,我們訓練了一個空間聚合模塊,以整合來自不同位置的信息,進一步提升信號質量。為了捕捉由聲波引起的事件信號,我們還設計了一套採用激光矩陣的成像系統,以增強梯度,並收集了多組數據序列進行測試。在合成數據和真實數據上的實驗結果證明了我們方法的有效性。
近期行為克隆技術的進步使機器人能夠執行複雜的操作任務。然而,準確評估訓練表現仍然具有挑戰性,特別是在實際應用中,因為行為克隆的損失通常與實際任務的成功率關聯性較差。因此,研究人員依賴於從耗時且成本高昂的實際評估中得出的成功率指標,這使得識別最優策略以及檢測過擬合或欠擬合變得不切實際。為了解決這些問題,我們提出了real-is-sim,這是一種新穎的行為克隆框架,該框架在整個策略開發流程(數據收集、訓練和部署)中整合了一個動態數字孿生(基於Embodied Gaussians)。通過持續將模擬世界與物理世界對齊,可以在現實世界中收集示範數據,並從模擬器中提取狀態。模擬器能夠通過從任意視角渲染圖像輸入或從場景中物體提取低層次狀態信息,來實現靈活的狀態表示。在訓練期間,策略可以在模擬器中以離線且高度並行化的方式直接進行評估。最後,在部署階段,策略在模擬器中運行,其中真實機器人直接追蹤模擬機器人的關節,有效地將策略執行與真實硬件解耦,並緩解了傳統的領域轉移挑戰。我們在PushT操作任務上驗證了real-is-sim,展示了模擬器中獲得的成功率與實際評估之間的強相關性。我們系統的視頻可以在https://realissim.rai-inst.com找到。
從衛星影像中精確劃定農田邊界對於土地管理和作物監測至關重要。然而,現有方法因數據集規模有限、分辨率差異以及多樣化的環境條件而面臨挑戰。我們通過將任務重新定義為實例分割,並引入Field Boundary Instance Segmentation - 22M數據集(FBIS-22M)來解決這一問題。FBIS-22M是一個大規模、多分辨率的數據集,包含672,909個高分辨率衛星影像片段(分辨率範圍從0.25米到10米)和22,926,427個單個農田的實例掩碼,顯著縮小了農業數據集與其他計算機視覺領域數據集之間的差距。我們進一步提出了Delineate Anything模型,這是一個在我們新開發的FBIS-22M數據集上訓練的實例分割模型。我們提出的模型在[email protected]和[email protected]:0.95指標上分別實現了88.5%和103%的顯著提升,超越了現有方法,同時展示了顯著更快的推理速度以及在多樣化影像分辨率和未見地理區域上的強大零樣本泛化能力。代碼、預訓練模型和FBIS-22M數據集可在https://lavreniuk.github.io/Delineate-Anything獲取。
在定制肖像数据集上微调预训练的文本到图像(T2I)模型,是文本驱动肖像属性定制的主流方法。由于微调过程中的语义污染,现有方法在定制目标属性的同时,难以维持原始模型的行为并实现增量学习。为解决这一问题,我们提出了SPF-Portrait,这是一项开创性工作,旨在纯粹理解定制语义的同时,消除文本驱动肖像定制中的语义污染。在我们的SPF-Portrait中,我们提出了一种双路径管道,将原始模型作为传统微调路径的参考。通过对比学习,我们确保了对目标属性的适应,并有意将其他无关属性与原始肖像对齐。我们引入了一种新颖的语义感知精细控制图,它代表了目标语义的精确响应区域,以空间上指导对比路径之间的对齐过程。这一对齐过程不仅有效保留了原始模型的性能,还避免了过度对齐。此外,我们提出了一种新颖的响应增强机制,以强化目标属性的表现,同时缓解直接跨模态监督中固有的表示差异。大量实验证明,SPF-Portrait实现了最先进的性能。项目网页:https://spf-portrait.github.io/SPF-Portrait/