每日精選AI研究論文及翻譯
現在,LLM和RAG系統已經能夠處理數百萬個或更多的輸入標記。然而,在長文本任務上評估這些系統的輸出質量仍然具有挑戰性,因為像“大海捞针”這樣的任務缺乏復雜性。在這項工作中,我們認為摘要可以在這種評估中發揮核心作用。我們設計了一個程序來綜合文檔堆,確保特定見解在文檔之間重複出現。然後,“大海捞针摘要”(SummHay)任務要求系統處理文檔堆,並生成一個摘要,根據查詢識別相關見解並準確引用來源文檔。由於我們對應該出現在文檔堆摘要中的見解和應該被引用的文檔有確切的了解,我們實現了一種高度可重現的自動評估,可以根據覆蓋範圍和引文兩個方面對摘要進行評分。我們在兩個領域(對話、新聞)生成文檔堆,並對10個LLM和相應的50個RAG系統進行大規模評估。我們的研究結果表明,對於當前系統來說,SummHay是一個開放挑戰,即使系統提供了文檔相關性的Oracle信號,也比我們對人類表現(56%)的估計低10個百分點以上的聯合得分。在沒有檢索器的情況下,像GPT-4o和Claude 3 Opus這樣的長文本LLM在SummHay上得分低於20%。我們展示了SummHay也可以用於研究企業RAG系統和長文本模型中的位置偏見。我們希望未來的系統能夠在SummHay上達到甚至超越人類的表現。
近年來,大型語言模型(LLMs)的最新進展顯著推動了軟體開發任務的自動化,包括代碼合成、程序修復和測試生成。最近,研究人員和業界從業者開發了各種自主的LLM代理,以執行端到端的軟體開發任務。這些代理具備使用工具、運行命令、觀察環境反饋以及規劃未來行動的能力。然而,這些基於代理的方法的複雜性,加上當前LLMs的能力有限,引發了以下問題:我們是否真的需要使用複雜的自主軟體代理?為了嘗試回答這個問題,我們建立了Agentless - 一種無代理的方法來自動解決軟體開發問題。與基於代理的方法冗長且複雜的設置相比,Agentless採用了一個簡單的兩階段過程,即本地化後修復,而不讓LLM決定未來行動或使用複雜工具。我們在流行的SWE-bench Lite基準測試上的結果顯示,令人驚訝的是,簡單的Agentless能夠實現最高性能(27.33%)和最低成本(\$0.34),相較於所有現有的開源軟體代理!此外,我們手動對SWE-bench Lite中的問題進行了分類,發現存在具有確切修補程序或不足/誤導性問題描述的問題。因此,我們通過排除這些問題,構建了SWE-bench Lite-S,以進行更嚴格的評估和比較。我們的工作突顯了在自主軟體開發中一種簡單、可解釋的技術目前被忽視的潛力。我們希望Agentless將有助於重設自主軟體代理的基準、起點和視野,並激發未來沿著這一重要方向進行的工作。
最近,由於大型多模型 Sora 的出現,文本到視頻(T2V)生成引起了相當大的關注。然而,T2V 生成仍然面臨兩個重要挑戰:1)缺乏精確的開源高質量數據集。先前流行的視頻數據集,例如 WebVid-10M 和 Panda-70M,要麼質量低要麼對大多數研究機構來說太大。因此,為了 T2V 生成,收集精確高質量的文本-視頻對具有挑戰性但至關重要。2)忽略充分利用文本信息。最近的 T2V 方法專注於視覺Transformer,使用簡單的交叉注意力模塊進行視頻生成,未能徹底從文本提示中提取語義信息。為了解決這些問題,我們介紹了 OpenVid-1M,這是一個具有表達性標題的精確高質量數據集。這個開放場景數據集包含超過100萬個文本-視頻對,有助於進行T2V生成的研究。此外,我們從OpenVid-1M中精選了433K個1080p視頻,創建了OpenVidHD-0.4M,推進了高清視頻生成。此外,我們提出了一種新穎的多模態視頻擴散Transformer(MVDiT),能夠從視覺標記中挖掘結構信息和從文本標記中提取語義信息。大量實驗和消融研究驗證了OpenVid-1M相對於先前數據集的優越性以及我們MVDiT的有效性。
大型語言模型(LLM)推理的計算挑戰仍然是廣泛部署的一個重要障礙,尤其是在提示長度不斷增加的情況下。由於注意力計算的二次複雜度,一個8B的LLM在單個A100 GPU上處理1M個標記的提示(即預填充階段)需要30分鐘。現有的加速預填充的方法在應用於長內容LLM時往往無法保持可接受的準確性或效率。為了解決這一問題,我們引入了MInference(百萬標記推理),這是一種稀疏計算方法,旨在加速長序列處理的預填充。具體來說,我們識別了長內容注意力矩陣中的三種獨特模式- A形、垂直斜線和塊狀稀疏,這些模式可以利用GPU上的高效稀疏計算。我們在線下確定每個注意力頭的最佳模式,並根據分配的模式在推理期間動態構建稀疏索引。通過這些模式和稀疏索引,我們通過我們優化的GPU核心執行高效的稀疏注意力計算,從而顯著降低長內容LLM預填充階段的延遲。我們提出的技術可以直接應用於現有的LLM,無需對預訓練設置進行任何修改或進行額外的微調。通過在各種下游任務上進行評估,包括InfiniteBench、RULER、PG-19和Needle In A Haystack,以及LLaMA-3-1M、GLM4-1M、Yi-200K、Phi-3-128K和Qwen2-128K等模型,我們證明MInference可以將A100上預填充的推理延遲有效降低多達10倍,同時保持準確性。我們的代碼可在https://aka.ms/MInference 上找到。
偏好對齊已成為提升大型語言模型(LLMs)性能的關鍵組成部分,然而在多模態大型語言模型(MLLMs)中的影響相對未被充分探索。與語言模型類似,用於圖像理解任務的MLLMs面臨幻覺等挑戰。在MLLMs中,幻覺不僅可能通過陳述不正確的事實而發生,還可能通過生成與圖像內容不一致的回應而發生。MLLMs的對齊主要目標是鼓勵這些模型將回應與圖像信息更為密切地對齊。最近,多項研究引入了MLLMs的偏好數據集並檢驗了不同的對齊方法,包括直接偏好優化(DPO)和近端策略優化(PPO)。然而,由於數據集、基本模型類型和對齊方法的變化,尚不清楚這些研究中哪些具體元素對於報告的改進起到了最重要的貢獻。本文獨立分析了MLLMs中偏好對齊的每個方面。我們首先將對齊算法分為離線(如DPO)和在線(如在線DPO)兩組,並展示結合離線和在線方法可以在某些情況下提高模型的性能。我們回顧了各種已發表的多模態偏好數據集,並討論了它們構建細節如何影響模型性能。基於這些見解,我們介紹了一種稱為偏見驅動幻覺抽樣(BDHS)的創新多模態偏好數據創建方式,它既不需要額外標註也不需要外部模型,並展示它在一系列基準測試中可以達到與先前發表的多模態模型對齊工作相競爭的性能。
我們提出了Magic Insert,一種從用戶提供的圖像中將主題拖放到不同風格的目標圖像中的方法,以物理合理的方式進行,同時匹配目標圖像的風格。這項工作對風格感知的拖放問題進行了形式化,並提出了一種解決方法,通過解決兩個子問題來應對:風格感知個性化和在風格化圖像中進行逼真的物體插入。對於風格感知個性化,我們的方法首先使用LoRA和學習的文本標記在主題圖像上微調預訓練的文本到圖像擴散模型,然後將其注入目標風格的CLIP表示。對於物體插入,我們使用引導式領域適應將特定領域的逼真物體插入模型適應到多樣藝術風格的領域。整體而言,該方法在性能上顯著優於傳統方法,如修補。最後,我們提出了一個數據集SubjectPlop,以促進該領域的評估和未來進展。項目頁面:https://magicinsert.github.io/
流匹配(Flow matching,FM)是一個通用框架,透過常微分方程(ODEs)來定義機率路徑,以在噪音和數據樣本之間進行轉換。最近的方法試圖將這些流軌跡拉直,以通過迭代校正方法或最優運輸解決方案生成質量更高的樣本,通常需要較少的函數評估。在本文中,我們介紹了一種新的流匹配方法,即一致性流匹配(Consistency Flow Matching,Consistency-FM),它明確地強制在速度場中實現自一致性。Consistency-FM直接定義了從不同時間開始到同一終點的直線流,對其速度值施加約束。此外,我們提出了一種多段訓練方法,用於Consistency-FM以增強表達能力,實現更好的折衷方案,即在採樣質量和速度之間取得更好的平衡。初步實驗表明,我們的Consistency-FM通過比一致性模型快4.4倍和校正流模型快1.7倍的收斂速度顯著提高了訓練效率,同時實現了更好的生成質量。我們的代碼可在以下鏈接找到:https://github.com/YangLing0818/consistency_flow_matching
在廣泛語料庫上訓練的大型語言模型(LLMs)不可避免地會保留敏感數據,如個人隱私信息和受版權保護的內容。最近在知識遺忘方面的進展包括更新LLM參數以消除特定知識。然而,目前的遺忘範式深陷於模糊的遺忘邊界中,常常會不加區分地消除知識。在這項研究中,我們引入了KnowUnDo,一個包含受版權保護內容和用戶隱私領域的基準,以評估遺忘過程是否意外地消除了基本知識。我們的研究結果表明,現有的遺忘方法往往存在過度遺忘的問題。為了應對這一問題,我們提出了一種簡單而有效的方法,MemFlex,它利用梯度信息來精確地定位並遺忘敏感參數。實驗結果表明,MemFlex在LLMs的精確知識遺忘和一般知識保留方面優於現有方法。代碼和數據集將在https://github.com/zjunlp/KnowUnDo 上發布。
最近在基於擴散的視頻生成方面取得了顯著進展,然而合成視頻與真實世界視頻之間的差距仍未得到充分探討。在這項研究中,我們從三個基本角度檢視這一差距:外觀、運動和幾何,將真實世界視頻與由最先進的人工智慧模型「穩定視頻擴散」生成的視頻進行比較。為了實現這一目標,我們使用3D卷積網絡訓練了三個分類器,每個分類器針對不同的方面:外觀使用視覺基礎模型特徵,運動使用光流,幾何使用單眼深度。每個分類器在偽造視頻檢測方面表現出色,無論從質量還是量化方面。這表明人工智慧生成的視頻仍然很容易被檢測出來,真偽視頻之間存在顯著差距。此外,我們利用Grad-CAM,指出了人工智慧生成的視頻在外觀、運動和幾何方面的系統性失敗。最後,我們提出了一個「專家集成模型」,整合外觀、光流和深度信息用於偽造視頻檢測,從而提高了魯棒性和泛化能力。我們的模型能夠高準確度地檢測由Sora生成的視頻,即使在訓練期間沒有接觸任何Sora視頻。這表明真偽視頻之間的差距可以泛化到各種視頻生成模型。項目頁面:https://justin-crchang.github.io/3DCNNDetection.github.io/
在大型語言模型(LLMs)中揭示潛在價值觀和觀點可以幫助識別偏見並減輕潛在危害。最近,這一方法是通過向LLMs提出調查問題並量化它們對道德和政治問題的立場來實現的。然而,LLMs生成的立場可能會根據提示方式而有很大不同,對於支持或反對特定立場有許多辯論方式。在這項工作中,我們提出通過分析一個包含156k個LLM對6個LLMs生成的62個政治指南測試(PCT)命題的強大數據集,使用420種提示變化。我們對它們生成的立場進行粗粒度分析,並對這些立場的純文本理由進行細粒度分析。對於細粒度分析,我們提出識別回應中的修辭:在不同提示中反复出現並保持一致的語義相似短語,揭示了特定LLM容易生成的文本模式。我們發現添加到提示中的人口統計特徵顯著影響PCT的結果,反映了偏見,以及在引出閉式形式與開放領域回應時測試結果之間存在的差異。此外,通過修辭在純文本理由中的模式表明,即使在立場不同的情況下,模型和提示之間也會反复生成類似的理由。
我們研究神經佛利,這是一種自動生成高質量音效並與視頻同步的技術,可實現身臨其境的聲視覺體驗。儘管具有廣泛的應用,現有方法在同時合成高質量和與視頻對齊(即語義相關且時間同步)的聲音方面存在限制。為了克服這些限制,我們提出了FoleyCrafter,這是一個新穎的框架,利用預訓練的文本轉音頻模型來確保高質量音頻生成。FoleyCrafter包括兩個關鍵組件:用於語義對齊的語義適配器和用於精確音視頻同步的時間控制器。語義適配器利用平行交叉注意力層來使音頻生成依賴於視頻特徵,產生與視覺內容語義相關的逼真音效。同時,時間控制器結合了起始檢測器和基於時間戳的適配器,實現精確的音視頻對齊。FoleyCrafter的一個顯著優勢是其與文本提示的兼容性,可以利用文本描述實現根據用戶意圖的可控和多樣化的視頻到音頻生成。我們在標準基準上進行了廣泛的定量和定性實驗,以驗證FoleyCrafter的有效性。模型和代碼可在https://github.com/open-mmlab/FoleyCrafter 上找到。
近年來顯微鏡技術的進步使得細胞生物學和生物醫學研究中能夠快速生成數兆位元組的影像數據。視覺語言模型(VLMs)為大規模生物影像分析提供了一個有前途的解決方案,提升了研究人員的效率,識別新的影像生物標誌,加速假設生成和科學發現。然而,在生物影像理解中,目前缺乏標準化、多樣化和大規模的視覺語言基準來評估VLMs的感知和認知能力。為了彌補這一差距,我們引入了{\mu}-Bench,這是一個由專家精心策劃的基準,涵蓋了來自各種科學學科(生物學、病理學)、顯微鏡模式(電子、螢光、光學)、尺度(亞細胞、細胞、組織)以及正常和異常狀態下的22個生物醫學任務。我們在{\mu}-Bench上評估了最先進的生物醫學、病理學和通用VLMs,發現:i)目前的模型在所有類別上都存在困難,即使是基本任務,如區分顯微鏡模式;ii)在生物醫學數據上進行細化調整的當前專家模型通常表現比通用模型更差;iii)在特定類型的顯微鏡領域進行細化調整可能導致災難性遺忘,侵蝕了其基本模型中編碼的先前生物醫學知識。iv)在細化調整和預訓練模型之間進行權重插值提供了一種解決遺忘的方法,並提高了在生物醫學任務中的通用性能。我們以一個寬鬆的許可證釋出{\mu}-Bench,以加速顯微鏡基礎模型的研究和開發。