每日精選AI研究論文及翻譯
隨著語言模型的不斷擴展,大型語言模型(LLMs)展現出新興的「上下文學習」(ICL)能力,使它們能夠通過在上下文中加入少量的上下文示範(ICDs)來解決語言任務。受到這些進展的啟發,研究人員將這些技術擴展到具有ICL能力的大型多模型模型(LMMs)的開發。然而,現有的LMMs面臨一個關鍵問題:它們通常無法有效地利用多模式示範中的視覺上下文,而僅僅是遵循文本模式。這表明LMMs未能實現多模式示範和模型輸出之間的有效對齊。為解決這個問題,我們提出了「符號示範直接偏好優化」(SymDPO)。具體而言,SymDPO的目標是打破傳統築造多模式示範的範式,通過使用隨機符號來取代實例中的文本答案。這迫使模型仔細理解示範圖像,並建立圖像與符號之間的關係,以正確回答問題。我們在多個基準測試上驗證了這種方法的有效性,表明使用SymDPO,LMMs能夠更有效地理解示例中的多模式上下文,並利用這一知識更好地回答問題。
儘管量化在線性層上被廣泛應用,但其在加速注意力過程方面的應用仍然有限。SageAttention利用8位元矩陣乘法、16位元矩陣乘法與16位元累加器,以及精度增強方法,實現了比FlashAttention2更準確且2倍加速的核心。為了進一步提高注意力計算的效率並保持精度,我們提出了SageAttention2,該方法採用明顯更快速的4位元矩陣乘法(Matmul)以及額外的精度增強技術。首先,我們建議將矩陣(Q、K)以warp級別的粒度量化為INT4,並將矩陣(widetilde P、V)量化為FP8。其次,我們提出了一種平滑Q和V的方法,增強了使用INT4 QK和FP8 PV的注意力的準確性。第三,我們分析了不同時間步長和層之間的量化準確性,然後提出了一種自適應量化方法,以確保各種模型的端到端指標。SageAttention2的每秒操作次數(OPS)在RTX4090上超過FlashAttention2和xformers約3倍和5倍。全面的實驗證實了我們的方法在各種模型上,包括大型語言處理、圖像生成和視頻生成模型上,幾乎沒有造成端到端指標損失。代碼可在https://github.com/thu-ml/SageAttention找到。
影片生成已經取得顯著進展,然而評估這些模型仍然是一個挑戰。對於影片生成,一個全面的評估基準至關重要,原因有兩點:1) 現有的指標並不完全符合人類感知;2) 理想的評估系統應提供洞察力,以指導未來影片生成的發展。為此,我們提出了VBench,一個全面的基準套件,將「影片生成品質」細分為具體、分層和解耦的維度,每個維度都有量身定制的提示和評估方法。VBench 具有幾個吸引人的特點:1) 全面的維度:VBench 包括影片生成的 16 個維度(例如,主題身份不一致、動作平滑度、時間閃爍和空間關係等)。細粒度的評估指標揭示了各個模型的優勢和劣勢。2) 人類對齊:我們還提供了一組人類偏好標註的數據集,以驗證我們的基準與人類感知的對齊性,分別針對每個評估維度。3) 有價值的洞察:我們研究了當前模型在各種評估維度和各種內容類型上的能力。我們還調查了影片生成模型和圖像生成模型之間的差距。4) 多功能基準:VBench++ 支持評估文本到影片和圖像到影片。我們引入了一個高質量的圖像套件,具有適應性的長寬比,以實現在不同圖像到影片生成設置中公平評估。除了評估技術品質外,VBench++ 還評估了影片生成模型的可信度,提供了對模型性能更全面的觀點。5) 完全開源:我們完全開源了 VBench++,並不斷將新的影片生成模型添加到我們的排行榜中,推動影片生成領域的發展。
近來,具有先進視頻分析能力的大型多模型模型(LMMs)已經引起了相當大的關注。然而,大多數評估仰賴傳統方法,例如在VideoMME和LongVideoBench等基準測試中的多項選擇問題,這些方法容易缺乏捕捉真實用戶複雜需求所需的深度。為了解決這一限制,以及由於人工標註視頻任務的成本高昂且速度緩慢,我們引入了VideoAutoArena,這是一個受LMSYS Chatbot Arena框架啟發的競技場式基準測試,旨在自動評估LMMs的視頻分析能力。VideoAutoArena利用用戶模擬生成開放式、自適應問題,嚴格評估模型在視頻理解方面的表現。該基準測試具有自動化、可擴展的評估框架,並採用修改後的ELO等級制度,以公平持續地比較多個LMMs。為了驗證我們的自動評判系統,我們利用精心策劃的人工標註子集構建了一個“黃金標準”,證明我們的競技場與人類判斷高度一致,同時保持可擴展性。此外,我們引入了一種基於錯誤驅動的進化策略,逐步增加問題的複雜性,以推動模型應對更具挑戰性的視頻分析場景。實驗結果表明,VideoAutoArena能有效區分最先進的LMMs,提供了有關模型優勢和改進領域的見解。為了進一步簡化我們的評估,我們引入了VideoAutoBench作為輔助基準測試,其中人工標註者標記VideoAutoArena戰鬥中的勝利者。我們使用GPT-4o作為評判,將回答與這些經人工驗證的答案進行比較。總的來說,VideoAutoArena和VideoAutoBench提供了一個成本效益高且可擴展的框架,用於評估以用戶為中心的視頻分析的LMMs。
Segment Anything Model 2(SAM 2)在物件分割任務中表現出色,但在視覺物件追踪方面面臨挑戰,特別是在處理擁擠場景中快速移動或自遮蔽物件時。此外,原始模型中的固定窗口記憶方法並未考慮選擇的記憶品質,以條件化下一幀的圖像特徵,導致視頻中的錯誤傳播。本文介紹了SAMURAI,這是SAM 2的增強改進版本,專門設計用於視覺物件追踪。通過將時間運動線索與提出的運動感知記憶選擇機制相結合,SAMURAI有效地預測物件運動並優化遮罩選擇,實現強大、準確的追踪,無需重新訓練或微調。SAMURAI實時運行,並在各種基準數據集上展示了強大的零樣本性能,展示了其無需微調即可泛化的能力。在評估中,SAMURAI在成功率和精確度方面取得了顯著改善,LaSOT_{ext}上的AUC增益為7.1%,GOT-10k上的AO增益為3.5%。此外,與LaSOT上的完全監督方法相比,它在LaSOT上取得了競爭性結果,突顯了其在複雜追踪場景中的穩健性以及在動態環境中應用於實際應用的潛力。代碼和結果可在https://github.com/yangchris11/samurai找到。
擴大上下文窗口大小使大型語言模型(LLMs)能夠處理更長的序列並處理更複雜的任務。旋轉位置嵌入(RoPE)已成為事實上的標準,因為其相對位置編碼特性有助於長上下文訓練。然而,我們觀察到使用BFloat16格式的RoPE會導致數值問題,使其偏離其預期的相對位置編碼,特別是在長上下文情況下。這個問題源於BFloat16的有限精度,並隨著上下文長度的增加而累積,其中第一個標記對這個問題有顯著影響。為了解決這個問題,我們開發了AnchorAttention,一種即插即用的注意力方法,可以減輕BFloat16引起的數值問題,改善長上下文能力並加快訓練速度。AnchorAttention減少了不必要的注意力計算,保持了語義一致性,並通過將第一個標記視為具有一致位置ID的共享錨點,使其對訓練上下文中的所有文檔可見,從而提高了計算效率。對三種類型的LLMs進行的實驗表明,AnchorAttention顯著改善了長上下文性能,並將訓練時間與標準全注意機制相比減少了50%以上,同時保留了原始LLM在一般任務上的能力。我們的代碼可在https://github.com/haonan3/AnchorContext找到。
語言代理在自動化網絡任務方面展現了潛力,但其目前的反應式方法與人類相比仍存在明顯不足。透過整合先進的規劃算法,尤其是樹搜索方法,可以提升這些代理的性能,然而直接在實時網站上實施樹搜索存在重大安全風險和實際限制,因為確認購買等不可逆操作。本文介紹了一種新範式,該範式將語言代理與基於模型的規劃相結合,開創性地將大型語言模型(LLMs)用作複雜網絡環境中的世界模型。我們的方法WebDreamer 基於一個關鍵洞察,即LLMs內在編碼了有關網站結構和功能的全面知識。具體而言,WebDreamer 使用LLMs 模擬每個候選操作的結果(例如,“如果我點擊此按鈕會發生什麼?”),並通過自然語言描述評估這些想像的結果,以確定每個步驟的最佳操作。在兩個具有在線交互的代表性網絡代理基準測試VisualWebArena 和Mind2Web-live 上的實證結果表明,WebDreamer 在反應式基準上實現了顯著改進。通過證明LLMs 在網絡環境中的世界模型的可行性,這項工作為自動化網絡交互的範式轉變奠定了基礎。更廣泛地說,我們的發現為未來研究開辟了激動人心的新途徑,包括1)針對在複雜、動態環境中進行世界建模的LLMs 進行優化,以及2)為語言代理進行基於模型的推測性規劃。
擴散模型在圖像生成方面表現出色,但控制它們仍然是一個挑戰。我們專注於風格條件下的圖像生成問題。儘管示例圖像可行,但它們很繁瑣:MidJourney 的 srefs(風格參考碼)解決了這個問題,通過用簡短的數字代碼表達特定圖像風格。由於易於分享且允許使用圖像進行風格控制,而無需發布源圖像本身,這些已經在社交媒體上得到廣泛應用。然而,用戶無法從自己的圖像生成 srefs,並且底層的訓練過程也不是公開的。我們提出了 StyleCodes:一種開源和開放研究的風格編碼器架構和訓練程序,以將圖像風格表達為一個 20 個符號的 base64 編碼。我們的實驗表明,與傳統的圖像到風格技術相比,我們的編碼結果在質量上損失最小。
大型多模型(LMMs)的最新發展已擴展其能力,包括視頻理解。具體來說,文本到視頻(T2V)模型在質量、理解力和持續時間方面取得了顯著進展,擅長從簡單的文本提示中創建視頻。然而,它們仍然經常產生幻覺內容,清楚地表明該視頻是由人工智能生成的。我們介紹了ViBe:一個大規模的文本到視頻幻覺視頻基準,來自T2V模型。我們確定了五種主要類型的幻覺:消失的主題、數值變異性、時間扭曲、遺漏錯誤和物理不一致性。使用10個開源T2V模型,我們開發了第一個大規模的幻覺視頻數據集,包括由人類注釋的3782個視頻,分為這五個類別。ViBe為評估T2V模型的可靠性提供了一個獨特的資源,並為改進視頻生成中的幻覺檢測和緩解奠定了基礎。我們確立了分類作為基線,並提出了各種集成分類器配置,其中TimeSFormer + CNN組合實現了最佳性能,達到0.345的準確度和0.342的F1分數。這個基準旨在推動開發出能夠更準確地與輸入提示對齊的強大T2V模型。
儘管規模定律提供了一種可靠的方法來預測在單一數據分佈下不同計算規模下的訓練損失,但對於當我們改變分佈時應如何調整這些預測的情況了解較少。本文中,我們提出了一種預測一種損失從另一種損失的策略,並將其應用於預測不同的預訓練數據集以及從預訓練數據到下游任務數據的情況。我們的預測即使在擬合曲線所使用的最大 FLOP 預算的 20 倍時也能很好地外推。更確切地說,我們發現當模型按訓練計算配對時(訓練對訓練),在兩個分別在兩個不同數據集上訓練的模型的訓練損失之間,以及對於單個模型在任何下游分佈上的訓練損失和測試損失之間(訓練對測試),以及兩個在兩個不同訓練數據集上訓練的模型的測試損失之間(測試對測試),存在著簡單的移位冪律關係。這些結果適用於差異顯著的預訓練數據集(有些完全是程式碼,而其他一些根本沒有程式碼)以及各種下游任務。最後,我們發現在某些情況下,這些移位冪律關係可以比外推單一數據集規模定律產生更準確的預測。
文字到圖像擴散生成模型能夠生成高質量圖像,但需要耗費大量時間進行提示工程。通過引入佈局條件,可以提高可控性,然而現有方法缺乏佈局編輯能力和對象屬性的精細控制。多層生成的概念具有潛力來解決這些限制,然而同時生成圖像實例和場景構成會限制對對象屬性的精細控制、在3D空間中的相對位置和場景操作能力。在這項工作中,我們提出了一種新穎的多階段生成範式,旨在實現對對象屬性、靈活性和互動性的精細控制。為確保對實例屬性的控制,我們設計了一種新穎的訓練範式,以適應一個擴散模型,生成帶有透明信息的獨立場景組件作為RGBA圖像。為了構建復雜圖像,我們利用這些預生成的實例,並引入一個多層合成生成過程,平滑地將組件組裝在逼真的場景中。我們的實驗表明,我們的RGBA擴散模型能夠生成多樣且高質量的實例,並能精確控制對象屬性。通過多層合成,我們展示了我們的方法允許從高度復雜的提示中構建和操作圖像,對對象外觀和位置具有精細控制,比競爭方法具有更高程度的控制。
放射學報告生成(RRG)的目標是根據放射影像自動生成關於疾病的連貫文本分析,從而減輕放射科醫師的工作量。目前基於人工智慧的RRG方法主要集中在對編碼器-解碼器模型架構的修改上。為了推進這些方法,本文引入了一個基於器官-區域信息驅動(ORID)的框架,可以有效整合多模態信息並減少來自無關器官的噪音影響。具體來說,基於LLaVA-Med,我們首先構建了一個與RRG相關的指導數據集,以提高器官區域診斷描述能力,並獲得LLaVA-Med-RRG。之後,我們提出了一個基於器官的跨模態融合模塊,以有效結合器官區域診斷描述和放射影像的信息。為了進一步減少無關器官對放射學報告生成的影響,我們引入了一個器官重要性係數分析模塊,利用圖神經網絡(GNN)來檢查每個器官區域的跨模態信息之間的相互聯繫。通過廣泛的實驗和與各種評估指標的最新方法進行比較,證明了我們提出的方法的優越性能。