每日精選AI研究論文及翻譯
儘管大型多模型(LMMs)快速整合了視頻感知能力,但其驅動視頻理解的基本機制仍知之甚少。因此,在這個領域中,許多設計決策都是缺乏適當的理由或分析而做出的。訓練和評估這些模型的高計算成本,加上有限的開放研究,阻礙了視頻-LMMs的發展。為了應對這一問題,我們提出了一項全面研究,幫助揭示LMMs中有效推動視頻理解的因素。 我們首先對與視頻-LMM研究相關的高計算需求的主要貢獻因素進行了批判性檢驗,並發現了“比例一致性”,即在較小的模型和數據集(直到臨界尺寸)上做出的設計和訓練決策有效地轉移到較大的模型。利用這些見解,我們探索了視頻-LMMs的許多視頻特定方面,包括視頻採樣、架構、數據組成、訓練時間表等。例如,我們證明了在訓練期間進行fps採樣遠遠優於均勻幀採樣,以及哪些視覺編碼器最適合視頻表示。 在這些發現的指導下,我們介紹了Apollo,這是一個最先進的LMM系列,可以在不同模型尺寸上實現卓越性能。我們的模型可以高效地感知長達一小時的視頻,其中Apollo-3B在LongVideoBench上表現出色,超越了大多數現有的7B模型,達到55.1。Apollo-7B在MLVU上表現優異,與7B LMMs相比處於領先地位,分別為70.9和Video-MME上的63.3。
理解、導航和探索3D物理現實世界一直是人工智慧發展中的一個核心挑戰。在這項工作中,我們朝著這個目標邁出了一步,引入了名為GenEx的系統,能夠通過其生成想像力來引導複雜的具身世界探索,形成對周圍環境的先驗(期望)。GenEx能夠從單一RGB圖像中生成一個完整的3D一致的想像環境,並通過全景視頻流將其呈現出來。利用從虛幻引擎中精心策劃的可擴展3D世界數據,我們的生成模型根植於物理世界。它輕鬆捕捉連續的360度環境,為人工智慧代理提供了無限的探索和互動空間。GenEx實現了高質量的世界生成,長軌跡上的強健循環一致性,展現了強大的3D能力,如一致性和主動3D映射。在世界的生成想像力的驅動下,得到GPT輔助的代理人能夠執行複雜的具身任務,包括無目標探索和目標驅動導航。這些代理人利用對物理世界未見部分的預測期望來優化其信念,基於潛在決策模擬不同結果,並做出更明智的選擇。總之,我們展示了GenEx為推進具身人工智慧在想像空間中提供了一個革命性平台,並為將這些能力擴展到現實世界探索帶來了潛力。
大型語言模型(LLMs)的顯著成功已延伸至多模態領域,在圖像理解和生成方面取得傑出表現。最近努力發展統一的多模態大型語言模型(MLLMs),將這些能力整合在一起,已顯示出有前途的結果。然而,現有方法通常涉及模型架構或訓練流程中的複雜設計,增加了模型訓練和擴展的困難。在本文中,我們提出了SynerGen-VL,一種簡單而強大的無編碼器MLLM,能夠進行圖像理解和生成。為了應對現有無編碼器統一MLLM中確定的挑戰,我們引入了標記折疊機制和基於視覺專家的漸進對齊預訓練策略,有效支持高分辨率圖像理解,同時降低訓練複雜性。在大規模混合圖像-文本數據上訓練,使用統一的下一個標記預測目標後,SynerGen-VL實現或超越現有無編碼器統一MLLM的性能,並具有可比擬或更小的參數大小,縮小了與特定任務最先進模型之間的差距,突顯了未來統一MLLM的有前途的道路。我們的代碼和模型將會釋出。
隨著人工智慧的不斷進步,對超越基於語言的輔助系統,轉向能夠執行真實世界動作的智能代理系統的需求日益增長。這種演進需要從擅長生成文本回應的傳統大型語言模型(LLMs)轉向大型行動模型(LAMs),這些模型旨在在動態環境中生成和執行動作。借助代理系統的支持,LAMs有潛力將人工智慧從被動的語言理解轉變為主動的任務完成,標誌著邁向人工通用智能的重要里程碑。 本文提出了一個全面的框架,用於開發LAMs,提供了一種從構思到部署的系統性方法。我們首先概述LAMs,突出它們的獨特特徵,並劃分它們與LLMs的區別。通過以Windows作業系統為基礎的代理系統作為案例研究,我們提供了關於LAM開發的關鍵階段的詳細、逐步指南,包括數據收集、模型訓練、環境整合、基礎和評估。這種通用的工作流程可以作為在各種應用領域中創建功能性LAMs的藍圖。最後,我們指出了LAMs目前的限制,並討論未來研究和工業部署的方向,強調實現LAMs在實際應用中充分潛力的挑戰和機遇。 本文中使用的數據收集過程的代碼可在以下鏈接公開獲取:https://github.com/microsoft/UFO/tree/main/dataflow,並可在https://microsoft.github.io/UFO/dataflow/overview/找到全面的文檔。
本文介紹了BiMediX2,一個雙語(阿拉伯語-英語)生物醫學專家大型多模型(LMM),具有統一的架構,整合了文本和視覺模態,實現了先進的圖像理解和醫學應用。BiMediX2利用Llama3.1架構,整合了文本和視覺功能,以促進在英語和阿拉伯語中的無縫互動,支持基於文本的輸入和涉及醫學圖像的多輪對話。該模型在包含160萬個樣本的廣泛雙語醫療數據集上進行訓練,涵蓋了各種醫學互動的文本和圖像模態,混合了阿拉伯語和英語。我們還提出了第一個基於雙語GPT-4o的醫學LMM基準,名為BiMed-MBench。BiMediX2在基於文本和基於圖像的任務上進行了基準測試,在幾個醫學基準測試中實現了最先進的性能。它在醫學LLM評估基準中優於最近的最先進模型。我們的模型還在多模態醫學評估中設立了一個新的基準,英語評估提高了超過9%,阿拉伯語評估提高了超過20%。此外,它在UPHILL事實準確性評估中比GPT-4高約9%,在各種醫學視覺問答、報告生成和報告摘要任務中表現出色。項目頁面包括源代碼和訓練模型,可在https://github.com/mbzuai-oryx/BiMediX2找到。
視覺擴散模型取得了顯著進展,然而通常由於缺乏高分辨率數據和受限的計算資源,它們往往在有限的分辨率下進行訓練,限制了它們生成高保真度圖像或視頻的能力。最近的努力探索了無調整策略,展示了預先訓練模型在更高分辨率視覺生成方面的潛力。然而,這些方法仍然容易產生具有重複模式的低質量視覺內容。關鍵障礙在於當模型生成超出其訓練分辨率的視覺內容時,高頻信息的不可避免增加,導致源自累積誤差的不良重複模式。為了應對這一挑戰,我們提出了 FreeScale,一種無調整的推理範式,通過尺度融合實現更高分辨率的視覺生成。具體而言,FreeScale 從不同感受視度尺度處理信息,然後通過提取所需的頻率成分進行融合。大量實驗驗證了我們範式在擴展圖像和視頻模型的更高分辨率視覺生成能力方面的優越性。值得注意的是,與先前表現最佳的方法相比,FreeScale 首次實現了生成 8k 分辨率圖像。
我們探討了在向量量化生成模型中使用剩餘向量量化(RVQ)以實現高保真度生成的應用。這種量化技術通過使用更深入的標記來保持更高的數據保真度。然而,在生成模型中增加標記數量會導致推理速度變慢。為此,我們引入了ResGen,一種基於高效RVQ的離散擴散模型,可以生成高保真度樣本而不影響取樣速度。我們的關鍵思想是直接預測集體標記的向量嵌入,而不是單個標記。此外,我們展示了我們提出的標記遮罩和多標記預測方法可以在一個基於原則的概率框架中進行形式化,使用離散擴散過程和變分推斷。我們在不同模態之間的兩個具有挑戰性的任務上驗證了所提出方法的功效和泛化能力:在ImageNet 256x256上的有條件圖像生成和零樣本文本轉語音合成。實驗結果表明,在這兩個任務中,ResGen在不影響取樣速度的情況下優於自回歸對應物,提供卓越性能。此外,隨著RVQ深度的增加,我們的生成模型在生成保真度或取樣速度方面均優於同等大小的基線模型。項目頁面位於https://resgen-genai.github.io。
最近幾年來,文本轉視頻生成技術迅速發展,呈現出顯著的成果。訓練通常依賴於視頻標題配對數據,這在提升生成性能方面起著至關重要的作用。然而,目前的視頻標題往往存在細節不足、幻覺和運動描述不準確等問題,影響了生成視頻的忠實度和一致性。在這項工作中,我們提出了一種新穎的基於實例感知結構化標題框架,稱為InstanceCap,首次實現了實例級和精細的視頻標題。基於這個方案,我們設計了一個輔助模型集群,將原始視頻轉換為實例以增強實例的忠實度。視頻實例進一步用於將密集提示改進為結構化短語,實現簡潔而精確的描述。此外,我們精心策劃了一個包含22K個實例視頻的InstanceVid數據集進行訓練,並提出了一個針對InstanceCap結構量身定制的增強流程用於推斷。實驗結果表明,我們提出的InstanceCap明顯優於先前的模型,確保標題和視頻之間高度忠實,同時減少幻覺。
本文介紹了一種無需調整的方法,用於物體插入和以主題驅動的生成。該任務涉及在由圖像或文本指定的場景中,給定多個視圖,將一個物體合成進去。現有方法難以完全滿足該任務的具有挑戰性的目標:(i)將物體與場景無縫合成,具有逼真的姿勢和燈光,以及(ii)保留物體的身份。我們假設實現這些目標需要大規模監督,但手動收集足夠的數據成本太高。本文的關鍵觀察是,許多大量生產的物體在大型未標記數據集的多個圖像中反复出現,處於不同的場景、姿勢和燈光條件下。我們利用這一觀察結果通過檢索同一物體的多種視圖集來創建大量監督。這個強大的配對數據集使我們能夠訓練一個直接的文本到圖像擴散架構,將物體和場景描述映射到合成圖像。我們將我們的方法ObjectMate與最先進的物體插入和以主題驅動的生成方法進行比較,使用單個或多個參考。從實證上看,ObjectMate實現了更優越的身份保留和更逼真的合成。與許多其他多參考方法不同,ObjectMate不需要在測試時進行緩慢的調整。
儘管具有蒸餾功能的矯正流(ReFlows)提供了一種快速取樣的有希望方法,但其快速反演將圖像轉換回結構噪音以進行恢復和後續編輯仍未解決。本文介紹了FireFlow,這是一種簡單而有效的零樣本方法,它繼承了基於ReFlow的模型(如FLUX)在生成方面的驚人能力,同時擴展了其在準確反演和編輯方面的能力,共分為8個步驟。我們首先證明,一個精心設計的數值求解器對於ReFlow反演至關重要,實現了具有二階求解器精度的準確反演和重建,同時保持了一階Euler方法的實用效率。與最先進的ReFlow反演和編輯技術相比,此求解器實現了3倍的運行時間加速,同時在無需訓練的模式下提供更小的重建誤差和優越的編輯結果。代碼可在以下網址找到:https://github.com/HolmesShuan/FireFlow{此URL}。
長內文LLMs已為眾多下游應用帶來便利,但也引入了與計算和記憶體效率相關的重大挑戰。為應對這些挑戰,已開發了針對長內文推論的優化方案,以KV快取為中心。然而,現有基準測試通常僅評估單一請求,忽略了KV快取在實際使用中的完整生命週期。這種疏忽尤為關鍵,因為KV快取重複使用已被廣泛應用於LLMs推論框架,如vLLM和SGLang,以及LLM提供者,包括OpenAI、Microsoft、Google和Anthropic。為彌補這一缺口,我們引入了SCBench(SharedContextBench),這是一個全面評估長內文方法的基準測試,從KV快取為中心的角度出發:1)KV快取生成,2)KV快取壓縮,3)KV快取檢索,4)KV快取加載。具體而言,SCBench使用具有共享內文的測試示例,涵蓋12個任務和兩種共享內文模式,涵蓋四個長內文能力類別:字符串檢索、語義檢索、全局信息和多任務。通過SCBench,我們提供了對八個長內文解決方案的廣泛KV快取中心分析,包括閘控線性RNN、Mamba-Attention混合型以及高效方法,如稀疏注意力、KV快取丟棄、量化、檢索、加載和提示壓縮。評估是在8個長內文LLMs上進行的。我們的研究結果表明,次O(n)記憶體方法在多輪情境中表現不佳,而具O(n)記憶體和次O(n^2)預填充計算的稀疏編碼表現穩健。動態稀疏性比靜態模式產生更具表現力的KV快取,混合架構中的層級稀疏性可降低記憶體使用率並具有較強的性能。此外,我們在長生成情境中識別了注意力分佈轉移問題。https://aka.ms/SCBench。
文字到視頻生成增強了內容創作,但計算密集度很高:擴散Transformer(DiTs)的計算成本隨像素數量呈二次方增長。這使得生成幾分鐘長的視頻極為昂貴,導致大多數現有模型僅能生成10-20秒長度的視頻。我們提出了一個線性複雜度的文字到視頻生成(LinGen)框架,其成本隨像素數量呈線性增長。LinGen首次實現了在單個GPU上高分辨率幾分鐘長視頻的生成,而無需犧牲質量。它將計算佔主導地位且具有二次複雜度的自注意力塊替換為一個線性複雜度的塊,稱為MATE,其中包括MA分支和TE分支。MA分支針對短至長距離相關性,將雙向Mamba2塊與我們的令牌重新排列方法Rotary Major Scan以及我們為長視頻生成開發的檢視令牌相結合。TE分支是一個新穎的時間Swin注意力塊,專注於相鄰令牌和中程令牌之間的時間相關性。MATE塊解決了Mamba的鄰近保留問題,顯著提高了生成視頻的一致性。實驗結果表明,LinGen在視頻質量上優於DiT(勝率達75.6%),並實現了高達15倍(11.5倍)的FLOPs(延遲)減少。此外,自動指標和人類評估均表明,我們的LinGen-4B在視頻質量上與最先進的模型(相對於Gen-3、LumaLabs和Kling,分別達到50.5%、52.1%和49.1%的勝率)相當。這為生成長達一小時的電影和實時交互式視頻生成鋪平了道路。我們在項目網站上提供了68秒的視頻生成結果和更多示例:https://lineargen.github.io/。
矯正流模型已成為影像生成中的主要方法,展示了在高品質影像合成方面令人印象深刻的能力。然而,儘管在視覺生成方面效果顯著,矯正流模型常常在影像的解耦編輯方面遇到困難。這種限制阻礙了對影像進行精確、特定屬性修改的能力,而不影響影像的其他方面。本文介紹了FluxSpace,一種利用表示空間的跨領域影像編輯方法,該方法能控制由矯正流變壓器(如Flux)生成的影像的語義。通過利用矯正流模型中變壓器塊學習到的表示,我們提出了一組具有語義可解釋性的表示,使得從精細影像編輯到藝術創作等各種影像編輯任務成為可能。這項工作提供了一種可擴展且有效的影像編輯方法,以及其解耦能力。
多模式音樂生成旨在從不同的輸入模態生成音樂,包括文本、視頻和圖像。現有方法使用共同的嵌入空間進行多模式融合。儘管它們在其他模態中有效,但在多模式音樂生成中的應用面臨著數據稀缺、跨模態對齊不足和可控性有限等挑戰。本文通過使用文本和音樂的明確橋樑來解決這些問題。我們提出了一種名為視覺音樂橋樑(VMB)的新方法。具體來說,多模式音樂描述模型將視覺輸入轉換為詳細的文本描述以提供文本橋樑;雙軌音樂檢索模塊結合廣泛和有針對性的檢索策略以提供音樂橋樑並實現用戶控制。最後,我們設計了一個明確條件的音樂生成框架,基於這兩個橋樑生成音樂。我們在視頻到音樂、圖像到音樂、文本到音樂和可控音樂生成任務上進行實驗,以及在可控性方面進行實驗。結果表明,與先前方法相比,VMB顯著提高了音樂質量、模態和定制對齊。VMB為可解釋和具有表現力的多模式音樂生成設定了新的標準,並在各種多媒體領域中具有應用。演示和代碼可在https://github.com/wbs2788/VMB 上找到。
大型語言模型(LLMs)的效能與提示設計密切相關,因此優化提示對於提升它們在各種任務中的表現至關重要。許多現有的自動提示工程方法僅依賴於文本反饋,根據大型、計算昂貴的LLMs識別的推理錯誤來優化提示。不幸的是,較小的模型難以生成高質量的反饋,導致完全依賴於大型LLMs的判斷。此外,這些方法無法利用更直接、更精細的信息,如梯度,因為它們僅在文本空間中運作。為此,我們引入了GReaTer,一種新穎的提示優化技術,直接將梯度信息納入特定任務的推理中。通過利用任務損失梯度,GReaTer實現了自我優化提示,適用於開源、輕量級語言模型,無需昂貴的封閉源LLMs。這使得高效的提示優化成為可能,而不依賴於龐大的LLMs,縮小了較小模型與通常需要的複雜推理之間的差距。在包括BBH、GSM8k和FOLIO在內的多樣推理任務上進行了廣泛評估,結果表明GReaTer始終優於先前最先進的提示優化方法,即使是依賴強大LLMs的方法也是如此。此外,經GReaTer優化的提示經常表現出更好的可轉移性,在某些情況下,將任務表現提升至與或超越較大語言模型實現的水平,突顯了梯度引導的提示優化的有效性。GReaTer的代碼可在https://github.com/psunlpgroup/GreaTer找到。
我們介紹了 SmolTulu-1.7b-Instruct,在本報告中稱為 SmolTulu-DPO-1130,這是一個經過指令調整的語言模型,它適應了AllenAI的Tulu 3後訓練流程,以增強Huggingface的SmolLM2-1.7B基礎模型。通過使用一個包含1.35億參數的模型進行全面的實證分析,我們展示了學習率和批量大小之間的關係對模型性能有著顯著的、與任務相關的影響。我們的研究結果揭示了一個明顯的區分:像ARC和GSM8K這樣的推理任務受益於較高的學習率與批量大小比率,而像HellaSwag和IFEval這樣的模式識別任務則在較低比率下表現出最佳性能。這些見解促成了SmolTulu的開發,該模型在遵循指令方面實現了頂尖性能,在IFEval上得分67.7%(Delta11%),在GSM8K上的數學推理得分為51.6%(Delta3.4%),另一個版本在ARC上得分57.1%(Delta5.4%)。我們釋出了我們的模型、訓練配方和消融研究,以促進對高效模型對齊的進一步研究,顯示了對優化動態的細心適應可以幫助彌合小型和大型語言模型之間的能力差距。
儘管在龐大的視覺-語言-動作(VLA)模型上預訓練廣泛的機器人數據集上提供了有前途的通用策略,用於機器人學習,但它們仍然在互動機器人技術中的時空動態方面遇到困難,使它們在處理諸如操作等複雜任務時效果較差。在這項工作中,我們引入了視覺跟踪提示,這是一種簡單而有效的方法,通過以視覺方式編碼狀態-動作軌跡,來促進VLA模型對於動作預測的時空意識。我們通過在我們自己收集的15萬條機器人操作軌跡數據集上使用視覺跟踪提示對OpenVLA進行微調,開發了一個新的TraceVLA模型。在SimplerEnv的137種配置和4個物理WidowX機器人任務上對TraceVLA進行評估,展示了最先進的性能,其在SimplerEnv上比OpenVLA高出10%,在真實機器人任務上高出3.5倍,並且在不同具體表現和情境中表現出強大的泛化能力。為了進一步驗證我們方法的有效性和普遍性,我們提出了一個基於4B Phi-3-Vision的緊湊VLA模型,它在Open-X-Embodiment上預訓練,並在我們的數據集上進行微調,與7B的OpenVLA基線相媲美,同時顯著提高了推斷效率。
深度神經網絡(DNNs)在醫學影像中提高乳腺癌診斷的潛力巨大。然而,這些模型極易受到對抗攻擊的影響--微小、不可察覺的變化可能誤導分類器--這引發了對它們可靠性和安全性的重要關注。傳統攻擊依賴於固定範數的干擾,與人類感知不一致。相較之下,基於擴散的攻擊需要預先訓練的模型,在這些模型不可用時需要大量數據,限制了在數據稀缺情況下的實際應用。然而,在醫學影像中,由於數據集的有限可用性,這通常是不可行的。借鑒最近在可學習提示方面的進展,我們提出了Prompt2Perturb(P2P),一種新穎的語言引導攻擊方法,能夠生成由文本指令驅動的有意義的攻擊示例。在提示學習階段,我們的方法利用文本編碼器內的可學習提示來創建微妙但具有影響力的干擾,使其保持不可察覺,同時引導模型朝向目標結果。與當前基於提示學習的方法相比,我們的P2P通過直接更新文本嵌入來脫穎而出,避免了需要重新訓練擴散模型的必要性。此外,我們利用優化僅早期反向擴散步驟的發現,提高了效率,同時確保生成的對抗示例包含微妙的噪音,從而在不引入明顯工件的情況下保持超聲波影像質量。我們展示了我們的方法在三個乳腺超聲波數據集中在FID和LPIPS方面優於最先進的攻擊技術。此外,生成的圖像在外觀上更加自然,並且與現有的對抗攻擊相比更加有效。我們的代碼將公開提供:https://github.com/yasamin-med/P2P。