每日精選AI研究論文及翻譯
我們提出了Segment Anything Model 2 (SAM 2),這是一個針對圖像和視頻中可提示的視覺分割問題的基礎模型。我們建立了一個數據引擎,通過用戶互動來改進模型和數據,以收集迄今為止最大的視頻分割數據集。我們的模型是一個具有流式記憶功能的簡單Transformer架構,可用於實時視頻處理。在我們的數據上訓練的SAM 2在各種任務中表現出色。在視頻分割中,我們觀察到比以往方法更準確的結果,並且使用的互動次數少了3倍。在圖像分割中,我們的模型比Segment Anything Model (SAM)更準確,速度快了6倍。我們相信我們的數據、模型和見解將成為視頻分割和相關感知任務的一個重要里程碑。我們將發布我們模型的一個版本、數據集和一個互動演示。
在這份工作中,我們介紹 Gemma 2,這是 Gemma 系列中的新成員,採用輕量級、最先進的開放模型,規模從 20 億到 270 億個參數不等。在這個新版本中,我們對 Transformer 結構應用了幾項已知的技術修改,例如交錯的局部-全局注意力(Beltagy 等人,2020a)和群組查詢注意力(Ainslie 等人,2023)。我們還使用知識蒸餾(Hinton 等人,2015)來訓練 20 億和 90 億模型,而非下一個標記預測。由此產生的模型在其規模下提供了最佳性能,甚至提供了與規模大 2-3 倍的模型競爭力的替代方案。我們將所有模型釋放給社群使用。
我們提出了 SF3D,一種從單張圖像中快速且高質量地重建帶紋理物體網格的新方法,僅需 0.5 秒。與大多數現有方法不同,SF3D 專門為網格生成進行訓練,採用快速 UV 展開技術,實現了迅速生成紋理,而非依賴頂點顏色。該方法還學習預測材質參數和法線貼圖,以增強重建的 3D 網格的視覺質量。此外,SF3D 集成了去光步驟,有效去除低頻照明效果,確保重建的網格可以輕鬆應用於新的照明條件。實驗證明了 SF3D 相對於現有技術的優越性能。項目頁面:https://stable-fast-3d.github.io
儘管大型語言模型在自然語言理解方面表現出色,但其資源密集型的特性使其較不易取得。相較之下,較小的語言模型如MiniCPM提供更可持續的擴展性,但通常在沒有專門優化的情況下表現不佳。本文探討通過改進其文本嵌入來增強較小語言模型的方法。我們選擇了三個語言模型,MiniCPM、Phi-2和Gemma,在NLI數據集上進行對比微調。我們的結果表明,這種微調方法提升了三個模型的文本嵌入質量,在各種基準測試中均有顯著改善,其中MiniCPM表現出平均56.33\%的性能增益。對比微調的程式碼可在https://github.com/trapoom555/Language-Model-STS-CFT 公開獲取。
最近大型視覺語言模型的成功顯示了在驅動操作於使用者界面的代理系統方面具有巨大潛力。然而,我們認為像 GPT-4V 這樣的強大多模型作為多個操作系統上的通用代理,跨越不同應用程式,其潛力被大大低估,原因在於缺乏一種強大的屏幕解析技術,能夠:1)可靠地識別使用者界面中的可交互圖標,以及2)理解截圖中各種元素的語義,並將預期動作準確地與屏幕上對應的區域關聯起來。為了填補這些空白,我們引入了 OmniParser,這是一種將使用者界面截圖解析為結構化元素的全面方法,顯著增強了 GPT-4V 生成能夠準確基於界面對應區域的動作的能力。我們首先使用流行網頁和圖標描述數據集來精選一個可交互圖標檢測數據集。這些數據集被用於微調專門的模型:一個用於解析屏幕上可交互區域的檢測模型,以及一個用於提取檢測元素的功能語義的標題模型。OmniParser 在 ScreenSpot 基準測試中顯著提高了 GPT-4V 的性能。在 Mind2Web 和 AITW 基準測試中,只使用截圖作為輸入的 OmniParser 優於需要截圖以外額外信息的 GPT-4V 基準。
多模式語言模型(MLLMs)越來越多地應用於現實環境中,這要求它們能夠解釋3D空間並理解時間動態。儘管具有潛力,但當前社群中的頂尖模型仍然在充分理解空間和時間維度方面存在不足。我們引入了粗略對應(Coarse Correspondence),這是一種簡單、無需訓練、有效且通用的視覺提示方法,可引發多模式LLMs對3D和時間的理解。我們的方法使用輕量級跟踪模型在視頻的幀之間或在圖像視點集之間找到物體對應。它選擇最常見的物體實例,並在圖像中用帶有獨特ID的標記器可視化它們。通過這種簡單方法,我們在包括ScanQA(+20.5\%)和OpenEQA的子集(+9.7\%)在內的3D理解基準測試中取得了最先進的結果,以及在長格式視頻基準測試中,如EgoSchema(+6.0\%)。我們還整理了一個小型診斷數據集,以評估MLLMs是否能夠從除了相機視點之外的描述視點推理空間。再次,粗略對應提高了空間透視能力,但我們強調MLLMs在這項任務上存在困難。總的來說,我們展示了我們的簡單提示方法可以顯著幫助需要3D或時間推理的下游任務。
最近大型語言模型應用,如檢索增強生成和聊天機器人,導致了對處理更長輸入上下文的增加需求。然而,這種需求受到固有限制的阻礙。從架構上看,模型受到在訓練期間定義的上下文窗口的限制。此外,處理廣泛文本需要大量的GPU內存。我們提出了一種新方法,稱為Finch,通過利用自注意力的預訓練模型權重來壓縮輸入上下文。給定一個提示和一段長文本,Finch通過在提示條件下對文本片段進行迭代,識別最相關的關鍵(K)和值(V)對。只有這樣的對被存儲在KV緩存中,該緩存最終包含了長文本的壓縮版本,並且在上下文窗口的空間限制內。我們的提議使模型能夠消耗大量輸入,即使進行高度壓縮(高達93倍),同時保持語義完整性,而無需進行微調。
擴散模型為基於文字的圖像編輯框架開辟了道路。然而,這些框架通常基於擴散反向過程的多步性質,將其適應為簡化、快速取樣的方法卻顯得極具挑戰性。在這裡,我們專注於一系列熱門的基於文字的編輯框架 - “編輯友好” 的 DDPM-noise inversion 方法。我們分析其應用於快速取樣方法的情況,並將其失敗歸類為兩類:視覺異常的出現以及編輯強度不足。我們將這些異常追溯到反轉噪聲與預期噪聲時間表之間的統計不匹配,並建議一個調整的噪聲時間表來糾正此偏移。為增加編輯強度,我們提出了一種偽引導方法,有效地增加編輯的幅度而不引入新的異常。總的來說,我們的方法使基於文字的圖像編輯僅需三個擴散步驟即可實現,同時為熱門的基於文字的編輯方法背後的機制提供了新的見解。
MM-Vet是一種針對評估整合能力的開放式視覺語言問題,已成為大型多模型模型評估中最受歡迎的基準之一。MM-Vet評估六個核心視覺語言(VL)能力:識別、知識、空間意識、語言生成、OCR和數學。然而,其問題格式僅限於單一圖像-文字配對,缺乏現實情境中常見的交錯圖像和文字序列。為解決此限制,我們引入了MM-Vet v2,其中包括一種名為「圖像-文字序列理解」的新VL能力,評估模型處理VL序列的能力。此外,我們保持了評估樣本的高質量,同時進一步擴大了評估集的大小。使用MM-Vet v2來評估大型多模型模型,我們發現Claude 3.5 Sonnet是最佳模型,得分為71.8,略高於得分為71.0的GPT-4o。在開放權重模型中,InternVL2-Llama3-76B以68.4的得分領先。
近年來,影片生成和編輯方法的質量有了巨大的改善。雖然有幾種技術專注於編輯外觀,但很少涉及運動。目前使用文字、軌跡或邊界框的方法僅限於簡單的運動,因此我們提出使用單個運動參考影片來指定運動。我們進一步建議使用預先訓練的圖像到影片模型,而不是文字到影片模型。這種方法使我們能夠保留目標物體或場景的確切外觀和位置,有助於將外觀與運動分離。我們的方法名為運動文本反轉,利用我們的觀察,即圖像到影片模型主要從(潛在的)圖像輸入中提取外觀,而通過交叉注意力注入的文本/圖像嵌入主要控制運動。因此,我們使用文本/圖像嵌入標記來表示運動。通過在每個幀中包含多個文本/圖像嵌入標記的膨脹運動文本嵌入上操作,我們實現了高時間運動細微度。優化過運動參考影片後,這種嵌入可以應用於各種目標圖像,以生成具有語義相似運動的影片。我們的方法不需要運動參考影片和目標圖像之間的空間對齊,可以在各種領域之間進行泛化,並且可以應用於各種任務,如全身和臉部再現,以及控制無生命物體和攝像機的運動。我們在語義視頻運動轉移任務中實證證明了我們方法的有效性,在這一情境中明顯優於現有方法。
音頻驅動的3D面部動畫旨在將輸入音頻映射到逼真的面部運動。儘管取得了顯著進展,但由於不一致的3D標註,以往模型僅能在特定標註上進行訓練,從而限制了訓練規模。在這項工作中,我們提出了UniTalker,這是一個統一的模型,具有多頭架構,旨在有效利用具有不同標註的數據集。為了增強訓練穩定性並確保多頭輸出之間的一致性,我們採用了三種訓練策略,即PCA、模型預熱和枢軸身份嵌入。為擴大訓練規模和多樣性,我們組建了A2F-Bench,包括五個公開數據集和三個新編數據集。這些數據集涵蓋廣泛的音頻領域,包括多語言演講聲音和歌曲,從而將訓練數據從通常少於1小時的數據集擴展到18.5小時。通過單個訓練的UniTalker模型,我們實現了BIWI數據集的顯著唇頂誤差降低9.2%,以及Vocaset的13.7%。此外,預訓練的UniTalker展示了作為音頻驅動面部動畫任務基礎模型的潛力。在已見數據集上對預訓練的UniTalker進行微調進一步提高了每個數據集的性能,A2F-Bench平均誤差降低了6.3%。此外,對只有一半數據的未見數據集上進行UniTalker微調超越了以完整數據集進行訓練的先前最先進模型。代碼和數據集可在項目頁面https://github.com/X-niper/UniTalker找到。
讓視障人士參與漫畫閱讀面臨重大挑戰,因為漫畫本質上是視覺性的。本文旨在促進可及性,旨在自動完整生成一個漫畫章節的對話文本,特別強調確保敘事一致性。這包括識別(i)說了什麼,即在每頁上檢測文本並將其分類為必要與非必要,以及(ii)誰說的,即將每段對話歸因於其說話者,同時確保整個章節中角色名稱一致。 為此,我們介紹:(i)Magiv2,一個能夠生成高質量整章漫畫對話文本的模型,具有命名角色和在語者分離方面比以往作品具有顯著更高精度的能力;(ii)PopManga評估數據集的擴展,現在包括對話框尾巴框的標註,文本與相應尾巴的關聯,文本的分類為必要或非必要,以及每個角色框的身份;以及(iii)一個新的角色庫數據集,包括來自76部漫畫系列的超過11,000個角色,總共包含11,500個範例角色圖像,以及它們出現的章節清單。代碼、訓練模型和這兩個數據集可在以下鏈接找到:https://github.com/ragavsachdeva/magi
條件擴散模型在視覺內容生成方面取得了顯著成功,跨越各個領域生成高質量樣本,這在很大程度上歸因於無分類器引導(CFG)。最近對無條件模型擴展引導的嘗試依賴於啟發式技術,導致生成質量次優和意外效應。在本研究中,我們提出了平滑能量引導(SEG),這是一種新穎的無需訓練和條件的方法,利用自注意機制的基於能量的觀點來增強圖像生成。通過定義自注意的能量,我們引入了一種方法來減少注意的能量景觀的曲率,並將輸出用作無條件預測。在實踐中,我們通過調整高斯核參數來控制能量景觀的曲率,同時保持引導尺度參數不變。此外,我們提出了一種查詢模糊方法,相當於模糊整個注意權重,而不會使標記數量的二次複雜度增加。在我們的實驗中,SEG在質量和副作用減少方面實現了帕累托改進。代碼可在https://github.com/SusungHong/SEG-SDXL 找到。
Rebuses 是需要受限制的多步驗證推理才能從一組圖像和字母中識別出隱藏短語的謎題。在這項工作中,我們引入了一個大量以義語形式呈現的 Rebuses 集合,用於評估最先進的大型語言模型在解決 Rebuses 上的能力。儘管像 LLaMA-3 和 GPT-4o 這樣的通用系統在此任務上表現不佳,但特定調整似乎可以提高模型的性能。然而,我們發現訓練帶來的性能提升主要是受到記憶的影響。我們的結果表明,Rebuses 解決仍然是一個具有挑戰性的測試平臺,用於評估大型語言模型的語言能力和順序指令遵循技能。
檢測異分布(OOD)樣本對於確保機器學習系統的安全至關重要,並且已經塑造了異分布檢測領域。與此同時,還有幾個與異分布檢測密切相關的問題,包括異常檢測(AD)、新奇檢測(ND)、開放集識別(OSR)和異常值檢測(OD)。為了統一這些問題,提出了一個通用的異分布檢測框架,將這五個問題進行分類。然而,視覺語言模型(VLMs)如CLIP已經顯著改變了範式,並模糊了這些領域之間的界限,再次使研究人員感到困惑。在這份調查中,我們首先提出了一個通用的異分布檢測v2,概括了AD、ND、OSR、OOD檢測和OD在VLM時代的演變。我們的框架顯示,通過一些領域的不活躍和整合,具有挑戰性的問題已經變成了異分布檢測和AD。此外,我們還突出了定義、問題設置和基準的重大變化;因此,我們特色是對異分布檢測方法論的全面回顧,包括對其他相關任務的討論,以澄清它們與異分布檢測的關係。最後,我們探討了新興的大型視覺語言模型(LVLM)時代的進展,例如GPT-4V。我們以當前挑戰和未來方向結束本次調查。
本文介紹了一種新穎的方法,稱為句子級語音摘要(Sen-SSum),它以逐句方式從口語文檔生成文本摘要。Sen-SSum結合了自動語音識別(ASR)的實時處理和語音摘要的簡潔性。為了探索這種方法,我們提出了兩個Sen-SSum的數據集:Mega-SSum和CSJ-SSum。使用這些數據集,我們的研究評估了兩種基於Transformer的模型:1)結合ASR和強大文本摘要模型的級聯模型,以及2)直接將語音轉換為文本摘要的端對端(E2E)模型。雖然E2E模型有助於開發高效的模型,但其表現不如級聯模型。因此,我們提出使用由級聯模型生成的虛擬摘要對E2E模型進行知識蒸餾。我們的實驗表明,這種提出的知識蒸餾有效地提高了E2E模型在兩個數據集上的性能。
本研究提出了一個新穎的框架,通過 Matryoshka 嵌入學習來訓練阿拉伯語嵌套嵌入模型,利用多語言、阿拉伯語特定和基於英語的模型,突顯了嵌套嵌入模型在各種阿拉伯語自然語言處理下游任務中的優勢。我們的創新貢獻包括將各種句子相似度數據集翻譯成阿拉伯語,從而實現一個全面的評估框架,以比較這些模型在不同維度上的表現。我們在阿拉伯語自然語言推理三元組數據集上訓練了幾個嵌套嵌入模型,並使用多個評估指標進行評估,包括餘弦相似度、曼哈頓距離、歐氏距離和點積相似度的皮爾遜和斯皮爾曼相關性。結果表明,Matryoshka 嵌入模型在捕捉阿拉伯語獨有的語義細微差異方面表現優異。研究結果表明,阿拉伯語 Matryoshka 嵌入模型在捕捉阿拉伯語獨有的語義細微差異方面表現優異,在各種相似性指標上明顯優於傳統模型,性能提升高達 20-25%。這些結果凸顯了語言特定訓練的有效性,並突顯了 Matryoshka 模型在增強阿拉伯語自然語言處理中語義文本相似性任務方面的潛力。