每日精選AI研究論文及翻譯
我們提出了一份關於將Llama 3.1 8B和Mistral NeMo 12B模型壓縮為分別具有4B和8B參數的全面報告,使用剪枝和蒸餾技術。我們探索了兩種不同的剪枝策略:(1) 深度剪枝和(2) 聯合隱藏層/注意力/MLP(寬度)剪枝,並在LM評估工具中的常見基準上評估了結果。然後,通過NeMo Aligner對模型進行了對齊,並在指導調整版本中進行了測試。這種方法從Llama 3.1 8B生成了引人入勝的4B模型,並從Mistral NeMo 12B生成了最先進的Mistral-NeMo-Minitron-8B(簡稱為MN-Minitron-8B)模型。我們發現,在沒有訪問原始數據的情況下,對蒸餾數據集上的教師模型進行輕微微調是有益的。我們在Hugging Face上以寬鬆許可證開源我們的基礎模型權重。
在這份工作中,我們討論如何以公平且穩健的方式評估影片基礎模型。與語言或圖像基礎模型不同,許多影片基礎模型的評估使用不同的參數(例如取樣率、幀數、預訓練步驟等),這使得進行公平且穩健的比較具有挑戰性。因此,我們提出了一個精心設計的評估框架,用於衡量影片理解的兩個核心能力:外觀和動作理解。我們的研究結果顯示,現有的影片基礎模型,無論是像 UMT 或 InternVideo2 這樣的文本監督模型,還是像 V-JEPA 這樣的自監督模型,在這些能力中至少存在一定的局限性。作為一種替代方案,我們介紹了 TWLV-I,一種新的影片基礎模型,為基於動作和外觀的影片構建了穩健的視覺表示。基於僅在公開可訪問數據集上預訓練的模型在五個動作識別基準測試上的平均頂部-1準確率,我們的模型相比 V-JEPA(ViT-L)提高了4.6個百分點,相比 UMT(ViT-L)提高了7.7個百分點。即使與更大的模型進行比較,我們的模型相比 DFN(ViT-H)提高了7.2個百分點,相比 V-JEPA(ViT-H)提高了2.7個百分點,相比 InternVideo2(ViT-g)提高了2.8個百分點。我們提供了 TWLV-I 從幾個常用影片基準測試的影片中獲得的嵌入向量,以及可以直接利用這些嵌入的評估源代碼。代碼可在"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"上找到。
賦予LLM利用長文本中有用資訊的能力對許多下游應用至關重要。然而,使用傳統的Transformer架構實現長文本長度需要大量的訓練和推理資源。本文提出FocusLLM,這是一個旨在擴展任何僅具解碼器的LLM上下文長度的框架,使模型能夠專注於來自非常長序列的相關資訊。FocusLLM通過將長文本輸入分成基於模型原始上下文長度的塊來處理,以緩解注意力分散的問題。然後,它將本地上下文附加到每個塊,作為提示來提取每個塊中的重要信息,基於一種新穎的平行解碼機制,最終將提取的信息整合到本地上下文中。FocusLLM以出色的訓練效率和多功能性脫穎而出:使用8K輸入長度進行訓練的成本遠低於先前方法,FocusLLM在處理下游長文本任務時表現優異,並在處理廣泛的長文本時保持強大的語言建模能力,甚至達到400K標記。我們的程式碼可在https://github.com/leezythu/FocusLLM找到。
近年來,在基於擴散的可控影片生成方面取得了顯著進展。然而,在複雜情境中實現精確控制,包括細粒度物件部分、複雜運動軌跡和連貫的背景移動,仍然是一個挑戰。本文介紹了TrackGo,一種利用自由形式遮罩和箭頭進行條件影片生成的新方法。該方法為使用者提供了一種靈活且精確的機制來操作影片內容。我們還提出了TrackAdapter用於控制實現,這是一個高效且輕量的適配器,旨在無縫集成到預訓練影片生成模型的時間自注意力層中。這種設計利用我們的觀察,即這些層的注意力地圖可以準確激活與影片中運動對應的區域。我們的實驗結果表明,我們的新方法,通過TrackAdapter的增強,實現了在FVD、FID和ObjMC等關鍵指標上的最先進性能。TrackGo的專案頁面位於:https://zhtjtcz.github.io/TrackGo-Page/
大型多模型模型(LMMs)在許多視覺任務中展現出卓越的能力。儘管存在許多知名基準來評估模型性能,但它們越來越缺乏發揮空間。因此,迫切需要一批新一代基準,具有足夠挑戰性,以應對下一代LMMs。LMMs展示潛力的一個領域是圖分析,特別是分析人員在解釋圖形時可能執行的任務,例如估計函數和數據序列的平均值、截距或相關性。在這項工作中,我們介紹了GRAB,一個適用於當前和未來前沿LMMs的圖分析基準。我們的基準完全是合成的,確保高質量、無噪音的問題。GRAB包含2170個問題,涵蓋四個任務和23個圖屬性。我們在GRAB上評估了20個LMMs,發現這是一個具有挑戰性的基準,表現最好的模型僅獲得21.7%的得分。最後,我們進行各種消融實驗,以研究模型成功和失敗的原因。我們發布GRAB以鼓勵這一重要且不斷增長的領域的進步。
文本到圖像(T2I)擴散模型展現出令人印象深刻的能力,能夠根據文本提示生成高質量圖像。然而,確保提示-圖像對齊仍然是一個相當大的挑戰,即生成與提示語義忠實對齊的圖像。最近的研究試圖通過優化潛在代碼來提高忠實度,但這可能導致潛在代碼超出分佈範圍,進而產生不現實的圖像。在本文中,我們提出了FRAP,一種簡單而有效的方法,基於自適應調整每個標記提示權重,以改善提示-圖像對齊和生成圖像的真實性。我們設計了一種在線算法來自適應地更新每個標記的權重係數,通過最小化一個統一的目標函數來實現,該函數鼓勵對象存在和對象-修飾符對的綁定。通過廣泛的評估,我們展示了FRAP生成的圖像與來自複雜數據集的提示具有顯著更高的提示-圖像對齊,同時與最近的潛在代碼優化方法相比,具有較低的平均延遲,例如,在COCO-Subject數據集上比D&B快4秒。此外,通過視覺比較和在CLIP-IQA-Real指標上的評估,我們展示了FRAP不僅改善了提示-圖像對齊,還生成了外觀更真實的圖像。我們還探討將FRAP與提示重寫LLM結合,以恢復其降級的提示-圖像對齊,我們觀察到提示-圖像對齊和圖像質量都有所改善。
現代機器學習系統依賴大型數據集以實現廣泛泛化,這在機器人學習中常常帶來挑戰,因為每個機器人平台和任務可能只有一個小數據集。通過在許多不同類型的機器人上訓練單一策略,機器人學習方法可以利用更廣泛和多樣的數據集,進而帶來更好的泛化性和韌性。然而,在多機器人數據上訓練單一策略具有挑戰性,因為機器人的感應器、執行器和控制頻率可能差異很大。我們提出CrossFormer,這是一種可擴展且靈活的基於Transformer的策略,可以處理任何實體的數據。我們在迄今為止最大且最多樣化的數據集上訓練CrossFormer,其中包括20種不同的機器人實體的90萬條軌跡。我們展示了相同的網絡權重可以控制截然不同的機器人,包括單臂和雙臂操作系統、輪式機器人、四軸飛行器和四足動物。與以往的工作不同,我們的模型不需要手動對齊觀察或行動空間。在現實世界中進行的大量實驗表明,我們的方法與針對每個實體量身定制的專家策略的性能相匹配,同時在跨實體學習方面明顯優於以往的最先進技術。
我們解決了文本到圖像模型中的一個持久挑戰:準確生成指定數量的物件。目前的模型,從圖像-文本對中學習,固有地在計數方面遇到困難,因為訓練數據無法呈現任何特定物件的所有可能數量。為了解決這個問題,我們提出基於計數模型導出的計數損失對生成的圖像進行優化。使用開箱即用的計數模型具有兩個挑戰性原因:首先,該模型需要一個用於潛在聚合的比例超參數,這取決於物件的視角,其次,分類器引導技術需要修改的模型,這些模型在噪聲干擾步驟上運作。為了應對這些挑戰,我們提出了一種迭代的在線訓練模式,通過改變文本條件嵌入和動態調整超參數來提高推斷圖像的準確性。我們的方法具有三個關鍵優勢:(i) 它可以考慮基於檢測模型的非可導計數技術,(ii) 它是一種零樣本即插即用的解決方案,有助於快速更改計數技術和圖像生成方法,以及(iii) 優化的計數標記可以被重複使用以生成準確的圖像,無需額外優化。我們評估了各種物件的生成並展示了準確性的顯著改進。項目頁面可在 https://ozzafar.github.io/count_token 找到。
在機器學習應用中,檢測異類(OOD)數據對於降低模型過度自信的風險至關重要,從而提高部署系統的可靠性和安全性。現有的大多數OOD檢測方法主要針對單模輸入,如圖像或文本。在多模態文檔的情況下,對這些方法在性能上的研究相對較少,這些方法主要專注於計算機視覺任務。我們提出了一種新的方法論,稱為注意力頭遮罩(AHM),用於文檔分類系統中的多模態OOD任務。我們的實證結果表明,所提出的AHM方法優於所有最先進的方法,與現有解決方案相比,顯著降低了假陽性率(FPR)高達7.5%。這種方法較好地泛化到多模態數據,如文檔,在這些數據中,視覺和文本信息在同一Transformer架構下建模。為解決高質量公開可用文檔數據集的稀缺性,並鼓勵進一步研究文檔OOD檢測,我們推出了一個名為FinanceDocs的新文檔人工智能數據集。我們的代碼和數據集已公開提供。
視覺檢索系統在更新具有改進表示的模型時面臨重大挑戰,原因是舊表示和新表示之間存在不一致。昂貴且資源密集的回填過程涉及當引入新模型時重新計算圖庫集中圖像的特徵向量。為了應對這一問題,先前的研究探索了向後兼容的訓練方法,使新舊表示之間可以直接進行比較,而無需回填。儘管取得了進展,但在向後兼容性和獨立訓練模型性能之間取得平衡仍然是一個未解決的問題。本文通過擴展表示空間的附加維度並學習正交轉換來實現與舊模型的兼容性,同時整合新信息來解決這一問題。這種轉換保留了原始特徵空間的幾何形狀,確保我們的模型與先前版本保持一致,同時學習新數據。我們的正交兼容對齊(OCA)方法消除了在模型更新期間重新索引的需要,確保特徵可以在不同模型更新之間直接進行比較,而無需額外的映射函數。在CIFAR-100和ImageNet-1k上的實驗結果表明,我們的方法不僅保持了與先前模型的兼容性,還實現了最先進的準確性,優於幾種現有方法。
大型語言模型(LLMs)容易繼承和放大潛藏在訓練數據中的社會偏見,可能會強化與性別、職業和其他敏感類別相關的有害刻板印象。這個問題尤其棘手,因為存在偏見的LLMs可能產生深遠影響,導致不公平實踐並加劇各個領域的社會不平等,如招聘、線上內容審核,甚至刑事司法系統。雖然先前的研究集中於使用專門設計來凸顯內在偏見的數據集來檢測LLMs中的偏見,但對這些發現與來自美國勞工統計局(NBLS)等權威數據集的相關性的調查明顯不足。為填補這一空白,我們進行實證研究,評估LLMs在“開箱即用偏見”環境中的表現,分析生成的輸出與NBLS數據中的分佈相比如何。此外,我們提出了一種簡單而有效的去偏見機制,直接將NBLS實例納入以減輕LLMs中的偏見。我們的研究涵蓋七種不同的LLMs,包括可指導的、基本的和專家混合模型,揭示了現有偏見檢測技術經常忽略的顯著偏見水平。重要的是,我們的去偏見方法不依賴外部數據集,顯示出偏見分數顯著降低,凸顯了我們方法在創建更公平、更可靠的LLMs方面的有效性。
作為開放語言數據倡議的共享任務的一部分,我們擴展了 FLORES+ 評估集,包括 Emakhuwa,這是莫桑比克廣泛使用的低資源語言。我們將 dev 和 devtest 集從葡萄牙語翻譯成 Emakhuwa,並詳細描述了翻譯過程和使用的質量保證措施。我們的方法包括各種質量檢查,包括後編輯和適用性評估。結果數據集包括每個源語句的多個參考句子。我們提出了訓練神經機器翻譯系統和微調現有多語言翻譯模型的基準結果。我們的研究結果表明,在 Emakhuwa 中,拼寫不一致仍然是一個挑戰。此外,基準模型在這個評估集上表現不佳,突顯了需要進一步研究以提高 Emakhuwa 機器翻譯質量的必要性。數據可在 https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES 公開獲取。