每日精選AI研究論文及翻譯
大型語言模型(LLMs)以其龐大的參數量而著稱,通常導致顯著的冗餘。本研究介紹了MaskLLM,一種可學習的修剪方法,該方法在LLMs中建立了半結構化(或“N:M”)稀疏性,旨在減少推論期間的計算開銷。MaskLLM並非開發新的重要性準則,而是通過Gumbel Softmax抽樣明確地將N:M模式建模為可學習的分佈。這種方法有助於在大規模數據集上進行端到端訓練,並提供了兩個顯著優勢:1)高質量的遮罩 - 我們的方法能夠有效擴展到大型數據集並學習準確的遮罩;2)可轉移性 - 遮罩分佈的概率建模使得可以跨領域或任務進行稀疏性的遷移學習。我們使用2:4的稀疏性對各種LLMs進行了MaskLLM評估,包括843M到15B參數範圍的LLaMA-2、Nemotron-4和GPT-3,我們的實驗結果顯示與最先進的方法相比有顯著改進。例如,領先的方法在Wikitext上的困惑度(PPL)達到10或更高,而與密集模型的5.12 PPL相比,MaskLLM僅通過學習凍結權重的遮罩就實現了明顯較低的6.72 PPL。此外,MaskLLM的可學習性使得可以為下游任務或領域定制遮罩以無損地應用2:4的稀疏性。代碼可在https://github.com/NVlabs/MaskLLM找到。
GPT-4o 是一個全模態模型,可以進行具有多樣情感和語氣的語音對話,標誌著全模態基礎模型的一個里程碑。然而,讓大型語言模型能夠以公開可用的數據感知和生成圖像、文本和語音仍然是開源社區中的一個挑戰。現有的視覺語言模型依賴外部工具進行語音處理,而語音語言模型仍然缺乏或甚至沒有視覺理解能力。為了填補這一差距,我們提出了 EMOVA(情感全在場語音助手),以賦予大型語言模型端到端的語音功能,同時保持領先的視覺語言性能。通過一個語義-聲學解耦的語音分詞器,我們驚訝地發現,全模態對齊可以進一步增強視覺語言和語音能力,相較於相應的雙模態對齊對應物。此外,我們提出了一個輕量級風格模組,用於靈活控制語音風格(例如情感和音調)。EMOVA 首次在視覺語言和語音基準上實現了最先進的性能,同時支持具有生動情感的全模態口語對話。
最近在大型多模型(LMMs)方面取得的進展大大提高了它們在2D視覺理解任務中的能力,使它們能夠有效地處理和理解圖像和視頻。然而,由於缺乏大規模的3D視覺語言數據集和強大的3D編碼器,導致具有3D感知能力的LMMs在3D場景理解方面的發展受到阻礙。在本文中,我們介紹了一個名為LLaVA-3D的簡單而有效的框架。利用從LLaVA中獲得的強大2D理解先驗知識,我們的LLaVA-3D可以有效地將LLaVA調整為3D場景理解,而不會影響2D理解能力。為了實現這一目標,我們採用了一種簡單而有效的表示形式,即3D Patch,它將2D CLIP patch特徵與它們在3D空間中對應的位置相連接。通過將3D Patches集成到2D LMMs中並應用聯合2D和3D視覺語言指導調整,我們建立了一個統一的架構,既適用於2D圖像理解又適用於3D場景理解。實驗結果表明,當在3D視覺語言數據集上進行訓練時,LLaVA-3D的收斂速度比現有的3D LMMs快3.5倍。此外,LLaVA-3D不僅在各種3D任務中實現了最先進的性能,而且在2D圖像理解和視覺語言對話能力方面與LLaVA保持了可比的水平。
利用預先訓練的文本到圖像擴散模型的視覺先驗,為增強密集預測任務中的零樣本泛化提供了一個有前途的解決方案。然而,現有方法通常未經批判地使用原始的擴散公式,這可能不是最佳的,因為密集預測和圖像生成之間存在根本差異。本文對密集預測的擴散公式進行系統分析,著重於質量和效率。我們發現,用於圖像生成的原始參數化類型,即學習預測噪聲的方法對於密集預測是有害的;多步驟的加噪/去噪擴散過程也是不必要的且難以優化。基於這些見解,我們引入了Lotus,一個基於擴散的視覺基礎模型,具有簡單而有效的適應協議,用於密集預測。具體而言,Lotus被訓練來直接預測標註而不是噪聲,從而避免有害的變異。我們還重新制定了擴散過程,使其成為一個單步驟程序,簡化了優化過程並顯著提高了推理速度。此外,我們引入了一種稱為“細節保留者”的新調整策略,實現更準確和細緻的預測。在不擴大訓練數據或模型容量的情況下,Lotus在各種數據集上實現了零樣本深度和法向估計的最先進性能。它還顯著提高了效率,比大多數現有的基於擴散的方法快數百倍。
指令微調通常指對語言模型進行指令-回應對的微調。我們發現兩種適應(微調)形式相較於指令微調來說存在缺陷,但仍然能產生指令遵循;我們稱之為隱式指令微調。首先,我們發現指令-回應對並非必要:僅在回應上進行訓練,沒有對應的指令,也能產生指令遵循。這表明預訓練模型具有一種指令-回應映射,透過教導模型所需的回應分佈來揭示。然而,我們後來發現並非必要教導所需的回應分佈:在像詩歌這樣的狹義領域數據上進行指令-回應訓練仍然會導致像食譜生成這樣的廣泛指令遵循行為。特別是,當指令與狹義微調領域中的指令非常不同時,模型的回應不會遵循微調領域的風格。為了開始解釋隱式指令微調,我們假設對語言模型的分佈進行非常簡單的更改就能產生指令遵循。我們通過手寫基於規則的語言模型來支持這一點,在預訓練模型中使用專家乘積生成指令遵循。這些規則是逐漸增加結束序列的概率、懲罰重複,以及均勻改變15個單詞的概率。總之,即使沒有設計為產生指令遵循,所做的適應也可以隱式實現。
大型語言模型(LLMs)展示了處理長文本輸入的卓越能力,但這是以增加計算資源和延遲為代價的。我們的研究引入了一種新穎的方法來加速LLM推論並減少GPU內存消耗,以解決長文本的瓶頸問題。我們的研究表明,LLMs可以在生成查詢答案之前在早期層識別相關的標記。利用這一見解,我們提出了一種算法,使用LLM的早期層作為篩選器來選擇和壓縮輸入標記,從而顯著減少後續處理的上下文長度。我們的方法GemFilter相較於現有技術(如標準注意力和SnapKV/H2O),在速度和內存效率方面均取得了顯著的改進。值得注意的是,與SOTA方法相比,GemFilter實現了2.4倍的加速和30%的GPU內存使用減少。在針芥堆任務上的評估顯示,GemFilter明顯優於標準注意力、SnapKV,並在LongBench挑戰上表現出可比的性能。GemFilter簡單、無需訓練,並且在不同的LLMs上廣泛應用。重要的是,它通過允許人類檢查所選擇的輸入序列提供了可解釋性。這些發現不僅為LLM部署提供了實際好處,還增進了我們對LLM內部機制的理解,為LLM設計和推論的進一步優化鋪平了道路。我們的代碼可在https://github.com/SalesforceAIResearch/GemFilter找到。
潛在擴散模型(LDMs)近年來在圖像生成領域取得了顯著進展。LDMs的一個主要優勢在於它們能夠在壓縮的潛在空間中運作,這使得訓練和部署更加高效。然而,儘管具有這些優勢,LDMs仍然存在挑戰。例如,觀察到LDMs通常無法完美生成高頻細節和複雜組合。我們假設這些缺陷的一個原因是所有LDMs的預訓練和後訓練都是在潛在空間中進行的,而該空間通常比輸出圖像低8倍8的空間分辨率。為解決此問題,我們建議在後訓練過程中添加像素空間監督,以更好地保留高頻細節。實驗結果顯示,添加像素空間目標顯著改善了基於偏好的後訓練和有監督質量微調,並在視覺質量和視覺缺陷指標上大幅提升了最先進的DiT transformer和U-Net擴散模型,同時保持相同的文本對齊質量。
在大型語言模型(LLMs)時代,由於語言使用者界面的快速發展趨勢,將積累大量對話記錄。對話分析(CA)致力於從對話數據中揭示和分析關鍵信息,簡化手動流程,支持業務洞察和決策。CA需要提取可操作的見解並推動賦能的需求日益突出,吸引廣泛關注。然而,由於CA缺乏明確的範疇,導致各種技術的分散應用,難以形成系統化的技術協同以賦能業務應用。本文對CA任務進行了全面回顧和系統化,以總結現有相關工作。具體而言,我們正式定義CA任務,以應對該領域的碎片化和混亂局面,並從對話場景重建、深入歸因分析,到執行有針對性的訓練,最終基於有針對性的訓練生成對話以實現特定目標,推導出CA的四個關鍵步驟。此外,我們展示相關基準,討論潛在挑戰,指出行業和學術界的未來方向。從目前的進展來看,顯而易見,大多數努力仍集中在分析表面對話元素,這在研究和商業之間存在著相當大的差距,而借助LLMs,最近的工作顯示出一種趨勢,即對因果關係和複雜高級任務進行研究。分析的經驗和見解將不可避免地在針對對話記錄的業務運營中具有更廣泛的應用價值。
我們提出了Disco4D,一種新穎的高斯點陣框架,用於從單張圖像生成和動畫化4D人物。與現有方法不同,Disco4D明顯地將服裝(使用高斯模型)與人體(使用SMPL-X模型)分離,顯著增強了生成細節和靈活性。它具有以下技術創新。 1) Disco4D 學習有效地將服裝高斯模型套用到 SMPL-X 高斯模型上。2) 它採用擴散模型來增強3D生成過程,例如,對於輸入圖像中不可見的遮蔽部分進行建模。3) 它為每個服裝高斯模型學習身份編碼,以促進服裝資產的分離和提取。 此外,Disco4D 自然地支持具有生動動態的4D人物動畫。大量實驗證明了Disco4D在4D人物生成和動畫任務上的優越性。我們的可視化結果可以在 https://disco-4d.github.io/ 找到。
在過去幾年裡,由ColBERT帶領的多向量檢索方法已成為神經資訊檢索中日益普及的方法。這些方法在記憶單元級別而非文件級別存儲表示時,展現出非常強大的檢索效能,特別是在跨領域情境下。然而,為了存儲大量相關向量所需的存儲空間和記憶體需求仍然是一個重要的缺點,阻礙了實際應用。本文介紹了一種基於簇的標記池化方法,以積極減少需要存儲的向量數量。這種方法可以將ColBERT索引的空間和記憶體佔用減少50%,幾乎不會降低檢索效能。該方法還可以進一步減少向量數量,將其減少66%至75%,在絕大多數數據集上,降低幅度保持在5%以下。重要的是,這種方法無需進行架構更改或查詢時處理,可以作為ColBERT等模型的簡單插入在索引過程中使用。
人類可以通過觀察他人來學習操作新物體;讓機器人具備從這些示範中學習的能力將使其能夠自然地指定新行為的界面。本研究開發了機器人看、機器人做(RSRD),這是一種從單眼RGB人類示範中模仿關節式物體操作的方法,給定單個靜態多視角物體掃描。我們首先提出了4D可微分部件模型(4D-DPM),這是一種從單眼視頻中恢復3D部件運動的方法,具有可微分渲染。這種分析合成方法使用部件中心的特徵場進行迭代優化,從而能夠使用幾何正則化器僅從單個視頻中恢復3D運動。給定這種4D重建,機器人通過規劃雙手臂運動來複製物體軌跡,從而引發示範的物體部件運動。通過將示範表示為部件中心軌跡,RSRD專注於複製示範的預期行為,同時考慮機器人自身的形態限制,而不是試圖重現手部運動。我們在地面真實標註的3D部件軌跡上評估了4D-DPM的3D跟踪準確性,並在雙手臂YuMi機器人上對9個物體進行了每個10次試驗的RSRD物理執行性能評估。RSRD的每個階段實現了平均87%的成功率,總體端到端成功率為60%,共進行了90次試驗。值得注意的是,這是僅使用從大型預訓練視覺模型中提煉出的特徵場實現的,而無需任何任務特定的訓練、微調、數據集收集或標註。項目頁面:https://robot-see-robot-do.github.io
從大型和複雜數據集中提取有意義的見解存在著重大挑戰,特別是在確保檢索信息的準確性和相關性方面。傳統的數據檢索方法,如順序搜索和基於索引的檢索,在處理錯綜複雜的數據結構時往往失敗,導致輸出不完整或具有誤導性。為了克服這些限制,我們引入了Structured-GraphRAG,這是一個多功能框架,旨在增強自然語言查詢中結構化數據集的信息檢索。Structured-GraphRAG利用多個知識圖,這些圖以結構化格式表示數據並捕捉實體之間的複雜關係,從而實現更加細緻和全面的信息檢索。這種基於圖的方法通過將回應基於結構化格式來減少語言模型輸出中的錯誤風險,從而增強結果的可靠性。我們通過將其性能與最近發表的使用傳統檢索增強生成的方法進行比較,展示了Structured-GraphRAG的有效性。我們的研究結果表明,Structured-GraphRAG顯著提高了查詢處理效率並降低了響應時間。雖然我們的案例研究聚焦於足球數據,但該框架的設計具有廣泛的應用價值,為數據分析提供了一個強大工具,並增強了語言模型在各種結構化領域中的應用。