每日精選AI研究論文及翻譯
我們介紹了Qwen-Audio的最新進展,一個名為Qwen2-Audio的大規模音訊語言模型,能夠接受各種音訊信號輸入,並根據語音指令進行音訊分析或直接文本回應。與複雜的階層式標籤相比,我們通過利用自然語言提示簡化了預訓練過程,針對不同數據和任務進一步擴展了數據量。我們增強了Qwen2-Audio的指令遵循能力,實現了兩種不同的音訊交互模式,用於語音聊天和音訊分析。在語音聊天模式中,用戶可以與Qwen2-Audio自由進行語音交互,無需文本輸入。在音訊分析模式中,用戶可以在交互過程中提供音訊和文本指令進行分析。需要注意的是,我們不使用任何系統提示來在語音聊天和音訊分析模式之間切換。Qwen2-Audio能夠智能理解音訊內容並按照語音指令做出適當回應。例如,在同時包含聲音、多人對話和語音指令的音訊片段中,Qwen2-Audio能夠直接理解指令並對音訊進行解釋和回應。此外,DPO已優化了模型的性能,提高了事實性和符合所需行為的程度。根據AIR-Bench的評估結果,Qwen2-Audio在針對音訊中心指令遵循能力的測試中優於以往的SOTAs,如Gemini-1.5-pro。Qwen2-Audio是開源的,旨在促進多模態語言社區的發展。
在評估大型語言模型(LLMs)的長文本能力時,從原始長文檔中識別與用戶查詢相關的內容是任何LLM回答基於長文本的問題的重要先決條件。我們提出NeedleBench,這是一個由一系列逐漸更具挑戰性任務組成的框架,用於評估雙語長文本能力,跨越多個長度間隔(4k、8k、32k、128k、200k、1000k及更大)和不同深度範圍,允許在不同文本深度區域中策略性地插入關鍵數據點,以嚴格測試模型在不同情境中的檢索和推理能力。我們使用NeedleBench框架來評估領先的開源模型在識別與問題相關的關鍵信息以及應用該信息進行推理在雙語長文本中的表現。此外,我們提出祖先跟踪挑戰(ATC)來模擬可能存在於現實世界長文本任務中的邏輯推理挑戰的複雜性,提供了一種簡單的方法來評估LLMs在應對複雜長文本情況方面的表現。我們的結果表明,目前的LLMs在實際長文本應用中仍有很大改進空間,因為它們在可能存在於現實世界長文本任務中的邏輯推理挑戰的複雜性方面表現不佳。所有代碼和資源均可在OpenCompass找到:https://github.com/open-compass/opencompass。
本文介紹了 DiT-MoE,這是擴散 Transformer 的稀疏版本,具有可擴展性,與密集網絡相競爭,同時展現高度優化的推論。DiT-MoE 包括兩個簡單的設計:共享專家路由和專家級平衡損失,從而捕捉共同知識,減少不同路由專家之間的冗餘。當應用於條件圖像生成時,對專家專業化的深入分析得出一些有趣的觀察:(i) 專家選擇對空間位置和降噪時間步顯示偏好,對不同類條件信息不敏感;(ii) 隨著 MoE 層的加深,專家的選擇逐漸從特定空間位置轉向分散和平衡。(iii) 專家專業化傾向於在早期時間步驟更集中,然後在一半後逐漸均勻。我們將其歸因於擴散過程,首先對低頻空間信息進行建模,然後是高頻複雜信息。基於上述指導,一系列 DiT-MoE 實驗在推論期間實現了與密集網絡相當的性能,但需要更少的計算負載。更令人鼓舞的是,我們展示了 DiT-MoE 在合成圖像數據上的潛力,將擴散模型擴展到 16.5B 參數,在 512x512 解析度設置下實現了新的 SoTA FID-50K 得分為 1.80。項目頁面:https://github.com/feizc/DiT-MoE。
傳統的參考分割任務主要集中在無聲的視覺場景上,忽略了多模態知覺和互動在人類經驗中的重要作用。在這項工作中,我們引入了一個名為參考音視覺分割(Ref-AVS)的新任務,旨在基於包含多模態提示的表達來對視覺領域內的物體進行分割。這些表達以自然語言形式呈現,但富含包括音頻和視覺描述在內的多模態提示。為了促進這項研究,我們建立了第一個Ref-AVS基準,為相應的多模態提示表達中描述的物體提供像素級注釋。為應對Ref-AVS任務,我們提出了一種新方法,充分利用多模態提示來提供精確的分割指導。最後,我們對三個測試子集進行定量和定性實驗,以比較我們的方法與相關任務中現有方法的效果。結果顯示我們的方法的有效性,突顯了它利用多模態提示表達精確分割物體的能力。數據集可在https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}獲得。
基於大型語言模型(LLMs)的現有代理人通過整合LLMs固有的知識、強大的上下文學習和零-shot能力,以及人類結合精心設計的LLM調用工作流程的工具,展示了強大的問題解決能力。然而,這些代理人在長期推理方面仍存在缺陷,並且未充分利用現有工具的潛力,導致在複雜的現實推理場景中存在明顯的缺陷。為了解決這些限制,我們引入了Sibyl,這是一個簡單而強大的基於LLM的代理人框架,旨在通過有效地利用一組最小的工具來應對複雜的推理任務。受全球工作空間理論的啟發,Sibyl將全局工作空間納入其中,以增強整個系統中知識和對話歷史的管理和共享。此外,受心靈社會理論的指導,Sibyl實現了一個基於辯論的多代理人陪審團,以自我完善最終答案,確保全面和平衡的方法。這種方法旨在降低系統的複雜性,同時擴大可解決問題的範圍-從通常由人類在幾分鐘內解決的問題到需要幾小時甚至幾天才能解決的問題,從而促進從系統1到系統2思維的轉變。Sibyl的設計著重於可擴展性和易於調試,從最初即納入了來自函數編程的可重入性概念,旨在無縫且輕鬆地集成到其他LLM應用程序中,以提高能力。我們在GAIA基準測試集上的實驗結果顯示,使用GPT-4實例化的Sibyl代理人實現了平均得分34.55%的最新性能,相較於其他基於GPT-4的代理人。我們希望Sibyl能激發出更可靠和可重用的基於LLM的代理人解決方案,以應對複雜的現實推理任務。
我們介紹 VLMEvalKit:一個基於 PyTorch 的開源工具包,用於評估大型多模態模型。該工具旨在為研究人員和開發人員提供一個用戶友好且全面的框架,以評估現有的多模態模型並發布可重現的評估結果。在 VLMEvalKit 中,我們實現了超過 70 個不同的大型多模態模型,包括專有 API 和開源模型,以及超過 20 個不同的多模態基準。通過實現單一接口,新模型可以輕鬆添加到工具包中,同時工具包自動處理其餘工作負載,包括數據準備、分佈式推理、預測後處理和指標計算。儘管該工具包目前主要用於評估大型視覺-語言模型,但其設計與未來更新相容,可以整合其他模態,如音頻和視頻。根據使用該工具包獲得的評估結果,我們主持 OpenVLM Leaderboard,這是一個全面的排行榜,用於追蹤多模態學習研究的進展。該工具包發布在 https://github.com/open-compass/VLMEvalKit,並得到積極維護。
由於其固有的3D一致性,得分蒸餾採樣(SDS)已成為文本驅動的3D編輯任務中的一個有效框架。然而,現有基於SDS的3D編輯方法存在著長時間的訓練和低質量結果的問題,主要是因為這些方法偏離了擴散模型的採樣動態。在本文中,我們提出了DreamCatalyst,一個新穎的框架,將基於SDS的編輯解釋為擴散反向過程。我們的目標函數考慮了採樣動態,從而使DreamCatalyst的優化過程成為編輯任務中擴散反向過程的近似。DreamCatalyst的目標是減少訓練時間並提高編輯質量。DreamCatalyst提供了兩種模式:(1)更快速的模式,僅需約25分鐘編輯NeRF場景,(2)高質量模式,在不到70分鐘內產生優越結果。具體而言,我們的高質量模式在速度和質量方面均優於當前NeRF編輯方法的最新技術。更多詳細結果請參見我們的項目頁面:https://dream-catalyst.github.io。
最近在4D生成方面的最新進展主要集中在通過提煉預訓練文本或單視圖圖像條件模型來生成4D內容。對於它們來說,利用各種現成的具有多視圖屬性的3D資產並不方便,而且由於監督信號中固有的模糊性,它們的結果在時空上存在不一致性。在這項工作中,我們提出了一種名為Animate3D的新型框架,用於為任何靜態3D模型添加動畫。其核心思想是雙重的:1)我們提出了一種新型的多視圖視頻擴散模型(MV-VDM),它以靜態3D對象的多視圖渲染為條件,並在我們提出的大規模多視圖視頻數據集(MV-Video)上進行訓練。2)基於MV-VDM,我們引入了一個結合重建和4D分數提煉取樣(4D-SDS)的框架,以利用多視圖視頻擴散先驗來為3D對象添加動畫。具體來說,對於MV-VDM,我們設計了一個新的時空注意模塊,通過整合3D和視頻擴散模型來增強空間和時間一致性。此外,我們利用靜態3D模型的多視圖渲染作為條件來保留其身份。為了為3D模型添加動畫,我們提出了一個有效的兩階段流程:首先從生成的多視圖視頻中直接重建運動,然後通過引入的4D-SDS來完善外觀和運動。定性和定量實驗表明,Animate3D明顯優於先前的方法。數據、代碼和模型將會公開發布。
良好的權重初始化是降低深度神經網絡(DNN)模型訓練成本的有效措施。如何初始化參數的選擇具有挑戰性,可能需要手動調整,這可能耗時且容易出現人為錯誤。為克服這些限制,本研究采取了一個新穎的方法,建立了一個權重生成器來合成初始化的神經網絡權重。我們以生成對抗網絡(GANs)的圖像到圖像翻譯任務作為例子,因為這樣易於收集跨越廣泛範圍的模型權重。具體來說,我們首先收集包含各種圖像編輯概念及其對應訓練權重的數據集,後來用於訓練權重生成器。為了應對不同層之間的特徵差異和需要預測的大量權重,我們將權重分成相等大小的塊並為每個塊分配一個索引。隨後,使用概念的文本條件和塊索引,通過這樣的數據集訓練擴散模型。通過使用我們的擴散模型預測的去噪權重初始化圖像翻譯模型,訓練僅需43.3秒。與從頭開始訓練(即 Pix2pix)相比,我們在獲得更好的圖像生成質量的同時,實現了新概念的15倍訓練時間加速。
視覺語言模型(VLMs)在各種應用中取得了令人印象深刻的進展,成為一個普遍的研究方向。本文中,我們建立了一個名為FIRE的反饋-精煉數據集,包含了110萬個來自27個來源數據集的多輪對話,使VLMs能夠根據用戶反饋跨不同任務自動精煉其回應。為了擴大數據收集,FIRE分為兩個部分收集:FIRE-100K和FIRE-1M,其中FIRE-100K由GPT-4V生成,而FIRE-1M則通過在FIRE-100K上訓練的模型自由生成。然後,我們建立了一個名為FIRE-Bench的基準,用於全面評估VLMs的反饋精煉能力,其中包含了11K個反饋精煉對話作為測試數據,兩種評估設置,以及一個為VLMs提供反饋的模型。我們通過在FIRE-100K和FIRE-1M上微調LLaVA來開發FIRE-LLaVA模型,該模型在FIRE-Bench上展現出卓越的反饋精煉能力,並且比未經訓練的VLMs表現提高了50%,使用戶-代理互動更加高效,突顯了FIRE數據集的重要性。
即使對於像美國手語(ASL)這樣研究較為深入的手語,數據仍然是機器學習研究的瓶頸。對於世界各地聽障社區使用的許多其他手語而言,情況更為嚴重。在本文中,我們介紹了YouTube-SL-25,這是一個大規模、開放領域的手語視頻語料庫,其中包含來自YouTube的似乎對齊良好的字幕。YouTube-SL-25擁有超過25種手語的3000多小時視頻,a)是YouTube-ASL規模的3倍以上,b)是迄今為止最大的平行手語數據集,c)是許多成分語言的第一個或最大的平行數據集。我們使用基於T5的統一多語種多任務模型為手語到文本任務提供基準線,並在4種手語的基準測試中報告得分。結果表明,多語種轉移對YouTube-SL-25中的高資源和低資源手語都有益。
大型語言模型(LLMs)對現代自然語言處理和人工智能至關重要。然而,它們在管理龐大的記憶需求方面面臨挑戰。儘管量化感知訓練(QAT)通過使用低位表示來減少記憶體消耗並最小化準確性損失提供了解決方案,但需要大量訓練資源來優化模型權重和量化參數。為了應對這一問題,我們提出了高效量化感知訓練(EfficientQAT),這是壓縮LLMs的一種新型量化技術。EfficientQAT包括兩個連續階段:所有參數的塊訓練(Block-AP)和端到端訓練的量化參數(E2E-QP)。Block-AP通過塊狀重建依次對每個變壓器塊中的所有參數進行量化感知訓練,通過避免對整個LLM進行訓練來保持效率。初始化為量化模型後,E2E-QP然後僅端到端訓練量化參數(步長),通過固定量化的主幹和減少可訓練參數數量來提高效率。大量實驗表明,EfficientQAT在各種模型上表現優於以往的量化方法,包括基本LLMs、指令調整LLMs和多模態LLMs,參數規模從7B到70B不等,量化位數也不同。例如,EfficientQAT在單個A100-80GB GPU上以41小時獲得了一個2位元的Llama-2-70B模型,與完整精度相比(69.48 vs. 72.41)僅有不到3%的準確性降低。值得注意的是,這個INT2量化的70B模型比Llama-2-13B模型(69.48 vs. 67.81)獲得了1.67的準確性增益,同時需要更少的記憶體(19.2GB vs. 24.2GB)。代碼可在https://github.com/OpenGVLab/EfficientQAT獲取。
現代的大型語言模型(LLMs)由數十億個元素組成的矩陣組成,這使得它們在計算資源和記憶體使用方面要求相當高。由於這些矩陣非常龐大,通常可以以低秩格式表示,從而放寬資源需求。與先前專注於開發新型矩陣分解算法的研究不同,在本研究中,我們首先研究了LLMs不同層中矩陣之間低秩結構的出現,並建立了梯度動態與矩陣低秩表現之間的相互關係。我們的研究發現不同層展現出不同程度的收斂低秩結構,需要在它們之間進行非均勻的秩降低,以減少由於壓縮而導致的性能下降。鑑於此,我們提出了Weight Low-Rank Projection(WeLore),將權重壓縮和記憶體高效微調統一為一體,以一種與數據無關且一次性的方式。WeLore利用奇異值的重尾分佈來識別LLMs中矩陣的適當秩降低比率。WeLore不僅僅是壓縮技術,還根據它們表現為低秩的能力,將權重矩陣分為低秩組件(LRCs)和非低秩組件(N-LRCs)。我們的梯度觀點和大量實驗表明,LRCs往往具有更好的微調能力,並且可以緊密模擬(有時甚至優於)完全微調的訓練損失軌跡和性能,同時顯著減少記憶體和計算占用。例如,僅使用LRCs中部分參數(WeLore)對50%壓縮的LLaMa-27B模型進行微調,可以實現比完全微調更高約3倍的吞吐量和約0.6倍的GPU需求。我們的程式碼可在以下網址找到:https://github.com/VITA-Group/welore
最近,人類與各種模態的人機互動展示了許多應用前景,如GPT-4o和Gemini。鑒於多模態聯合表示在理解和生成流程中的基礎作用,高質量的全方位聯合表示將是向共同處理更多樣化多模態信息邁出的一步。在這項工作中,我們提出了OmniBind,規模從70億到300億參數不等的大規模多模態聯合表示模型,支持3D、音頻、圖像和語言輸入。由於各模態間的數據對稀缺,我們提出了將各種預先訓練的專家模型的空間重新映射和綁定在一起,而非從頭開始訓練大型模型。這種方法通過間接增加模型參數和已見數據量實現了“擴展”。為了有效整合各種空間,我們通過學習路由器來動態分配不同空間的權重,並實現兩個目標:跨模態整體對齊和語言表示解耦。值得注意的是,由於綁定和路由空間都只需要輕量級網絡,OmniBind非常訓練高效。學習最大的300億模型僅需要未配對的單模態數據,並在單個8-4090節點上大約花費3天。大量實驗證明了OmniBind作為全方位表示模型的多功能性和優越性,突顯了其在各種應用中的巨大潛力,例如任意查詢和可組合的多模態理解。
我們提出了一種控制模擬人形機器人抓取物體並按照物體軌跡移動的方法。由於控制具有靈巧手部的人形機器人存在挑戰,先前的方法通常使用無實體的手,並僅考慮垂直提升或短軌跡。這種有限的範圍限制了它們應用於動畫和模擬所需的物體操作。為了彌合這一差距,我們學習了一種控制器,可以抓取大量(>1200)的物體並將它們帶到按照隨機生成的軌跡移動。我們的關鍵見解是利用提供類人運動技能並顯著加快訓練速度的人形運動表示。僅使用簡單的獎勵、狀態和物體表示,我們的方法在各種物體和軌跡上表現出良好的可擴展性。在訓練時,我們不需要成對的全身運動和物體軌跡數據集。在測試時,我們只需要物體網格和所需的抓取和運輸軌跡。為了展示我們方法的能力,我們展示了在跟隨物體軌跡和對未見過的物體進行泛化方面的最新成功率。代碼和模型將會釋出。
Vibravox是一個符合《通用數據保護規例》(GDPR)的數據集,其中包含使用五種不同的體聲導感音頻感應器的音頻錄製:兩個耳道麥克風、兩個骨導振動拾音器和一個喉頭麥克風。該數據集還包括來自空中麥克風的音頻數據,作為參考。Vibravox語料庫包含由188名參與者在高階Ambisonics 3D空間化器強加的不同聲學條件下錄製的38小時語音樣本和生理聲音。語料庫中還包括有關錄製條件和語言轉錄的注釋。我們對各種與語音相關的任務進行了一系列實驗,包括語音識別、語音增強和語者驗證。這些實驗是使用最先進的模型進行的,以評估和比較它們在Vibravox數據集提供的不同音頻感應器捕獲的信號上的性能,旨在更好地理解它們的個別特徵。
大规模多模式生成模型的出现极大推动了人工智能的发展,引入了前所未有的性能和功能水平。然而,由于历史上模型中心和数据中心发展的孤立路径,优化这些模型仍然具有挑战性,导致次优结果和资源利用效率低下。为此,我们提出了一种专为集成数据-模型共同发展量身定制的新型沙盒套件。该沙盒提供了一个全面的实验平台,实现了数据和模型的快速迭代和基于洞察力的改进。我们提出的“探测-分析-改进”工作流程,通过在最先进的LLaVA类和基于DiT的模型上的应用进行验证,实现了显著的性能提升,例如在VBench排行榜上名列前茅。我们还从详尽的基准测试中发现了有益的见解,阐明了数据质量、多样性和模型行为之间的关键相互作用。希望通过维护和提供我们的代码、数据集和模型,促进对多模式数据和生成建模的深入理解和未来进展,这些资源可在以下网址获得:https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md。
互動式三維高斯分割為實時操作三維場景提供了絕佳機會,這要歸功於三維高斯飛灰的實時渲染能力。然而,目前的方法存在處理嘈雜分割輸出的耗時後處理問題。此外,它們難以提供詳細的分割,而這對於細粒度操作三維場景至關重要。在本研究中,我們提出了Click-Gaussian,它學習了兩級粒度的可區分特徵場,有助於在無需耗時後處理的情況下進行分割。我們深入探討了由於從三維場景獨立獲得的二維分割而導致的特徵場不一致所帶來的挑戰。當跨視圖的二維分割結果,即三維分割的主要線索,存在衝突時,三維分割的準確性會下降。為了克服這些問題,我們提出了全局特徵引導學習(GFL)。GFL從跨視圖的嘈雜二維分割中構建全局特徵候選群,這有助於在訓練三維高斯特徵時平滑噪聲。我們的方法每次點擊運行時間為10毫秒,比先前方法快15到130倍,同時顯著提高了分割準確性。我們的項目頁面位於https://seokhunchoi.github.io/Click-Gaussian。
大型語言模型(LLMs)被廣泛應用於各種高風險領域,其輸出的可靠性至關重要。評估LLMs回應可靠性的一種常用方法是不確定性估計,該方法衡量它們的答案正確的可能性。雖然許多研究專注於提高LLMs不確定性估計的準確性,但我們的研究探討了不確定性估計的脆弱性並探索潛在攻擊。我們展示了一種攻擊者可以在LLMs中嵌入後門的方法,當輸入中的特定觸發器激活時,可以操縱模型的不確定性而不影響最終輸出。具體來說,所提出的後門攻擊方法可以改變LLMs的輸出概率分佈,使概率分佈收斂到攻擊者預定的分佈,同時確保頂部1預測保持不變。我們的實驗結果表明,這種攻擊有效地破壞了模型在多項選擇問題中的自我評估可靠性。例如,在四個模型中,我們通過三種不同的觸發策略實現了100%的攻擊成功率(ASR)。此外,我們研究這種操縱是否可以應用於不同提示和領域。這項工作突顯了對LLMs可靠性的重大威脅,並強調了未來需要針對此類攻擊的防禦。代碼可在https://github.com/qcznlp/uncertainty_attack找到。