每日精選AI研究論文及翻譯
現代人工智慧(AI)系統是由基礎模型驅動的。 本文介紹了一組新的基礎模型,名為Llama 3。它是一群語言模型,原生支持多語言、編碼、推理和工具使用。我們最大的模型是一個擁有405B參數和最多128K令牌上下文窗口的密集Transformer。本文對Llama 3進行了廣泛的實證評估。我們發現Llama 3在眾多任務上提供了與領先的語言模型(如GPT-4)相當的質量。我們公開發布了Llama 3,包括405B參數語言模型的預訓練和後訓練版本,以及我們的Llama Guard 3模型,用於輸入和輸出的安全性。本文還介紹了一系列實驗結果,我們通過組合方法將圖像、視頻和語音功能整合到Llama 3中。我們觀察到這種方法在圖像、視頻和語音識別任務上表現出色,與最先進技術相競爭。由此產生的模型尚未廣泛發布,因為它們仍在開發中。
最近在擴散Transformer(DiT)領域的進展展示了在生成高質量視頻內容方面的卓越能力。然而,基於Transformer的擴散模型在有效生成具有可控運動的視頻方面的潛力仍然是一個探索有限的領域。本文介紹了Tora,這是第一個以軌跡為導向的DiT框架,同時整合了文本、視覺和軌跡條件,用於視頻生成。具體來說,Tora 包括軌跡提取器(TE)、時空DiT和運動引導融合器(MGF)。TE將任意軌跡編碼為具有層次結構的時空運動片段,並使用3D視頻壓縮網絡。MGF將這些運動片段集成到DiT塊中,以生成遵循軌跡的一致視頻。我們的設計與DiT的可擴展性無縫對齊,可以精確控制具有不同持續時間、寬高比和分辨率的視頻內容動態。大量實驗證明了Tora在實現高運動保真度方面的優越性,同時也精細模擬了物理世界的運動。詳細信息可在以下頁面找到:https://ali-videoai.github.io/tora_video。
我們介紹了MoMa,一種新穎的模態感知專家混合(MoE)架構,旨在為預訓練混合模態、早期融合語言模型而設計。MoMa通過將專家模塊劃分為模態特定的群組,可以以任意序列處理圖像和文本。這些群組專門處理指定的標記,同時在每個群組內使用學習路由以保持語義上的適應性。我們的實證結果顯示,通過這種模態特定的參數分配,可以實現顯著的預訓練效率提升。在一個兆標記的訓練預算下,MoMa 1.4B模型,包括4個文本專家和4個圖像專家,實現了令人印象深刻的FLOPs節省:整體節省了3.7倍,其中文本節省了2.6倍,圖像處理節省了5.2倍,與計算等效的密集基線相比,以預訓練損失為度量。這優於具有8個混合模態專家的標準專家選擇MoE,後者實現了整體FLOPs節省3倍(文本3倍,圖像2.8倍)。將MoMa與深度混合(MoD)結合可以進一步提高預訓練FLOPs節省至整體4.2倍(文本3.4倍,圖像5.3倍),儘管這種組合會因對路由器準確性的敏感性增加而損害因果推斷的性能。這些結果展示了MoMa在顯著提升混合模態、早期融合語言模型預訓練效率方面的潛力,為更節約資源且功能更強大的多模態人工智能系統鋪平了道路。
本文介紹了跨語言代理 - 同時口譯(CLASI),一個高質量且類似人類的同步語音翻譯(SiST)系統。受專業人類口譯員的啟發,我們利用一種新型的數據驅動讀寫策略來平衡翻譯質量和延遲時間。為應對在領域術語翻譯方面的挑戰,CLASI採用多模檢索模塊來獲取相關信息以增強翻譯。在LLMs的支持下,我們的方法可以通過考慮輸入音頻、歷史上下文和檢索信息來生成容錯翻譯。實驗結果表明,我們的系統在性能上明顯優於其他系統。與專業人類口譯員一致,我們使用更好的人類評估指標 - 有效信息比例(VIP),該指標衡量了成功傳達給聽眾的信息量。在現實情境中,演講通常不流暢、非正式且不清晰,CLASI在中英文和英中文翻譯方向分別實現了81.3%和78.0%的VIP。相比之下,最先進的商業或開源系統僅實現了35.4%和41.6%。在其他系統僅實現不到13% VIP的極其困難的數據集上,CLASI仍然可以實現70%的VIP。
我們提出了ShieldGemma,這是一套基於Gemma2的LLM安全內容審查模型套件。這些模型能夠在使用者輸入和LLM生成的輸出中,對主要危害類型(性暴力、危險內容、騷擾、仇恨言論)的安全風險進行堅固且最先進的預測。通過在公開和內部基準上的評估,我們展示了與現有模型(如Llama Guard,在公開基準上+10.8\% AU-PRC,WildCard +4.3\%)相比的卓越性能。此外,我們提出了一個新穎的基於LLM的數據精選管道,可適應各種與安全相關的任務以及更廣泛的應用。我們展示了主要在合成數據上訓練的模型具有強大的泛化性能。通過釋出ShieldGemma,我們為研究社區提供了一個寶貴的資源,推動了LLM安全性的發展,並為開發者創造更有效的內容審查解決方案提供了可能。
第一屆資料污染研討會(CONDA 2024)專注於自然語言處理中資料污染的所有相關方面,其中資料污染被理解為評估資料包含在用於訓練大型模型的預訓練語料庫中的情況,從而影響評估結果。該研討會促進了一項共享任務,以收集有關當前可用數據集和模型中的資料污染的證據。共享任務和相關數據庫的目標是幫助社區了解問題的程度,並幫助研究人員避免在已知受污染資源上報告評估結果。共享任務提供了一個結構化的、集中的公共數據庫,用於收集污染證據,歡迎社區通過GitHub的pool requests做出貢獻。這份首次編輯論文基於來自總共23位貢獻者的91個受污染來源的566個報告條目。個別污染事件的詳細信息可在平台上找到。該平台仍然在線,歡迎社區做出貢獻。
音視覺語義分割(AVSS)旨在利用聲音提示在視頻中對聲音對象進行分割和分類。然而,大多數方法基於閉集假設運作,僅從訓練數據中識別預定義的類別,缺乏在實際應用中檢測新類別的泛化能力。本文介紹一個新任務:開放詞彙音視覺語義分割,將AVSS任務擴展到超出標註標籤空間的開放世界場景。這是一個更具挑戰性的任務,需要識別所有類別,甚至是在訓練期間從未見過或聽過的類別。此外,我們提出了第一個開放詞彙AVSS框架,OV-AVSS,主要包括兩個部分:1)通用聲源定位模塊,執行音視覺融合並定位所有潛在的聲音對象;2)開放詞彙分類模塊,借助大規模預訓練視覺語言模型的先前知識來預測類別。為了正確評估開放詞彙AVSS,我們基於AVSBench-semantic基準將零樣本訓練和測試子集劃分,即AVSBench-OV。大量實驗證明了我們模型在所有類別上的強大分割和零樣本泛化能力。在AVSBench-OV數據集上,OV-AVSS在基本類別上實現了55.43%的mIoU,在新類別上實現了29.14%的mIoU,超過了最先進的零樣本方法分別為41.88%/20.61%和開放詞彙方法為10.2%/11.6%。代碼可在https://github.com/ruohaoguo/ovavss找到。
我們介紹了伯克利人形機器人,這是一個可靠且低成本的中型人形機器人研究平台,用於基於學習的控制。我們輕量級的自製機器人專門設計用於低模擬複雜度、類人運動和高抗跌落可靠性的學習算法。該機器人窄小的模擬至真實差距實現了在戶外環境中通過簡單的強化學習控制器使用輕量級領域隨機化來實現靈活且穩健的運動,可以在各種地形上進行機動。此外,我們展示了機器人在數百米範圍內行走,走在陡峭的未鋪設小徑上,以及單腿和雙腿跳躍,證明了其在動態行走方面的高性能。我們的系統具有全方位運動能力,並能夠承受大的干擾,具有緊湊的配置,旨在實現基於學習的人形系統的可擴展模擬至真實部署。請查看http://berkeley-humanoid.com以獲取更多詳細信息。
面部表情和手部動作對於表達我們的情感並與世界互動至關重要。然而,從隨意拍攝的視頻中建模的大多數3D人類化身僅支持身體運動,而沒有面部表情和手部動作。在這項工作中,我們提出了ExAvatar,這是從短單眼視頻中學習的具有表現力的全身3D人類化身。我們將ExAvatar設計為整體身體參數化網格模型(SMPL-X)和3D高斯擴散(3DGS)的組合。主要挑戰在於:1)視頻中面部表情和姿勢的多樣性有限,2)缺乏3D觀察,如3D掃描和RGBD圖像。視頻中的多樣性有限使得具有新穎面部表情和姿勢的動畫變得複雜。此外,缺乏3D觀察可能導致在視頻中未觀察到的人體部位存在顯著的模糊性,這可能在新穎運動下產生明顯的瑕疵。為了應對這些問題,我們引入了網格和3D高斯的混合表示。我們的混合表示將每個3D高斯視為表面上的一個頂點,並在它們之間使用預定義的連接信息(即三角形面)來遵循SMPL-X的網格拓撲。這使得我們的ExAvatar可以通過受SMPL-X面部表情空間驅動來具有新穎的面部表情。此外,通過使用基於連接性的正則化器,我們顯著減少了新穎面部表情和姿勢中的瑕疵。
作者身份混淆的目的在於透過改變寫作風格、詞彙、語法和其他與作者相關的語言特徵,來掩蓋文本中作者的身份。這種改變需要在隱私和實用性之間取得平衡。儘管強大的混淆技術能有效地隱藏作者的身份,但通常會降低文本的品質和實用性。相反,保持高度的實用性往往會提供不足的隱私,使對手更容易對作者進行去匿名化。因此,在這兩個相互衝突的目標之間取得最佳的權衡至關重要。在本文中,我們提出了 TAROT:基於任務的作者身份混淆使用策略優化,這是一種新的無監督作者身份混淆方法,其目標是通過重新生成整個文本來考慮其下游實用性,來優化隱私和實用性之間的權衡。我們的方法利用策略優化作為一種在小語言模型上的微調範式,以重寫文本,同時保留作者身份和下游任務實用性。我們展示了我們的方法在保留實用性的同時大幅降低攻擊者的準確性。我們將我們的代碼和模型公開提供。
目前的視覺基礎模型僅訓練於無結構的2D數據,限制了對物體和場景的3D結構的理解。在這項工作中,我們展示了在3D感知數據上進行微調可以提高新興語義特徵的質量。我們設計了一種方法將語義2D特徵提升到高效的3D高斯表示,這使我們能夠為任意視角重新渲染它們。利用渲染的3D感知特徵,我們設計了一種微調策略,將這種3D感知轉移到2D基礎模型中。我們展示了通過簡單的線性探測,通過微調的模型產生的特徵可以立即改善語義分割和深度估計等下游任務的性能。值得注意的是,儘管在單個室內數據集上進行微調,但這種改進是可轉移的,適用於各種室內數據集和跨領域數據集。我們希望我們的研究能鼓勵社區在訓練2D基礎模型時考慮注入3D感知。項目頁面: https://ywyue.github.io/FiT3D。
將時間維度融入預訓練的圖像擴散模型以進行視頻生成是一種常見的方法。然而,這種方法在計算上要求高,需要大規模的視頻數據集。更為關鍵的是,圖像和視頻數據集之間的異質性往往導致圖像專業知識的災難性遺忘。最近直接從圖像擴散模型中提取視頻片段的嘗試在一定程度上緩解了這些問題。然而,這些方法只能生成簡短的視頻片段,動作簡單,無法捕捉細緻的運動或非網格變形。本文提出了一種新穎的零樣本視頻採樣算法,稱為ZS^2,能夠直接從現有的圖像合成方法(如穩定擴散)中採樣高質量的視頻片段,無需任何訓練或優化。具體而言,ZS^2利用依賴性噪聲模型和時間動量關注來確保內容一致性和動畫連貫性。這種能力使其在相關任務中表現卓越,如有條件的和上下文專用的視頻生成以及指導的視頻編輯。實驗結果表明,ZS^2在零樣本視頻生成方面取得了最先進的性能,有時優於最近的監督方法。 主頁:https://densechen.github.io/zss/。
神經場在計算機視覺和機器人技術方面表現卓越,因為它們能夠理解三維視覺世界,例如推斷語義、幾何和動態。考慮到神經場在從二維圖像密集表示三維場景方面的能力,我們提出一個問題:我們是否可以擴展它們的自監督預訓練,特別是使用遮罩自編碼器,以從姿態RGB圖像生成有效的三維表示。由於將Transformer擴展到新的數據模態取得了驚人的成功,我們採用標準的三維視覺Transformer來適應NeRF的獨特制定。我們利用NeRF的體積網格作為Transformer的密集輸入,與其他三維表示(如點雲)形成對比,其中信息密度可能不均勻,且表示不規則。由於將遮罩自編碼器應用於如NeRF之類的隱式表示的困難,我們選擇提取一個明確的表示,通過利用相機軌跡進行採樣,將場景在不同領域中進行規範化。我們的目標是通過從NeRF的輝度和密度網格中遮罩隨機補丁,並利用標準的三維Swin Transformer來重建遮罩補丁,使模型能夠學習完整場景的語義和空間結構。我們在我們提出的精心策劃的姿態RGB數據集上以大規模進行這種表示的預訓練,總計超過180萬張圖像。一旦預訓練完成,編碼器就可用於有效的三維遷移學習。我們為NeRF提出的新型自監督預訓練方法NeRF-MAE擴展得非常好,並提高了各種具有挑戰性的三維任務的性能。利用未標記的姿態二維數據進行預訓練,NeRF-MAE在Front3D和ScanNet數據集上的性能明顯優於自監督三維預訓練和NeRF場景理解基線,三維物體檢測的AP50和AP25絕對性能提高超過20%和8%。