每日精選AI研究論文及翻譯
我們介紹了Transfusion,一種用於在離散和連續數據上訓練多模型的方法。Transfusion將語言建模損失函數(下一個標記預測)與擴散結合起來,以訓練一個單一的Transformer模型來處理混合模態序列。我們從頭開始對多個Transfusion模型進行預訓練,總共達到7B個參數,使用文本和圖像數據的混合,建立了與各種單模態和跨模態基準相關的擴展規律。我們的實驗表明,Transfusion比對圖像進行量化並訓練語言模型以處理離散圖像標記的方法有顯著更好的擴展性。通過引入模態特定的編碼和解碼層,我們可以進一步提高Transfusion模型的性能,甚至將每個圖像壓縮為僅16個塊。我們進一步展示,將我們的Transfusion方法擴展到7B個參數和2T個多模態標記,可以生成與類似規模的擴散模型和語言模型相當的圖像和文本,兼具兩者的優勢。
近期對大型語言模型(LLMs)的進展顯著增強了對表格數據的解釋和處理,引入了以前難以想像的能力。儘管取得了這些成就,LLMs在應用於工業場景時仍然遇到重大挑戰,特別是由於現實世界表格數據所需的推理複雜性增加,凸顯了學術基準和實際應用之間的顯著差距。為解決這一差異,我們對工業場景中表格數據的應用進行了詳細調查,並提出了一個全面且複雜的基準TableBench,其中包括四個主要類別中的18個字段的表格問答(TableQA)能力。此外,我們引入了TableLLM,該模型在我們精心構建的訓練集TableInstruct上訓練,實現了與GPT-3.5可比的性能。在TableBench上進行的大量實驗表明,無論是開源還是專有的LLMs,仍有很大的改進空間以滿足現實需求,其中最先進的模型GPT-4與人類相比僅達到了較低的得分。
將程式碼包含在預訓練數據混合中,即使對於非專門設計用於程式碼的模型而言,已成為LLM預訓練中的常見做法。儘管從業者之間普遍認為程式碼數據對於一般LLM的性能至關重要,但僅有有限的研究分析了程式碼對非程式碼任務的確切影響。在這項研究中,我們系統地調查了程式碼數據對一般性能的影響。我們探討「將程式碼數據用於預訓練對超出程式碼生成範疇的各種下游任務有何影響」。我們進行了大量的消融實驗,並在廣泛的自然語言推理任務、世界知識任務、程式基準和LLM作為評判的勝率上進行評估,模型規模從4.7億到28億個參數不等。在各種設置中,我們得出一致的結果,即程式碼是通用化的關鍵基石,遠超出編碼任務,並且提高程式碼質量對所有任務都有巨大影響。特別是,相較於僅文本預訓練,加入程式碼可使自然語言(NL)推理提高最高達8.2%,世界知識提高4.2%,生成勝率提高6.6%,程式碼性能提高12倍。我們的研究表明,投資於程式碼質量和在預訓練期間保留程式碼對有正面影響。
我們提出在不同視圖中對補丁表示進行排序,作為一種新穎的自監督學習信號,以改善預訓練表示。為此,我們引入 NeCo:補丁鄰域一致性,這是一種新穎的訓練損失,強制在學生模型和教師模型之間實現基於參考批次的補丁級最近鄰一致性。我們的方法利用可微分排序方法應用於預訓練表示之上,例如 DINOv2-註冊,以啟動學習信號並進一步改進它們。這種密集的後預訓練方法在各種模型和數據集上實現了優越性能,儘管僅需在單個 GPU 上進行 19 小時。我們展示了這種方法生成了高質量的密集特徵編碼器,並建立了幾個新的最新成果:在 ADE20k 和 Pascal VOC 上進行非參數化上下文語義分割,分別提高了 +5.5% 和 +6%,在 COCO-Things 和 -Stuff 上進行線性分割評估,分別提高了 +7.2% 和 +5.7%。
大型語言模型(LLMs)在長文本應用中變得更加普遍,例如互動式聊天機器人、文件分析和代理工作流程,但要以低延遲和高吞吐量提供長文本請求具有挑戰性。猜測解碼(SD)是一種廣泛使用的技術,可在不影響性能的情況下降低延遲,但傳統觀點認為其效力僅限於小批量大小。 在MagicDec中,我們展示了令人驚訝的結果,即SD即使對於中長序列的高吞吐量推理模式也能實現加速。更有趣的是,根據我們的嚴格分析,一種智能起草策略可以隨著批量大小的增加實現更好的加速。MagicDec首先識別隨著批量大小和序列長度增加而出現的瓶頸轉移,並利用這些見解更有效地部署猜測解碼以進行高吞吐量推理。然後,它利用帶有稀疏KV緩存的起草模型來解決隨著序列長度和批量大小增加而擴展的KV瓶頸。
擴散模型因其卓越的能力而成為文本到圖像生成的領跑者。然而,在訓練過程中固定的圖像解析度常常導致高解析度圖像生成方面的挑戰,例如語義不準確和物體重複。本文介紹了MegaFusion,這是一種新穎的方法,將現有基於擴散的文本到圖像生成模型擴展到高效的高解析度生成,而無需額外的微調或額外的適應。具體而言,我們採用了一種創新的截斷和中繼策略,以跨越不同解析度之間的去噪過程,實現了以粗到細的方式進行高解析度圖像生成。此外,通過整合膨脹卷積和噪聲重新安排,我們進一步調整了模型的先驗以適應更高的解析度。MegaFusion的多功能性和功效使其適用於潛在空間和像素空間的擴散模型,以及其他衍生模型。廣泛的實驗證實,MegaFusion顯著提升了現有模型生成百萬像素和各種長寬比圖像的能力,同時僅需原始計算成本的約40%。
在當今時代,大型語言模型(LLMs)被整合到眾多實際應用中,確保其安全性和韌性對於負責任的人工智慧應用至關重要。自動紅隊方法在這一過程中扮演關鍵角色,通過生成對抗攻擊來識別和減輕這些模型中潛在的漏洞。然而,現有方法常常面臨性能緩慢、分類多樣性有限和資源需求高的困難。最近提出的Rainbow Teaming方法通過將對抗提示生成定義為一種質量多樣性搜索,解決了多樣性挑戰,但仍然速度較慢,需要大量微調的變異器才能實現最佳性能。為了克服這些限制,我們提出了Ferret,這是一種新穎的方法,它在Rainbow Teaming的基礎上生成每次迭代多個對抗提示變異,並使用評分函數來排名和選擇最有效的對抗提示。我們探索了各種評分函數,包括獎勵模型、Llama Guard和LLM作為評判,以根據潛在危害對對抗變異進行排名,從而提高尋找有害變異的效率。我們的結果表明,利用獎勵模型作為評分函數的Ferret將整體攻擊成功率(ASR)提高到95%,比Rainbow Teaming高出46%。此外,與基準相比,Ferret將實現90%ASR所需的時間減少了15.2%,並生成可轉移的對抗提示,即對更大型LLMs有效。我們的代碼可在https://github.com/declare-lab/ferret找到。
「匹配剪輯」是一種常見的影片剪輯技術,其中一對具有相似構圖的鏡頭能夠流暢地過渡。儘管匹配剪輯通常是視覺上的,但某些匹配剪輯涉及音頻的流暢過渡,不同來源的聲音融合成一個無法區分的過渡,連接兩個鏡頭。在本文中,我們探討自動尋找和創建影片和電影中的「音頻匹配剪輯」的能力。我們為音頻匹配剪輯創建了一種自監督音頻表示,並開發了一個從粗糙到精細的音頻匹配流程,該流程推薦匹配的鏡頭並創建混合音頻。我們進一步為提出的音頻匹配剪輯任務標註了一個數據集,並比較了多種音頻表示的能力來尋找音頻匹配剪輯候選者。最後,我們評估了多種方法來混合兩個匹配的音頻候選者,目的是創建平滑的過渡。項目頁面和示例可在以下網址找到:https://denfed.github.io/audiomatchcut/
基於Transformer的大型語言模型(LLMs)存在諸如生成不安全回應、不可靠推理等限制。現有的推論干預方法試圖通過微調額外模型來生成校準信號(如獎勵),以引導LLM的解碼過程,以減輕這些問題。然而,這種解決方案由於需要獨立模型而引入了大量的時間和空間開銷。本研究提出了非干擾性參數插入(Otter),將額外參數插入Transformer架構,以預測校準信號和原始LLM輸出一起。Otter在多個具挑戰性任務上提供了最先進的性能,同時節省高達86.5%的額外空間和98.5%的額外時間。此外,Otter與現有的推論引擎無縫集成,僅需要一行代碼更改,並且在參數插入後,原始模型響應仍然可訪問。我們的代碼公開在https://github.com/chenhan97/Otter。
文字轉圖像生成系統的快速發展,例如Stable Diffusion、Midjourney、Imagen和DALL-E等模型,加劇了人們對其潛在濫用的擔憂。為應對此,Meta和Google等公司加大了實施數字水印技術於AI生成圖像上,以遏制潛在誤導視覺內容的流通。然而,在本文中,我們認為當前的圖像水印方法脆弱且容易通過視覺改寫攻擊來規避。所提出的視覺改寫器分為兩個步驟。首先,利用KOSMOS-2這一最新的頂尖圖像字幕系統為給定圖像生成標題。其次,將原始圖像和生成的標題傳遞給圖像對圖像擴散系統。在擴散管道的去噪步驟中,系統生成一個在文本標題引導下的視覺上相似的圖像。結果得到的圖像是一個視覺改寫,並且不含任何水印。我們的實證研究結果表明,視覺改寫攻擊可以有效地從圖像中刪除水印。本文提供了對現有水印技術對視覺改寫攻擊的脆弱性進行實證評估。雖然我們並未提出解決方案,但本文呼籲科學界優先開發更強大的水印技術。我們首創的視覺改寫數據集及相應代碼已公開提供。
物理學中專業術語和複雜概念對透過自然語言處理(NLP)進行信息提取構成重大挑戰。對於有效的NLP應用來說,文本嵌入模型至關重要,它將文本轉換為密集向量表示,以實現高效的信息檢索和語義分析。在這項工作中,我們介紹了PhysBERT,這是第一個針對物理學的文本嵌入模型。PhysBERT在經過1.2百萬篇arXiv物理論文的精心策劃語料庫上進行預訓練,並通過監督數據進行微調,優於領先的通用模型在物理學特定任務上的表現,包括對特定物理學子領域進行微調的效果。
基於事件相機的視覺追踪近年來越來越受到關注,這是由於其獨特的成像原理以及低能耗、高動態範圍和密集時間分辨率的優勢。目前基於事件的追踪算法逐漸達到性能瓶頸,這是由於利用視覺Transformer和靜態模板進行目標物體定位。本文提出了一種新穎的基於Mamba的視覺追踪框架,採用具有線性複雜度的狀態空間模型作為骨幹網絡。搜索區域和目標模板被輸入視覺Mamba網絡進行同時特徵提取和交互。搜索區域的輸出標記將被輸入到追踪頭進行目標定位。更重要的是,我們考慮在追踪框架中引入一種動態模板更新策略,使用Memory Mamba網絡。通過考慮目標模板庫中樣本的多樣性並對模板記憶模塊進行適當調整,可以集成一個更有效的動態模板。動態和靜態模板的有效組合使我們基於Mamba的追踪算法能夠在多個大規模數據集(包括EventVOT、VisEvent和FE240hz)上實現準確性和計算成本之間的良好平衡。源代碼將在https://github.com/Event-AHU/MambaEVT 上發布。
長久以來,賦予機器手人類級靈巧度一直是一個重要的研究目標。雙手機器人彈鋼琴是一項任務,結合了動態任務的挑戰,如生成快速而精確的動作,以及較慢但接觸豐富的操控問題。儘管基於強化學習的方法在單一任務表現方面取得了令人鼓舞的成果,但這些方法在多首歌曲的情況下仍然困難重重。我們的工作旨在彌合這一差距,從而實現規模化的機器人彈鋼琴模仿學習方法。為此,我們引入了機器人鋼琴100萬(RP1M)數據集,其中包含超過一百萬條雙手機器人彈鋼琴運動軌跡數據。我們將手指位置形成為最優運輸問題,從而實現對大量未標記歌曲的自動標註。通過對現有的模仿學習方法進行基準測試,顯示出這些方法通過利用RP1M實現了最先進的機器人彈鋼琴表現。
3D高斯點陣(3DGS)已成為許多視覺任務中3D表示的事實標準方法。這要求直接在該表示空間中進行3D理解。為了促進在這個方向上的研究,我們首先利用常用的ShapeNet和ModelNet數據集構建了一個大規模的3DGS數據集。我們的數據集ShapeSplat包含來自87個獨特類別的65K個物體,其標籤與相應的數據集一致。創建這個數據集使用了相當於在TITAN XP GPU上進行2 GPU年的計算。 我們利用我們的數據集進行無監督預訓練和監督微調,用於分類和分割任務。為此,我們引入了\textit{高斯-MAE},突出了從高斯參數進行表示學習的獨特好處。通過詳盡的實驗,我們提供了一些有價值的見解。特別地,我們展示了(1) 優化的GS中心的分佈與均勻採樣的點雲(用於初始化)對應物明顯不同;(2) 這種分佈變化導致在僅使用中心時分類下降但在分割任務中改善;(3) 為了利用額外的高斯參數,我們提出了在歸一化特徵空間中的高斯特徵分組,以及splats池層,提供了一個定制解決方案,有效地將相似的高斯分組和嵌入,從而在微調任務中實現顯著改進。
城市移動和交通系統已被自動駕駛車輛技術的進步深刻改變。來自中國科技巨頭百度的先鋒無人出租車服務百度Apollo Go最近已在北京和武漢等主要城市廣泛部署,引發了更多討論,並展示了城市移動未來的一瞥。 本研究使用混合BERT模型對2024年1月至7月的36,096條微博帖子進行情感分析,探討了中國公眾對Apollo Go的態度。分析顯示,89.56\%與Apollo Go相關的帖子集中在7月。從1月到7月,公眾情緒大多是積極的,但在7月21日成為熱門話題後,負面評論開始增加。 空間分析顯示,高討論密度的省份與Apollo Go運營的省份之間存在著很強的相關性。最初,湖北和廣東主導了在線發帖量,但到了7月,廣東、北京和國際地區已超過了湖北。各省的態度存在顯著差異,新疆和青海表現出樂觀,而西藏和甘肅則對傳統出租車服務的影響表示擔憂。 情感分析顯示,積極評論主要集中在技術應用和個人經驗上,而負面評論則集中在就業機會流失和安全問題上。總之,本研究凸顯了公眾對自動叫車服務的看法存在分歧,為規劃者、政策制定者和服務提供者提供了寶貴的見解。該模型已發布在Hugging Face上,網址為https://huggingface.co/wsqstar/bert-finetuned-weibo-luobokuaipao,並在GitHub上建立了存儲庫,網址為https://github.com/GIStudio/trb2024。