每日精選AI研究論文及翻譯
大型神經網絡在浮點張量乘法上花費了大部分計算。在這項工作中,我們發現浮點乘法器可以以高精度逼近一個整數加法器。我們提出了線性複雜度乘法 L-Mul 演算法,該演算法用整數加法運算逼近浮點數乘法。這種新演算法的計算資源成本顯著低於8位浮點乘法,但實現了更高的精度。與8位浮點乘法相比,該方法實現了更高的精度,但消耗的位元級計算明顯較少。由於浮點數相乘需要比整數加法運算更多的能量,將 L-Mul 運算應用於張量處理硬體可能通過逐元素浮點張量乘法減少95%的能量成本,以及減少80%的點積能量成本。我們計算了 L-Mul 的理論誤差期望值,並在廣泛的文本、視覺和符號任務上評估了該演算法,包括自然語言理解、結構推理、數學和常識問答。我們的數值分析實驗與理論誤差估計一致,表明具有4位尾數的 L-Mul 實現了與 float8_e4m3 乘法相當的精度,而具有3位尾數的 L-Mul 優於 float8_e5m2。對流行基準測試的評估結果顯示,將 L-Mul 直接應用於注意機制幾乎沒有損失。我們進一步展示,在變壓器模型中將所有浮點乘法替換為具有3位尾數的 L-Mul,在微調和推理中實現了與使用 float8_e4m3 作為累加精度相等的精度。
最近在表示學習和函數學習方面的最新進展展示了在人工智慧各個領域中的巨大潛力。然而,這些範式的有效整合構成了一個重大挑戰,特別是在用戶必須根據數據集特性手動決定應用表示學習還是函數學習模型的情況下。為了解決這個問題,我們引入了 MLP-KAN,這是一種統一的方法,旨在消除手動模型選擇的需要。通過在專家混合模型 (MoE) 結構中集成多層感知器 (MLPs) 進行表示學習和科爾莫哥洛夫-阿諾德網絡 (KANs) 進行函數學習,MLP-KAN 可動態適應當前任務的具體特性,確保最佳性能。嵌入到基於變壓器的框架中,我們的工作在各個領域的四個廣泛使用的數據集上取得了顯著成果。廣泛的實驗評估顯示了其卓越的多功能性,提供了在深度表示學習和函數學習任務中競爭性表現。這些發現突顯了 MLP-KAN 簡化模型選擇過程的潛力,提供了一個全面、適應性的解決方案,適用於各種領域。我們的代碼和權重可在 https://github.com/DLYuanGod/MLP-KAN 上找到。
生成式人工智慧,特別是語言模型(LMs),具有潛力改變具有社會影響力的現實領域,尤其是在專家資源有限的情況下。例如,在教育領域,訓練新手教育工作者需要專家指導以提高效率,但成本高昂,這在大規模提升教育質量方面造成了重大障礙。這個挑戰對來自弱勢社區的學生造成不成比例的傷害,而這些學生最有可能從高質量教育中受益。我們介紹了Tutor CoPilot,一種新穎的人工智慧方法,利用專家思維模型為導師提供類似專家的指導。這項研究是在現場輔導中對人工智慧系統進行的第一項隨機對照試驗,涉及來自歷史上受到輕視社區的900名導師和1,800名K-12學生。根據預先註冊的分析計劃,我們發現與使用Tutor CoPilot的導師合作的學生更有可能掌握主題(p<0.01),提高了4個百分點。值得注意的是,評分較低導師的學生獲益最大,掌握程度提高了9個百分點。我們發現Tutor CoPilot每年每位導師的成本僅為20美元。我們使用分類器分析了超過550,000條消息,以識別教學策略,發現使用Tutor CoPilot的導師更有可能使用高質量策略來促進學生理解(例如,提問引導),並且更不太可能直接給出答案。導師訪談突顯了Tutor CoPilot的指導如何幫助導師應對學生需求,但也指出了Tutor CoPilot存在的問題,例如生成的建議不適合年級水平。總的來說,我們對Tutor CoPilot的研究展示了人工智慧系統如何在現實領域中擴展專業知識,彌合技能差距,並創造一個未來,讓高質量教育對所有學生都可及。
在注意力機制的背景中不必要的元素會降低性能。我們引入了選擇性注意力,這是對標準注意力機制的一個簡單且無需參數的改變,可減少對不需要的元素的關注。選擇性注意力提高了各種模型大小和上下文長度下的語言建模性能。例如,在C4上以語言建模目標訓練的一系列變壓器,搭配選擇性注意力的性能與標準變壓器相當,而後者在其注意力模塊中擁有約2倍的頭數和參數。選擇性注意力還允許減少注意力上下文緩衝區的大小,在推論過程中降低了記憶體和計算需求。例如,在C4上訓練的具有1億參數的變壓器,當配備選擇性注意力時,其注意力模塊的記憶體需求分別比沒有選擇性注意力的模型少了16倍、25倍和47倍,並且具有相同的驗證困惑度。
基於視覺語言模型(VLM)的機器人在檢測到濕地板時是否會警告我們可能會滑倒?最近的VLM已展示出令人印象深刻的能力,然而它們推斷結果和原因的能力仍未得到充分探索。為了解決這個問題,我們引入了NL-Eye,一個旨在評估VLM視覺溯因推理能力的基準測試。NL-Eye將溯因自然語言推理(NLI)任務應用到視覺領域,要求模型基於前提圖像評估假設圖像的合理性並解釋其決策。NL-Eye包含350個精心挑選的三元組示例(1,050張圖像),涵蓋各種推理類別:物理、功能性、邏輯、情感、文化和社會。數據編輯過程包括兩個步驟 - 撰寫文本描述和使用文本生成圖像模型生成圖像,兩者都需要大量人工參與以確保高質量和具有挑戰性的場景。我們的實驗表明,VLM在NL-Eye上遇到了顯著困難,通常表現在隨機基準水平,而人類在合理性預測和解釋質量方面表現出色。這表明現代VLM在溯因推理能力方面存在不足。NL-Eye代表了向開發能夠進行強大多模式推理的VLM的重要一步,包括用於事故預防機器人和生成視頻驗證等現實應用。
Mamba是狀態空間模型的一個特殊案例,作為醫學影像分析中基於模板的深度學習方法的替代方案,正變得越來越受歡迎。儘管變壓器是強大的架構,但存在缺點,包括二次計算複雜度和無法有效處理長距離依賴性。這一限制影響了在醫學影像中分析大型和複雜數據集,其中存在許多空間和時間關係。相比之下,Mamba提供了使其非常適合醫學影像分析的優勢。它具有線性時間複雜度,這是對變壓器的一個重大改進。Mamba處理更長序列而無需注意機制,實現更快的推斷並且需要更少的內存。Mamba還展現了在合併多模態數據方面的強大性能,提高了診斷準確性和患者結果。本文的組織使讀者能夠逐步欣賞Mamba在醫學影像中的能力。我們首先定義SSM和模型的核心概念,包括S4、S5和S6,然後探索Mamba架構,如純Mamba、U-Net變體以及與卷積神經網絡、變壓器和圖神經網絡的混合模型。我們還涵蓋了Mamba的優化、技術和適應、掃描、數據集、應用、實驗結果,並最終討論了在醫學影像中的挑戰和未來方向。本綜述旨在展示Mamba在克服醫學影像中現有障礙方面的轉型潛力,同時為該領域的創新進展鋪平道路。本文中檢視的應用於醫學領域的Mamba架構的全面列表可在Github上找到。
目前的大型自迴歸模型能夠生成高質量、高分辨率的圖像,但在推論過程中需要數百甚至數千步的下一個 token 預測,這導致了相當大的時間消耗。在現有研究中,Jacobi 解碼,一種迭代並行解碼算法,被用來加速自迴歸生成,並且可以在無需訓練的情況下執行。然而,Jacobi 解碼依賴於確定性標準來確定迭代的收斂性。因此,它適用於貪婪解碼,但與基於抽樣的解碼不相容,而這對於當前自迴歸文本到圖像生成中的視覺質量和多樣性至關重要。在本文中,我們提出了一種無需訓練的概率並行解碼算法,名為推測性 Jacobi 解碼(SJD),以加速自迴歸文本到圖像生成。通過引入概率收斂標準,我們的 SJD 在保持抽樣式 token 解碼中的隨機性的同時,加速了自迴歸文本到圖像生成的推論,並允許模型生成多樣的圖像。具體來說,SJD 促使模型在每個步驟預測多個 token,並根據概率標準接受 token,使模型能夠比傳統的下一個 token 預測範式生成更少步驟的圖像。我們還研究了利用視覺數據的空間局部性來改進在特定情況下加速比率的 token 初始化策略。我們對多個自迴歸文本到圖像生成模型進行了我們提出的 SJD 實驗,展示了在不犧牲視覺質量的情況下模型加速的有效性。
最近,文本轉紋理生成引起了越來越多的關注,但現有方法常常存在著視角不一致、明顯接縫以及紋理與底層網格不對齊等問題。本文提出了一種強大的文本轉紋理方法,用於生成一致且無縫接的紋理,並與網格良好對齊。我們的方法利用最先進的2D擴散模型,包括SDXL和多個ControlNets,來捕捉生成紋理中的結構特徵和細微細節。該方法還採用了對稱視角合成策略,結合區域提示以增強視角一致性。此外,它引入了新穎的紋理混合和軟修補技術,顯著減少了接縫區域。大量實驗表明,我們的方法優於現有的最先進方法。
在語言模型中的概念消除傳統上缺乏全面的評估框架,導致對消除方法效果的評估不完整。我們提出了一個以三個關鍵標準為中心的評估範式:清白度(完全知識刪除)、無縫性(保持條件流暢生成)和特異性(保留無關任務表現)。我們的評估指標自然地促進了「語言記憶消除」(ELM)的開發,這是一種旨在應對所有三個維度的新方法。ELM採用針對性的低秩更新來改變消除概念的輸出分佈,同時保留整體模型的能力,包括在提示刪除概念時的流暢性。我們展示了ELM在生物安全、網絡安全和文學領域的消除任務上的有效性。比較分析顯示,ELM在我們提出的指標上取得了卓越表現,包括在刪除主題評估、生成流暢性、無關基準上的準確性和對抗性攻擊下的穩健性方面幾乎達到隨機分數。我們的代碼、數據和訓練模型可在https://elm.baulab.info 上獲得。
最近對於大型程式碼語言模型(Code Large Language Models,CodeLLMs)的進展主要集中在開放式程式碼生成任務,往往忽略了程式碼理解和理解的關鍵方面。為彌補這一差距,我們提出了CodeMMLU,這是一個全面的多項選擇問答基準,旨在評估LLMs中軟體和程式碼理解的深度。CodeMMLU包含來自不同領域的超過10,000個問題,涵蓋了程式碼分析、缺陷檢測和跨多種程式語言的軟體工程原則等任務。與傳統基準不同,CodeMMLU評估模型推理程式碼的能力,而不僅僅是生成程式碼,提供對其對複雜軟體概念和系統的掌握更深入的洞察。我們的廣泛評估顯示,即使是最先進的模型在CodeMMLU上也面臨著重大挑戰,突顯了在程式碼生成之外的理解方面的不足。通過強調程式碼理解與有效生成之間的關鍵關係,CodeMMLU作為推進AI輔助軟體開發的重要資源,最終旨在創建更可靠和能幹的編碼助手。
現實生活中的機器人導航不僅僅是到達目的地;它需要在解決特定情境目標的同時優化移動。人類表達這些目標的直觀方式是通過抽象提示,如口頭命令或粗略草圖。這樣的人類引導可能缺乏細節或存在噪音。儘管如此,我們期望機器人能按照預期進行導航。為了讓機器人能夠解釋並執行這些與人類期望一致的抽象指令,它們必須與人類共享對基本導航概念的共同理解。為此,我們介紹了CANVAS,一個結合視覺和語言指令的常識感知導航新框架。它的成功來自於模仿學習,使機器人能夠從人類導航行為中學習。我們提出了COMMAND,一個包含人類標註的導航結果的全面數據集,涵蓋48小時和219公里,旨在訓練在模擬環境中的常識感知導航系統。我們的實驗表明,CANVAS在所有環境中均優於強大的基於規則的系統ROS NavStack,展現出對於噪音指令的優越性能。值得注意的是,在果園環境中,ROS NavStack記錄了0%的總成功率,而CANVAS實現了67%的總成功率。CANVAS還在未知環境中與人類示範和常識約束密切一致。此外,CANVAS的實際部署展示了令人印象深刻的Sim2Real轉移,總成功率達到69%,突顯了從模擬環境中學習人類示範對於現實應用的潛力。
填充中間(FIM)已經成為程式語言模型中不可或缺的部分,使得能夠根據左右內容生成缺失的程式碼。然而,目前的FIM訓練範式重新排序原始訓練序列,然後進行常規的下一令牌預測(NTP),往往導致模型難以生成與周圍上下文平滑對齊的內容。重要的是,現有的研究依賴基於規則的後處理來繞過這個弱點,但這些方法在開放域程式碼完成任務中並不實用,因為它們依賴於限制性的、特定於數據集的假設(例如,生成與實際情況中相同數量的行)。此外,在沒有這些不切實際的假設的情況下,模型在FIM任務上的表現會顯著下降。 我們假設僅靠NTP是不足以讓模型學習有效的規劃,這種規劃是基於遠端右上下文的,這是成功的程式碼填充的關鍵因素。為了克服這一點,我們提出了Horizon-Length Prediction(HLP),這是一種新穎的訓練目標,教導模型在每一步預測剩餘中間令牌的數量(即,地平線長度)。HLP通過具有前瞻性規劃來推進FIM,使模型能夠在不依賴特定於數據集的後處理的情況下,內在地學習任意左右上下文的填充邊界。我們在不同模型和尺寸上的評估顯示,HLP在各種基準測試中使FIM性能相對提高了多達24%,跨文件級和存儲庫級,並且無需使用不切實際的後處理方法。此外,通過HLP獲得的增強規劃能力提升了模型在程式碼推理上的性能。重要的是,HLP只帶來可忽略的訓練開銷,並且不會增加額外的推理成本,確保其在現實場景中的實用性。
股市預測因其固有的高波動性和低信息噪聲比而成為一個極具挑戰性的問題,數十年來一直如此。基於機器學習或深度學習的現有解決方案通過使用在整個股票數據集上訓練的單一模型展現出優越的性能,以生成各種類型股票的預測。然而,由於股票風格和市場趨勢存在顯著變化,單一端到端模型難以完全捕捉這些風格化股票特徵的差異,導致對所有類型股票的預測相對不準確。本文提出了一種新穎的MIGA(Mixture of Expert with Group Aggregation)框架,旨在通過動態在不同風格專家之間切換,為具有不同風格的股票生成專業預測。為促進MIGA中不同專家之間的合作,我們提出了一種新穎的內部組關注架構,使同一組中的專家共享信息,從而提高所有專家的整體性能。結果,MIGA在包括CSI300、CSI500和CSI1000在內的三個中國股票指數基準上明顯優於其他端到端模型。值得注意的是,MIGA-Conv在CSI300基準上達到24%的超額年回報,超越先前的最先進模型8個百分點。此外,我們對股市預測的專家混合進行了全面分析,為未來研究提供了寶貴的見解。
儘管深度學習在非結構化數據領域佔主導地位,但基於樹的方法,如隨機森林(RF)和梯度提升決策樹(GBDT),仍然是處理表格數據上的區分任務的主力。我們探索這些熱門算法的生成擴展,重點放在明確地對數據密度進行建模(直到歸一化常數),從而使其能夠應用於除了抽樣之外的其他任務。作為我們的主要貢獻,我們提出了一種基於能量的生成增強算法,類似於流行套件(如XGBoost)中實現的二階增強。我們展示,儘管生成一個能夠處理任何輸入變量的生成模型,我們提出的算法在許多真實世界的表格數據集上可以實現與GBDT相似的區分性能,勝過其他生成方法。同時,我們展示它在抽樣方面也與基於神經網絡的模型具有競爭力。
影片詳細字幕是一項關鍵任務,旨在生成對影片內容進行全面且連貫的文字描述,有助於影片理解和生成。在本文中,我們提出了基於大型多模型的影片字幕生成模型 AuroraCap。我們採用最簡單的架構設計,無需額外的參數進行時間建模。為了應對長影片序列帶來的額外負擔,我們實現了 token 合併策略,減少輸入視覺 token 的數量。令人驚訝的是,我們發現這種策略幾乎不會導致性能下降。AuroraCap 在各種影片和圖片字幕基準測試中表現優異,例如,在 Flickr30k 上獲得了 88.9 的 CIDEr,超越了 GPT-4V(55.3)和 Gemini-1.5 Pro(82.2)。然而,現有的影片字幕基準測試僅包含簡單描述,由幾十個詞組成,這限制了該領域的研究。因此,我們開發了 VDC,一個具有一千多個精心註釋結構化字幕的影片詳細字幕基準測試。此外,我們提出了一個新的 LLM 輔助指標 VDCscore 用於改進評估,該指標採用分治策略,將長字幕評估轉換為多個短問答對。通過人類 Elo 排名的幫助,我們的實驗表明,這個基準測試更好地與人類對影片詳細字幕質量的判斷相關。
如今,由於需要人力來創建多樣化的模擬任務和場景,機器人模擬仍然具有難以擴展的挑戰性。同時,由於許多模擬到真實方法專注於單一任務,受到規模化問題的影響,基於模擬訓練的策略也面臨著擴展性問題。為應對這些挑戰,本研究提出了GenSim2,這是一個可擴展的框架,利用具有多模態和推理能力的編碼LLMs來創建複雜且逼真的模擬任務,包括具有關節物體的長視程任務。為了自動地大規模生成這些任務的示範數據,我們提出了計劃和RL求解器,可以在物體類別內進行泛化。這個流程可以為多達100個有關節的任務生成數據,包含200個物體,並減少所需的人力。為了利用這些數據,我們提出了一種有效的多任務語言條件策略架構,名為本體感知點雲變換器(PPT),它可以從生成的示範中學習,展現出強大的模擬到真實的零-shot轉移。結合所提出的流程和策略架構,我們展示了GenSim2的一個有前途的應用,即生成的數據可以用於零-shot轉移或與真實收集的數據共同訓練,這樣相比僅在有限的真實數據上訓練,可以將策略性能提高20%。