每日精選AI研究論文及翻譯
我們提出了 Jamba,一個基於新穎的混合Transformer-Mamba專家混合(MoE)架構的大型語言模型基礎。具體而言,Jamba交錯應用Transformer和Mamba層的區塊,享受兩個模型家族的優勢。在某些層中添加MoE以增加模型容量,同時保持活躍參數的可管理性。這種靈活的架構允許資源和目標特定的配置。在我們實施的特定配置中,我們得到了一個強大的模型,適合單個80GB GPU。Jamba在大規模下構建,相比於普通Transformer,提供高吞吐量和小內存佔用,同時在標準語言模型基準和長內文評估中達到最先進的性能。值得注意的是,該模型對長達256K個標記的上下文長度呈現出強大的結果。我們研究了各種架構決策,例如如何結合Transformer和Mamba層,以及如何混合專家,並展示其中一些在大規模建模中至關重要。我們還描述了這些架構的幾個有趣特性,這些特性是通過Jamba的訓練和評估揭示的,並計劃釋放各種消融運行的檢查點,以鼓勵對這種新穎架構進行進一步探索。我們將我們對Jamba實現的權重以寬鬆許可許可證公開發布。
我們介紹了 Gecko,一個小巧且多功能的文字嵌入模型。Gecko 通過利用一個關鍵思想實現了強大的檢索性能:將大型語言模型(LLMs)中的知識提煉到一個檢索器中。我們的兩步提煉過程始於使用LLM生成多樣化的合成配對數據。接下來,我們通過為每個查詢檢索一組候選段落,並使用相同的LLM重新標記正面和困難的負面段落,進一步改進數據質量。我們方法的有效性通過 Gecko 的緊湊性得以證明。在大規模文本嵌入基準測試(MTEB)中,具有256嵌入維度的 Gecko 優於所有現有的768嵌入尺寸條目。具有768嵌入維度的 Gecko 實現了66.31的平均分數,與7倍更大的模型和5倍更高維度的嵌入進行競爭。
大型語言模型(LLM)被廣泛應用於智能助手、文本摘要、翻譯和手機上的多模式任務。然而,目前用於設備上LLM部署的方法導致推理速度緩慢,影響使用者體驗。為了在設備GPU上實現高效的LLM部署,我們提出了四種優化技術:(a)基於符號表達的方法來支持動態形狀模型推理;(b)運算優化和執行優先級設置以提高推理速度並減少手機延遲;(c)一種稱為M0E4的FP4量化方法,以減少去量化開銷;(d)一種基於子張量的技術,消除LLM推理後需要複製KV緩存的需求。此外,我們在我們的移動推理引擎Transformer-Lite中實現了這些方法,該引擎與高通和聯發科處理器兼容。我們使用不同架構和參數範圍從2B到14B的LLM對Transformer-Lite的性能進行了評估。具體來說,我們實現了ChatGLM2 6B的預填充速度和解碼速度分別為121 token/s和14 token/s,以及較小的Gemma 2B分別為330 token/s和30 token/s。與基於CPU的FastLLM和基於GPU的MLC-LLM相比,我們的引擎在預填充速度方面實現了超過10倍的加速,解碼速度方面實現了2~3倍的加速。
參考消解是一個重要的問題,對於理解和成功處理各種不同類型的語境至關重要。這些語境包括先前的對話轉折和涉及非對話實體的語境,例如用戶螢幕上的實體或在背景運行的實體。儘管長文本模型已被證明在各種任務中非常強大,但它們在參考消解方面的應用,特別是對於非對話實體,仍然被低估。本文展示了如何利用長文本模型來創建一個極其有效的系統來解決各種類型的參考,方法是將參考消解轉換為語言建模問題,儘管牽涉到螢幕上的實體等傳統上不易納入僅限於文本模式的形式。我們展示了相對於現有具有相似功能的系統,我們的最小模型在不同類型的參考中取得了絕對增益,螢幕上的參考增益超過5%。我們還與GPT-3.5和GPT-4進行了基準測試,我們的最小模型實現了與GPT-4相當的性能,而我們的較大模型則明顯優於它。
儘管新穎視角合成(NVS)在3D電腦視覺領域取得了顯著進展,但通常需要從密集視點對相機內部參數和外部參數進行初始估計。這種預處理通常通過結構從運動(SfM)流程進行,這種程序可能會很慢且不可靠,特別是在稀疏視角情況下,由於匹配特徵不足以進行準確重建。在這項工作中,我們將基於點的表示法(例如3D高斯飛灑,3D-GS)的優勢與端到端的密集立體模型(DUSt3R)相結合,以應對NVS在無限制環境下的複雜但未解決的問題,該環境包括無姿態和稀疏視角挑戰。我們的框架InstantSplat將密集立體先驗與3D-GS結合,以在不到1分鐘內從稀疏視角和無姿態圖像中構建大規模場景的3D高斯。具體而言,InstantSplat包括一個快速建立初始場景結構和所有訓練視角的相機參數的粗略幾何初始化(CGI)模塊,利用從預先訓練的密集立體流程中獲得的全局對齊的3D點地圖。然後是快速3D高斯優化(F-3DGO)模塊,該模塊聯合優化3D高斯屬性和初始化姿態,並進行姿態正則化。在大規模室外Tanks&Temples數據集上進行的實驗表明,InstantSplat顯著提高了SSIM(32%),同時將絕對軌跡誤差(ATE)降低了80%。這些結果確立了InstantSplat作為處理無姿態和稀疏視角情況的可行解決方案。項目頁面:instantsplat.github.io。
本文介紹了一個對視覺語言模型(VLMs)提出的新穎且重要的挑戰,稱為無法解決問題檢測(UPD)。UPD檢驗了VLM在視覺問答(VQA)任務中面對無法解決問題時保留答案的能力。UPD包含三個不同的設置:缺失答案檢測(AAD)、不相容答案集檢測(IASD)和不相容視覺問題檢測(IVQD)。為了深入研究UPD問題,廣泛的實驗表明,包括GPT-4V和LLaVA-Next-34B在內的大多數VLMs在不同程度上都難以應對我們的基準,突顯了改進的重要空間。為了應對UPD,我們探索了無需訓練和基於訓練的解決方案,提供了對其有效性和局限性的新見解。我們希望我們的見解,以及在提出的UPD設置內的未來努力,將增進對更實用和可靠的VLMs的更廣泛理解和發展。
我們能否定位語言模型用來記憶和背誦整段訓練數據的權重和機制?在本文中,我們展示了儘管記憶分佈在多個層和模型組件中,但被記憶段落的梯度具有可識別的空間模式,較低層模型的梯度比非記憶範例更大。此外,被記憶的範例可以通過僅微調高梯度權重來取消學習。我們定位了一個低層關注頭,似乎特別參與段落記憶。這個關注頭主要將注意力集中在在語料庫級別單字分佈中最不常見的獨特罕見標記上。接下來,我們通過干擾標記並測量解碼引起的變化,研究了記憶在前綴中跨標記的本地化。前綴中的幾個獨特標記往往可以損壞整個延續。總的來說,被記憶的延續不僅更難取消學習,而且比非記憶的更難損壞。
為了降低Transformer的計算負荷,線性注意力的研究已經取得了顯著的進展。然而,對於注意機制的改進策略通常需要進行大量的重新訓練,對於具有大量參數的大型語言模型來說是不切實際的。在本文中,我們提出了DiJiang,一種新穎的頻域核方法,可以將預訓練的基本Transformer轉換為具有較小訓練成本的線性複雜度模型。通過採用加權的拟蒙特卡洛方法進行採樣,所提出的方法在理論上提供了更優越的近似效率。為了進一步降低訓練計算複雜度,我們的核方法基於離散餘弦變換(DCT)操作。大量實驗表明,所提出的方法實現了與原始Transformer相當的性能,但訓練成本大幅降低,推理速度更快。我們的DiJiang-7B在各種基準測試中實現了與LLaMA2-7B相當的性能,但僅需約1/50的訓練成本。代碼可在https://github.com/YuchuanTian/DiJiang找到。
近年來深度學習的最新進展主要依賴於Transformer,因為它們具有對數據的依賴性和在大規模學習方面的能力。然而,在這些架構中的注意力模塊展現出輸入大小的二次時間和空間,限制了它們在長序列建模方面的可擴展性。儘管最近有嘗試為多維數據(如圖像和多變量時間序列)設計高效且有效的架構骨幹,現有模型要麼是獨立於數據,要麼無法實現跨維度和內部維度的通信。最近,具有高效硬體感知實現的狀態空間模型(SSMs),尤其是具有選擇性的狀態空間模型,展現出對長序列建模的潛力。受SSMs成功的啟發,我們提出了MambaMixer,一種具有數據依賴權重的新架構,它使用跨記號和通道的雙重選擇機制,稱為選擇性記號和通道混合器。MambaMixer通過加權平均機制連接選擇性混合器,使得層可以直接訪問早期特徵。作為概念證明,我們基於MambaMixer塊設計了Vision MambaMixer(ViM2)和Time Series MambaMixer(TSM2)架構,並探索它們在各種視覺和時間序列預測任務中的性能。我們的結果突顯了跨記號和通道的選擇性混合的重要性。在ImageNet分類、物體檢測和語義分割任務中,ViM2與眾多知名視覺模型實現了競爭性性能,並超越了基於SSM的視覺模型。在時間序列預測方面,TSM2相較於最先進的方法實現了優異的性能,同時顯著提高了計算成本。這些結果表明,儘管Transformer、跨通道注意力和MLPs對於時間序列預測的良好性能是足夠的,但並非必要。
觸覺和視覺緊密相關,相互增強我們理解世界的能力。從研究角度來看,混合觸覺和視覺的問題尚未得到充分探討,並提出了有趣的挑戰。為此,我們提出了Tactile-Informed 3DGS,這是一種新穎的方法,將觸覺數據(局部深度圖)與多視角視覺數據相結合,以實現表面重建和新視角合成。我們的方法通過優化3D高斯基元來準確地模擬物體在接觸點的幾何形狀。通過創建一個在接觸位置降低透射率的框架,我們實現了精緻的表面重建,確保深度圖均勻平滑。在考慮非蘭伯特物體(例如光滑或反射表面)時,觸覺特別有用,因為當代方法往往無法忠實重建反射高光。通過結合視覺和觸覺感知,我們比以往方法使用更少的圖像實現了更準確的幾何重建。我們對具有光澤和反射表面的物體進行評估,展示了我們方法的有效性,提供了重建質量的顯著改進。