每日精選AI研究論文及翻譯
擁有廣泛的二維網格、各種佈局和多樣格式選項的試算表,對於大型語言模型(LLMs)來說具有顯著挑戰。為應對此,我們引入了SpreadsheetLLM,開創了一種高效的編碼方法,旨在釋放和優化LLMs對試算表的強大理解和推理能力。最初,我們提出了一種基本序列化方法,該方法包括單元格地址、數值和格式。然而,由於LLMs的標記限制,這種方法在大多數應用中並不實用。為應對這一挑戰,我們開發了SheetCompressor,一種創新的編碼框架,有效地為LLMs壓縮試算表。它包括三個模塊:基於結構錨點的壓縮、逆向索引轉換和數據格式感知的聚合。在試算表表格檢測任務中,它顯著提高了性能,在GPT4的內文學習環境中,比基本方法高出25.6%。此外,使用SheetCompressor進行微調的LLM具有平均25倍的壓縮比,但實現了78.9%的F1得分,超越了現有最佳模型12.3%。最後,我們提出了Chain of Spreadsheet用於試算表理解的下游任務,並在一個新的、要求嚴格的試算表QA任務中進行驗證。我們系統地利用試算表的固有佈局和結構,展示了SpreadsheetLLM在各種試算表任務中的高效性。
大型語言模型(LLMs)展現出卓越的能力,但仍然在處理廣泛語境方面遇到困難,限制了它們在長序列中保持一致性和準確性的能力。相較之下,人類大腦擅長組織和檢索跨越廣泛時間尺度的情節性經驗,涵蓋一生。在這項工作中,我們介紹了EM-LLM,一種將人類情節記憶和事件認知的關鍵方面整合到LLMs中的新方法,使它們能夠有效處理幾乎無限的語境長度,同時保持計算效率。EM-LLM通過結合貝葉斯驚奇和圖論邊界細化的方式,以在線方式將token序列組織成一致的情節事件。在需要時,這些事件通過兩階段記憶過程檢索,結合基於相似性和時間上連續的檢索,實現對相關信息的高效且類似人類的訪問。對LongBench數據集的實驗表明,EM-LLM表現優異,整體相對改進率達到4.3%,在各種任務中優於最先進的InfLLM模型,包括在PassageRetrieval任務上達到33%的改進。此外,我們的分析顯示EM-LLM的事件分割與人類感知事件之間存在著強烈的相關性,暗示了這種人工系統與其生物對應物之間的橋樑。這項工作不僅推動了LLM在處理廣泛語境方面的能力,還為探索人類記憶機制提供了一個計算框架,為AI和認知科學的跨學科研究開辟了新途徑。
本技術報告描述了時間序列優化Transformer for Observability(Toto),這是由Datadog開發的一種新的頂尖基礎模型,用於時間序列預測。除了在通用時間序列基準上取得了最新技術進展,如電力和天氣等領域,此模型是第一個專門針對可觀察性指標進行調整的通用時間序列預測基礎模型。 Toto是在一兆個時間序列數據點的數據集上進行訓練的,這是目前所有已發表的時間序列基礎模型中最大的數據集。除了公開可用的時間序列數據集外,用於訓練Toto的數據中,有75%是來自Datadog平台的完全匿名的數值指標數據點。 在我們的實驗中,Toto在可觀察性數據上優於現有的時間序列基礎模型。它在優秀地完成通用預測任務的同時,在多個開放基準數據集上實現了最新技術的零-shot表現。
大型語言模型(LLMs)經常因數據或架構變更而進行更新以提高性能。在更新模型時,開發人員通常專注於提高整體性能指標,對與先前模型版本兼容性的重視較少。然而,用戶通常會建立對特定機器學習模型的功能和能力的心智模型。他們必須隨著每次更新調整心智模型,這是一項繁瑣的任務,可能導致用戶不滿。在實踐中,微調的下游任務適配器依賴於預訓練的LLM基礎模型。當這些基礎模型進行更新時,這些面向用戶的下游任務模型可能出現實例回歸或負翻轉,即先前正確的實例現在被預測為錯誤。即使下游任務的訓練程序保持不變,這種情況仍會發生。我們的工作旨在以兩種方式為用戶提供無縫模型更新。首先,我們為與先前模型版本相容性概念提供評估指標,專門針對生成任務,但也適用於判別任務。我們觀察到在各種任務和模型更新上不同模型版本之間的回歸和不一致性。其次,我們提出了一種培訓策略,以最小化模型更新中不一致性的數量,包括訓練一個能夠增強任務微調語言模型的兼容性模型。我們成功將負翻轉(即先前模型版本正確但新模型不正確的實例)從Llama 1降低了高達40%至Llama 2。
大型語言模型(LLMs)展示了作為通用助手的巨大潛力,展示了強大的任務理解和問題解決能力。要將LLMs部署為人工智能助手,這些模型展現出良好的行為特徵至關重要,如無毒性和對越獄企圖的抵抗力。目前的解毒或防止越獄的方法通常涉及監督微調(SFT)或從人類反饋中進行強化學習(RLHF),這需要通過梯度下降對數十億參數進行微調,並具有可觀的計算成本。此外,通過SFT和RLHF修改的模型可能偏離預訓練模型,可能導致LLM基本能力的下降。在本文中,我們觀察到令人驚訝的是,直接編輯一小部分參數可以有效調節LLMs的特定行為,如解毒和抵抗越獄。具體來說,對於我們希望避免的行為,我們使用線性分類器,我們稱之為行為探針,來在LLM的隱藏狀態空間內對二元行為標籤進行分類。使用此探針,我們引入了一種算法來識別顯著影響這種目標行為的LLM參數的關鍵子集。然後,我們通過將這些選定的參數直接編輯,將它們向行為探針移動。這種直接參數編輯方法僅需要推理級別的計算資源。實驗表明,在代表性的解毒任務中,我們的方法在RealToxicityPrompts數據集上實現了高達90.0%的毒性降低,並在ToxiGen上實現了49.2%,同時保持了LLM在常識、問答和數學等領域的通用能力。我們的代碼可在https://github.com/lucywang720/model-surgery找到。
我們介紹了H2O-Danube3,這是一系列由H2O-Danube3-4B和H2O-Danube3-500M組成的小型語言模型,分別訓練於6T和4T tokens。我們的模型在高質量Web數據上進行預訓練,主要包含英語tokens,經過三個不同數據混合的階段後進行最終監督微調以用於聊天版本。這些模型在眾多學術、聊天和微調基準測試中展現出高競爭力的指標。由於其緊湊的架構,H2O-Danube3能夠高效運行於現代智能手機上,實現本地推論和快速處理能力,即使在移動設備上也能實現。我們將所有模型公開提供,採用Apache 2.0許可證,進一步使更廣泛的受眾在經濟上能夠使用LLMs。
自動生成新穎且有趣的遊戲是一項複雜的任務。挑戰包括以可計算的形式表示遊戲規則、在大量潛在遊戲空間中搜索,並準確評估以前未見遊戲的獨創性和質量。自動遊戲生成的先前工作主要集中在相對受限制的規則表示上,並依賴於特定領域的經驗法則。在這項研究中,我們探索在相對豐富的Ludii遊戲描述語言中生成新穎遊戲,該語言編碼了1000多種棋盤遊戲的規則,並具有各種風格和遊戲模式。我們從最近在大型語言模型和進化計算方面的進展中汲取靈感,以訓練一個能夠智能地變異和重組遊戲和機制的模型,這些遊戲和機制以代碼形式表達。我們定量和定性地證明,我們的方法能夠生成新穎且有趣的遊戲,包括Ludii數據集中現有遊戲未涵蓋的潛在規則空間區域。一些生成的遊戲樣本可通過Ludii門戶網站在線遊玩。
儘管大型語言模型普遍採用Transformer,但其內部運作仍不甚了解。我們旨在更好地理解在預訓練Transformer的各層中刪除或重新組織信息的影響。這種理解既可以更好地利用現有模型,也可以進行架構改進以生成新的變體。我們提出了一系列針對凍結模型的實證研究,顯示預訓練Transformer的較低和最終層與中間層存在差異,但中間層具有令人驚訝的一致性。我們進一步展示,某些問題類別對於跳過層、以不同順序運行層或並行運行層具有韌性。我們的觀察表明,即使是凍結的預訓練模型也可以通過跳過層或並行運行層來優雅地在準確性和延遲之間取得平衡。
最近對輝度場的進展為創建高質量的3D資產和場景開辟了新的途徑。風格轉移可以通過不同的藝術風格增強這些3D資產,轉換創意表達。然而,現有技術通常速度較慢,或無法將風格轉移局部化到特定物體。我們介紹了StyleSplat,這是一種輕量級的方法,用於對由參考風格圖像中的3D高斯表示的場景中的3D物體進行風格化。我們的方法首先通過3D高斯飛灰技術學習場景的照片逼真表示,同時分割單個3D物體。然後,我們使用最近鄰特徵匹配損失來微調所選物體的高斯函數,將它們的球面諧波係數與風格圖像對齊,以確保一致性和視覺吸引力。StyleSplat允許快速、可定制的風格轉移和局部風格化多個物體在一個場景中,每個物體都具有不同的風格。我們展示了它在各種3D場景和風格中的有效性,展示了在3D創作中增強的控制和定制能力。
尋找長篇科學研究文章中問題的答案是一個重要的研究領域,有助於讀者快速解決疑問。然而,現有基於科學論文的問答(QA)數據集在規模上存在限制,並僅關注文本內容。為了解決這一限制,我們引入了 SPIQA(Scientific Paper Image Question Answering),這是第一個專門設計用於解釋計算機科學各個領域科學研究文章中複雜圖表的大規模 QA 數據集。利用多模式大型語言模型(MLLMs)的廣泛專業知識和理解圖表的能力,我們採用自動和手動編輯來創建數據集。我們設計了一個包含多個圖像的信息尋求任務,涵蓋各種繪圖、圖表、表格、示意圖和結果可視化。SPIQA 包含 27 萬個問題,分為訓練、驗證和三個不同的評估部分。通過與 12 個著名基礎模型的廣泛實驗,我們評估了當前多模式系統理解研究文章微妙方面的能力。此外,我們提出了一種具有上下文檢索的思維鏈(CoT)評估策略,允許進行細粒度、逐步評估並提高模型性能。我們進一步探索了通過額外文本信息提高性能的上限,突顯了其對未來研究的潛在潛力以及該數據集對改變我們與科學文獻互動方式的影響。
過去的大型語言模型通常依賴某種形式的強化學習與人類反饋(RLHF)來更好地使模型回應與人類偏好相一致。然而,由於實施這些RLHF管道時經常觀察到的不穩定性,最近引入了各種重新參數化技術,以避開單獨學習RL獎勵模型的需要。相反,通過最小化單一閉合形式的訓練目標來直接微調人類偏好,這個過程最初被稱為直接偏好優化(DPO),後來出現了幾個顯著的後代。儘管在某些現實世界的情境中是有效的,我們提出了新的評估標準,用以凸顯現有DPO方法在預先訓練的參考模型和人類偏好的實證測量之間插值能力方面尚未解決的缺陷,以及在如何正規化低質量和高質量回應以及處理約束方面不可避免的權衡。我們的見解隨後激發了一種替代的類DPO損失,可以證明地緩解這些限制。實證結果證實了我們分析中的顯著方面。
在系統層面上,長篇文本推理面臨著增加的計算和記憶體需求挑戰,同時從準確性角度來看,能夠對長篇文本進行推理也是一大挑戰。最近,已提出了幾種方法來壓縮提示以減少上下文長度。然而,對於比較不同提出的方法在不同任務中的標準化分析工作卻很少。這導致了矛盾的結果。為了解決這個問題,我們在這裡對不同的提示壓縮方法進行了全面的特徵化和評估。特別是,我們分析了抽取式壓縮、基於摘要的抽象式壓縮和標記修剪方法。令人驚訝的是,我們發現抽取式壓縮通常優於所有其他方法,並且能夠實現最多10倍的壓縮,並且準確性下降最小。有趣的是,我們還發現,儘管最近有幾項聲稱,但標記修剪方法通常落後於抽取式壓縮。我們在摘要任務上只發現了輕微的改進。
在將 Mamba 與 transformers 在多項與語音相關任務的表現和效率進行比較之前,現在得出 Mamba 是比 transformers 更好的選擇仍為時過早。為了得出這個結論,我們提出並評估三個模型用於三個任務:Mamba-TasNet 用於語音分離,ConMamba 用於語音識別,以及 VALL-M 用於語音合成。我們將它們與相似大小的 transformers 在表現、記憶和速度上進行比較。我們的 Mamba 或 Mamba-transformer 混合模型展現出與其 transformer 對應模型(Sepformer、Conformer 和 VALL-E)相當或更高的表現:它們在記憶和速度上對於超過一個閾值持續時間的語音來說比 transformers 更有效率,這個閾值持續時間與語音標記的解析度成反比。Mamba 用於分離是最有效率的,而用於識別的效率最低。此外,我們展示了 Mamba 在語音持續時間短於閾值時並不比 transformer 更有效率,並在需要聯合建模文本和語音的模型中表現較差,例如兩個輸入的交叉或遮罩注意力。因此,我們認為 Mamba 或 transformer 的優越性取決於特定問題和模型。程式碼可在 https://github.com/xi-j/Mamba-TasNet 和 https://github.com/xi-j/Mamba-ASR 取得。
基於姿勢驅動的人像動畫擴散模型展現了在逼真人類影片合成方面的卓越能力。儘管先前方法取得了令人期待的成果,但在實現時間上一致的動畫和確保與現成姿勢檢測器的穩健性方面仍存在挑戰。本文提出了TCAN,一種能夠應對錯誤姿勢並在時間上保持一致的基於姿勢驅動的人像動畫方法。與先前方法不同,我們利用預先訓練的ControlNet,無需微調,以利用其從眾多姿勢-影像-標題三元組中獲得的豐富先前知識。為了保持ControlNet凍結,我們將LoRA調整到UNet層,使網絡能夠對齊姿勢和外觀特徵之間的潛在空間。此外,通過在ControlNet中引入額外的時間層,我們增強了對姿勢檢測器的離群值的穩健性。通過對時間軸上的注意力地圖進行分析,我們還設計了一個利用姿勢信息的新型溫度地圖,從而實現更靜態的背景。大量實驗表明,所提出的方法在涵蓋各種姿勢(如卡通)的視頻合成任務中取得了令人期待的結果。項目頁面:https://eccv2024tcan.github.io/
最近在檢索增強模型用於圖像標題生成方面取得的進展凸顯了檢索相關標題對於具有強大領域轉移能力的高效輕量級模型的好處。雖然這些模型展示了檢索增強的成功,但實際上檢索模型仍然遠非完美:檢索到的信息有時可能會誤導模型,導致生成錯誤和性能下降。本文分析了一個檢索增強的標題生成模型 SmallCap 的穩健性。我們的分析顯示,該模型對於出現在大多數檢索標題中的標記敏感,並且輸入歸因表明這些標記很可能被複製到生成的輸出中。鑒於這些發現,我們建議通過從更多不同集合中抽樣檢索標題來訓練模型。這樣可以降低模型學習複製大多數標記的機會,並改善領域內和跨領域的性能。
本研究針對大型語言模型(LLMs)的安全調整實踐中存在的一個關鍵缺陷進行了探討,該缺陷是識別和解決拒絕位置偏見,這在安全調整數據中,影響了模型拒絕生成不安全內容的能力。我們提出了一種新方法,名為Decoupled Refusal Training(DeRTa),旨在賦予LLMs在任何回應位置拒絕生成有害提示的能力,顯著增強其安全性能。DeRTa包含兩個新組件:(1)帶有有害回應前綴的最大概似估計(MLE),通過將有害回應的部分附加到安全回應的開頭,訓練模型識別並避免不安全內容;(2)強化轉換優化(RTO),使模型能夠在有害回應序列中始終一致地從潛在危害轉變為安全拒絕。我們的實證評估使用LLaMA3和Mistral模型系列在六種攻擊方案中進行,證明我們的方法不僅提高了模型的安全性而不影響性能,還超越了著名模型如GPT-4在抵禦攻擊方面的表現。重要的是,我們的方法成功抵禦了最新的高級攻擊方法(例如CodeAttack),這些方法已經破解了GPT-4和LLaMA3-70B-Instruct。我們的代碼和數據可在https://github.com/RobustNLP/DeRTa 找到。
在過去幾年中,以任意光線合成 NeRFs 已成為一個重要問題。最近的研究致力於通過提取基於物理的參數來解決這個問題,這些參數可以在任意光線下進行渲染,但它們在能處理的場景範圍上受到限制,通常對光澤場景處理不當。我們提出了 RRM,一種方法,即使在存在高度反射物體的情況下,也可以提取場景的材料、幾何和環境光照。我們的方法包括一種具有物理感知的輻射場表示,該表示通知基於物理的參數,以及基於拉普拉斯金字塔的表達性環境光結構。我們展示了我們的貢獻在參數檢索任務上優於最先進技術,從而實現了對表面場景的高保真燈光效果和新視角合成。