每日精選AI研究論文及翻譯
最近大型語言模型(LLMs)的進展展示了強大的一般推理能力,然而它們在財務推理方面的效果尚未得到充分探討。在這項研究中,我們全面評估了16個強大的推理和一般性LLMs在涉及財務文本、表格數據和方程式的三個複雜財務任務上的表現,評估了數值推理、表格解釋、財務術語理解、長文本處理和基於方程的問題解決能力。我們的結果顯示,儘管更好的數據集和預訓練可以改善財務推理,但像CoT微調這樣的一般性增強並不總是能帶來一致的收益。此外,所有推理策略在提高長文本和多表格任務的表現方面都面臨挑戰。為了應對這些限制,我們基於Llama-3.1-8B-Instruct開發了一個財務推理增強模型,通過CoT微調和具有特定領域推理路徑的強化學習。即使只是對一個財務數據集進行簡單的微調,我們的模型在各任務上實現了一致的10%性能提升,超越了所有8B模型,甚至平均超越了Llama3-70B-Instruct和Llama3.1-70B-Instruct。我們的結果凸顯了在財務任務中需要特定領域適應的重要性,強調未來方向,如多表格推理、長文本處理和財務術語理解。我們的所有數據集、模型和代碼都是公開可用的。此外,我們引入了一個排行榜,用於對未來數據集和模型進行基準測試。
現代大型語言模型(LLMs)通常在當前硬體上遇到通訊瓶頸,而非純粹的計算限制。多頭潛在注意力(MLA)通過在關鍵-值(KV)層中使用低秩矩陣來應對這一挑戰,從而允許壓縮的潛在KV狀態被緩存。這種方法顯著降低了相對於傳統多頭注意力的KV緩存大小,從而實現更快的推理。此外,MLA採用一個上投影矩陣來增加表達能力,以交換額外的計算以減少通訊開銷。儘管MLA在Deepseek V2/V3/R1中展示了效率和有效性,但許多主要模型提供商仍依賴於組查詢注意力(GQA),並且尚未宣布採用MLA的計劃。在本文中,我們展示了GQA始終可以用MLA表示,同時保持相同的KV緩存開銷,但反之則不成立。為了鼓勵更廣泛地使用MLA,我們引入了**TransMLA**,一種後訓練方法,將廣泛使用的基於GQA的預訓練模型(例如LLaMA、Qwen、Mixtral)轉換為基於MLA的模型。轉換後,模型可以進行額外的訓練以提高表達能力,而無需增加KV緩存大小。此外,我們計劃開發MLA特定的推理加速技術,以保持轉換後模型的低延遲,從而實現對Deepseek R1更有效的蒸餾。
先前的多語言基準主要著重於簡單的理解任務,但對於大型語言模型(LLMs),我們強調在指令遵循、推理、長篇文本理解、程式碼生成等方面的熟練度。然而,跨語言測量這些高級能力的研究尚未深入。為了解決這種差異,我們引入了BenchMAX,一個多向多語言評估基準,允許在不同語言之間公平比較這些重要能力。為了保持高質量,三位母語者獨立地對所有任務中的每個樣本進行標註,這些樣本是從英語機器翻譯成其他16種語言後得到的。此外,我們提出了一個源自數據集構建的新型翻譯挑戰。對BenchMAX的廣泛實驗顯示了核心能力在不同語言之間的效果差異,突顯了無法僅通過擴大模型規模來彌合的性能差距。BenchMAX作為一個全面的多語言評估平台,提供了一個有前途的測試平臺,促進多語言語言模型的發展。數據集和代碼可公開訪問。
我們提供一個蒸餾擴展定律,根據計算預算及其在學生和教師之間的分配,估計蒸餾模型的性能。我們的研究結果降低了在大規模應用蒸餾時所面臨的風險;現在可以對教師和學生模型的計算分配進行優化,以最大化學生的性能。我們提供了計算最佳化的蒸餾配方,當存在教師時,或者需要對教師進行訓練時。如果要對多個學生進行蒸餾,或者已經存在教師,蒸餾的效果優於監督預訓練,直到一個隨著學生規模預測增長的計算水平。如果只有一個學生需要蒸餾,並且還需要對教師進行訓練,則應採用監督學習。此外,我們提供了對蒸餾的大規模研究的見解,這些見解增進了我們對蒸餾的理解,並指導實驗設計。
近年來,受到廣泛關注的文本條件下的圖像生成正在處理越來越長且全面的文本提示。在日常生活中,密集而複雜的文本出現在廣告、信息圖表和標識等情境中,其中文本和視覺的整合對於傳達複雜信息至關重要。然而,儘管取得進展,生成包含長文本的圖像仍然是一個持久的挑戰,這主要是由於現有數據集的限制,這些數據集通常專注於較短和較簡單的文本。為了解決這一差距,我們引入了TextAtlas5M,這是一個專門設計用於評估文本條件下的圖像生成中長文本呈現的新數據集。我們的數據集包含500萬個跨不同數據類型生成和收集的長文本圖像,能夠全面評估大規模生成模型在長文本圖像生成上的表現。我們進一步精心策劃了3000個人工改進的測試集TextAtlasEval,涵蓋3個數據領域,建立了其中一個最廣泛的文本條件生成基準。評估表明,即使對於最先進的專有模型(例如具有DallE-3的GPT4o),TextAtlasEval基準也提出了重大挑戰,而其開源對應模型表現出更大的性能差距。這些證據將TextAtlas5M定位為一個有價值的數據集,用於訓練和評估未來一代文本條件下的圖像生成模型。
最近在影像燈光調整模型方面的進展,受到大規模數據集和預訓練擴散模型的推動,已經實現了一致的照明。然而,視頻燈光調整仍然滯後,主要是由於訓練成本過高以及多樣性和高質量視頻燈光調整數據集的稀缺。將影像燈光調整模型在逐幀應用會導致幾個問題:照明來源不一致和燈光調整外觀不一致,導致生成的視頻中出現閃爍。在這項工作中,我們提出了Light-A-Video,這是一種無需訓練的方法,用於實現時間上平滑的視頻燈光調整。Light-A-Video從影像燈光調整模型中借鑒,引入了兩個關鍵技術來增強照明一致性。首先,我們設計了一個一致燈光關注(CLA)模塊,通過增強自注意力層內的跨幀交互作用,以穩定生成背景照明來源。其次,利用光傳輸獨立性的物理原則,我們在源視頻外觀和燈光調整外觀之間應用線性混合,採用漸進式光融合(PLF)策略,以確保照明中的平滑時間過渡。實驗表明,Light-A-Video改善了燈光調整視頻的時間一致性,同時保持了圖像質量,確保了幀間一致的照明過渡。項目頁面:https://bujiazi.github.io/light-a-video.github.io/。
在這份工作中,我們提出了 CineMaster,一個新穎的框架,用於具備 3D 意識和可控性的文本到視頻生成。我們的目標是賦予用戶與專業電影導演可比擬的可控性:在場景中精確放置物體、在 3D 空間中靈活操作物體和相機,以及直觀控制渲染幀的佈局。為實現這一目標,CineMaster 分為兩個階段。在第一階段,我們設計了一個交互式工作流程,讓用戶通過定位物體邊界框和定義相機在 3D 空間中的移動,直觀地構建 3D 意識的條件信號。在第二階段,這些控制信號——包括渲染的深度圖、相機軌跡和物體類別標籤——作為文本到視頻擴散模型的指導,確保生成用戶期望的視頻內容。此外,為了克服野外數據集中缺乏 3D 物體運動和相機姿態標註的問題,我們精心建立了一個自動化數據標註流程,從大規模視頻數據中提取 3D 邊界框和相機軌跡。廣泛的定性和定量實驗表明,CineMaster 在性能上顯著優於現有方法,實現了卓越的 3D 意識文本到視頻生成。項目頁面:https://cinemaster-dev.github.io/。
下一個標記預測一直是大型語言模型預訓練中使用的標準訓練目標。代表性是通過優化標記級困惑度而學習的表示。我們提出了連續概念混合(CoCoMix),這是一種結合離散下一個標記預測和連續概念的新型預訓練框架。具體來說,CoCoMix預測從預訓練的稀疏自編碼器學習的連續概念,並將它們與模型的隱藏狀態混合,通過與標記隱藏表示交替進行。通過在多個基準測試中進行實驗,包括語言建模和下游推理任務,我們展示了CoCoMix比標準的下一個標記預測、知識蒸餾和插入暫停標記更具樣本效率,並且穩定地表現更好。我們發現結合概念學習和交替在端到端框架中對性能提升至關重要。此外,CoCoMix通過允許直接檢查和修改預測概念來增強可解釋性和可控性,提供了引導模型內部推理過程的透明方式。
目前的GUI代理在GUI元素 grounding 方面取得了出色的表現。然而,規劃仍然極具挑戰性,特別是由於對環境初始狀態的敏感性。具體來說,初始狀態中的輕微差異,例如目標軟件未打開或界面不處於默認狀態,通常會導致規劃錯誤。這個問題在真實用戶場景中非常普遍,但現有的基準測試未能評估它。在本文中,我們提出了WorldGUI,一個新穎的GUI基準測試,設計了具有各種初始狀態的GUI任務,以模擬真實的電腦用戶交互。該基準測試涵蓋了跨越10個熱門軟件應用程序的各種任務,包括PowerPoint、VSCode和Adobe Acrobat。此外,為應對動態GUI自動化任務的挑戰,我們提出了GUI-Thinker,一個全面的框架,利用評論機制,有效管理GUI交互的不可預測性和複雜性。實驗結果表明,GUI-Thinker在WorldGUI任務的成功率上比Claude-3.5(電腦使用)提高了14.9%。這一改進突顯了我們基於批判性思維的框架在增強GUI自動化方面的有效性。
線性序列建模方法,如線性注意力,提供了線性時間訓練和常數記憶體推斷的優勢,適用於不同序列長度。然而,現有的序列並行(SP)方法要麼未經過最佳化以適應線性注意力的“先右乘積”特性,要麼使用環狀通訊策略,導致計算並行性較低,限制了它們在分佈式系統中對更長序列的可擴展性。本文介紹了LASP-2,一種新的SP方法,用於增強訓練具有非常長輸入序列的線性注意力變壓器模型的通訊和計算並行性。與先前的工作LASP相比,LASP-2重新思考了線性注意力層上SP的最小通訊需求,重新組織了LASP的整個通訊-計算工作流程。通過這種方式,在中間記憶狀態上只需要一個單一的AllGather集體通訊,其大小與序列長度無關,從而顯著改善了通訊和計算並行性,以及它們的重疊。此外,我們將LASP-2擴展為LASP-2H,通過對標準注意力模塊應用類似的通訊重新設計,為混合模型提供了一種高效的SP解決方案,這些模型混合了線性和標準注意力層。我們對Linear-Llama3模型進行了評估,這是一種將線性注意力替換標準注意力的Llama3變體,展示了LASP-2和LASP-2H的有效性。具體而言,LASP-2在64個GPU上,2048K序列長度下,相對於LASP提高了15.2%的訓練速度,相對於Ring Attention提高了36.6%的訓練速度。代碼已作為一部分釋出:https://github.com/OpenSparseLLMs/Linear-MoE。
在當前大型語言模型(LLMs)的發展中,實現長期目標的能力是一個關鍵挑戰。為了應對這一挑戰,可以通過使用強化學習(RL)對預訓練的LLMs進行微調,以探索優化特定目標的解決方案。然而,LLMs的探索是困難的,因為需要在發現新解決方案和保持足夠接近預訓練模型之間取得平衡,以避免降低基本能力。通常透過Kullback-Leibler(KL)懲罰來控制這一平衡。本文研究了一個簡單算術任務上的小型語言模型的探索動態。我們展示了不同程度的預訓練如何影響探索,並展示了“關鍵標記”的重要性,這對最終結果產生了戲劇性影響。因此,我們引入了一個簡單的修改,使KL懲罰更有利於對關鍵標記的探索,從而提高了RL微調階段的效率。
基於擴散模型的最新角色形象動畫方法,例如Animate Anyone,已在生成一致且具有一般性的角色動畫方面取得顯著進展。然而,這些方法未能產生角色與其環境之間合理的關聯。為解決這一限制,我們引入了Animate Anyone 2,旨在為角色動畫增加環境適應性。除了從源視頻中提取運動信號外,我們還將環境表示形式捕捉為條件輸入。環境被定義為區域,不包括角色,我們的模型生成角色以填充這些區域,同時保持與環境背景的一致性。我們提出了一種形狀不可知的遮罩策略,更有效地描述角色與環境之間的關係。此外,為了增強物體交互作用的真實性,我們利用物體引導器提取交互物體的特徵,並採用空間混合進行特徵注入。我們還引入了一種姿勢調節策略,使模型能夠處理更多樣化的運動模式。實驗結果顯示了所提出方法的優越性能。
最近在數學人工智慧領域取得了一些進展,尤其是在純數學方面,但應用數學領域,特別是偏微分方程(PDEs),儘管具有重要的現實應用,仍然未被充分探索。我們提出了PDE-Controller,這是一個框架,使得大型語言模型(LLMs)能夠控制由偏微分方程(PDEs)控制的系統。我們的方法使得LLMs能夠將非正式的自然語言指令轉換為正式規範,然後執行推理和規劃步驟,以提高PDE控制的效用。我們構建了一個全面的解決方案,包括數據集(人工編寫案例和200萬個合成樣本)、數學推理模型和新穎的評估指標,所有這些都需要大量的努力。我們的PDE-Controller在推理、自動形式化和程序合成方面明顯優於最新的開源和GPT模型,PDE控制的效用增益可達62%。通過彌合語言生成和PDE系統之間的差距,我們展示了LLMs在應對複雜科學和工程挑戰方面的潛力。我們將在https://pde-controller.github.io/上發布所有數據、模型檢查點和代碼。
直接偏好優化(DPO)及其變體已日益受歡迎,用於使語言模型與人類偏好保持一致。這些方法旨在教導模型更好地區分所選(或偏好)和被拒絕(或不偏好)的回應。然而,先前的研究已經確定,在訓練過程中,所選回應的機率通常會下降,這種現象被稱為概率位移。為了應對這一挑戰,在這項工作中,我們引入了\method,以可控方式改變所選概率的分佈。然後,我們展示了\method在提高所選概率和犧牲獎勵邊緣之間存在基本的折衷,這一點得到了理論分析和實驗驗證的支持。此外,我們展示了\method在下游任務(如MT-Bench和設計的勝率實驗)上優於DPO的優越性。我們相信這項研究表明,DPO的概率位移問題可以通過一個簡單、理論上有根基的解決方案得到有效緩解。我們的代碼可在https://github.com/Meaquadddd/DPO-Shift找到。
近期的大型語言模型(LLMs)支持範圍從128K到1M個標記的長文本。評估這些能力的一種流行方法是針對一堆草堆(NIAH)測試,其中涉及從“草堆”(冗長無關的內容)檢索“針”(相關信息)。這種方法的延伸包括增加干擾項、事實鏈和上下文推理。然而,在這些基準測試中,模型可能會利用針和草堆之間現有的文字匹配來簡化任務。為了應對這一問題,我們引入了NoLiMa,這是一個通過精心設計針對集合的基準測試,其中問題和針之間的詞彙重疊極小,需要模型推斷潛在聯繫以定位針在草堆中的位置。我們評估了聲稱支持至少128K標記上下文的12個流行LLMs。儘管它們在短上下文(<1K)中表現良好,但隨著上下文長度的增加,性能明顯下降。例如,在32K時,有10個模型下降到低於其強短長度基準的50%。即使是表現最佳的例外之一GPT-4o,也從近乎完美的基準99.3%下降到69.7%。我們的分析表明,這些下降是由於當字面匹配不存在時,注意機制在更長的上下文中面臨的困難增加,使得檢索相關信息變得更加困難。
在合成孔徑雷達(SAR)遙感影像解釋領域中,儘管視覺語言模型(VLMs)在自然語言處理和影像理解方面取得了顯著進展,但由於專業領域專業知識不足,它們的應用仍然在專業領域中受到限制。本文首次創新性地提出了用於SAR影像的第一個大規模多模態對話數據集,名為SARChat-2M,包含約200萬個高質量的影像-文本對,涵蓋了各種情境並具有詳細的目標標註。該數據集不僅支持視覺理解和目標檢測等幾個關鍵任務,還具有獨特的創新方面:本研究開發了一個用於SAR領域的視覺-語言數據集和基準,從而實現並評估VLMs在SAR影像解釋中的能力,為構建跨各種遙感垂直領域的多模態數據集提供了範式框架。通過對16個主流VLMs的實驗,數據集的有效性已得到充分驗證,並成功建立了SAR領域的第一個多任務對話基準。該項目將在https://github.com/JimmyMa99/SARChat上發布,旨在促進SAR視覺語言模型的深入發展和廣泛應用。
下一個標記預測(NTP)是自回歸(AR)視頻生成的實際方法,但存在著次優的單向依賴性和緩慢的推理速度。在這項工作中,我們提出了一種半自回歸(半AR)框架,稱為下一個區塊預測(NBP),用於視頻生成。通過將視頻內容均勻分解為相等大小的區塊(例如,行或幀),我們將生成單元從個別標記轉移到區塊,使得當前區塊中的每個標記可以同時預測下一個區塊中對應的標記。與傳統的AR建模不同,我們的框架在每個區塊內使用雙向注意力,使標記能夠捕獲更強大的空間依賴性。通過並行預測多個標記,NBP模型顯著減少了生成步驟的數量,從而實現更快速和更高效的推理。我們的模型在UCF101上實現了103.3的FVD分數,在K600上實現了25.5的FVD分數,比普通的NTP模型平均提高了4.4。此外,由於推理步驟的減少,NBP模型每秒生成8.89幀(128x128分辨率),實現了11倍的加速。我們還探索了從700M到3B參數範圍的模型規模,觀察到生成質量的顯著改善,UCF101上的FVD分數從103.3下降到55.3,K600上的FVD分數從25.5下降到19.5,展示了我們方法的可擴展性。
檢索增強生成(RAG)是一項先進技術,旨在應對人工智慧生成內容(AIGC)的挑戰。通過將上下文檢索整合到內容生成中,RAG 提供可靠且最新的外部知識,減少幻覺,確保在各種任務中相關的上下文。然而,儘管 RAG 取得了成功並展現了潛力,最近的研究顯示 RAG 范式也帶來了新的風險,包括韌性問題、隱私擔憂、對抗性攻擊和責任問題。解決這些風險對於未來的 RAG 系統應用至關重要,因為這些風險直接影響其可信度。儘管已經開發了各種方法來提高 RAG 方法的可信度,但在這一主題的研究中缺乏統一的觀點和框架。因此,在本文中,我們旨在通過提供一份全面的發展可信 RAG 系統的路線圖來填補這一空白。我們將討論圍繞五個關鍵觀點展開:可靠性、隱私、安全性、公平性、可解釋性和責任性。對於每個觀點,我們提出一個通用框架和分類法,提供了一種結構化方法來理解當前挑戰,評估現有解決方案,並確定有前途的未來研究方向。為了鼓勵更廣泛的應用和創新,我們還強調了可信 RAG 系統對下游應用的重大影響。
在這份工作中,我們提出了一種LLM模組的架構,該架構利用增強型交叉注意機制,從一個大型預訓練模型將知識傳遞到一個較小的模型。在提出的方案中,Qwen2-1.5B模型被凍結,其表示通過特別設計的注意層傳遞到在有限計算資源上訓練的GPT-Neo-125M模型。在Bespoke-Stratos-17k數據集上的實驗結果表明,在訓練15個時代後,合併模型生成的回應質量與蒸餾獲得的回應相當。我們討論了模塊化方法的優勢,提供了輸入查詢和比較分析的示例,並概述了該方法進一步擴展的前景。
模型合併將在不同任務上微調的大型語言模型(LLMs)聚合成一個更強大的模型。然而,模型之間的參數衝突導致平均性能下降。模型路由解決了這個問題,通過在推斷期間選擇個別模型,但會帶來過多的存儲和計算成本,並且無法利用來自不同模型的共同知識。在這項工作中,我們觀察到不同層次展示了不同程度的參數衝突。基於這一洞察,我們對具有最小參數衝突的層進行平均,並使用一種新的任務級專家路由來處理具有顯著衝突的層。為了進一步降低存儲成本,受到任務算術稀疏性的啟發,我們將多個微調專家解耦為一個密集專家和幾個稀疏專家。考慮到分布之外的樣本,我們根據輸入數據的任務不確定性選擇並合併適當的專家。我們對具有不同參數規模的LLaMA和Qwen進行了廣泛實驗,並在現實世界的推理任務上進行了評估。結果表明,相對於現有方法,我們的方法始終實現了顯著的性能改進,同時需要更少的系統成本。
我們提出了一個新穎的動態安全框架,可在推論時優化語言模型(LM)的安全推理,而無需修改模型權重。借鑒最近自我評論方法的進展,我們的方法利用一個元評論機制,迭代更新安全提示(稱為規範),以驅動批評和修訂過程的自適應。這種測試時間的優化不僅提高了對抗性越獄請求的性能,還在各種一般安全相關任務中表現出色,例如避免道德傷害或追求誠實回應。我們對幾個語言模型進行的實證評估表明,動態優化的安全提示相對於固定系統提示和靜態自我評論防禦,能夠產生顯著更高的安全分數。代碼將在 https://github.com/vicgalle/meta-self-critique.git 釋出。
密集對比表示學習(DCRL)已大大提高了圖像密集預測任務的學習效率,展示了它減少醫學圖像收集和密集標註的巨大成本的巨大潛力。然而,醫學圖像的特性使得不可靠的對應發現,帶來了 DCRL 中大規模假陽性和假陰性(FP&N)對的一個開放問題。在本文中,我們提出了GEoMetric vIsual deNse sImilarity(GEMINI)學習,它在DCRL之前嵌入了同胚性先驗,實現了可靠的對應發現,以實現有效的密集對比。我們提出了一種可變同胚性學習(DHL),它對醫學圖像的同胚性進行建模,並學習估計可變形映射以預測像素的對應關係,實現拓撲保持。它有效地減少了配對的搜索空間,並通過梯度隱式和軟性地學習負對。我們還提出了一種幾何語義相似性(GSS),它提取特徵中的語義信息,用於衡量對應學習的對齊程度。這將促進變形的學習效率和性能,可靠地構建正對。我們在實驗中對兩個典型的表示學習任務實施了兩種實用變體。我們在七個數據集上取得了令人期待的結果,優於現有方法,展示了我們的優越性。我們將在以下鏈接上發布我們的代碼:https://github.com/YutingHe-list/GEMINI。