每日精選AI研究論文及翻譯
儘管當代的文生圖模型在生成視覺效果吸引人的圖像方面取得了顯著突破,但其在生成精確且靈活的排版元素,尤其是非拉丁字母方面,仍存在限制。為解決這些限制,我們從一個初步假設出發,即文本理解僅是文本渲染的充分條件,而非必要條件。基於此,我們提出了RepText,旨在賦能預訓練的單語文生圖模型,使其能夠準確渲染,更確切地說,複製多語言視覺文本,而無需真正理解這些文本。具體而言,我們採用了ControlNet的設置,並額外整合了語言無關的字形和渲染文本的位置,以實現協調的視覺文本生成,允許用戶根據需求自定義文本內容、字體和位置。為提高準確性,我們採用了文本感知損失與擴散損失相結合的方法。此外,為穩定渲染過程,在推理階段,我們直接使用帶噪聲的字形潛變量進行初始化,而非隨機初始化,並採用區域遮罩將特徵注入限制在文本區域,以避免背景失真。我們進行了廣泛的實驗,以驗證RepText相較於現有工作的有效性,結果顯示我們的方法超越了現有的開源方法,並達到了與原生多語言閉源模型相當的效果。為更加公正,我們在最後也詳盡討論了其局限性。
全球醫療機構正在探索使用大型語言模型(LLMs)向公眾提供醫療建議。目前,LLMs在醫療執照考試中幾乎獲得滿分,但這並不一定意味著在實際應用中能準確發揮作用。我們在一項包含1,298名參與者的對照研究中,測試了LLMs能否協助公眾識別潛在病情並選擇應對方案(處置),共涉及十種醫療情境。參與者被隨機分配接受LLM(GPT-4o、Llama 3、Command R+)或自選來源(對照組)的協助。單獨測試時,LLMs能準確完成情境,平均正確識別病情達94.9%,處置方案達56.3%。然而,使用相同LLMs的參與者僅在不到34.5%的情況下識別出相關病情,處置方案選擇率也低於44.2%,兩者均未優於對照組。我們發現,用戶互動是LLMs在醫療建議應用中的一大挑戰。現有的醫療知識標準測試和模擬患者互動並未能預測我們在人類參與者中觀察到的失敗案例。展望未來,我們建議在醫療領域的公開部署前,進行系統性的人類用戶測試,以評估其互動能力。
隨著大型語言模型(LLMs)的迅速崛起,手機自動化技術經歷了革命性的變革。本文系統性地回顧了基於LLM驅動的手機圖形用戶界面(GUI)代理,重點探討了其從基於腳本的自動化向智能、適應性系統的演進過程。我們首先闡述了關鍵挑戰:(一)通用性有限,(二)維護成本高,(三)意圖理解能力弱,並展示了LLM如何通過高級語言理解、多模態感知及穩健的決策能力來解決這些問題。接著,我們提出了一個分類體系,涵蓋了基礎代理框架(單代理、多代理、先計劃後行動)、建模方法(提示工程、基於訓練的)以及核心數據集與基準測試。此外,我們詳細介紹了任務特定的架構、監督微調以及強化學習策略,這些策略在用戶意圖與GUI操作之間架起了橋樑。最後,我們探討了開放性挑戰,如數據集多樣性、設備端部署效率、以用戶為中心的適應性及安全問題,為這一快速發展的領域提供了前瞻性見解。通過提供結構化的概述並指出亟待解決的研究空白,本文旨在為研究者和實踐者設計可擴展、用戶友好的手機GUI代理提供權威參考,助力他們充分利用LLM的潛力。
大型語言模型(LLMs)在生成上下文連貫的回應方面展現了卓越的能力,然而其固定的上下文窗口對維持長時間多輪對話的一致性提出了根本性挑戰。我們提出了Mem0,這是一種可擴展的以記憶為中心的架構,通過動態提取、整合和檢索持續對話中的關鍵信息來解決這一問題。在此基礎上,我們進一步提出了一種增強變體,利用基於圖的記憶表示來捕捉對話元素之間的複雜關係結構。通過在LOCOMO基準上的全面評估,我們系統地將我們的方法與六類基線進行了比較:(i)已建立的記憶增強系統,(ii)具有不同塊大小和k值的檢索增強生成(RAG),(iii)處理整個對話歷史的完整上下文方法,(iv)開源記憶解決方案,(v)專有模型系統,以及(vi)專用記憶管理平台。實證結果表明,我們的方法在四類問題上始終優於所有現有的記憶系統:單跳、時間、多跳和開放域。值得注意的是,Mem0在LLM-as-a-Judge指標上相較於OpenAI實現了26%的相對提升,而帶有圖記憶的Mem0比基礎配置獲得了約2%的總分提升。除了準確性提升外,我們還顯著降低了與完整上下文方法相比的計算開銷。特別是,Mem0實現了91%的p95延遲降低,並節省了超過90%的token成本,在先進推理能力和實際部署約束之間提供了引人注目的平衡。我們的研究結果強調了結構化、持久記憶機制在長期對話連貫性中的關鍵作用,為更可靠和高效的LLM驅動AI代理鋪平了道路。
評估大型語言模型(LLM)逐步推理的可靠性,例如思維鏈(Chain-of-Thought),仍然具有挑戰性,這主要是由於獲取高質量的步驟級監督既困難又成本高昂。本文提出了一種新方法——自我對抗評判器(Self-Play Critic, SPC),該方法通過對抗性自我對抗遊戲,讓評判模型逐步提升其評估推理步驟的能力,從而無需手動進行步驟級註釋。SPC涉及微調基礎模型的兩個副本,分別扮演兩個角色:一個是“狡猾生成器”,其故意生成難以檢測的錯誤步驟;另一個是“評判器”,其分析推理步驟的正確性。這兩個模型參與一場對抗性遊戲,生成器旨在欺騙評判器,而評判器則試圖識別生成器的錯誤。基於遊戲結果的強化學習,模型不斷迭代改進;每場對抗的勝者獲得正獎勵,敗者獲得負獎勵,從而推動持續的自我進化。在三個推理過程基準測試(ProcessBench、PRM800K、DeltaBench)上的實驗表明,我們的SPC逐步提升了其錯誤檢測能力(例如,在ProcessBench上的準確率從70.8%提升至77.7%),並超越了包括蒸餾R1模型在內的強基準。此外,將SPC應用於指導多樣化LLM的測試時搜索,顯著提升了它們在MATH500和AIME2024上的數學推理性能,超越了最先進的過程獎勵模型。
大型語言模型(LLMs)已展現出卓越的能力,尤其是在推理方面的最新進展,如o1和o3,不斷推動AI的邊界。儘管在數學和編程領域取得了令人印象深刻的成就,LLMs在需要密碼學專業知識的領域中的推理能力仍未被充分探索。本文介紹了CipherBank,這是一個全面的基準測試,旨在評估LLMs在密碼解密任務中的推理能力。CipherBank包含2,358個精心設計的問題,涵蓋5個領域和14個子領域中的262個獨特明文,重點關注需要加密的隱私敏感和現實世界場景。從密碼學的角度來看,CipherBank整合了3大類加密方法,涵蓋9種不同的算法,從古典密碼到自定義密碼技術。我們在CipherBank上評估了最先進的LLMs,例如GPT-4o、DeepSeek-V3,以及專注於推理的尖端模型如o1和DeepSeek-R1。我們的結果揭示了通用聊天LLMs與專注於推理的LLMs之間推理能力的顯著差距,以及當前專注於推理的模型在古典密碼解密任務中的表現,凸顯了這些模型在理解和處理加密數據方面面臨的挑戰。通過詳細分析和錯誤調查,我們提供了幾個關鍵觀察,揭示了LLMs在密碼推理中的局限性和潛在改進領域。這些發現強調了持續提升LLM推理能力的必要性。
近期,大型视觉语言模型(LVLMs)的进展显著提升了其整合视觉与语言信息的能力,在物体识别、图像描述和视觉问答等任务上达到了接近人类的水平。然而,当前的基准测试通常侧重于以知识为中心的评价,评估特定领域的专业知识,往往忽视了模型在基本数学元素和视觉概念上的核心推理能力。我们发现,在评估依赖明确视觉关联的基础数学问题时存在一个空白,这类问题要求模型能够辨别、整合并跨多幅图像进行推理,同时融入常识知识,这些能力对于推动更广泛的人工通用智能(AGI)发展至关重要。为填补这一空白,我们引入了VCBENCH,一个针对具有明确视觉依赖性的多模态数学推理的综合基准。VCBENCH包含六个认知领域的1,720个问题,涉及6,697张图像(平均每个问题3.9张),以确保多图像推理的需求。我们对26个最先进的LVLMs在VCBENCH上进行了评估,结果显示性能存在显著差异,即便是表现最佳的模型准确率也未能超过50%。我们的研究结果凸显了视觉与数学整合方面持续的挑战,并为未来LVLMs的发展指明了方向。
下采样层是卷积神经网络(CNN)架构中的关键构建模块,它们有助于扩大感受野以学习高级特征,并减少模型的内存/计算量。在本研究中,我们探讨了针对群等变架构(例如G-CNNs)的均匀下采样层的泛化问题。具体而言,我们的目标是在具有抗混叠特性的情况下,对一般有限群上的信号(特征图)进行下采样。这包括以下内容:(a) 给定一个有限群和一个下采样率,我们提出了一种算法来形成合适的子群选择。(b) 给定一个群及其子群,我们研究了带限性的概念,并提出了如何进行抗混叠的方法。值得注意的是,我们的方法基于经典采样理论,推广了下采样的概念。当信号位于循环群(即周期性)上时,我们的方法恢复了理想低通滤波器后接子采样操作的标准下采样过程。最后,我们在图像分类任务上进行了实验,结果表明,所提出的下采样操作在融入G等变网络时,提高了准确率,更好地保持了等变性,并减小了模型规模。
長上下文能力與視覺理解的結合,為視覺語言模型(VLMs)開啟了前所未有的潛力。然而,預填充階段的二次方注意力複雜度仍是實際部署中的重大障礙。為克服這一限制,我們引入了MMInference(多模態百萬令牌推理),這是一種動態稀疏注意力方法,旨在加速長上下文多模態輸入的預填充階段。首先,我們的分析揭示,視頻輸入的時空局部性導致了一種獨特的稀疏模式——網格模式。同時,VLMs在不同模態間展現出顯著不同的稀疏分佈。我們引入了一種基於排列的方法,以利用獨特的網格模式並處理模態邊界問題。通過離線搜索每個頭部的最佳稀疏模式,MMInference根據輸入動態構建稀疏分佈。我們還提供了優化的GPU內核,以實現高效的稀疏計算。值得注意的是,MMInference無需任何模型修改或微調,即可無縫集成到現有的VLM管道中。在多模態基準測試(包括視頻問答、字幕生成、VisionNIAH和混合模態NIAH)上,使用最先進的長上下文VLMs(LongVila、LlavaVideo、VideoChat-Flash、Qwen2.5-VL)進行的實驗表明,MMInference在處理1M令牌時,預填充階段加速最高可達8.3倍,同時保持準確性。我們的代碼可在https://aka.ms/MMInference獲取。
現有的視覺-語言-動作(VLA)模型在零樣本場景中展現了優異的性能,顯示出令人印象深刻的任務執行和推理能力。然而,視覺編碼的局限性帶來了重大挑戰,這可能導致在諸如物體抓取等任務中失敗。此外,這些模型通常由於其龐大的規模(參數數量往往超過70億)而面臨高計算開銷的問題。儘管這些模型在推理和任務規劃方面表現出色,但其巨大的計算開銷使得它們在實時機器人環境中不切實際,因為在這些環境中速度和效率至關重要。為了解決現有VLA模型的局限性,我們提出了NORA,這是一個擁有30億參數的模型,旨在減少計算開銷的同時保持強大的任務性能。NORA採用Qwen-2.5-VL-3B多模態模型作為其核心,利用其卓越的視覺語義理解能力來增強視覺推理和動作基礎。此外,我們的模型在97萬次真實世界機器人演示數據上進行訓練,並配備了FAST+分詞器以高效生成動作序列。實驗結果表明,NORA在顯著降低計算開銷的情況下,超越了現有的大規模VLA模型,實現了更好的任務性能,使其成為實時機器人自主性的一個更為實用的解決方案。
歌曲生成技術專注於基於多樣提示來產生可控且高品質的歌曲。然而,現有方法在基於提示控制及適當對齊的情況下生成人聲與伴奏方面存在困難。此外,這些方法在支持多種任務上也顯不足。為應對這些挑戰,我們引入了VersBand,這是一個多任務歌曲生成框架,旨在合成具有提示控制、高品質且對齊的歌曲。VersBand包含以下主要模型:1) VocalBand,一個解耦模型,利用流匹配方法來生成演唱風格、音高和梅爾頻譜圖,實現快速、高品質且風格可控的人聲生成。2) AccompBand,一個基於流的變壓器模型,整合了Band-MOE,選擇合適的專家以提升質量、對齊度和控制性。該模型能夠生成與人聲對齊、可控且高品質的伴奏。3) 兩個生成模型,LyricBand用於歌詞,MelodyBand用於旋律,共同構成了全面的多任務歌曲生成系統,允許基於多種提示進行廣泛控制。實驗結果表明,VersBand在多項歌曲生成任務中,無論是客觀還是主觀指標上,均優於基準模型。音頻樣本可在https://VersBand.github.io獲取。
數學幾何問題求解(GPS)通常需要有效地整合多模態信息並確保邏輯的可驗證性。儘管大語言模型在通用問題解決方面發展迅速,但在方法和基準測試方面仍存在未解之謎,尤其是考慮到現有的合成GPS基準往往無法自我驗證,且由於大語言模型的幻覺而包含噪聲和自相矛盾的信息。本文提出了一種名為TrustGeoGen的可擴展數據引擎,用於問題生成,並通過形式化驗證提供原則性的基準,我們認為這為GPS方法的進一步發展奠定了基礎。該引擎通過四項關鍵創新合成幾何數據:1)圖形、文本描述和逐步解決方案的多模態對齊生成;2)確保推理路徑符合規則的形式化驗證;3)通過遞歸狀態生成實現複雜度提升的引導機制;以及4)我們設計的GeoExplore系列算法,同時生成多解變體和自我反思的回溯軌跡。通過形式邏輯驗證,TrustGeoGen生成了具有模態完整性的GeoTrust-200K數據集,以及GeoTrust-test測試集。實驗表明,最先進的模型在GeoTrust-test上的準確率僅為49.17%,展示了其評估的嚴格性。關鍵的是,在GeoTrust上訓練的模型在GeoQA上實現了OOD泛化,相對於OpenAI-o1偽標註,顯著減少了邏輯不一致性。我們的代碼可在https://github.com/Alpha-Innovator/TrustGeoGen獲取。
近期研究表明,上下文學習(In-Context Learning, ICL)以雙重模式運作,即任務檢索(從預訓練中回憶已學習的模式)和任務學習(在推理時通過示範進行「學習」)。然而,區分這兩種模式仍是一個具有挑戰性的目標。我們引入了ICL CIPHERS,這是一類基於經典密碼學中替換密碼的任務重構方法。在此方法中,上下文輸入中的一部分詞彙被替換為其他(不相關的)詞彙,使得英文句子在人眼看來難以理解。然而,設計上存在一個潛在的、固定的替換模式,使其可逆。這種雙射(可逆)密碼確保了任務在抽象意義上仍是一個定義良好的任務,儘管經過了轉換。一個有趣的問題是,大型語言模型(LLMs)能否解決具有雙射映射的ICL CIPHERS,這需要解碼潛在的密碼。我們展示了LLMs在解決具有雙射映射的ICL CIPHERS時,比非雙射(不可逆)基線表現更好,為量化ICL中的「學習」提供了一種新穎的方法。儘管這一差距較小,但在四個數據集和六個模型上均保持一致。最後,我們檢視了LLMs的內部表徵,並發現了它們解碼加密輸入能力的證據。
對領域專用架構(Domain-Specific Architecture, DSA)日益增長的需求,推動了敏捷硬體開發方法論(Agile Hardware Development Methodology, AHDM)的發展。像Chisel這樣的硬體建構語言(Hardware Construction Language, HCL)提供了高層次的抽象特性,使其成為基於HCL的AHDM的理想語言。儘管大型語言模型(Large Language Models, LLMs)在程式碼生成任務中表現出色,但在Chisel生成方面仍面臨挑戰,尤其是在語法正確性和設計多樣性方面。近期的推理模型通過測試時擴展技術顯著提升了程式碼生成能力。然而,我們發現未經領域適應的推理模型無法為Chisel程式碼生成任務帶來實質性的益處。本文提出了ChiseLLM,這是一個包含數據處理與轉換、提示引導的推理軌跡合成以及領域適應模型訓練的解決方案。我們從公開的RTL程式碼資源中構建了高品質的數據集,並通過提示增強方法引導模型採用結構化的思維模式。實驗表明,我們的ChiseLLM-7B和ChiseLLM-32B模型在語法正確性上分別比基礎模型提高了18.85%和26.32%,同時在設計多樣性能力上比基準推理模型提升了47.58%。我們的數據集和模型已公開提供,為基於HCL的AHDM提供了高效能、成本效益的模型,並為未來研究提供了有效的基準。Github倉庫:https://github.com/observerw/ChiseLLM