每日精選AI研究論文及翻譯
語言模型預訓練涉及在大量語料庫上進行訓練,其中數據質量起著關鍵作用。在本研究中,我們旨在直接估計數據在預訓練過程中的貢獻,並以高效的方式選擇預訓練數據。具體而言,我們從最近的研究成果中獲得啟發,這些研究表明,當文本領域與下游基準對齊時,多樣化模型在特定文本上的壓縮效率(即標準化損失)與其下游性能高度相關(Huang et al., 2024)。基於這一觀察,我們假設那些模型損失能夠預測下游能力的數據,也對學習有顯著貢獻。為利用這一洞察,我們引入了一種基於數據預測強度(PreSelect)的數據選擇方法,這是一種輕量級且高效的數據選擇方法,僅需訓練和部署一個基於fastText的評分器。通過對1B和3B參數模型的全面實驗,我們證明,使用PreSelect選擇的30B tokens訓練的模型,其性能超過了在300B tokens上訓練的普通基線模型,實現了計算需求10倍的降低。此外,在3B模型上訓練100B tokens的規模下,PreSelect顯著優於其他競爭性數據選擇基線,如DCLM和FineWeb-Edu。我們開源了訓練的數據選擇評分器以及精選數據集,詳見https://github.com/hkust-nlp/PreSelect。
大型語言模型(LLMs)通過如思維鏈(Chain-of-Thought, CoT)提示等機制,在解決複雜推理任務中展現了卓越的性能,該機制強調詳細的逐步推理。然而,人類通常採用更高效的策略:起草簡潔的中間思考,僅捕捉關鍵信息。在本研究中,我們提出了一種受人類認知過程啟發的新範式——草稿鏈(Chain of Draft, CoD),其中LLMs在解決任務時生成簡約但信息豐富的中間推理輸出。通過減少冗餘並聚焦於關鍵洞察,CoD在準確性上與CoT相當或更優,同時僅使用7.6%的token,顯著降低了各種推理任務的成本和延遲。
在人类生产活动中,设计应对复杂工程挑战的解决方案至关重要。然而,以往在检索增强生成(RAG)领域的研究尚未充分涉及复杂工程解决方案设计相关的任务。为填补这一空白,我们引入了一个新的基准测试——SolutionBench,用以评估系统在多重复杂约束下生成完整且可行工程解决方案的能力。为进一步推动复杂工程解决方案的设计,我们提出了一种新颖的系统——SolutionRAG,该系统利用基于树的探索机制和双点思维模式来生成可靠的解决方案。大量实验结果表明,SolutionRAG在SolutionBench上实现了最先进的(SOTA)性能,彰显了其在现实应用中提升复杂工程解决方案设计自动化与可靠性的潜力。
我們探討了基於多輪執行反饋的代碼生成問題。現有方法要麼在無反饋的情況下生成代碼,要麼使用複雜的分層強化學習來優化多輪獎勵。我們提出了一種簡單且可擴展的方法——muCode,它僅利用單步獎勵來解決多輪代碼生成問題。我們的關鍵洞察在於,代碼生成是一個單步可恢復的馬爾可夫決策過程(MDP),即從任何中間代碼狀態出發,都能在一輪內恢復出正確的代碼。muCode迭代訓練兩個組件:一個是基於多輪執行反饋提供代碼解決方案的生成器,另一個是對新生成代碼進行評分的驗證器。實驗評估表明,我們的方法相較於最先進的基線模型取得了顯著提升。我們分析了獎勵模型和策略的設計選擇,並展示了muCode在利用執行反饋方面的有效性。我們的代碼可在https://github.com/portal-cornell/muCode獲取。
近期,文本到圖像(T2I)生成模型通過在數十億規模的數據集上訓練,遵循「越大越好」的範式,取得了顯著成果,這一範式強調數據數量而非質量。我們挑戰這一既定範式,證明對小型、精心策劃的數據集進行策略性數據增強,能夠匹配甚至超越基於大規模網絡抓取數據集訓練的模型。僅使用經過精心設計的文本和圖像增強技術擴展的ImageNet數據集,我們在GenEval上相較SD-XL提升了2分,在DPGBench上提升了5分,而僅使用了1/10的參數和1/1000的訓練圖像。我們的結果表明,策略性數據增強而非龐大的數據集,可能為T2I生成提供一條更可持續的發展路徑。
大型語言模型(LLMs)在多樣化的任務中已達到人類水平,但其在嚴格數學問題解決上的能力仍是一個開放性挑戰。本研究探討了一個基礎但計算上棘手的問題:判定給定的多元多項式是否非負。此問題與希爾伯特第十七問題密切相關,在全局多項式優化中扮演關鍵角色,並在多個領域具有應用價值。首先,我們引入了SoS-1K,這是一個精心策劃的約1,000個多項式的數據集,並附有基於五個逐步挑戰性標準的專家設計推理指導。評估多個最先進的LLMs後,我們發現,在缺乏結構化指導的情況下,所有模型的表現僅略高於隨機猜測的基準50%。然而,高質量的推理指導顯著提升了準確率,將性能提升至81%。此外,我們在SoS-1K上僅微調4小時的7B模型SoS-7B,在準確性上超越了671B的DeepSeek-V3和GPT-4o-mini,而所需的計算時間僅分別為後者的1.8%和5%。我們的研究結果凸顯了LLMs在推動數學推理邊界及應對NP難題方面的潛力。
理解視覺豐富文件中的資訊,對於傳統的檢索增強生成(RAG)方法而言,仍是一大挑戰。現有的基準測試主要集中於基於圖像的問答(QA),卻忽視了在密集視覺文件中進行高效檢索、理解與推理的基本挑戰。為彌補這一差距,我們引入了ViDoSeek,這是一個新穎的數據集,旨在評估RAG在需要複雜推理的視覺豐富文件上的表現。基於此,我們識別出當前RAG方法的關鍵限制:(i)純視覺檢索方法難以有效整合文本與視覺特徵,(ii)先前方法常分配不足的推理標記,限制了其效能。為應對這些挑戰,我們提出了ViDoRAG,這是一個專為視覺文件間複雜推理設計的新穎多代理RAG框架。ViDoRAG採用基於高斯混合模型(GMM)的混合策略,以有效處理多模態檢索。為進一步激發模型的推理能力,我們引入了一個包含探索、總結與反思的迭代代理工作流程,為研究RAG領域中的測試時擴展提供了一個框架。在ViDoSeek上的大量實驗驗證了我們方法的有效性與泛化能力。值得注意的是,ViDoRAG在競爭性的ViDoSeek基準測試上,表現優於現有方法超過10%。
強化學習在多樣化的問題領域中已展現出實現人類甚至超人類水準能力的潛力,但在靈巧的機器人操作方面,其成功仍顯有限。本研究探討了將強化學習應用於解決人形機器人上一系列接觸豐富的操作任務時所面臨的關鍵挑戰。我們引入新穎技術來克服這些已識別的挑戰,並通過實證進行驗證。我們的主要貢獻包括:一個自動化的實物到模擬調校模組,使模擬環境更接近真實世界;一個通用的獎勵設計方案,簡化了長期接觸豐富操作任務的獎勵工程;一個分而治之的蒸餾過程,在保持模擬到真實性能的同時,提高了難探索問題的樣本效率;以及稀疏與密集物體表示的混合,以彌合模擬到真實的感知差距。我們在三項人形靈巧操作任務上展示了令人鼓舞的結果,並對每項技術進行了消融研究。我們的工作提出了一種成功的學習人形靈巧操作的方法,利用模擬到真實的強化學習,實現了強大的泛化能力和高性能,而無需人類示範。
現代自動語音辨識(ASR)模型,如OpenAI的Whisper,依賴於深度編碼器-解碼器架構,其編碼器由於計算密集度高,成為高效部署的關鍵瓶頸。我們提出了LiteASR,一種針對ASR編碼器的低秩壓縮方案,能在保持轉錄準確性的同時,顯著降低推理成本。我們的方法利用了在中間激活中觀察到的強低秩特性:通過使用少量校準數據進行主成分分析(PCA),我們用一系列低秩矩陣乘法來近似線性變換,並進一步優化自注意力機制,使其在降維空間中運作。評估結果顯示,我們的方法能將Whisper large-v3的編碼器大小壓縮超過50%,使其尺寸與Whisper medium相當,但轉錄準確性更佳,從而建立了效率與性能的新帕累托最優前沿。LiteASR的代碼可在https://github.com/efeslab/LiteASR獲取。
檢索增強生成(RAG)透過整合外部資料來源來擴展大型語言模型(LLM),以提升事實準確性與領域覆蓋率。現代RAG管線依賴於大型資料庫,這在對延遲敏感的部署中帶來了系統挑戰,尤其是在GPU記憶體有限的情況下。為應對這些挑戰,我們提出了TeleRAG,這是一個高效的推理系統,能在最小化GPU記憶體需求的同時降低RAG延遲。TeleRAG的核心創新在於前瞻檢索,這是一種預取機制,能夠預測所需資料並在LLM生成的同時將其從CPU傳輸至GPU。透過利用RAG管線的模組化特性、倒排檔案索引(IVF)搜尋演算法以及查詢之間的相似性,TeleRAG最佳化地重疊了資料移動與計算。實驗結果顯示,與最先進的系統相比,TeleRAG平均可將端到端RAG推理延遲降低最多1.72倍,從而實現更快速、更節省記憶體的先進RAG應用部署。
視覺基礎模型(VFMs)因其卓越的性能而日益受到歡迎。然而,在關鍵應用中,可解釋性仍然至關重要。自解釋模型(SEM)旨在提供可解釋的分類器,將預測分解為可解釋概念的加權和。儘管前景看好,但最近的研究表明,這些解釋往往缺乏真實性。在本研究中,我們將VFMs與一種新穎的原型架構和專門的訓練目標相結合。通過在凍結的VFMs之上僅訓練一個輕量級頭部(約100萬參數),我們的方法(ProtoFM)提供了一種高效且可解釋的解決方案。評估結果表明,我們的方法在保持競爭力的分類性能的同時,在從文獻中衍生的一系列可解釋性指標上超越了現有模型。代碼可在https://github.com/hturbe/proto-fm獲取。
儘管檢索增強生成(RAG)系統整合了外部知識來源,仍易產生虛構答案。我們提出LettuceDetect框架,旨在解決現有幻覺檢測方法的兩大關鍵限制:(1)傳統基於編碼器方法的上下文窗口限制,以及(2)基於大型語言模型(LLM)方法的計算效率低下。基於ModernBERT擴展上下文能力(最高可達8k個標記)並在RAGTruth基準數據集上訓練,我們的方法超越了所有先前的基於編碼器模型及大多數基於提示的模型,同時模型規模約為最佳模型的1/30。LettuceDetect是一個處理上下文-問題-答案三元組的標記分類模型,能夠在標記層面識別無支持的主張。在RAGTruth語料庫上的評估顯示,其範例級檢測的F1分數達79.22%,較之前基於編碼器的最先進架構Luna提升了14.8%。此外,該系統在單個GPU上每秒可處理30至60個範例,使其更適合實際的RAG應用場景。
隨著卷積神經網絡(CNNs)和Transformer模型的複雜性與參數量不斷增加,其在計算效率和資源需求方面面臨著嚴峻挑戰。剪枝技術已被證實為應對這些挑戰的有效策略,通過移除冗餘的神經元、通道或連接,從而提升計算效率而不顯著影響性能。本文基於「最優腦損傷」(Optimal Brain Damage, OBD)的基礎工作,進一步推進了利用海森矩陣進行參數重要性估計的方法。與以往依賴近似計算的方法不同,我們提出了一種新穎的剪枝方法——「最優腦凋亡」(Optimal Brain Apoptosis, OBA),該方法直接計算每個參數的海森-向量乘積值。通過將海森矩陣分解至網絡各層,並識別層間海森子矩陣非零的條件,我們提出了一種高效計算參數二階泰勒展開的技術。這一方法使得剪枝過程更加精確,特別是在CNNs和Transformer的應用中,這在我們對VGG19、ResNet32、ResNet50及ViT-B/16在CIFAR10、CIFAR100和Imagenet數據集上的實驗中得到了驗證。我們的代碼已公開於https://github.com/NEU-REAL/OBA。
靈巧抓取仍然是機器人學中一個基礎且具挑戰性的問題。一個通用型機器人必須能夠在任意場景下抓取多樣化的物體。然而,現有研究通常依賴於特定假設,如單一物體設置或受限環境,導致泛化能力受限。我們的解決方案是DexGraspVLA,這是一個分層框架,利用預訓練的視覺-語言模型作為高層任務規劃器,並學習基於擴散策略的低層動作控制器。其核心洞察在於迭代地將多樣化的語言和視覺輸入轉化為領域不變的表示,從而有效應用模仿學習,因為這緩解了領域偏移問題。因此,它能在廣泛的真實世界場景中實現穩健的泛化。值得注意的是,在“零樣本”環境下,我們的方法在數千種未見過的物體、光照和背景組合中達到了90%以上的成功率。實證分析進一步確認了模型內部行為在環境變化中的一致性,從而驗證了我們的設計並解釋了其泛化性能。我們希望這項工作能為實現通用的靈巧抓取邁出一步。我們的演示和代碼可在https://dexgraspvla.github.io/找到。
將大型語言模型(LLMs)應用於心理諮詢輔助是一種新興且具有意義的方法,這主要是由於患者需求與心理健康支持可用性之間存在顯著差距。然而,目前的LLMs在對客戶言論提供有效回應方面仍存在困難,這很大程度上歸因於缺乏高質量真實心理諮詢數據的監督,這些數據的內容通常因客戶隱私問題而難以獲取。此外,現有諮詢會談中治療師回應的質量會因其專業培訓和經驗而顯著不同。評估治療師回應的質量仍是一個開放性挑戰。在本研究中,我們首先提出了一套專業且全面的原則來評估治療師對客戶言論的回應,以此應對這些挑戰。基於這些原則,我們創建了一個偏好數據集PsychoCounsel-Preference,其中包含36k個高質量的偏好比較對。該數據集與專業心理治療師的偏好保持一致,為評估和改進LLMs在心理諮詢中的應用提供了堅實基礎。在獎勵建模和偏好學習方面的實驗表明,PsychoCounsel-Preference是LLMs獲取諮詢會談中回應客戶所需關鍵技能的優秀資源。我們的最佳對齊模型PsychoCounsel-Llama3-8B在與GPT-4o的對比中取得了87%的驚人勝率。我們發布了PsychoCounsel-Preference、PsychoCounsel-Llama3-8B以及獎勵模型PsychoCounsel Llama3-8B-Reward,以促進LLMs在心理諮詢領域的研究,詳見:https://hf.co/Psychotherapy-LLM。
人類行為受規範所調節。在現實世界中進行活動時,人類不僅遵循規範,還會考慮不同規範之間的權衡。然而,機器在訓練時往往缺乏對規範理解與推理的明確指導,尤其是當這些規範植根於物理和社會情境中時。為了提升並評估視覺語言模型(VLMs)的規範推理能力,我們提出了EgoNormia |ε|,該數據集包含1,853段以自我為中心的人類互動視頻,每段視頻均配有兩個相關問題,用於評估對規範行為的預測與合理性解釋。這些規範行為涵蓋七大類別:安全、隱私、空間距離、禮貌、合作、協調/主動性以及溝通/清晰度。為了大規模編制此數據集,我們提出了一種新穎的流程,結合了視頻採樣、自動答案生成、過濾及人工驗證。我們的研究表明,當前最先進的視覺語言模型在規範理解方面存在明顯不足,在EgoNormia上的最高得分僅為45%(相比之下,人類基準為92%)。我們對各維度表現的分析揭示了在應用於現實世界代理時,安全、隱私方面的重大風險,以及合作與溝通能力的缺失。此外,我們還展示了通過基於檢索的生成方法,利用EgoNomia來增強視覺語言模型的規範推理能力是可行的。
尽管基于扩散模型的图像生成已取得显著进展,但主题驱动的生成和基于指令的编辑仍面临挑战。现有方法通常将这两者分开处理,受限于高质量数据的匮乏和泛化能力的不足。然而,这两项任务均需在捕捉复杂视觉变化的同时,保持输入与输出间的一致性。为此,我们提出了MIGE,一个利用多模态指令标准化任务表示的统一框架。它将主题驱动生成视为在空白画布上的创作,而将基于指令的编辑视为对现有图像的修改,从而建立了一个共享的输入-输出表述。MIGE引入了一种新颖的多模态编码器,将自由形式的多模态指令映射到一个统一的视觉-语言空间,通过特征融合机制整合视觉与语义特征。这种统一性使得两项任务能够联合训练,带来两大关键优势:(1) 跨任务增强:通过共享视觉与语义表示,联合训练提升了主题驱动生成和基于指令编辑中的指令遵循度与视觉一致性。(2) 泛化能力:在统一格式下的学习促进了跨任务知识迁移,使MIGE能够泛化至包括基于指令的主题驱动编辑在内的新颖组合任务。实验表明,MIGE在主题驱动生成和基于指令的编辑上均表现出色,并在基于指令的主题驱动编辑这一新任务上树立了新的标杆。代码与模型已公开于https://github.com/Eureka-Maggie/MIGE。
近期,多模态大语言模型(MLLMs)在视频理解领域取得了显著进展。然而,在处理涉及人类行为的视频时,其性能仍受限于高质量数据的匮乏。为解决这一问题,我们引入了一个两阶段的数据标注流程。首先,我们设计了策略从互联网上积累包含清晰人类行为的视频。其次,这些视频按照标准化的字幕格式进行标注,该格式利用人类属性来区分个体,并按时间顺序详细描述他们的行为及互动。通过这一流程,我们整理了两个数据集,即HAICTrain和HAICBench。HAICTrain包含126,000个由Gemini-Pro生成并经过验证的视频-字幕对,用于训练目的。同时,HAICBench包含500个手动标注的视频-字幕对和1,400个问答对,用于全面评估人类行为理解能力。实验结果表明,使用HAICTrain进行训练不仅显著提升了在4个基准测试中的人类理解能力,还能改善文本到视频的生成效果。HAICTrain和HAICBench均已发布于https://huggingface.co/datasets/KuaishouHAIC/HAIC。