每日精選AI研究論文及翻譯
統一多模態理解與生成在尖端專有系統中展現了令人矚目的能力。在本研究中,我們介紹了BAGEL,這是一個開源的基礎模型,原生支援多模態理解與生成。BAGEL是一個統一的、僅解碼器架構的模型,預訓練於從大規模交錯文本、圖像、視頻及網絡數據中精心挑選的數萬億個標記上。當以如此多樣化的多模態交錯數據進行擴展時,BAGEL展現出在複雜多模態推理中的新興能力。因此,它在標準基準測試中,無論是多模態生成還是理解方面,均顯著超越了開源統一模型,同時展示了高級多模態推理能力,如自由形式的圖像編輯、未來幀預測、3D操作及世界導航。為了促進多模態研究的進一步發展,我們分享了關鍵發現、預訓練細節、數據創建協議,並向社區公開了我們的代碼和檢查點。項目頁面位於https://bagel-ai.org/。
由於注意力機制具有二次方時間複雜度,其效率至關重要。我們通過兩項關鍵貢獻來提升注意力機制的效率:首先,我們利用Blackwell GPU中的新型FP4 Tensor Core來加速注意力計算。我們的實現在RTX5090上達到了1038 TOPS,相比於RTX5090上最快的FlashAttention實現,速度提升了5倍。實驗表明,我們的FP4注意力能夠以即插即用的方式加速多種模型的推理過程。其次,我們率先將低比特注意力應用於訓練任務。現有的低比特注意力工作,如FlashAttention3和SageAttention,僅專注於推理。然而,訓練大型模型的效率同樣重要。為了探索低比特注意力是否能夠有效應用於訓練任務,我們設計了一種精確且高效的8比特注意力機制,適用於前向和反向傳播。實驗結果表明,8比特注意力在微調任務中實現了無損性能,但在預訓練任務中表現出較慢的收斂速度。代碼將在https://github.com/thu-ml/SageAttention 上提供。
獎勵模型在引導大型語言模型產出符合人類期望的結果方面扮演著關鍵角色。然而,如何有效利用測試時的計算資源來提升獎勵模型性能,仍是一個待解的難題。在本研究中,我們引入了獎勵推理模型(Reward Reasoning Models, RRMs),該模型專門設計用於在生成最終獎勵前執行深思熟慮的推理過程。通過思維鏈推理,RRMs能夠針對複雜查詢,在適當獎勵不明顯的情況下,利用額外的測試時計算資源。為了開發RRMs,我們實施了一個強化學習框架,該框架促進了自我進化的獎勵推理能力,而無需依賴明確的推理軌跡作為訓練數據。實驗結果表明,RRMs在多個領域的獎勵建模基準測試中均取得了優異表現。值得注意的是,我們展示了RRMs能夠自適應地利用測試時計算資源,進一步提升獎勵準確性。預訓練的獎勵推理模型已公開於https://huggingface.co/Reward-Reasoning。
擴展測試時計算能力對於提升大型語言模型(LLMs)的推理能力至關重要。現有方法通常採用強化學習(RL)來最大化在推理軌跡結束時獲得的可驗證獎勵。然而,此類方法僅在固定且大量的令牌預算下優化最終性能,這阻礙了訓練和部署的效率。在本研究中,我們提出了一種新框架——AnytimeReasoner,以優化隨時推理性能,旨在提高令牌效率及在不同令牌預算約束下的推理靈活性。為實現這一目標,我們將完整的思考過程截斷以適應從先驗分佈中抽樣的令牌預算,迫使模型為每個截斷的思考總結出最佳答案以供驗證。這將可驗證的密集獎勵引入推理過程,促進了RL優化中更有效的信用分配。隨後,我們以解耦的方式優化思考與總結策略,以最大化累積獎勵。此外,我們引入了一種新穎的方差減少技術——預算相對策略優化(BRPO),以在強化思考策略時提升學習過程的魯棒性和效率。數學推理任務中的實證結果表明,我們的方法在各種先驗分佈下,於所有思考預算中均一致優於GRPO,顯著提升了訓練和令牌效率。
神經符號(NeSy)預測器結合了神經感知與符號推理,以解決如視覺推理等任務。然而,標準的NeSy預測器假設其提取的符號之間條件獨立,這限制了它們建模交互和不確定性的能力,常常導致過度自信的預測和較差的分布外泛化性能。為克服獨立性假設的局限,我們引入了神經符號擴散模型(NeSyDMs),這是一類新的NeSy預測器,利用離散擴散來建模符號間的依賴關係。我們的方法在擴散過程的每一步重用了NeSy預測器的獨立性假設,從而實現了可擴展的學習,同時捕捉了符號依賴性和不確定性量化。在包括高維視覺路徑規劃和基於規則的自動駕駛在內的合成與現實世界基準測試中,NeSyDMs在NeSy預測器中達到了最先進的準確度,並展現出強大的校準能力。
大型推理模型(如OpenAI的o3)的一个关键趋势是具备原生代理能力,能够使用外部工具(如网络浏览器进行搜索)以及编写/执行代码进行图像处理,从而实现基于图像的思考。在开源研究社区中,尽管在纯语言代理能力(如函数调用和工具集成)方面取得了显著进展,但涉及真正基于图像思考的多模态代理能力及其相应基准的开发仍较少被探索。本研究强调了视觉代理强化微调(Visual-ARFT)在赋予大型视觉语言模型(LVLMs)灵活且自适应推理能力方面的有效性。通过Visual-ARFT,开源LVLMs能够浏览网站以获取实时信息更新,并编写代码通过裁剪、旋转等图像处理技术来操作和分析输入图像。我们还提出了一个多模态代理工具基准(MAT),包含两种设置(MAT-Search和MAT-Coding),旨在评估LVLMs的代理搜索和编码能力。实验结果表明,Visual-ARFT在MAT-Coding上比基线高出+18.6% F1 / +13.0% EM,在MAT-Search上高出+10.3% F1 / +8.7% EM,最终超越了GPT-4o。Visual-ARFT在现有的多跳问答基准(如2Wiki和HotpotQA)上也实现了+29.3% F1 / +25.9% EM的提升,展示了强大的泛化能力。我们的研究结果表明,Visual-ARFT为构建稳健且可泛化的多模态代理提供了一条有前景的路径。
DeepSeek-R1在通過強化學習激勵大型語言模型(LLMs)的推理與泛化能力方面展現了顯著成效。然而,在極度依賴視覺推理的圖像質量評估(IQA)任務中,推理引導的計算建模潛力尚未得到充分探索。本文介紹了VisualQuality-R1,一種推理引導的無參考IQA(NR-IQA)模型,並採用針對視覺質量本質相對性量身定制的強化學習排序算法進行訓練。具體而言,對於一對圖像,我們運用群體相對策略優化為每幅圖像生成多個質量評分,這些估計值隨後用於計算在Thurstone模型下,一幅圖像質量高於另一幅的比較概率。每個質量估計的獎勵是基於連續的保真度度量而非離散的二值標籤來定義的。大量實驗表明,所提出的VisualQuality-R1在性能上持續超越基於判別式深度學習的NR-IQA模型以及近期的一種推理引導質量迴歸方法。此外,VisualQuality-R1能夠生成語境豐富、與人類感知一致的質量描述,並支持無需感知尺度重新對齊的多數據集訓練。這些特性使得VisualQuality-R1特別適合於可靠地衡量諸如超分辨率與圖像生成等多種圖像處理任務的進展。
Transformer,作為大型語言模型(LLMs)的標準實現,通常由數十至數百個獨立層組成。雖然增加層數可以提升性能,但這種方法被質疑效率低下,尤其是考慮到擴散模型和基於流的模型在圖像生成領域所展現的連續層的優越性。我們提出了潛在流Transformer(LFT),它通過流匹配訓練的單一學習傳輸算子替換了一組層,在保持與原始架構兼容的同時實現了顯著的壓縮。此外,我們針對現有基於流的方法在保持耦合性方面的局限性,引入了流步進(FW)算法。在Pythia-410M模型上,採用流匹配訓練的LFT壓縮了24層中的6層,並優於直接跳過2層的情況(語言模型對數的KL散度為0.407對比0.529),證明了這一設計的可行性。當使用FW進行訓練時,LFT進一步將12層蒸餾為一層,同時將KL散度降低至0.736,超越了跳過3層的結果(0.932),顯著縮小了自迴歸生成與基於流生成範式之間的差距。
目的:随着大型语言模型(LLMs)在医疗领域的进步,开发具有竞争力的开源模型以保护公众利益的需求日益凸显。本研究通过优化数据预处理和训练的关键阶段,展示了如何通过直接偏好优化(DPO)提升模型安全性,以及通过检索增强生成(RAG)提高模型效能,为开源医疗LLM领域做出了贡献。所采用的评估方法,包括四种不同类型的测试,为该领域设定了新的标准。最终发布的模型在性能上与最佳私有替代品相当,并以宽松的许可协议发布。 方法:基于Llama 3.1和Qwen 2.5等强大基础模型,Aloe Beta利用定制数据集,通过合成思维链示例增强公共数据。模型经过直接偏好优化对齐,强调在遭遇越狱攻击时的伦理与政策一致性表现。评估包括封闭式、开放式、安全性和人类评估,以最大化结果的可靠性。 结果:基于Aloe系列模型的坚实表现,提出了贯穿整个流程的优化建议。这些模型在医疗基准和医学领域中展现出竞争力,并常受医疗专业人士青睐。在偏见和毒性方面,Aloe Beta模型显著提升了安全性,对未知越狱攻击表现出韧性。为负责任地发布,Aloe系列模型附有详细的医疗风险评估。 结论:Aloe Beta模型及其开发方法,为开源医疗LLM领域做出了重要贡献,提供了顶尖性能的同时,坚守了高伦理要求。本研究为医疗领域对齐LLM的开发与报告设定了新标准。
強化學習(RL)近期在提升大型語言模型(LLMs)的推理能力方面展現出顯著潛力。特別是Deepseek-R1-Zero提出的「零」強化學習,使得無需依賴中間的監督微調階段即可直接對基礎LLMs進行RL訓練。儘管取得了這些進展,當前針對LLM推理的研究主要集中於數學和編程領域,這很大程度上得益於數據的豐富性和答案驗證的便捷性。這限制了此類模型在更廣泛領域中的適用性和泛化能力,這些領域的問題通常具有多樣的答案表示形式,且數據更為稀缺。本文提出了一種名為General-Reasoner的新穎訓練範式,旨在增強LLMs跨多領域的推理能力。我們的主要貢獻包括:(1)通過網絡爬取構建了一個大規模、高質量的問題數據集,涵蓋多個學科,並附有可驗證的答案;(2)開發了一種基於生成模型的答案驗證器,它利用思維鏈和上下文感知能力取代了傳統的基於規則的驗證方法。我們訓練了一系列模型,並在涵蓋物理、化學、金融、電子等多個領域的廣泛數據集上進行了評估。我們在12個基準測試(如MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH和MATH AMC)上的全面評估表明,General-Reasoner在保持數學推理任務中卓越有效性的同時,超越了現有的基線方法,展現出強大且可泛化的推理性能。
近期的大型推理模型(LRMs)通过在生产最终响应之前引入扩展的思考过程,相较于传统的大型语言模型(LLMs)展现出了显著提升的推理能力。然而,过长的思考过程会带来显著的令牌消耗和延迟开销,这对于简单查询而言尤为不必要。在本研究中,我们引入了大型混合推理模型(LHRMs),这是首类能够根据用户查询的上下文信息自适应决定是否进行思考的模型。为实现这一目标,我们提出了一个两阶段的训练流程,包括作为冷启动的混合微调(HFT),随后采用我们提出的混合群体策略优化(HGPO)进行在线强化学习,以隐式学习选择适当的思考模式。此外,我们引入了一种名为混合准确率的指标,用于定量评估模型的混合思考能力。大量实验结果表明,LHRMs能够针对不同难度和类型的查询自适应地执行混合思考。它在推理和通用能力上均优于现有的LRMs和LLMs,同时显著提高了效率。我们的工作共同倡导重新审视扩展思考过程的适当使用,并为构建混合思考系统提供了坚实的起点。
儘管大型語言模型(LLMs)具有強大的能力,但它們往往無法準確地表達其信心程度,這使得評估它們何時可能出錯變得困難,從而限制了其可靠性。在本研究中,我們展示了推理模型——即那些進行延伸的思維鏈(CoT)推理的LLMs——不僅在問題解決上表現優異,而且在準確表達其信心方面也顯著優於非推理模型。具體而言,我們在六個數據集上對六種推理模型進行了基準測試,發現它們在36種設置中的33種情況下,其信心校準表現均嚴格優於非推理模型。我們詳細的分析揭示,這些校準上的提升源於推理模型的慢思考行為——例如探索替代方法和回溯——這些行為使它們能夠在整個CoT過程中動態調整其信心,使其逐漸變得更加準確。特別是,我們發現推理模型的校準程度隨著CoT的展開而逐漸提高,這一趨勢在非推理模型中並未觀察到。此外,從CoT中移除慢思考行為會導致校準顯著下降。最後,我們表明這些提升並非推理模型所獨有——非推理模型在通過上下文學習引導進行慢思考時也能獲益。
近期專注於推理的語言模型通過生成冗長的中間推理路徑來達到高準確率。雖然這種方法在解決需要邏輯思考的問題上頗為有效,但過長的推理路徑顯著增加了記憶體使用量和令牌生成的吞吐量,限制了此類模型的實際部署。我們提出了推理路徑壓縮(Reasoning Path Compression, RPC),這是一種無需訓練的方法,利用推理路徑的語義稀疏性來加速推理。RPC定期壓縮鍵值(KV)快取,保留那些獲得高重要性分數的KV快取,這些分數是通過由最近生成的查詢組成的選擇器窗口計算得出的。實驗顯示,與使用完整KV快取的推理相比,RPC將QwQ-32B的生成吞吐量提升了最高1.60倍,在AIME 2024基準測試上的準確率僅下降1.2%。我們的研究表明,推理軌跡中的語義稀疏性可被有效利用於壓縮,為高效部署推理型大型語言模型提供了一條實用路徑。我們的程式碼可在https://github.com/jiwonsong-dev/ReasoningPathCompression 獲取。
學習通用推理能力一直是人工智慧領域中長期存在的挑戰。近期針對大型語言模型(LLMs)的研究,例如DeepSeek-R1,顯示出透過如GRPO等強化學習技術,能夠讓預訓練的LLMs利用簡單的問答對來發展推理能力。本文旨在訓練視覺語言模型(VLMs),使其能夠透過強化學習和視覺問答對來對圖像數據進行推理,而無需任何明確的思維鏈(CoT)監督。我們的研究發現,僅僅將強化學習應用於VLM——透過提示模型在提供答案前生成推理鏈——可能會導致模型從簡單問題中發展出捷徑,從而降低其在未見過數據分佈上的泛化能力。我們認為,緩解捷徑學習的關鍵在於鼓勵模型在推理前先對圖像進行解釋。因此,我們訓練模型遵循「描述-推理-回答」的輸出格式:首先生成圖像的詳細描述,接著構建深入的推理鏈。當在273K個無CoT的視覺問答對上進行訓練,並僅使用強化學習時,我們名為Visionary-R1的模型在多個視覺推理基準測試中超越了強大的多模態模型,如GPT-4o、Claude3.5-Sonnet和Gemini-1.5-Pro。
智能遊戲創作代表了遊戲開發領域的變革性進步,它利用生成式人工智慧來動態生成和增強遊戲內容。儘管生成模型已取得顯著進展,但高質量遊戲資產(包括圖像和影片)的全面合成仍是一個具有挑戰性的前沿領域。為了創造既符合玩家偏好又能顯著提升設計師效率的高保真遊戲內容,我們推出了創新項目「Hunyuan-Game」,旨在徹底革新智能遊戲製作。Hunyuan-Game涵蓋兩個主要分支:圖像生成和影片生成。圖像生成組件基於包含數十億遊戲圖像的龐大數據集,開發了一組專為遊戲場景定制的圖像生成模型:(1) 通用文本到圖像生成。(2) 遊戲視覺效果生成,包括基於文本和參考圖像的遊戲視覺效果生成。(3) 角色、場景和遊戲視覺效果的透明圖像生成。(4) 基於草圖、黑白圖像和白模的遊戲角色生成。影片生成組件則基於數百萬遊戲和動漫影片的綜合數據集,開發了五個核心算法模型,每個模型都針對遊戲開發中的關鍵痛點,並對多樣化的遊戲影片場景具有強大的適應性:(1) 圖像到影片生成。(2) 360度A/T姿勢角色影片合成。(3) 動態插圖生成。(4) 生成式影片超分辨率。(5) 互動式遊戲影片生成。這些圖像和影片生成模型不僅展現出高層次的美學表達,還深度融合了領域特定知識,建立了對多樣化遊戲和動漫藝術風格的系統性理解。
大型多模态模型(LMMs)近期已成为长视频理解(LVU)的强大工具,推动了标准化LVU基准的开发以评估其性能。然而,我们的研究揭示了现有LVU基准的一个严峻问题。首先,大多数现有基准严重依赖多项选择题(MCQs),其评估结果因猜测正确答案的可能性而被夸大;其次,这些基准中的相当一部分问题具有强烈的先验性,使得模型无需观看输入视频即可直接作答。例如,在Video-MME上,Gemini-1.5-Pro仅凭长视频中的随机帧就能达到超过50%的准确率。我们还观察到,增加帧数并不必然带来现有基准上的性能提升,这与直觉相悖。因此,当前LVU基准的有效性和鲁棒性受到削弱,阻碍了对LMMs长视频理解能力的真实评估。为解决这一问题,我们提出了VideoEval-Pro,一个包含开放式简答题的现实LVU基准,这些问题真正要求理解整个视频。VideoEval-Pro通过感知和推理任务评估片段级和全视频理解。通过评估21个专有和开源视频LMMs,我们得出以下结论:(1) 视频LMMs在开放式问题上的表现相比MCQs有显著下降(>25%);(2) 令人惊讶的是,更高的MCQ得分并未在VideoEval-Pro上带来更高的开放式得分;(3) 与其他MCQ基准相比,VideoEval-Pro更能从增加输入帧数中获益。我们的结果表明,VideoEval-Pro提供了更真实、可靠的长视频理解衡量标准,为该领域的进展提供了更清晰的视角。
代碼轉換(Code-switching, CS)對大型語言模型(LLMs)構成了重大挑戰,然而其在LLMs中的可理解性仍未被充分探討。我們引入了CS-Sum,通過將CS對話轉換為英語摘要來評估LLMs對CS的理解能力。CS-Sum是首個涵蓋普通話-英語(EN-ZH)、泰米爾語-英語(EN-TA)和馬來語-英語(EN-MS)的CS對話摘要基準,每對語言包含900至1300條人工註釋的對話。通過評估包括開源和閉源模型在內的十種LLMs,我們分析了在少樣本學習、翻譯-摘要以及微調(LoRA、QLoRA基於合成數據)方法下的表現。我們的研究發現,儘管在自動化指標上的得分較高,但LLMs會犯下細微的錯誤,從而完全改變對話的意義。為此,我們介紹了LLMs在處理CS輸入時最常見的三類錯誤。錯誤率因CS語言對和LLMs的不同而異,某些LLMs在特定語言對上表現出更頻繁的錯誤,這凸顯了針對代碼轉換數據進行專門訓練的必要性。
LLM剪枝技術已成為壓縮大型語言模型的一種前景廣闊的方法,使其能夠部署在資源受限的設備上。然而,現有方法通常需要訪問公共校準樣本,這在注重隱私的領域中可能難以獲取。為解決這一問題,我們引入了FedPrLLM,這是一個全面的聯邦剪枝框架,專為保護隱私的LLM壓縮而設計。在FedPrLLM中,每個客戶端只需基於其本地校準數據計算剪枝掩碼矩陣,並將其分享給服務器以剪枝全局模型。這種方法允許在保持本地數據隱私的同時,利用每個客戶端的知識協同剪枝全局模型。此外,我們進行了廣泛的實驗,探索FedPrLLM框架內的各種可能性,包括不同的對照組、剪枝策略以及是否進行權重縮放的決策。我們的大量評估表明,在FedPrLLM框架內,採用層間比較且不進行權重縮放的一次性剪枝是最佳選擇。我們希望這項工作能為未來在注重隱私的領域中進行LLM剪枝的研究提供指導。我們的代碼可在https://github.com/Pengxin-Guo/FedPrLLM獲取。
隱形圖像水印技術能夠有效保護圖像所有權,防止視覺生成模型的惡意濫用。然而,現有的生成式水印方法主要針對擴散模型設計,而自迴歸圖像生成模型的水印技術仍處於探索不足的狀態。我們提出了IndexMark,這是一種無需訓練的自迴歸圖像生成模型水印框架。IndexMark的靈感來自於代碼本的冗餘特性:用相似索引替換自迴歸生成的索引,所產生的視覺差異微乎其微。IndexMark的核心組件是一個簡單而有效的匹配後替換方法,該方法基於代碼本中的代碼相似性精心挑選水印標記,並通過代碼替換促進水印標記的使用,從而實現了在不影響圖像質量的前提下嵌入水印。水印驗證通過計算生成圖像中水印標記的比例來實現,並通過索引編碼器進一步提升驗證精度。此外,我們引入了一種輔助驗證方案,以增強對裁剪攻擊的魯棒性。實驗結果表明,IndexMark在圖像質量和驗證準確性方面達到了最先進的水平,並且對多種干擾(包括裁剪、噪聲、高斯模糊、隨機擦除、色彩抖動和JPEG壓縮)展現出良好的魯棒性。
尽管多模态大语言模型(MLLMs)已被广泛采用,但在面对分布变化下的陌生查询时,其性能仍会出现下降。现有提升MLLM泛化能力的方法通常需要更多的指令数据或更先进的模型架构,这两者都伴随着不小的人力或计算成本。在本研究中,我们从表示学习的角度出发,采取了一种不同的方法来增强MLLM在分布变化下的鲁棒性。受信息瓶颈(IB)原理启发,我们推导了MLLM的IB变分下界,并设计了一种实用实现——视觉指令瓶颈微调(Vittle)。随后,通过揭示Vittle与MLLM信息论鲁棒性度量的联系,我们为其提供了理论依据。在涵盖45个数据集(包括30种变化场景)的开放式与封闭式问答及对象幻觉检测任务上,对三种MLLM进行的实证验证表明,Vittle通过追求最小充分表示的学习,持续提升了MLLM在变化条件下的鲁棒性。
隨著大型語言模型規模的指數級增長,GPU記憶體已成為將這些模型適應下游任務的瓶頸。本文旨在通過在統一框架內最小化模型權重、梯度和優化器狀態的記憶體使用,來突破記憶體高效訓練的極限。我們的核心思想是利用零階優化來消除梯度和優化器狀態,該方法通過在前向傳播中擾動權重來近似梯度方向。為了最小化權重的記憶體使用,我們採用模型量化技術,例如將bfloat16轉換為int4。然而,由於離散權重與連續梯度之間的精度差距,直接將零階優化應用於量化權重是不可行的,否則需要進行反量化和重新量化。為克服這一挑戰,我們提出了量化零階優化(QZO),這是一種新穎的方法,它通過擾動連續量化尺度來估計梯度,並使用方向導數裁剪方法來穩定訓練。QZO與基於標量和基於碼本的訓練後量化方法正交。與bfloat16的全參數微調相比,QZO可將4位LLM的總記憶體成本降低超過18倍,並能在單個24GB GPU上微調Llama-2-13B和Stable Diffusion 3.5 Large模型。
尽管视觉语言模型(VLMs)在多模态任务中取得了显著进展,但其对RGB输入的依赖限制了精确的空间理解。现有的整合空间线索(如点云或深度)的方法,要么需要专门的传感器,要么未能有效利用深度信息进行高阶推理。为此,我们提出了一种新颖的空间感知与推理方法,称为SSR,该框架将原始深度数据转化为结构化、可解释的文本推理依据。这些文本推理依据作为有意义的中间表示,显著增强了空间推理能力。此外,我们利用知识蒸馏将生成的推理依据压缩为紧凑的潜在嵌入,便于资源高效且即插即用地集成到现有VLMs中,而无需重新训练。为了进行全面评估,我们引入了一个名为SSR-CoT的新数据集,这是一个包含中间空间推理注释的百万级视觉语言推理数据集,并提出了SSRBench,一个全面的多任务基准。在多个基准上的广泛实验表明,SSR显著提高了深度利用并增强了空间推理,从而推动VLMs向更类人的多模态理解迈进。我们的项目页面位于https://yliu-cs.github.io/SSR。
大型推理模型(LRMs)中的專家混合架構(Mixture-of-Experts, MoE)通過選擇性激活專家來促進結構化的認知過程,已展現出令人印象深刻的推理能力。儘管取得了顯著進展,現有的推理模型仍常受到過度思考與思考不足等認知效率低下的困擾。為解決這些限制,我們引入了一種新穎的推理時引導方法,稱為強化認知專家(Reinforcing Cognitive Experts, RICE),旨在無需額外訓練或複雜啟發式方法的情況下提升推理性能。利用標準化點間互信息(nPMI),我們系統性地識別出專門的專家,即「認知專家」,這些專家負責協調以「<think>」等標記為特徵的元層次推理操作。在嚴格的定量與科學推理基準測試中,對領先的基於MoE的LRMs(如DeepSeek-R1和Qwen3-235B)進行的實證評估顯示,推理準確性、認知效率及跨領域泛化能力均得到了顯著且一致的提升。重要的是,我們的輕量級方法在保持模型通用指令跟隨能力的同時,大幅超越了提示設計與解碼約束等主流推理引導技術。這些結果表明,強化認知專家是提升先進推理模型認知效率的一個有前景、實用且可解釋的方向。
生成式AI搜索正在重塑信息检索的方式,它能够为复杂查询提供端到端的答案,减少了用户手动浏览和总结多个网页的需求。然而,尽管这一范式提升了便利性,却也打破了传统网络搜索赖以进化的反馈驱动改进循环。网络搜索可以通过在文档层面收集大规模、细粒度的用户反馈(如点击、停留时间)来持续优化其排序模型。相比之下,生成式AI搜索则通过一个更长的搜索管道运作,涵盖查询分解、文档检索和答案生成等环节,但通常仅能获得对最终答案的粗粒度反馈。这导致了反馈循环的脱节,即用户对最终输出的反馈无法有效映射回系统的具体组件,使得改进每个中间阶段和维持反馈循环变得困难。在本文中,我们展望了NExT-Search,这是一种旨在将细粒度、过程级反馈重新引入生成式AI搜索的下一代范式。NExT-Search整合了两种互补模式:用户调试模式,允许积极参与的用户在关键阶段进行干预;以及影子用户模式,其中个性化用户代理模拟用户偏好,为互动较少的用户提供AI辅助的反馈。此外,我们设想了如何通过在线适应(实时优化当前搜索输出)和离线更新(汇总交互日志以定期微调查询分解、检索和生成模型)来利用这些反馈信号。通过恢复人类对生成式AI搜索管道关键阶段的控制,我们相信NExT-Search为构建能够随人类反馈持续进化的反馈丰富的AI搜索系统指明了一个有前景的方向。
隨著語言模型變得更加強大和複雜,確保其可信賴與可靠至關重要。初步證據顯示,模型可能試圖欺騙或對其操作者隱瞞信息,這一現象令人擔憂。為探索現有技術在揭示此類隱藏知識方面的能力,我們訓練了一個禁忌模型:該語言模型描述特定秘密詞彙,卻不明確提及它。關鍵在於,這個秘密詞彙並未出現在模型的訓練數據或提示中。隨後,我們研究了揭示這一秘密的方法。首先,我們評估了非解釋性(黑箱)方法。接著,我們基於機制解釋性技術,包括logit透鏡和稀疏自編碼器,開發了主要自動化的策略。評估結果表明,在我們的概念驗證環境中,這兩種方法均能有效引出秘密詞彙。我們的研究成果凸顯了這些方法在揭示隱藏知識方面的潛力,並為未來工作指出了多個有前景的方向,包括在更複雜的模型生物上測試和完善這些方法。本工作旨在邁出解決從語言模型中引出秘密知識這一關鍵問題的一步,從而促進其安全可靠的部署。
我們介紹了Vox-Profile,這是一個利用語音基礎模型來全面刻畫豐富說話者與語音特徵的基準測試。與現有僅關注單一維度說話者特徵的研究不同,Vox-Profile提供了反映靜態說話者特徵(如年齡、性別、口音)和動態語音屬性(如情感、語流)的整體多維度畫像。該基準測試基於語音科學與語言學,並與領域專家合作開發,以精確索引說話者與語音特徵。我們報告了使用超過15個公開語音數據集及多個針對不同靜態與動態說話者與語音屬性的廣泛使用的語音基礎模型進行的基準實驗。除了基準實驗外,我們還展示了Vox-Profile支持的幾項下游應用。首先,我們證明Vox-Profile能夠增強現有語音識別數據集,以分析ASR性能的變異性。Vox-Profile也被用作評估語音生成系統性能的工具。最後,我們通過與人類評估的比較來評估自動生成畫像的質量,並展示了收斂效度。Vox-Profile已公開於:https://github.com/tiantiaf0627/vox-profile-release。
Gemini 正日益被用於代表用戶執行任務,其函數調用與工具使用能力使模型能夠存取用戶數據。然而,某些工具需要存取不受信任的數據,這引入了風險。攻擊者可以在不受信任的數據中嵌入惡意指令,導致模型偏離用戶的預期,並錯誤處理其數據或權限。在本報告中,我們闡述了 Google DeepMind 評估 Gemini 模型對抗性魯棒性的方法,並描述了從這一過程中獲得的主要經驗教訓。我們通過一個對抗性評估框架測試 Gemini 如何應對複雜的攻擊者,該框架部署了一系列自適應攻擊技術,持續針對過去、當前及未來版本的 Gemini 進行測試。我們描述了這些持續的評估如何直接幫助提升 Gemini 對抗操縱的韌性。
蒸餾技術已成為提升開源語言模型推理能力的實用且有效的方法。在本研究中,我們通過從三個最先進的教師模型——AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1——收集共享語料庫中189萬個查詢的驗證輸出,進行了大規模的推理數據蒸餾實證研究。我們構建了三個平行數據集並分析了它們的分佈,發現AM-Thinking-v1蒸餾的數據展現出更大的詞元長度多樣性和更低的困惑度。在每個數據集上訓練的學生模型在包括AIME2024、AIME2025、MATH500和LiveCodeBench在內的推理基準上進行了評估。基於AM的模型始終表現最佳(例如,AIME2024上84.3分,AIME2025上72.2分,MATH500上98.4分,LiveCodeBench上65.9分),並展示了適應性輸出行為——對更難的任務生成更長的回應,對更簡單的任務生成更短的回應。這些發現凸顯了高質量、驗證過的推理軌跡的價值。我們發布了AM-Thinking-v1和Qwen3-235B-A22B蒸餾的數據集,以支持未來關於開放且高性能的推理導向語言模型的研究。這些數據集已在Hugging Face上公開提供:\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}。
強化微調(Reinforcement Finetuning, RFT)已成為提升大型語言模型(LLMs)推理能力的標準方法。然而,其對模型可信度的影響仍未被充分探討。在本研究中,我們識別並系統性地研究了RFT的一個關鍵副作用,我們稱之為「幻覺稅」:這導致模型在面對無法回答的問題時,拒絕行為退化,從而自信地產生虛構的答案。為探究此現象,我們引入了SUM(Synthetic Unanswerable Math),這是一個高品質的不可解答數學問題數據集,旨在通過從不充分或模糊的信息中推理,來測試模型識別不可回答問題的能力。我們的結果顯示,標準的RFT訓練可能使模型拒絕率降低超過80%,這顯著增加了模型產生幻覺的傾向。我們進一步證明,在RFT過程中僅加入10%的SUM數據,即可大幅恢復適當的拒絕行為,且對可解答任務的準確性影響最小。關鍵在於,這種方法使LLMs能夠利用推理時的計算資源來思考其自身的不確定性和知識邊界,不僅提升了對域外數學問題的泛化能力,也改善了事實性問答任務的表現。
設計具備有效推理能力的大型語言模型(LLMs)通常需要透過可驗證獎勵的強化學習(RLVR)或精心策劃的長鏈思維(CoT)蒸餾來進行訓練,這兩種方法都高度依賴於大量的訓練數據。當高質量的訓練數據稀缺時,這便形成了一個主要挑戰。我們提出了一種樣本高效的兩階段訓練策略,以在有限的監督下開發推理LLMs。在第一階段,我們通過從玩具領域——即騎士與無賴(K&K)邏輯謎題中蒸餾長鏈思維來“熱身”模型,以獲取一般推理技能。在第二階段,我們使用一組有限的目標領域示例對熱身後的模型應用RLVR。我們的實驗表明,這種兩階段方法具有以下幾個優點:(i)僅熱身階段就能促進泛化推理,從而在一系列任務(包括MATH、HumanEval⁺和MMLU-Pro)中帶來性能提升;(ii)當基礎模型和熱身後的模型在同一小數據集(≤100個示例)上進行RLVR訓練時,熱身後的模型始終優於基礎模型;(iii)在RLVR訓練前進行熱身,使模型即使在特定領域訓練後仍能保持跨領域的泛化能力;(iv)在訓練流程中引入熱身不僅提高了RLVR訓練期間的準確性,還提升了整體樣本效率。本文的結果凸顯了在數據稀缺環境中利用熱身來構建穩健推理LLMs的潛力。
儘管語言模型在多樣化的工作流程中取得了顯著成功並得到廣泛應用,但有時仍會產生不真實的回應。我們對這些模型如何機制性地編碼真實性的理解有限,這威脅到了它們的可靠性和安全性。在本論文中,我們提出了一種在神經元層面識別真實性表徵的方法。我們展示了語言模型包含著以主題無關方式編碼真實性的“真實神經元”。通過對不同規模模型進行的實驗,我們驗證了真實神經元的存在,確認了在神經元層面編碼真實性是許多語言模型共有的特性。真實神經元在各層的分佈模式與先前關於真實性幾何結構的研究結果一致。選擇性地抑制通過TruthfulQA數據集發現的真實神經元的激活,不僅在TruthfulQA上表現下降,也在其他基準測試中表現出性能退化,這表明真實性機制並非特定於某個數據集。我們的研究結果為理解語言模型中真實性的機制提供了新的見解,並指出了提升其可信度和可靠性的潛在方向。
確保大型語言模型(LLMs)的安全性對於負責任的部署至關重要,然而現有的評估往往優先考慮性能而非識別故障模式。我們引入了Phare,這是一個多語言診斷框架,用於探測和評估LLM在三個關鍵維度上的行為:幻覺與可靠性、社會偏見以及有害內容生成。我們對17個最先進的LLM進行了評估,揭示了所有安全維度上系統性漏洞的模式,包括諂媚、提示敏感性和刻板印象的再現。通過強調這些具體的故障模式而非僅僅對模型進行排名,Phare為研究人員和實踐者提供了可操作的見解,以構建更為穩健、對齊且值得信賴的語言系統。
隨著漏洞發現技術的快速進步,所發現的漏洞數量已超出開發者能夠合理修復的範圍,這使得對高效自動化程序修復(APR)方法的迫切需求日益凸顯。然而,現代漏洞的複雜性常常使得精確的根因分析變得困難且不可靠。為應對這一挑戰,我們提出了崩潰現場修復方法,以簡化修復任務的同時仍能有效降低被利用的風險。此外,我們引入了一種模板引導的補丁生成方法,該方法在保持效率和有效性的同時,顯著降低了大型語言模型(LLMs)的令牌成本。 我們實現了原型系統WILLIAMT,並將其與最先進的APR工具進行了對比評估。結果顯示,當與表現最佳的代理CodeRover-S結合使用時,WILLIAMT在ARVO(一個基於真實開源軟件漏洞的基準測試)上將令牌成本降低了45.9%,並將漏洞修復率提升至73.5%(提高了29.6%)。此外,我們證明了WILLIAMT即便在無法訪問前沿LLMs的情況下也能有效運作:即使在Mac M4 Mini上運行的本地模型也能達到合理的修復率。這些發現凸顯了WILLIAMT廣泛的適用性和可擴展性。
隨著近年來強大大型語言模型(LLMs)的快速發展,現今已能利用LLMs處理多種軟體工程任務,顯著提升了生產力與可擴展性。為評估這些模型的編碼能力,已開發出眾多基準數據集,然而這些數據集主要聚焦於問題解決與故障排除任務。與此相對,我們引入了一個新的編碼基準MIGRATION-BENCH,其獨特之處在於專注於程式碼遷移。MIGRATION-BENCH旨在作為從Java 8遷移至最新長期支援(LTS)版本(Java 17、21)的全面基準,包含完整數據集及其精選子集,分別涵蓋5,102和300個倉庫。精選子集基於複雜度與難度精心挑選,為程式碼遷移領域的研究提供了多功能的資源。此外,我們提供了一套全面的評估框架,以促進對LLMs在這一挑戰性任務上的嚴格與標準化評估。我們進一步提出了SD-Feedback,並展示了LLMs能有效應對倉庫層級的Java 17程式碼遷移。對於使用Claude-3.5-Sonnet-v2的精選子集,SD-Feedback在最小與最大遷移上分別達到了62.33%和27.00%的成功率(pass@1)。基準數據集與源代碼可分別於以下網址獲取:https://huggingface.co/collections/AmazonScience 和 https://github.com/amazon-science/self_debug。
稀疏專家混合模型(Sparse Mixture of Experts, SMoE)提供了一種吸引人的解決方案,能夠在不單純依賴增加網絡深度或寬度的情況下,提升模型的複雜度。然而,我們認為有效的SMoE訓練仍然具有挑戰性,這主要是由於次優的路由過程,其中執行計算的專家並未直接參與路由決策。在本研究中,我們提出了一種新穎的競爭機制,用於將令牌路由至具有最高神經響應的專家。理論上,我們證明了競爭機制相比傳統的softmax路由具有更好的樣本效率。此外,我們開發了CompeteSMoE,這是一種簡單而有效的算法,通過部署路由器來學習競爭策略,從而在低訓練開銷下實現強勁的性能。我們在視覺指令調優和語言預訓練任務上的廣泛實證評估表明,與最先進的SMoE策略相比,CompeteSMoE在效能、魯棒性和可擴展性方面均表現出色。我們已將實現公開於:https://github.com/Fsoft-AIC/CompeteSMoE。本工作是對arXiv:2402.02526上先前研究的改進版本。
大型語言模型(LLM)在處理複雜任務時的推理過程,本質上涉及解決方案準確性與計算效率之間的權衡。後續的驗證步驟,雖然旨在提升性能,卻進一步複雜化了這一局面,因為它引入了自身具有挑戰性的權衡:如果將複雜的生成獎勵模型(GenRMs)在測試時與LLM簡單集成,可能會導致計算成本過高,而更簡單、更快的方法則可能缺乏可靠性。為克服這些挑戰,我們引入了FlexiVe,這是一種新型的生成驗證器,它通過靈活的驗證預算分配策略,在快速可靠的快速思維與細緻的慢速思維之間靈活平衡計算資源。我們進一步提出了Solve-Detect-Verify管道,這是一個高效的推理時擴展框架,它智能地整合了FlexiVe,主動識別解決方案的完成點以觸發有針對性的驗證,並提供聚焦的求解器反饋。實驗表明,FlexiVe在ProcessBench上精確定位推理軌跡中的錯誤方面達到了優異的準確性。此外,在具有挑戰性的數學推理基準測試(AIME 2024、AIME 2025和CNMO)上,我們的完整方法在推理準確性和推理效率方面均優於自洽性等基線。我們的系統提供了一種可擴展且有效的解決方案,以在測試時增強LLM的推理能力。
測試時縮放(TTS)已被證明能有效提升大型語言模型(LLMs)的推理能力。驗證在TTS中扮演著關鍵角色,同時影響(1)推理效能和(2)計算效率,這取決於驗證的品質和計算成本。在本研究中,我們挑戰了傳統的驗證範式,並首次嘗試系統性地探討驗證粒度——即驗證器在生成過程中被調用的頻率,而非僅驗證最終輸出或單個生成步驟——的影響。為此,我們引入了可變粒度搜索(VG-Search),這是一種通過可調粒度參數g來泛化束搜索和最佳N採樣的統一算法。在不同計算預算、生成器-驗證器配置及任務屬性下,VG-Search的廣泛實驗表明,動態選擇g能夠提升計算效率和縮放行為。基於這些發現,我們提出了自適應VG-Search策略,相比束搜索和最佳N採樣,分別實現了最高3.1%和3.6%的準確率提升,同時將浮點運算次數(FLOPs)減少了超過52%。我們將開源代碼以支持未來研究。
隨著後訓練技術的發展,大型語言模型(LLMs)正日益增強其結構化的多步推理能力,這些能力通常通過強化學習進行優化。這些增強了推理能力的模型在複雜任務上超越了標準的LLMs,並已成為許多商業LLM API的基礎。然而,為了保護專有行為並減少冗餘,提供商通常隱藏推理過程,僅返回最終答案。這種不透明性引入了一個關鍵的透明度缺口:用戶為不可見的推理令牌付費,這些令牌往往佔據成本的大部分,卻無法驗證其真實性。這為令牌計數膨脹打開了大門,提供商可能過度報告令牌使用量或注入合成的、低成本的令牌以增加收費。為解決這一問題,我們提出了CoIn,一個驗證框架,用於審計隱藏令牌的數量和語義有效性。CoIn通過從令牌嵌入指紋構建可驗證的哈希樹來檢查令牌計數,並使用基於嵌入的相關性匹配來檢測偽造的推理內容。實驗表明,CoIn作為受信任的第三方審計者部署時,能夠有效檢測令牌計數膨脹,成功率最高可達94.7%,顯示出在恢復不透明LLM服務計費透明度方面的強大能力。數據集和代碼可在https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn獲取。
尽管大型语言模型(LLMs)取得了显著进展,但由于缺乏标准化且高质量的测试平台,其知识记忆能力仍未被充分探索。本文引入了一种新颖、真实世界且大规模的知识注入基准,该基准能够随时间持续演进而无需人工干预。具体而言,我们提出了WikiDYK,它利用维基百科“你知道吗...”条目中最近添加且由人工撰写的事实。这些条目由维基百科专家编辑根据可验证性和清晰度等标准精心挑选。每个条目被转换为多个问答对,涵盖从简单的填空提示到复杂的多跳问题等多样化的任务格式。WikiDYK包含12,290个事实和77,180个问题,并且能够无缝扩展以适应未来维基百科编辑的更新。通过持续预训练进行的广泛实验揭示了一个令人惊讶的发现:尽管因果语言模型(CLMs)在现代LLMs中普遍存在,但其知识记忆能力相较于双向语言模型(BiLMs)显著较弱,在可靠性方面的准确率低了23%。为了弥补当前BiLMs规模较小的不足,我们引入了一个模块化协作框架,利用BiLMs的集合作为外部知识库与LLMs集成。实验表明,我们的框架进一步将可靠性准确率提高了最多29.1%。
本研究提供了一項獨特的評估,探討人工智慧系統如何解讀Alpha世代(Gen Alpha,2010-2024年出生)的數位語言。作為與AI共同成長的第一代,Alpha世代因沉浸式的數位參與以及其不斷演變的溝通方式與現有安全工具之間日益加劇的不匹配,而面臨新型態的線上風險。他們獨特的語言,受到遊戲、迷因和AI驅動趨勢的影響,往往能將有害互動隱藏於人類審核員和自動化系統之外。我們評估了四種領先的AI模型(GPT-4、Claude、Gemini和Llama 3)在檢測Alpha世代話語中隱蔽的騷擾和操縱方面的能力。透過使用來自遊戲平台、社交媒體和影片內容的100個近期表達的數據集,本研究揭示了對線上安全具有直接影響的關鍵理解失敗。這項工作貢獻包括:(1) 首個捕捉Alpha世代表達的數據集;(2) 一個改進AI審核系統以保護青少年的框架;(3) 包含AI系統、人類審核員和家長的多視角評估,並直接採納了Alpha世代共同研究者的意見;以及(4) 對語言分歧如何增加青少年脆弱性的分析。研究結果強調了重新設計適應青少年溝通的安全系統的迫切需求,特別是考慮到Alpha世代在成年人無法理解其數位世界時不願尋求幫助的情況。本研究結合了Alpha世代研究者的洞察與系統的學術分析,以應對關鍵的數位安全挑戰。
隨著更強大的AI模型出現,並找到諸如「對齊偽裝」等新方法來規避檢測,識別AI風險變得更加具有挑戰性。受人類風險行為(即可能傷害他人的非法活動)有時受強烈價值觀驅動的啟發,我們認為識別AI模型中的價值觀可以作為AI風險行為的早期預警系統。我們創建了LitmusValues,這是一個評估管道,用於揭示AI模型在各種AI價值類別上的優先級。隨後,我們收集了AIRiskDilemmas,這是一個多樣化的困境集合,在與AI安全風險(如權力追求)相關的情境中,將不同價值觀相互對立。通過測量AI模型基於其綜合選擇的價值優先級,我們獲得了一組自洽的預測價值優先級,從而揭示潛在風險。我們展示了LitmusValues中的價值觀(包括看似無害的價值觀,如關懷)能夠預測AIRiskDilemmas中已觀察到的風險行為,以及HarmBench中未觀察到的風險行為。
媒體偏見檢測是確保信息傳播公平公正的關鍵任務,然而由於偏見的主觀性及高質量標註數據的稀缺,這項任務仍然充滿挑戰。在本研究中,我們通過在專家標註的BABE數據集上微調基於RoBERTa的模型,進行了句子級別的偏見分類。利用McNemar檢驗和5x2交叉驗證配對t檢驗,我們展示了與領域適應性預訓練的DA-RoBERTa基線模型相比,我們的模型在性能上取得了統計學意義上的顯著提升。此外,基於注意力機制的分析表明,我們的模型避免了對政治敏感詞彙過度敏感等常見問題,而是更加關注上下文相關的詞彙。為了全面審視媒體偏見,我們提出了一個將我們的模型與現有的偏見類型分類器相結合的流程。儘管受限於句子級別的分析和數據集規模(由於缺乏更大更先進的偏見語料庫),我們的方法展現了良好的泛化能力和可解釋性。我們探討了上下文感知建模、偏見中和以及高級偏見類型分類作為未來可能的研究方向。我們的研究成果有助於構建更為健壯、可解釋且社會責任感強的NLP系統,用於媒體偏見檢測。
近年來,影片內容的創作與消費顯著增長。打造引人入勝的內容,需要精心策劃視覺與音效元素。儘管透過最佳視角選擇或後期編輯等技術進行的視覺線索策劃,一直是媒體製作的核心,但其自然對應的音效卻未經歷同等程度的進步。這往往導致視覺與聽覺顯著性之間的不協調。為彌合這一差距,我們引入了一項新任務:視覺引導的音效突出,旨在根據伴隨的影片引導,轉換音效以提供適當的突出效果,最終創造出更和諧的視聽體驗。我們提出了一個基於Transformer的多模態框架來解決這一任務。為了訓練我們的模型,我們還引入了一個新的數據集——混音數據集,利用電影中精細的音效與視覺製作,提供了一種免費的監督形式。我們開發了一個偽數據生成過程,透過分離、調整和重新混音的三步流程,模擬現實世界中混音不佳的情況。我們的方法在多項定量與主觀評估中均持續優於多個基準。我們還系統地研究了不同類型上下文引導的影響以及數據集的難度級別。我們的項目頁面在此:https://wikichao.github.io/VisAH/。
多模態學習通過整合來自不同感官模態的信息,增強了認知系統的感知能力。然而,現有的多模態融合研究通常假設靜態整合,未能充分融入大腦中的關鍵動態機制。具體而言,大腦表現出一種反向效應現象,即較弱的單模態線索會產生更強的多感官整合效益;反之,當個別模態線索較強時,融合的效果則會減弱。這一機制使生物系統即使在感知線索稀缺或噪聲較大的情況下,仍能實現穩健的認知。受此生物機制的啟發,我們探討了多模態輸出與單一模態信息之間的關係,提出了一種基於反向效應驅動的多模態融合(IEMF)策略。通過將這一策略融入神經網絡,我們實現了更高效的整合,提升了模型性能和計算效率,在多種融合方法中展示了高達50%的計算成本降低。我們在視聽分類、持續學習和問答任務上進行了實驗,以驗證我們的方法。結果一致表明,我們的方法在這些任務中表現出色。為驗證通用性和泛化能力,我們還在人工神經網絡(ANN)和脈衝神經網絡(SNN)上進行了實驗,結果顯示我們的方法對這兩種網絡類型均具有良好的適應性。我們的研究強調了將生物啟發機制融入多模態網絡的潛力,並為多模態人工智能的未來發展提供了有前景的方向。代碼可在https://github.com/Brain-Cog-Lab/IEMF獲取。
分詞(Tokenization)是語言模型中的第一層——也是常被低估的——計算環節。儘管思維鏈(Chain-of-Thought, CoT)提示使變換器模型能夠通過外化中間步驟來近似遞歸計算,我們的研究表明,此類推理的成功根本上受制於分詞輸入的結構。本文從理論和實證角度探討了分詞方案——尤其是基於子詞的方法如字節對編碼(BPE)——如何通過合併或模糊原子推理單元來阻礙符號計算。我們引入了「分詞意識」(Token Awareness)的概念,以形式化地說明分詞粒度不足如何破壞邏輯對齊並阻礙模型泛化符號程序。通過在算術和符號任務上的系統性評估,我們證明分詞結構顯著影響推理性能,即使在CoT下也會導致失敗,而原子對齊的格式則能釋放強大的泛化能力,使小型模型(如GPT-4o-mini)在結構化推理中超越更大規模的系統(如o1)。我們的研究揭示,大型語言模型(LLMs)的符號推理能力並非純粹依賴於架構,而是深度依賴於分詞層面的表示。
全球图像地理定位——即从地球上任何地方拍摄的图像中预测GPS坐标的任务——由于各地区视觉内容的巨大多样性而面临根本性挑战。尽管最近的方法采用了两阶段流程,即检索候选位置并选择最佳匹配,但它们通常依赖于简单的相似性启发式和点对点的监督,未能建模候选位置之间的空间关系。在本文中,我们提出了GeoRanker,一种距离感知的排序框架,该框架利用大规模视觉-语言模型联合编码查询与候选位置的交互,并预测地理邻近度。此外,我们引入了一种多阶距离损失,该损失同时排序绝对距离和相对距离,使模型能够推理结构化的空间关系。为此,我们构建了GeoRanking,这是首个专门为多模态候选信息的地理排序任务设计的数据集。GeoRanker在两个公认的基准测试(IM2GPS3K和YFCC4K)上取得了最先进的结果,显著优于当前的最佳方法。
多跳問答(Multi-hop Question Answering, MHQA)為問答系統增添了複雜性,使其更具挑戰性。當語言模型(Language Models, LMs)面對多個搜索結果時,它們不僅需要檢索相關信息,還需在多個信息源之間進行多跳推理。儘管語言模型在傳統問答任務中表現出色,但因果掩碼(causal mask)可能會阻礙其在複雜上下文中的推理能力。本文通過在不同配置下對搜索結果(檢索到的文檔)進行排列,探討了語言模型如何應對多跳問題。我們的研究揭示了以下有趣的發現:1)編碼器-解碼器模型,如Flan-T5系列,在MHQA任務中通常優於因果解碼器模型,儘管其規模顯著較小;2)改變黃金文檔的順序揭示了Flan T5模型和微調解碼器模型中的不同趨勢,當文檔順序與推理鏈順序一致時,性能最佳;3)通過修改因果掩碼來增強因果解碼器模型的雙向注意力,可以有效提升其最終表現。此外,我們還深入研究了MHQA背景下語言模型注意力權重的分佈。實驗表明,當答案正確時,注意力權重往往會達到較高值。我們利用這一發現,啟發式地提升了語言模型在此任務中的表現。我們的代碼已公開於https://github.com/hwy9855/MultiHopQA-Reasoning。
近期大型語言模型(LLMs)的進展以及豐富的食品數據,促進了利用LLMs提升食品理解的研究。儘管已有數個推薦系統結合了LLMs與知識圖譜(KGs),但將食品相關的KGs與LLMs整合的研究仍有限。我們提出了KERL,這是一個統一系統,它利用食品KGs和LLMs來提供個性化的食品推薦,並生成附帶微量營養信息的食譜。給定一個自然語言問題,KERL會提取實體,從KG中檢索子圖,然後將這些子圖作為上下文輸入LLM,以選擇滿足約束條件的食譜。接著,我們的系統會為每個食譜生成烹飪步驟和營養信息。為了評估我們的方法,我們還開發了一個基準數據集,通過整理與食譜相關的問題,結合約束條件和個人偏好。通過大量實驗,我們展示了我們提出的KG增強型LLM顯著優於現有方法,為食品推薦、食譜生成和營養分析提供了一個完整且連貫的解決方案。我們的代碼和基準數據集公開於https://github.com/mohbattharani/KERL。
腦到圖像解碼技術近期因生成式AI模型的進步及大型超高場功能性磁共振成像(fMRI)數據的可用性而得到推動。然而,現有方法依賴於複雜的多階段處理流程和預處理步驟,這些步驟通常會壓縮腦部記錄的時間維度,從而限制了時間解析的腦解碼器。在此,我們介紹了Dynadiff(動態神經活動擴散用於圖像重建),這是一種新的單階段擴散模型,專為從動態演變的fMRI記錄中重建圖像而設計。我們的方法提供了三個主要貢獻。首先,與現有方法相比,Dynadiff簡化了訓練過程。其次,我們的模型在時間解析的fMRI信號上表現優於最先進的模型,特別是在高層次語義圖像重建指標上,同時在壓縮時間的預處理fMRI數據上仍保持競爭力。第三,這種方法能夠精確描述圖像表徵在腦活動中的演變過程。總體而言,這項工作為時間解析的腦到圖像解碼奠定了基礎。
儘管基於Transformer的語言模型(LMs)取得了進展,一個根本性問題仍然未得到充分解答:在推理過程中,所有層是否都被激活?我們通過檢測未激活層(我們稱之為“空洞”)來探討這一問題,使用了一種名為L2自適應計算(LAC)的非訓練且無參數的自適應計算方法。我們將LAC從其最初專注於效率的應用調整為追踪推理過程中的激活層。該方法通過監控激活的L2範數變化來識別空洞。我們分析了指令微調LMs在兩個階段的層激活情況:提示處理(PP)階段,我們追踪輸入提示中每個詞元的激活層;以及響應生成(RG)階段,我們追踪生成每個詞元時的激活層。我們進一步證明,在這兩個階段中激活的是不同的層。為了展示我們方法的有效性,我們評估了來自Llama、Mistral和Qwen家族的三種不同指令微調LMs在三個基準測試上的表現:MMLU、GPQA Diamond和BoolQ。例如,在零樣本設置下的MMLU測試中,跳過Qwen2.5-7B-Instruct中的空洞,其性能從69.24提升至71.29,而模型僅使用了30%的層。同樣,在GPQA Diamond測試中,Mistral-7B-Instruct-v0.3在PP和RG階段使用70%的層時,其性能從13.88提升至18.36。這些結果表明,並非所有層在推理過程中都同等貢獻,選擇性地跳過大部分層可以在某些任務上提升模型性能。
檢索增強生成(RAG)系統中一個廣為人知的問題是,檢索到的與查詢無關的段落有時會干擾生成答案的大型語言模型(LLM),導致其提供錯誤的回應。本文深入探討了這一核心問題,並針對查詢(及LLM)定義了段落的干擾效應。我們提出了一種量化段落干擾效應的方法,並展示了該方法在不同LLM間的穩健性。 我們的研究引入了新穎的方法來識別並利用具有強干擾性的段落,從而改進RAG系統。通過使用這些精心挑選的干擾段落對LLM進行微調,我們在回答準確率上相比於基於傳統RAG數據集微調的模型提升了高達7.5%。我們的貢獻體現在兩個方面:首先,我們超越了將無關段落簡單二分為完全不相關與具有干擾性的傳統做法;其次,我們開發並分析了多種尋找強干擾段落的方法。據我們所知,目前尚無其他研究提供如此全面的框架來識別和利用強干擾段落。
我們提出了一個概念框架,用於訓練視覺-語言模型(VLMs)執行視角採納(VPT),這是實現具身認知的核心能力,對於人機互動(HRI)至關重要。作為實現這一目標的第一步,我們引入了一個在NVIDIA Omniverse中生成的合成數據集,該數據集支持空間推理任務的監督學習。每個實例包含一張RGB圖像、一段自然語言描述以及一個表示物體姿態的4X4真實變換矩陣。我們專注於推斷Z軸距離作為基礎技能,未來將擴展至完整的六自由度(6 DOFs)推理。該數據集已公開,以支持進一步研究。這項工作為開發能夠在互動人機場景中進行空間理解的具身AI系統奠定了基礎。
視覺表徵對於機器人操作策略的學習與泛化能力至關重要。儘管現有方法依賴於全域或密集特徵,但此類表徵往往將任務相關與無關的場景信息混雜在一起,限制了在分佈變化下的魯棒性。在本研究中,我們探討了以物體為中心的表徵(OCR)作為一種結構化替代方案,它將視覺輸入分割為一組完整的實體,引入了更自然地與操作任務相契合的歸納偏置。我們在一系列從簡單到複雜的模擬及現實世界操作任務中,對比了多種視覺編碼器——包括以物體為中心、全域及密集方法——並評估了它們在不同視覺條件下的泛化能力,這些條件涵蓋了光照、紋理變化以及干擾物的存在。我們的研究結果表明,在泛化場景中,基於OCR的策略即使無需任務特定的預訓練,也能超越密集和全域表徵。這些發現提示,OCR是設計能在動態現實世界機器人環境中有效泛化的視覺系統的一個有前景的方向。