每日精選AI研究論文及翻譯
我們推出4KAgent,這是一個統一的代理式超分辨率通用系統,旨在將任何圖像普遍提升至4K分辨率(若迭代應用,甚至可達更高)。我們的系統能夠將極低分辨率且嚴重退化的圖像,例如高度失真的256x256輸入,轉化為清晰逼真的4K輸出。4KAgent包含三個核心組件:(1) 分析模塊,根據特定使用案例定制4KAgent流程;(2) 感知代理,利用視覺-語言模型與圖像質量評估專家分析輸入圖像並制定個性化修復計劃;(3) 修復代理,執行該計劃,遵循遞歸執行-反思範式,並由質量驅動的專家混合策略指導,以選擇每一步的最佳輸出。此外,4KAgent內置專門的人臉修復流程,顯著增強肖像和自拍照片中的面部細節。我們在涵蓋26個多樣化基準的11個不同任務類別中嚴格評估了4KAgent,在多種成像領域中創下了新的技術標準。我們的評估範圍包括自然圖像、肖像照片、AI生成內容、衛星圖像、熒光顯微鏡以及如眼底鏡、超聲波和X射線等醫學影像,在感知(如NIQE、MUSIQ)和保真度(如PSNR)指標上均展現出卓越性能。通過為低層次視覺任務建立新的代理範式,我們旨在激發跨多樣研究領域對視覺中心自主代理的更廣泛興趣與創新。我們將在https://4kagent.github.io發布所有代碼、模型及結果。
我們推出Skywork-R1V3,這是一款先進的開源視覺語言模型(VLM),開創了視覺推理的新方法。其關鍵創新在於有效地將僅限於文本的大型語言模型(LLMs)的推理能力轉移至視覺任務。Skywork-R1V3的卓越性能主要源自我們精心設計的後訓練強化學習(RL)框架,該框架無需額外的持續預訓練,便能有效激活並增強模型的推理能力。通過這一框架,我們進一步揭示了連接器模塊在實現多模態推理模型穩健跨模態對齊中的基礎作用。此外,我們引入了一種獨特的推理能力指標——關鍵推理詞元的熵,這在RL訓練期間的檢查點選擇中已被證明極為有效。Skywork-R1V3在MMMU上取得了領先的成果,顯著從64.3%提升至76.0%,這一性能與入門級人類能力相當。值得注意的是,我們的RL驅動後訓練方法使得僅38B參數的模型也能與頂級閉源VLM相媲美。該實現成功將數學推理轉移至其他學科相關的推理任務。我們還分析了課程學習與強化微調策略,並對多模態推理進行了更廣泛的討論。Skywork-R1V3代表了多模態推理的重大飛躍,展示了RL作為提升開源VLM能力的強大引擎。
儘管AI代理的記憶能力日益受到關注,現有解決方案仍存在根本性限制。大多數依賴於扁平、範圍狹窄的記憶組件,限制了其個性化、抽象化以及長期可靠地回憶用戶特定信息的能力。為此,我們推出了MIRIX,這是一個模塊化、多代理的記憶系統,通過解決該領域最關鍵的挑戰——使語言模型真正具備記憶能力,重新定義了AI記憶的未來。與以往方法不同,MIRIX超越了文本,擁抱豐富的視覺和多模態體驗,使記憶在現實場景中真正發揮作用。MIRIX由六種精心構建的記憶類型組成:核心記憶、情景記憶、語義記憶、程序記憶、資源記憶和知識庫,並配備了一個多代理框架,動態控制和協調更新與檢索。這一設計使得代理能夠持久化、推理並準確地大規模檢索多樣化的長期用戶數據。我們在兩個高要求場景中驗證了MIRIX。首先,在ScreenshotVQA上,這是一個包含每序列近20,000張高分辨率計算機截圖的挑戰性多模態基準測試,需要深度的上下文理解,且現有記憶系統均無法應用,MIRIX相比RAG基線提高了35%的準確率,同時減少了99.9%的存儲需求。其次,在LOCOMO上,這是一個僅有單模態文本輸入的長篇對話基準測試,MIRIX達到了85.4%的頂尖性能,遠超現有基線。這些結果表明,MIRIX為記憶增強的LLM代理樹立了新的性能標準。為了讓用戶體驗我們的記憶系統,我們提供了一個由MIRIX驅動的打包應用程序。它實時監控屏幕,構建個性化記憶庫,並提供直觀的可視化和安全的本地存儲,確保隱私。
基於文本描述生成多樣且自然的人體運動序列,是計算機視覺、圖形學及機器人領域中一項基礎且具挑戰性的研究課題。儘管該領域已取得顯著進展,現有方法在零樣本泛化能力方面仍面臨諸多挑戰,這主要歸因於訓練數據集的規模有限。此外,缺乏全面的評估框架也阻礙了該任務的進一步發展,因其未能明確指出改進方向。本研究旨在將文本到運動生成推向一個新紀元,即實現零樣本泛化能力。為此,我們首先開發了一套高效的註釋流程,並引入了迄今為止最大的人體運動數據集——MotionMillion,該數據集包含超過2000小時、200萬條高質量運動序列。同時,我們提出了MotionMillion-Eval,這是最全面的零樣本運動生成評估基準。利用可擴展的架構,我們將模型參數擴展至70億,並在MotionMillion-Eval上驗證了其性能。實驗結果表明,我們的模型在域外及複雜組合運動上展現出強大的泛化能力,標誌著零樣本人體運動生成邁出了重要一步。相關代碼已公開於https://github.com/VankouF/MotionMillion-Codes。
可驗證獎勵的強化學習(RLVR)已被證明是一種極其有效的策略,能夠賦予大型語言模型(LLMs)強大的多步推理能力。然而,其設計和優化仍主要針對純文本領域,導致在應用於多模態推理任務時表現欠佳。特別地,我們觀察到當前多模態推理中的主要誤差來源在於視覺輸入的感知。為解決這一瓶頸,我們提出了感知感知策略優化(PAPO),這是GRPO的一個簡單而有效的擴展,它鼓勵模型在學習推理的同時學習感知,完全依賴於內部監督信號。值得注意的是,PAPO不依賴於額外的數據整理、外部獎勵模型或專有模型。具體而言,我們在GRPO目標中引入了以KL散度項形式存在的隱式感知損失,儘管其形式簡單,卻在多樣化的多模態基準測試中帶來了顯著的整體提升(4.4%)。在視覺依賴性高的任務上,提升更為顯著,接近8.0%。我們還觀察到感知錯誤大幅減少(30.5%),表明PAPO提升了感知能力。我們對PAPO進行了全面分析,並發現了一個獨特的損失欺騙問題,我們通過雙熵損失對其進行了嚴格分析並加以緩解。總體而言,我們的工作將感知感知監督更深層次地整合到RLVR學習目標中,並為鼓勵視覺基礎推理的新RL框架奠定了基礎。項目頁面:https://mikewangwzhl.github.io/PAPO。
大型語言模型(LLMs)近期在程式碼生成基準測試如HumanEval和LiveCodeBench中取得了顯著成功。然而,深入分析顯示,這些評估套件通常僅包含有限數量的同質測試案例,導致細微的錯誤未被檢測到。這不僅人為地提高了測量性能,還損害了利用可驗證獎勵的強化學習框架(RLVR)中的準確獎勵估計。為解決這些關鍵缺陷,我們系統性地研究了測試案例生成(TCG)任務,提出了多維度指標,旨在嚴格量化測試套件的全面性。此外,我們引入了一種人機協作方法(SAGA),結合人類編程專長與LLM的推理能力,顯著提升了生成測試案例的覆蓋率和質量。同時,我們開發了TCGBench以促進TCG任務的研究。實驗表明,SAGA在TCGBench上的檢測率達到90.62%,驗證器準確率為32.58%。由SAGA合成的程式碼生成評估基準的驗證器準確率(Verifier Acc)比LiveCodeBench-v6高出10.78%。這些結果證明了我們所提出方法的有效性。我們希望這項工作能為建立可靠的LLM程式碼評估的可擴展基礎做出貢獻,進一步推進程式碼生成中的RLVR,並為自動化對抗測試合成和自適應基準集成鋪平道路。
基於可驗證獎勵的強化學習(RLVR)提升了大型語言模型(LLMs)的推理能力,但其在探索過程中存在不穩定性。我們提出了FR3E(首次回報、熵引導探索)這一結構化探索框架,該框架能夠識別推理軌跡中的高不確定性決策點,並執行針對性的回滾以構建語義基礎的中間反饋。我們的方法無需依賴密集監督即可提供針對性指導。在數學推理基準測試(AIME24)上的實驗結果表明,FR3E促進了更穩定的訓練,生成了更長且更連貫的回應,並提高了完全正確軌跡的比例。這些結果凸顯了該框架通過更為穩健和結構化的探索來提升LLM推理能力的有效性。
Transformer模型在处理长序列时面临二次方复杂度和内存问题,这促使了采用固定大小隐藏状态的线性注意力机制。然而,线性模型往往存在回忆性能有限的问题,从而催生了结合线性与全注意力层的混合架构。尽管混合架构研究广泛,但线性注意力组件的选择尚未得到深入探讨。我们系统地评估了各代线性注意力模型——从向量递归到高级门控机制——无论是独立使用还是混合使用。为了进行这一全面分析,我们训练并开源了72个模型:36个为340M参数(20B tokens),36个为1.3B参数(100B tokens),涵盖了五种混合比例下的六种线性注意力变体。在标准语言建模和回忆任务上的基准测试表明,优秀的独立线性模型在混合架构中未必表现最佳。虽然语言建模在从线性到全注意力的比例变化中保持稳定,但回忆性能随着全注意力层的增加而显著提升,特别是在3:1比例以下。我们的研究强调了选择性门控、层次递归和受控遗忘对于有效混合模型的关键作用。我们推荐采用HGRN-2或GatedDeltaNet等架构,线性与全注意力比例介于3:1至6:1之间,以高效实现Transformer级别的回忆性能。我们的模型已开源,详见https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e。
深度學習中的核心開發需要在硬體上優化計算單元,同時通過大量的經驗調試來平衡記憶體管理、並行處理以及硬體特定的優化。儘管像Triton這樣的領域特定語言通過抽象低層細節簡化了GPU編程,開發者仍需通過迭代實驗手動調整關鍵參數,如分塊大小和記憶體訪問模式,這對實現最佳性能和廣泛應用構成了顯著障礙。在本研究中,我們介紹了AutoTriton,這是首個基於強化學習(RL)專為Triton編程設計的模型。AutoTriton通過高質量數據收集管道進行監督微調(SFT),以掌握必要的Triton編程技能,並採用群組相對策略優化(GRPO)算法進行RL,結合基於規則的獎勵和基於執行的獎勵,逐步提升Triton編程能力。在TritonBench和KernelBench的五個評估通道上的實驗表明,我們的8B模型AutoTriton達到了與主流大模型(包括Claude-4-Sonnet和DeepSeek-R1-0528)相當的性能。進一步的實驗分析展示了AutoTriton中每個模組的關鍵作用,包括SFT階段、RL階段以及獎勵設計策略。這些發現凸顯了RL在自動生成高效能核心方面的潛力,而高效能核心是AI系統的核心組件,這一突破為構建更高效的AI系統奠定了重要基礎。模型和代碼將在https://github.com/AI9Stars/AutoTriton上提供。
自動定理證明(ATP)在形式語言中是人工智慧的一個基礎性挑戰。儘管大型語言模型(LLMs)推動了顯著的進展,但其強大的非形式推理能力與薄弱的正式證明效能之間仍存在顯著差距。最近的研究顯示,在如PutnamBench等基準測試中,非形式準確率超過80%,而正式成功率卻低於8%。我們認為這一差距持續存在,是因為當前最先進的證明器通過緊密耦合推理與證明,採用了無意中懲罰深度推理、偏愛淺層策略的訓練範式。為彌合這一根本性差距,我們提出了一種新框架,將高層次推理與低層次證明生成解耦。我們的方法利用兩個獨特且專門的模型:一個強大的通用推理器來生成多樣化的戰略性子目標引理,以及一個高效的證明器來嚴格驗證這些引理。這種模組化設計釋放了模型的全部推理潛力,並避開了端到端訓練的陷阱。我們在一組具有挑戰性的2000年後國際數學奧林匹克(IMO)問題上評估了我們的方法,這是一組此前沒有任何開源證明器報告過成功的問題集。我們的解耦框架成功解決了其中的5個問題,展示了在自動化推理極其困難的數學挑戰方面邁出的重要一步。為促進未來研究,我們發布了針對廣泛IMO問題生成和驗證的引理完整數據集,網址為https://tencent-imo.github.io/。
多模态大语言模型(MLLM)的快速发展为视觉-语言-行动(VLA)范式铺平了道路,该范式将视觉感知、自然语言理解与控制整合于单一策略之中。自动驾驶领域的研究人员正积极将这些方法应用于车辆领域。此类模型有望使自动驾驶车辆能够解读高级指令、推理复杂交通场景并自主做出决策。然而,相关文献仍显零散且迅速扩展。本综述首次全面概述了面向自动驾驶的VLA(VLA4AD)。我们(i)形式化了近期工作中共享的架构构建模块,(ii)追溯了从早期解释器到以推理为核心的VLA模型的演变历程,以及(iii)根据VLA在自动驾驶领域的进展,比较了超过20个代表性模型。我们还整合了现有数据集与基准测试,着重介绍了同时衡量驾驶安全性、准确性和解释质量的评估协议。最后,我们详述了开放挑战——鲁棒性、实时效率及形式验证——并勾勒了VLA4AD的未来发展方向。本综述为推进可解释且社会对齐的自动驾驶车辆提供了简洁而完整的参考。Github仓库地址为https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}。
從光譜解析分子結構是化學中的一個基礎性問題,對於化合物識別、合成和藥物開發具有深遠影響。傳統方法嚴重依賴專家解釋,且缺乏可擴展性。開創性的機器學習方法引入了基於檢索的策略,但其對有限庫的依賴限制了對新分子的泛化能力。生成模型提供了一個有前景的替代方案,然而大多數採用基於SMILES的自回歸架構,忽略了三維幾何結構,並且難以整合多樣的光譜模態。在本研究中,我們提出了DiffSpectra,這是一個利用擴散模型直接從多模態光譜數據推斷二維和三維分子結構的生成框架。DiffSpectra將結構解析公式化為一個條件生成過程。其去噪網絡由Diffusion Molecule Transformer參數化,這是一個整合了拓撲和幾何信息的SE(3)-等變架構。條件信息由SpecFormer提供,這是一個基於Transformer的光譜編碼器,能夠捕捉多模態光譜中的光譜內和光譜間依賴關係。大量實驗表明,DiffSpectra在結構解析中達到了高精度,通過採樣恢復了16.01%的top-1準確率和96.86%的top-20準確率的精確結構。該模型顯著受益於三維幾何建模、SpecFormer預訓練和多模態條件化。這些結果凸顯了基於光譜條件化的擴散建模在應對分子結構解析挑戰中的有效性。據我們所知,DiffSpectra是首個統一多模態光譜推理與二維/三維聯合生成建模的框架,用於從頭分子結構解析。
近期在語言建模領域的進展,已證實狀態空間模型(SSMs)在高效序列建模中的有效性。儘管如Samba及解碼器-解碼器架構YOCO等混合架構相較於Transformer展現出顯著的性能提升,先前的研究尚未探討SSM層間表示共享的效率潛力。本文中,我們引入了門控記憶單元(GMU),這是一種簡單而有效的機制,用於實現跨層的高效記憶共享。我們將其應用於創建SambaY,這是一種解碼器-混合-解碼器架構,在跨解碼器中整合GMU,以共享基於Samba的自解碼器的記憶讀取狀態。SambaY顯著提升了解碼效率,保持了線性預填充時間複雜度,並增強了長上下文性能,同時無需顯式位置編碼。通過廣泛的擴展實驗,我們展示了與強大的YOCO基線相比,我們的模型展現出顯著更低的不可約損失,表明在大規模計算環境下具有優越的性能可擴展性。我們最大的模型,通過差分注意力增強,Phi4-mini-Flash-Reasoning,在無需任何強化學習的情況下,在Math500、AIME24/25及GPQA Diamond等推理任務上,相較於Phi4-mini-Reasoning取得了顯著更好的性能,同時在vLLM推理框架下,針對2K長度提示及32K生成長度,提供高達10倍的解碼吞吐量。我們在開源數據上發布了訓練代碼庫,地址為https://github.com/microsoft/ArchScale。
我們推出了FlexOlmo,這是一種新型語言模型(LMs),它支持(1)無需數據共享的分佈式訓練,其中不同的模型參數在封閉數據集上獨立訓練,以及(2)數據靈活的推理,這些參數及其相關數據可以在無需進一步訓練的情況下靈活地包含或排除在模型推理之外。FlexOlmo採用了一種專家混合(MoE)架構,其中每個專家都在封閉數據集上獨立訓練,隨後通過一種新的領域感知路由進行整合,而無需任何聯合訓練。FlexOlmo在FlexMix上進行訓練,這是一個我們精心策劃的語料庫,包含公開可用的數據集以及七個特定領域的數據集,代表了封閉集的現實近似。我們評估了多達370億參數(200億活躍)的模型在31個多樣化的下游任務上的表現。我們展示了在公開數據上訓練的通用專家可以有效地與其他數據所有者獨立訓練的專家結合,帶來平均41%的相對改進,同時允許用戶根據數據許可或權限要求選擇退出某些數據。我們的方法在平均上比先前的模型合併方法高出10.1%,並且在相同的訓練FLOPs下,超越了未經數據限制訓練的標準MoE。總的來說,這項研究為擁有敏感或受保護數據的受監管行業的數據所有者和研究人員提供了一種解決方案。FlexOlmo使得能夠從封閉數據中受益,同時通過保持數據本地化並支持推理期間數據訪問的細粒度控制來尊重數據所有者的偏好。
尽管基于强化学习(RL)与大型语言模型(LLMs)的视频推理技术取得了进展,数据收集与微调仍是重大挑战。此类方法通常依赖于大规模监督微调(SFT),需要大量视频数据及长链思维(CoT)标注,导致成本高昂且难以扩展。为此,我们提出了Video-RTS,一种通过结合数据高效的RL与视频自适应测试时缩放(TTS)策略,显著提升数据效率以增强视频推理能力的新方法。基于对RL样本数据缩放规律的观察,我们跳过了资源密集型的SFT步骤,采用基于输出的奖励进行高效纯RL训练,无需额外标注或大规模微调。此外,为更高效利用计算资源,我们引入了一种从稀疏到密集的视频TTS策略,该策略根据输出一致性迭代增加帧数,从而优化推理过程。我们在多个视频推理基准上验证了该方法的有效性,结果显示,Video-RTS仅使用3.6%的训练样本,在准确率上平均超越现有视频推理模型2.4%。例如,在近期且具挑战性的视频推理基准Video-Holmes上,Video-RTS实现了4.2%的提升,在MMVU上提升了2.6%。值得注意的是,我们的纯RL训练与自适应视频TTS策略相辅相成,共同支撑了Video-RTS强大的推理性能。
長上下文推理需要在廣泛且充滿噪聲的輸入環境中準確識別相關信息。先前研究表明,利用測試時學習將上下文直接編碼至模型參數中,能有效實現對噪聲信息的推理。然而,支持測試時學習的元學習方法因內存需求過高,難以應用於長上下文場景。本研究提出PERK(基於知識的參數高效推理),這是一種可擴展的方法,通過在測試時對輕量級模型適配器進行梯度更新來學習編碼長輸入上下文。具體而言,PERK在元訓練階段採用雙重嵌套優化循環:內層循環快速將上下文編碼至低秩適配器(LoRA),作為基礎模型的參數高效記憶模塊;外層循環則學習利用更新後的適配器,從編碼的長上下文中準確回憶並推理相關信息。我們在多項長上下文推理任務上的評估顯示,PERK顯著超越了基於提示的標準長上下文基線,對於較小模型(如GPT-2)平均絕對性能提升高達90%,對於我們評估的最大模型Qwen-2.5-0.5B也達到了27%的提升。總體而言,PERK在推理複雜性、長度外推及上下文中相關信息位置方面表現出更強的魯棒性。最後,我們指出,儘管PERK在訓練階段內存消耗較大,但在推理時相比基於提示的長上下文推理具有更高的效率擴展性。
自動化有害語言檢測對於創建安全、包容的線上空間至關重要。然而,這是一項高度主觀的任務,對有害語言的感知往往受到社群規範和生活經驗的影響。現有的毒性檢測模型通常基於將多樣化的註解者觀點壓縮為單一「真實標籤」的註解數據進行訓練,這抹去了如重構語言等重要的情境特定毒性概念。為解決此問題,我們引入了MODELCITIZENS數據集,包含6.8K條社交媒體貼文及40K條跨多元身份群體的毒性註解。為捕捉社交媒體貼文中常見的對話情境對毒性的影響,我們利用LLM生成的對話情境對MODELCITIZENS的貼文進行了擴充。現有最先進的毒性檢測工具(如OpenAI Moderation API、GPT-o4-mini)在MODELCITIZENS上的表現欠佳,且在情境擴充的貼文上表現進一步下降。最後,我們發布了基於LLaMA和Gemma架構、在MODELCITIZENS上微調的LLAMACITIZEN-8B和GEMMACITIZEN-12B模型,在分佈內評估中分別比GPT-o4-mini高出5.5%。我們的研究結果強調了基於社群共識的註解與建模對於包容性內容審核的重要性。數據、模型及程式碼已公開於https://github.com/asuvarna31/modelcitizens。
Nova Premier是亞馬遜最強大的多模態基礎模型,也是模型蒸餾的指導者。它能夠處理文本、圖像和視頻,並擁有一百萬個token的上下文窗口,使得在單一提示下分析大型代碼庫、400頁文檔和90分鐘視頻成為可能。我們首次在邊界模型安全框架下對Nova Premier的關鍵風險概況進行了全面評估。評估針對三個高風險領域——化學、生物、放射與核(CBRN)、進攻性網絡操作以及自動化AI研發——並結合了自動化基準測試、專家紅隊演練和提升研究,以確定該模型是否超出了發布門檻。我們總結了我們的方法並報告了核心發現。基於此次評估,我們認為Nova Premier符合我們在2025年巴黎AI安全峰會上做出的承諾,適合公開發布。隨著與邊界模型相關的新風險和能力的識別,我們將繼續加強我們的安全評估和緩解流程。
自主手术的研究主要集中在受控环境下的简单任务自动化。然而,现实世界中的手术应用要求机器人能够在长时间内进行灵巧操作,并适应人体组织固有的变异性。这些挑战对于现有的基于逻辑或传统端到端学习方法而言,仍难以解决。为了填补这一空白,我们提出了一种分层框架,用于执行灵巧且长期的手术步骤。我们的方法利用高层策略进行任务规划,以及低层策略生成机器人轨迹。高层规划器在语言空间中进行规划,生成任务级或纠正性指令,以引导机器人完成长期步骤,并纠正低层策略的错误。我们通过在胆囊切除术(一种常见的微创手术)上进行离体实验来验证我们的框架,并进行消融研究以评估系统的关键组件。我们的方法在八个未见过的离体胆囊上实现了100%的成功率,完全自主运行,无需人工干预。这项工作展示了手术过程中的步骤级自主性,标志着自主手术系统向临床部署迈出了重要一步。
近期,多模态大语言模型(MLLMs)的进展已实现了基于图像的问答能力。然而,其关键局限在于采用CLIP作为视觉编码器;尽管CLIP能够捕捉粗略的全局信息,却常遗漏与输入查询相关的细粒度细节。为弥补这些不足,本研究探讨了预训练的文本到图像扩散模型是否可作为指令感知的视觉编码器。通过对其内部表征的分析,我们发现扩散特征不仅语义丰富,还能编码强图像-文本对齐。此外,我们发现可利用文本条件引导模型聚焦于与输入问题相关的区域。随后,我们研究了如何将这些特征与大语言模型对齐,并揭示了一种信息泄露现象,即大语言模型可能无意中恢复原始扩散提示的信息。我们分析了此泄露的原因,并提出了缓解策略。基于这些洞见,我们探索了一种简单的融合策略,同时利用CLIP和条件扩散特征。我们在通用视觉问答(VQA)及专门的多模态大语言模型基准测试上评估了该方法,展示了扩散模型在视觉理解,尤其是需要空间与组合推理的视觉中心任务中的潜力。我们的项目页面可见于https://vatsalag99.github.io/mustafar/。
大型語言模型(LLMs)及其安全分類器在低資源語言上往往表現不佳,這主要受限於訓練數據和評估基準的不足。本文介紹了RabakBench,這是一個針對新加坡獨特語言環境進行本地化的多語言安全基準,涵蓋了新加坡式英語、中文、馬來語和泰米爾語。RabakBench通過一個可擴展的三階段流程構建:(i) 生成——利用LLM驅動的紅隊策略對真實的新加坡式英語網絡內容進行增強,生成對抗性示例;(ii) 標註——採用多數表決的LLM標註器進行半自動化的多標籤安全註釋,並與人類判斷保持一致;(iii) 翻譯——進行高保真翻譯,確保跨語言間的語言細微差別和毒性得以保留。最終的數據集包含超過5,000個安全標註的示例,覆蓋四種語言和六個細粒度安全類別,並附有嚴重程度等級。對11個流行的開源和閉源防護分類器的評估顯示出顯著的性能下降。RabakBench不僅能在東南亞多語言環境中實現穩健的安全評估,還為在低資源環境中構建本地化安全數據集提供了一個可重複的框架。該基準數據集,包括經過人工驗證的翻譯和評估代碼,均已公開提供。
在社交媒體時代,多模態迷因的廣泛傳播要求多模態大型語言模型(mLLMs)能夠有效理解迷因的潛在危害。現有的評估mLLMs在有害迷因理解能力上的基準,主要依賴於基於準確率的、模型無關的靜態數據集評估。這些基準在提供最新且全面評估方面存在局限,因為網絡迷因是動態演變的。為此,我們提出了AdamMeme,一個靈活的、基於代理的評估框架,它能夠自適應地探測mLLMs在解讀迷因危害性時的推理能力。通過多代理協作,AdamMeme通過迭代更新具有挑戰性的迷因樣本數據,提供全面的評估,從而揭示mLLMs在解釋危害性時的具體限制。大量實驗表明,我們的框架系統性地揭示了不同目標mLLMs的表現差異,提供了深入、細粒度的模型特定弱點分析。我們的代碼可在https://github.com/Lbotirx/AdamMeme獲取。