每日精選AI研究論文及翻譯
我們推出InternVL3,這是InternVL系列中的一項重大進展,其特點在於原生多模態預訓練範式。與其將僅限於文本的大型語言模型(LLM)改造成支持視覺輸入的多模態大型語言模型(MLLM),InternVL3在單一預訓練階段中,從多樣化的多模態數據和純文本語料庫中共同獲取多模態與語言能力。這一統一的訓練範式有效解決了傳統MLLM後續訓練管道中常見的複雜性和對齊挑戰。為了進一步提升性能和可擴展性,InternVL3採用了可變視覺位置編碼(V2PE)以支持擴展的多模態上下文,應用如監督微調(SFT)和混合偏好優化(MPO)等先進的後訓練技術,並採用了測試時縮放策略及優化的訓練基礎設施。廣泛的實證評估表明,InternVL3在多種多模態任務上均展現出卓越性能。特別是,InternVL3-78B在MMMU基準測試中獲得72.2分,創下了開源MLLM的新紀錄。其能力與領先的專有模型,包括ChatGPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro,保持高度競爭力,同時也維持了強大的純語言能力。秉持開放科學原則,我們將公開訓練數據和模型權重,以促進下一代MLLM的進一步研究與開發。
DeepSeek R1 和 QwQ 32B 的涌现,突破了在家庭设备上运行前沿大型语言模型(LLMs)的性能瓶颈。尽管消费级硬件日益强大,模型量化技术也在不断进步,但现有的终端解决方案仍需要 GPU 集群、大容量 RAM/VRAM 和高带宽,远超出普通家庭集群的处理能力。本文介绍了 prima.cpp,一个分布式推理系统,它能够在日常家庭设备上运行 70B 规模的模型,利用 CPU/GPU 混合计算、低 RAM/VRAM、Wi-Fi 和跨平台支持。该系统采用 mmap 管理模型权重,并引入带预取的管道环形并行机制以隐藏磁盘加载。通过建模计算、通信、磁盘、内存(及其管理行为)和操作系统的异构性,它优化地将模型层分配给每个设备的 CPU 和 GPU,进一步降低令牌延迟。我们提出了一种名为 Halda 的优雅算法来解决这一 NP 难分配问题。我们在一个常见的四节点家庭集群上评估了 prima.cpp,在 30B+ 模型上表现优于 llama.cpp、exo 和 dllama,同时将内存压力保持在 6% 以下。这使得 Llama 3、DeepSeek R1、Qwen 2.5 和 QwQ 等前沿 30B-70B 模型能够进入家庭助手,真正让个人用户触手可及。代码已开源,可在 https://github.com/Lizonghang/prima.cpp 获取。
OpenAI的多模態GPT-4o在圖像生成與編輯方面展現了卓越的能力,然而其在實現基於世界知識的語義合成——無縫整合領域知識、上下文推理與指令遵循——方面的能力仍有待驗證。在本研究中,我們系統性地評估了這些能力在三個關鍵維度上的表現:(1) 全局指令遵循,(2) 細粒度編輯精度,以及(3) 生成後推理。儘管現有的基準測試凸顯了GPT-4o在圖像生成與編輯方面的強大能力,我們的評估卻揭示了GPT-4o的持續性局限:該模型經常默認對指令進行字面解讀,不一致地應用知識約束,並在條件推理任務中表現掙扎。這些發現挑戰了關於GPT-4o統一理解與生成能力的普遍假設,暴露了其在動態知識整合方面的顯著差距。我們的研究呼籲開發更為穩健的基準測試與訓練策略,超越表面層面的對齊,強調基於上下文感知與推理的多模態生成。
近期,如GPT-o1和DeepSeek-R1等慢思考系统通过显式反思在解决复杂问题上展现了巨大潜力。它们在各类数学与科学基准测试中显著超越了包括GPT-4o在内的最佳快思考模型。然而,其多模态推理能力仍与快思考模型持平。例如,GPT-o1在MathVista、MathVerse和MathVision等基准上的表现与快思考模型相似。本文旨在通过强化学习(不依赖蒸馏)提升视觉语言模型的慢思考能力,以推动技术前沿。首先,我们采用GRPO算法并引入一种名为选择性样本回放(SSR)的新技术,以解决优势消失问题。尽管此方法带来了强劲性能,但由此训练的强化学习模型在自我反思或自我验证方面表现有限。为进一步促进慢思考,我们提出了强制再思考机制,即在强化学习训练的初始轨迹末尾附加文本再思考触发器,明确强制执行自我反思推理步骤。结合这两种技术,我们的模型VL-Rethinker在MathVista、MathVerse和MathVision上分别达到了80.3%、61.8%和43.9%的最新成绩。此外,VL-Rethinker还在MMMU-Pro、EMMA和MEGA-Bench等多学科基准测试中实现了开源领域的最先进水平,缩小了与GPT-o1的差距。
我們介紹了FUSION,這是一系列多模態大型語言模型(MLLMs),採用了一種完全視覺-語言對齊與整合的範式。與現有方法主要依賴於LLM解碼階段的後期模態交互不同,我們的方法在整個處理流程中實現了深度、動態的整合。為此,我們提出了文本引導的統一視覺編碼,將文本信息融入視覺編碼中,以實現像素級的整合。我們進一步設計了上下文感知的遞歸對齊解碼,在解碼過程中根據文本上下文遞歸聚合視覺特徵,從而實現細粒度的、問題層次的語義整合。為了引導特徵映射並緩解模態差異,我們開發了雙監督語義映射損失。此外,我們通過一種新的數據合成方法構建了一個合成語言驅動的問答(QA)數據集,優先考慮高質量的QA對以優化文本引導的特徵整合。基於這些基礎,我們訓練了兩個規模的FUSION模型——3B和8B,並展示了我們的全模態整合方法在僅使用630個視覺標記的情況下顯著優於現有方法。值得注意的是,FUSION 3B在多數基準測試中超越了Cambrian-1 8B和Florence-VL 8B。即使在僅限於300個視覺標記的情況下,FUSION 3B仍然優於Cambrian-1 8B。我們的消融研究表明,在相同配置下,FUSION在超過一半的基準測試中優於LLaVA-NeXT,且無需動態分辨率,這凸顯了我們方法的有效性。我們公開了我們的代碼、模型權重和數據集。https://github.com/starriver030515/FUSION
生成高質量程式碼以解決複雜的編程任務具有挑戰性,尤其是在當前基於解碼器的模型產生高度隨機輸出的情況下。在程式碼生成中,即使是微小的錯誤也可能輕易破壞整個解決方案。利用多個採樣的解決方案可以顯著提升整體輸出品質。 一種有效提升程式碼生成品質的方法是將程式碼生成模型與重排序模型配對,後者從生成的樣本中選擇最佳解決方案。我們提出了一種新穎的迭代自我訓練方法,使用近端策略優化(PPO)來自我訓練重排序模型,旨在提高重排序準確性和整體程式碼生成過程。與傳統的PPO方法不同,傳統方法專注於使用獎勵模型來優化生成模型,而我們的方法則強調開發一個強大的獎勵/重排序模型。該模型通過重排序來提升生成程式碼的品質,並解決獎勵模型在與重排序器進行PPO對齊時可能忽略的問題和錯誤。我們的方法通過重新評估輸出、識別高分的負面樣本並將其納入訓練循環中,迭代地精煉訓練數據集,從而提升模型性能。 我們在MultiPL-E數據集上的評估顯示,我們的13.4B參數模型在程式碼生成品質上超越了33B模型,同時速度提高了三倍。此外,它在性能上與GPT-4相當,並在一種編程語言中超越了GPT-4。
在多模态大型语言模型(MLLMs)中,长上下文视频理解面临一个关键挑战:如何在计算效率与保留细粒度时空模式之间取得平衡。现有方法(如稀疏采样、低分辨率密集采样和令牌压缩)在时间动态、空间细节或微妙交互方面存在显著信息丢失,特别是在具有复杂运动或变化分辨率的视频中。为解决这一问题,我们提出了Mavors,一个新颖的框架,引入了多粒度视频表示以实现整体长视频建模。具体而言,Mavors通过两个核心组件直接将原始视频内容编码为潜在表示:1)一个通过3D卷积和视觉Transformer保留高分辨率空间特征的块内视觉编码器(IVE),以及2)一个使用基于Transformer的依赖建模和块级旋转位置编码建立跨块时间一致性的块间特征聚合器(IFA)。此外,该框架通过子图像分解将图像视为单帧视频,统一了图像和视频理解。在多样化的基准测试中,Mavors在保持空间保真度和时间连续性方面表现出色,在需要细粒度时空推理的任务中显著优于现有方法。
網路代理程式讓使用者能夠透過自然語言互動在網頁瀏覽器上執行任務。評估網路代理程式的執行軌跡是一個重要課題,因為這能幫助我們判斷代理程式是否成功完成了任務。基於規則的方法被廣泛用於此目的,但它們難以擴展到新任務,且未必總能識別出成功的軌跡。雖然透過人工評估可能獲得更高的準確性,但這一過程會顯著更慢且成本更高。利用大型語言模型(LLM)進行自動評估,則能避免設計新規則和手動標註軌跡的挑戰,實現更快且更具成本效益的評估。然而,LLM在評估網路代理程式方面的有效性尚不明確。為此,我們提出了AgentRewardBench,這是首個用於評估LLM作為網路代理程式評判者有效性的基準測試。AgentRewardBench涵蓋了5個基準測試和4個LLM的1302條軌跡。每條軌跡均由專家審查,專家會回答有關代理程式成功與否、副作用及重複性等問題。利用我們的基準,我們評估了12個LLM評判者,發現沒有一個LLM能在所有基準測試中表現出色。我們還發現,常用基準測試採用的基於規則的評估往往低估了網路代理程式的成功率,這凸顯了基於規則評估的一個關鍵弱點,以及開發更靈活的自動評估方法的必要性。我們已將此基準測試發布於:https://agent-reward-bench.github.io
我們推出了S1-Bench,這是一個新穎的基準測試,旨在評估大型推理模型(LRMs)在偏向直覺系統1思維而非深思熟慮系統2推理的簡單任務上的表現。儘管LRMs通過顯式的思維鏈在複雜推理任務中取得了重大突破,但它們對深度分析思維的依賴可能限制了其系統1思維能力。此外,目前缺乏評估LRMs在需要此類能力的任務中表現的基準測試。為填補這一空白,S1-Bench提供了一組跨多個領域和語言的簡單、多樣且自然清晰的問題,專門設計用於評估LRMs在此類任務中的表現。我們對22個LRMs的全面評估揭示了顯著的效率低下趨勢,其輸出平均比傳統小型LLMs長15.5倍。此外,LRMs經常在早期識別出正確答案,但卻繼續進行不必要的深思熟慮,有些模型甚至產生了大量錯誤。這些發現突顯了當前LRMs的僵化推理模式,並強調了在實現能夠適應任務複雜性的平衡雙系統思維能力方面所需的重大發展。
基於強化學習(RL)的後訓練技術近期取得了顯著進展,特別是在提升大型語言模型(LLMs)處理複雜任務的推理能力方面。然而,現有方法大多將訓練數據視為一個整體,忽略了現代LLM訓練通常涉及來自不同分佈的混合數據——這些數據在來源和難度上均存在差異。這種異質性引入了一個關鍵挑戰:如何自適應地安排跨分佈的訓練以優化學習效率。本文提出了一種基於分佈層面可學習性概念的課程學習框架。我們的核心洞察是,策略優勢的大小反映了模型在特定分佈上進一步訓練所能獲益的程度。基於此,我們提出了一種用於RL基於LLM後訓練的分佈層面課程學習框架,該框架利用上置信界(UCB)原則動態調整不同分佈的採樣概率。此方法優先考慮具有高平均優勢(利用)或低樣本計數(探索)的分佈,從而產生一種自適應且理論基礎紮實的訓練計劃。我們以GRPO作為底層RL算法實例化了我們的課程學習框架,並在多難度和多來源的邏輯推理數據集上展示了其有效性。實驗結果表明,我們的框架顯著提高了收斂速度和最終性能,凸顯了分佈感知課程策略在LLM後訓練中的價值。代碼:https://github.com/ZhentingWang/DUMP。
圖像表示通常透過分散且任務特定的評估協議來進行,這導致對模型能力的理解呈現碎片化。例如,我們無法確定一個擅長圖像聚類的圖像嵌入模型,是否同樣擅長在給定一段文字時檢索相關圖像。我們引入了大規模圖像嵌入基準(Massive Image Embedding Benchmark, MIEB),以評估圖像及圖像-文字嵌入模型在迄今為止最廣泛的範圍內的表現。MIEB涵蓋38種語言,包含130個獨立任務,並將其分為8個高層次類別。我們在該基準上測試了50個模型,發現沒有任何單一方法在所有任務類別中均佔據主導地位。我們揭示了先進視覺模型的隱藏能力,例如它們對文本的精確視覺表示,以及它們在交錯編碼和存在干擾因素時匹配圖像與文字方面的能力尚有限。我們還展示了視覺編碼器在MIEB上的表現與其在多模態大型語言模型中的表現高度相關。我們的程式碼、數據集和排行榜已公開於https://github.com/embeddings-benchmark/mteb。
社會模擬正通過虛擬個體與其環境之間的互動來建模人類行為,從而革新傳統的社會科學研究。隨著大型語言模型(LLMs)的最新進展,這種方法在捕捉個體差異和預測群體行為方面展現出日益增長的潛力。然而,現有方法在環境、目標用戶、互動機制和行為模式方面面臨著對齊挑戰。為此,我們引入了SocioVerse,這是一個基於LLM代理驅動的社會模擬世界模型。我們的框架具備四個強大的對齊組件和一個包含1000萬真實個體的用戶池。為驗證其有效性,我們在政治、新聞和經濟三個不同領域進行了大規模模擬實驗。結果表明,SocioVerse能夠反映大規模人口動態,同時通過標準化程序和最少的手動調整確保多樣性、可信度和代表性。
圖形用戶界面(GUI)代理提供了跨平台的自動化複雜數字任務的解決方案,具有顯著提升生產力工作流程的潛力。然而,其性能往往受限於高質量軌跡數據的稀缺性。為解決這一限制,我們提出在專門的中期訓練階段,針對數據豐富且需要密集推理的任務訓練視覺語言模型(VLMs),並探討這些任務如何促進向GUI規劃場景的泛化。具體而言,我們探索了一系列易於獲取指令微調數據的任務,包括GUI感知、多模態推理和文本推理。通過在11個中期訓練任務上的廣泛實驗,我們證明:(1)任務泛化極為有效,在大多數設置中帶來顯著提升。例如,多模態數學推理使AndroidWorld的性能絕對提升了6.3%。值得注意的是,僅文本的數學數據顯著提升了GUI網絡代理的性能,在WebArena上實現了5.6%的提升,在AndroidWorld上實現了5.4%的提升,凸顯了從文本到視覺領域的顯著跨模態泛化能力;(2)與先前假設相反,GUI感知數據——曾被認為與GUI代理任務密切相關並廣泛用於訓練——對最終性能的影響相對有限;(3)基於這些洞察,我們確定了最有效的中期訓練任務,並精心優化了混合數據集,從而在WebArena上實現了8.0%的絕對性能提升,在AndroidWorld上實現了12.2%的提升。我們的工作為GUI代理的跨領域知識遷移提供了寶貴的見解,並為解決這一新興領域中的數據稀缺挑戰提供了實用方法。代碼、數據和模型將在https://github.com/hkust-nlp/GUIMid上公開。
近期,通過強化學習提升大型多模態模型(LMMs)的推理能力取得了顯著進展。然而,現有研究大多基於數學和代碼等高推理強度的數據集,且研究者普遍選擇大規模模型作為基礎。我們認為,對於計算資源有限的研究者而言,探索小規模模型的推理能力仍具有重要價值。此外,使模型能夠在一般問答數據集上解釋其推理過程同樣意義重大。因此,我們提出了小規模視頻推理模型TinyLLaVA-Video-R1。該模型基於TinyLLaVA-Video,這是一個參數不超過4B、經過可追溯訓練的視頻理解模型。在對一般Video-QA數據集使用強化學習後,它不僅展現出顯著提升的推理與思維能力,還表現出“頓悟時刻”的湧現特性。此外,我們分享了一系列實驗發現,旨在為未來探索小規模模型的視頻推理(思維)能力提供實用見解。該模型可在https://github.com/ZhangXJ199/TinyLLaVA-Video-R1獲取。
AI正日益在变革科学发现方式中扮演着关键角色。我们推出The AI Scientist-v2,这是一个端到端的自主系统,能够生成首篇完全由AI创作并通过同行评审的工作坊论文。该系统能够迭代地提出科学假设、设计并执行实验、分析及可视化数据,并自主撰写科学手稿。相较于其前身(v1,Lu等人,2024年arXiv:2408.06292),The AI Scientist-v2消除了对人类编写代码模板的依赖,有效泛化至多种机器学习领域,并采用了一种由专用实验管理代理监督的新型渐进式自主树搜索方法。此外,我们通过整合视觉-语言模型(VLM)反馈循环,增强了AI审稿组件,以迭代优化内容与图表的美学效果。我们通过向ICLR工作坊提交三篇完全自主的手稿来评估The AI Scientist-v2。值得注意的是,其中一篇手稿得分之高,超过了人类平均接受门槛,标志着首篇完全由AI生成的论文成功通过同行评审。这一成就凸显了AI在全方位开展科学研究方面的日益增强的能力。我们预见,自主科学发现技术的进一步进步将深刻影响人类知识生成,使研究生产力达到前所未有的规模,并显著加速科学突破,极大地造福社会。我们已在https://github.com/SakanaAI/AI-Scientist-v2开源代码,以促进这一变革性技术的未来发展。我们还探讨了AI在科学中的角色,包括AI安全。
科學家們常常從具體問題的實例中推導出抽象的程序,並利用這些抽象來生成新的相關實例。例如,編碼系統正式規則和屬性的程序,在從強化學習(程序化環境)到物理學(模擬引擎)等多個領域中都有其應用價值。這些程序可視為函數,根據其參數化(如網格世界配置或初始物理條件)執行以產生不同的輸出。我們引入“可執行功能抽象”(EFA)這一術語來指代此類針對數學問題的程序。類似EFA的結構已被證明在數學推理中作為問題生成器用於壓力測試模型方面具有實用性。然而,先前的工作僅限於小學數學的抽象(其簡單規則易於編碼成程序),而生成高級數學的EFA至今仍需人工設計。我們探索了高級數學問題EFA的自動構建。我們將自動構建EFA的任務操作化為程序合成任務,並開發了EFAGen,它基於一個種子數學問題及其逐步解決方案來條件化大型語言模型(LLM),以生成忠實於種子問題背後廣義問題及解決方案類別的候選EFA程序。此外,我們以可執行單元測試的形式形式化了任何有效EFA必須具備的屬性,並展示了如何利用這些測試作為可驗證的獎勵來訓練LLM,使其成為更優秀的EFA編寫者。我們證明,EFAGen構建的EFA行為合理,既忠實於種子問題,又能產生可學習的問題變體,且EFAGen能夠從多樣化的競賽級數學問題來源中推斷出EFA。最後,我們展示了模型編寫的EFA的下游應用,例如發現對學習者而言更難或更易解決的問題變體,以及數據生成。
有效的推理對於解決複雜的數學問題至關重要。近年來,大型語言模型(LLMs)通過長鏈式推理擴展了測試時的計算能力,從而提升了性能。然而,基於Transformer的模型由於其二次計算複雜性和線性記憶體需求,在擴展上下文長度方面存在固有局限。本文介紹了一種基於Mamba架構的新型混合線性RNN推理模型M1,該模型允許記憶體高效的推理。我們的方法利用了現有推理模型的蒸餾過程,並通過強化學習訓練進一步增強。在AIME和MATH基準測試中的實驗結果顯示,M1不僅超越了以往的線性RNN模型,還與同規模下最先進的Deepseek R1蒸餾推理模型的性能相當。我們還將生成速度與高性能通用推理引擎vLLM進行了比較,並觀察到相比於相同規模的Transformer,速度提升了3倍以上。通過吞吐量的提升,我們能夠在固定的生成時間預算下,利用自一致性投票,實現比DeepSeek R1蒸餾Transformer推理模型更高的準確率。總體而言,我們引入了一種混合Mamba推理模型,並提供了一種更有效的方法來擴展測試時的生成,無論是使用自一致性還是長鏈式推理。
近期,大型視覺語言模型的進展展現了卓越的能力。然而,當面對人類通常透過視覺輔助和深思熟慮的逐步思考來解決的複雜推理任務時,這些模型往往表現不佳。儘管現有方法已探索了基於文本的慢速思考或基本的視覺輔助,但它們未能捕捉到人類視覺-語言推理過程中錯綜複雜的交織特性。為克服這些限制,並受到人類認知中慢速思考機制的啟發,我們提出了VisuoThink,這是一個無縫整合視覺空間與語言領域的新框架。VisuoThink通過促進漸進式的視覺-文本推理,實現了多模態的慢速思考,並結合了透過前瞻樹搜索的測試時擴展。大量實驗表明,VisuoThink在無需微調的情況下,通過推理時擴展顯著提升了推理能力,在涉及幾何和空間推理的任務中達到了最先進的性能。
近期的大型語言模型(LLMs)在推理能力上取得了顯著進步,這主要歸功於在生成過程中加入了明確且冗長的思考過程。本文質疑這種明確的思考是否必要。利用最先進的DeepSeek-R1-Distill-Qwen模型,我們發現通過簡單提示繞過思考過程(稱為NoThinking)可以出奇地有效。在控制token數量的情況下,NoThinking在七個具有挑戰性的推理數據集上(包括數學問題解決、形式定理證明和編碼)均優於Thinking,特別是在低預算設置下,例如在ACM 23數據集上,使用700個token時,NoThinking的得分為51.3,而Thinking僅為28.9。值得注意的是,隨著k值的增加,NoThinking在pass@k指標下的表現變得更加具有競爭力。基於這一觀察,我們展示了一種並行擴展方法,該方法使用NoThinking獨立生成N個輸出並將其聚合,效果顯著。對於聚合,我們在可用時使用任務特定的驗證器,或者應用基於置信度的簡單best-of-N策略。我們的方法在使用Thinking的相似延遲下優於一系列基線,並且與顯著更長延遲(最多9倍)的Thinking相當。總之,我們的研究鼓勵重新考慮冗長思考過程的必要性,同時也為在低預算設置或低延遲下通過並行擴展實現強推理性能建立了具有競爭力的參考。
科學方程式的發現是科學進步史上的一項基礎任務,它使得我們能夠推導出支配自然現象的定律。近年來,大型語言模型(LLMs)因其利用內嵌科學知識進行假設生成的潛力,在這一任務中引起了廣泛關注。然而,評估這些方法的真實發現能力仍然具有挑戰性,因為現有的基準測試往往依賴於LLMs可能通過記憶掌握的常見方程式,這導致了性能指標的虛高,無法真實反映發現過程。本文介紹了LLM-SRBench,這是一個包含四個科學領域共239個挑戰性問題的綜合基準測試,專門設計用於評估基於LLM的科學方程式發現方法,同時防止簡單的記憶。我們的基準測試主要包括兩大類別:LSR-Transform,它將常見的物理模型轉化為不常見的數學表示,以測試超越記憶形式的推理能力;以及LSR-Synth,它引入了需要數據驅動推理的合成、發現導向的問題。通過對多種最先進方法(包括開放和封閉的LLMs)的廣泛評估,我們發現迄今為止表現最佳的系統僅達到31.5%的符號準確率。這些發現凸顯了科學方程式發現的挑戰,將LLM-SRBench定位為未來研究的寶貴資源。
大型語言模型通過基於梯度的更新進行學習並持續學習,但新的信息片段如何影響現有知識,從而導致有益的泛化和有問題的幻覺,仍然知之甚少。我們證明,在學習新信息時,LLMs 表現出一種「啟動」效應:學習一個新的事實可能會導致模型在不相關的上下文中不恰當地應用該知識。為了系統地研究這一現象,我們引入了「Outlandish」,這是一個精心策劃的包含 1320 個多樣化文本樣本的數據集,旨在探測新知識如何滲透到 LLM 的現有知識庫中。使用該數據集,我們展示了學習新信息後的啟動程度可以通過測量學習前關鍵詞的標記概率來預測。這種關係在不同的模型架構(PALM-2、Gemma、Llama)、大小和訓練階段中均穩健成立。最後,我們開發了兩種新技術來調節新知識如何影響現有模型行為:(1) 一種「墊腳石」文本增強策略和 (2) 一種「忽略-k」更新修剪方法。這些方法將不良的啟動效應減少了 50-95%,同時保留了模型學習新信息的能力。我們的研究結果不僅提供了關於 LLMs 如何學習的實證見解,還提供了改進語言模型中知識插入特異性的實用工具。更多材料請訪問:https://sunchipsster1.github.io/projects/outlandish/
大型語言模型(LLM)驅動的AI角色興起引發了安全隱憂,尤其對患有心理疾病的脆弱使用者而言。為應對這些風險,我們提出了EmoAgent,這是一個多代理AI框架,旨在評估並減輕人機互動中的心理健康危害。EmoAgent包含兩個組件:EmoEval模擬虛擬使用者,包括那些表現出心理脆弱性的個體,以評估與AI角色互動前後的心理健康變化。它採用臨床驗證的心理學與精神科評估工具(如PHQ-9、PDI、PANSS)來評估由LLM引發的心理風險。EmoGuard則作為中介,監控使用者的心理狀態,預測潛在傷害,並提供修正反饋以降低風險。在基於角色的熱門聊天機器人中進行的實驗顯示,情感投入的對話可能導致脆弱使用者的心理狀況惡化,超過34.4%的模擬案例中出現了心理狀態的退化。EmoGuard顯著降低了這些退化率,凸顯了其在確保更安全的人機互動中的重要作用。我們的程式碼已公開於:https://github.com/1akaman/EmoAgent。
三維場景描述(3D captioning)旨在以自然語言描述三維場景的內容,由於點雲數據的固有稀疏性以及現有方法中跨模態對齊的薄弱,這一任務仍面臨巨大挑戰。為應對這些挑戰,我們提出了3D CoCa,這是一個新穎的統一框架,將對比視覺語言學習與三維描述生成無縫結合於單一架構中。我們的方法利用凍結的CLIP視覺語言骨幹提供豐富的語義先驗,一個空間感知的三維場景編碼器捕捉幾何上下文,以及一個多模態解碼器生成描述性文本。與依賴顯式物體提議的先前兩階段方法不同,3D CoCa在共享特徵空間中聯合優化對比和描述目標,消除了對外部檢測器或手工提議的需求。這種聯合訓練範式通過對齊三維與文本表示,實現了更強的空間推理和更豐富的語義基礎。在ScanRefer和Nr3D基準上的大量實驗表明,3D CoCa在0.5IoU下的CIDEr得分分別顯著超越當前最先進技術10.2%和5.76%。代碼將於https://github.com/AIGeeksGroup/3DCoCa 提供。
近期大型語言模型(LLMs)的進展,使其具備了接近人類水準的說服能力。然而,這種潛力也引發了對LLM驅動說服的安全風險的擔憂,尤其是其可能通過操縱、欺騙、利用弱點及其他多種有害策略進行不道德影響的潛在風險。在本研究中,我們從兩個關鍵方面對LLM說服安全性進行了系統性調查:(1) LLMs是否能夠恰當地拒絕不道德的說服任務,並在執行過程中避免使用不道德策略,包括初始說服目標看似道德中立的情況;(2) 人格特質和外部壓力等影響因素如何影響其行為。為此,我們提出了PersuSafety,這是首個全面的說服安全性評估框架,包含三個階段,即說服場景創建、說服對話模擬和說服安全性評估。PersuSafety涵蓋了6種不同的不道德說服主題和15種常見的不道德策略。通過對8個廣泛使用的LLMs進行大量實驗,我們觀察到大多數LLMs存在顯著的安全隱患,包括未能識別有害的說服任務以及利用各種不道德的說服策略。我們的研究呼籲更多地關注在漸進式和目標驅動的對話(如說服)中提升安全對齊性。
具備推理能力的大型語言模型(LLMs)近期在複雜的邏輯與數學任務中展現了卓越性能,然而其在自然語言生成評估中的有效性尚未被探討。本研究系統性地比較了基於推理的LLMs(DeepSeek-R1與OpenAI o3)與其非推理版本在機器翻譯(MT)及文本摘要(TS)評估任務中的表現。我們評估了涵蓋三種架構類別的八個模型,包括最先進的推理模型、其蒸餾變體(參數量從8B到70B不等),以及對應的傳統非推理LLMs。我們在WMT23與SummEval基準上的實驗表明,推理能力帶來的益處高度依賴於模型與任務:雖然OpenAI o3-mini模型隨著推理強度的增加展現出持續的性能提升,但DeepSeek-R1在大多數情況下表現遜於其非推理版本,僅在TS評估的某些方面例外。相關性分析顯示,在o3-mini模型中,推理標記使用量的增加與評估質量呈正相關。此外,我們的結果表明,推理能力的蒸餾在中型模型(32B)中保持了合理的性能,但在較小變體(8B)中顯著下降。這項工作首次全面評估了推理LLMs在自然語言生成評估中的應用,並為其實際使用提供了洞見。
多模態推理,即整合語言與視覺線索於問題解決與決策制定之中,是人類智能的基礎要素,也是邁向人工通用智能的關鍵一步。然而,現有對多模態大語言模型(MLLMs)在多模態推理能力上的評估仍顯不足。大多數現有的推理基準受限於數據規模小、領域覆蓋窄及知識分佈無序等問題。為彌補這些不足,我們推出了MDK12-Bench,這是一個跨學科的基準測試,通過真實的K-12考試來評估MLLMs的推理能力。涵蓋數學、物理、化學、生物、地理和信息科學六大學科,我們的基準包含從小學到十二年級共14萬個不同難度層次的推理實例,並基於精心組織的知識結構,提供了6,827個實例級別的知識點標註、詳盡的答案解析、難度標籤及跨年級劃分,為全面評估提供了堅實平台。此外,我們提出了一種新穎的動態評估框架,通過在評估過程中引導問題形式、題型及圖像風格,有效緩解數據污染問題。在MDK12-Bench上的廣泛實驗揭示了當前MLLMs在多模態推理方面的顯著侷限性。基於我們基準的發現,為下一代模型的開發提供了洞見。我們的數據與代碼已公開於https://github.com/LanceZPF/MDK12。
為降低開發成本並實現生成式AI應用中各潛在組件間的無縫整合,模型上下文協議(Model Context Protocol, MCP)(Anthropic, 2024)近期發布並迅速獲得廣泛採用。MCP作為一項開放協議,標準化了對大型語言模型(LLMs)、數據源及代理工具的API調用。通過連接多個MCP服務器,每個服務器均定義了一套工具、資源及提示,用戶能夠定義完全由LLMs驅動的自動化工作流。然而,我們揭示當前MCP設計對終端用戶存在廣泛的安全風險。具體而言,我們證明了領先業界的LLMs可能被誘導利用MCP工具,通過惡意代碼執行、遠程訪問控制及憑證盜取等多種攻擊方式,危害AI開發者的系統。為主動防範此類及相關攻擊,我們引入了一款安全審計工具——MCPSafetyScanner,這是首個用於評估任意MCP服務器安全性的代理工具。MCPScanner利用多個代理來:(a) 自動確定給定MCP服務器工具和資源的對抗樣本;(b) 基於這些樣本搜索相關漏洞及修復方案;(c) 生成詳細記錄所有發現的安全報告。我們的工作不僅揭示了通用代理工作流中的嚴重安全問題,還提供了一款主動工具,用於審計MCP服務器安全性並在部署前解決檢測到的漏洞。所述的MCP服務器審計工具MCPSafetyScanner,可免費獲取於:https://github.com/johnhalloran321/mcpSafetyScanner。
大規模預訓練擴散模型在條件圖像生成領域已取得卓越成果。然而,作為該領域重要下游任務的古代壁畫修復,因其大面積缺損和訓練樣本稀缺,對基於擴散模型的修復方法提出了重大挑戰。條件修復任務更關注修復部分在整體風格和接縫細節上是否符合壁畫修復的美學標準,而當前研究中缺乏評估啟發式圖像補全的此類指標。因此,我們提出了DiffuMural,它結合了多尺度收斂與協同擴散機制,並利用ControlNet和循環一致性損失來優化生成圖像與條件控制之間的匹配。DiffuMural在壁畫修復中展現了卓越能力,其訓練數據來自23幅具有一致視覺美學的大規模敦煌壁畫。該模型在恢復精細細節、實現整體外觀連貫性以及應對缺乏事實依據的不完整壁畫所帶來的獨特挑戰方面表現出色。我們的評估框架整合了四個關鍵指標,以定量評估不完整壁畫:事實準確性、紋理細節、上下文語義和整體視覺連貫性。此外,我們還融入了人文價值評估,確保修復後的壁畫保留其文化和藝術意義。大量實驗驗證,我們的方法在質量和數量指標上均優於當前最先進(SOTA)的方法。