每日精選AI研究論文及翻譯
近期,文本到圖像(T2I)生成技術取得了顯著進展,然而現有模型在處理需要豐富世界知識和隱含推理的提示時仍面臨挑戰:這兩者對於在現實場景中生成語義準確、連貫且上下文適宜的圖像至關重要。為填補這一空白,我們引入了WorldGenBench,這是一個旨在系統評估T2I模型世界知識基礎和隱含推理能力的基準,涵蓋人文與自然領域。我們提出了知識清單評分(Knowledge Checklist Score),這是一種結構化指標,用於衡量生成圖像滿足關鍵語義期望的程度。對21個最先進模型的實驗表明,儘管擴散模型在開源方法中領先,但像GPT-4o這樣的專有自迴歸模型展現出更強的推理和知識整合能力。我們的研究結果強調了下一代T2I系統需要具備更深層次的理解和推理能力。項目頁面:https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
Transformer模型在众多自然语言处理任务中取得了显著成功,但在多步事实推理方面仍存在明显不足,尤其是在现实世界知识稀疏的情况下。最近,关于“顿悟”(grokking)的研究进展表明,神经网络一旦检测到潜在逻辑模式,便能从记忆过渡到完美泛化——然而这些研究主要局限于小型、合成的任务。本文首次将“顿悟”概念扩展至现实世界的事实数据,并通过精心设计的合成数据增强现有知识图谱,以提升推断事实与原子事实的比例φ_r,使其超过“顿悟”所需的阈值,从而应对数据集稀疏的挑战。令人惊讶的是,我们发现即使是事实错误的合成数据,也能强化涌现的推理回路而非降低准确性,因为它迫使模型依赖关系结构而非记忆。在多跳推理基准测试中,我们的方法在2WikiMultiHopQA上达到了95-100%的准确率,显著超越了强基线,并匹配或超越了当前的最先进结果。我们进一步深入分析了增加φ_r如何驱动Transformer内部泛化回路的形成。研究结果表明,基于“顿悟”的数据增强能够解锁隐含的多跳推理能力,为大规模语言模型实现更稳健且可解释的事实推理开辟了道路。
一款無縫融入日常生活的語音AI助手,將以自主、即時且富有情感表達的方式與人類互動。它不僅僅是對指令做出反應,而是持續傾聽、推理並主動回應,促進流暢、動態且情感共鳴的互動。我們推出Voila,這是一系列大型語音語言基礎模型,朝著這一願景邁出了一步。Voila超越了傳統的流水線系統,採用了全新的端到端架構,實現了全雙工、低延遲的對話,同時保留了豐富的語音細微差別,如語調、節奏和情感。其響應延遲僅為195毫秒,超越了人類的平均反應時間。其分層多尺度Transformer將大型語言模型(LLMs)的推理能力與強大的聲學建模相結合,實現了自然、個性化的語音生成——用戶只需編寫文本指令即可定義說話者的身份、語調和其他特徵。此外,Voila支持超過一百萬種預建語音,並能從短至10秒的音頻樣本中高效定制新語音。除了口語對話,Voila還被設計為適用於多種語音應用的統一模型,包括自動語音識別(ASR)、文本到語音(TTS),以及經過最小適應的多語言語音翻譯。Voila完全開源,以支持開放研究並加速下一代人機交互的進程。
獎勵建模對於將大型語言模型(LLMs)與人類偏好對齊至關重要,尤其是通過基於人類反饋的強化學習(RLHF)。為了提供準確的獎勵信號,獎勵模型(RM)應在評分或判斷前激發深度思考並進行可解釋的推理。然而,現有的RM要么生成不透明的標量分數,要么直接生成首選答案的預測,使其難以整合自然語言批評,從而缺乏可解釋性。受近期在推理密集型任務中長鏈思維(CoT)進展的啟發,我們假設並驗證了將推理能力整合到獎勵建模中能顯著提升RM的可解釋性和性能。在本研究中,我們引入了一類新的生成式獎勵模型——推理獎勵模型(ReasRMs),其將獎勵建模視為一項推理任務。我們提出了一種面向推理的訓練流程,並訓練了一系列ReasRMs,即RM-R1。訓練包含兩個關鍵階段:(1)高質量推理鏈的蒸餾和(2)帶有可驗證獎勵的強化學習。RM-R1通過自生成推理軌跡或特定於聊天的評分標準,並根據這些標準評估候選響應,從而改進了LLM的展開。實證表明,我們的模型在多個綜合獎勵模型基準測試中達到了生成式RM的頂尖或接近頂尖性能,超越了更大規模的開放權重模型(如Llama3.1-405B)和專有模型(如GPT-4o),最高提升達13.8%。除了最終性能外,我們還進行了深入的實證分析,以理解成功ReasRM訓練的關鍵要素。為促進未來研究,我們在https://github.com/RM-R1-UIUC/RM-R1發布了六個ReasRM模型及相關代碼和數據。
我們證明,作為二階優化器最簡單實現的Muon,在計算時間權衡上顯著擴展了相較於AdamW的帕累托前沿。我們發現,Muon在保持大批次規模下的數據效率方面比AdamW更為有效,遠遠超出所謂的關鍵批次大小,同時保持計算效率,從而實現更經濟的訓練。我們研究了Muon與最大更新參數化(muP)的結合,以實現高效的超參數遷移,並提出了一種簡單的伸縮算法,該算法考慮了muP中所有誤差來源,同時僅引入適度的資源開銷。我們通過多達四十億參數的模型規模實驗以及對數據分佈和架構的消融研究,驗證了我們的發現。
大型語言模型(LLMs)已廣泛應用於聊天機器人、代碼生成器及搜索引擎中。諸如思維鏈、複雜推理和代理服務等工作負載,因需多次調用模型而顯著增加了推理成本。為降低成本,業界採用了並行化、壓縮和緩存等優化方法,但多樣化的服務需求使得選擇合適的方法變得困難。近期,專用的LLM推理引擎已成為將這些優化方法整合至面向服務基礎設施的關鍵組件。然而,針對推理引擎的系統性研究仍顯不足。本文對25個開源及商業推理引擎進行了全面評估,從易用性、部署便捷性、通用性支持、可擴展性以及對吞吐量和延遲敏感計算的適用性等方面逐一審視。此外,我們通過探究各推理引擎所支持的優化技術,深入挖掘其設計目標。同時,我們評估了開源推理引擎的生態成熟度,並處理了商業解決方案在性能與成本策略上的考量。我們勾勒了未來研究方向,包括對基於LLM的複雜服務的支持、多樣化硬件的兼容性以及安全性的提升,為研究人員和開發者在選擇與設計優化的LLM推理引擎時提供實用指導。我們還建立了一個公共資源庫,持續追蹤這一快速發展領域的最新動態:https://github.com/sihyeong/Awesome-LLM-Inference-Engine。
大型語言模型(LLMs)在複雜推理任務中取得了顯著進展,但其根本上仍受限於對靜態內部知識和純文本推理的依賴。現實世界中的問題解決往往需要動態、多步驟的推理、適應性決策以及與外部工具和環境交互的能力。在本研究中,我們引入了ARTIST(自我改進變換器中的代理推理與工具集成),這是一個將代理推理、強化學習和工具集成緊密結合的統一框架。ARTIST使模型能夠在多輪推理鏈中自主決定何時、如何以及調用哪些工具,利用基於結果的強化學習來學習工具使用和環境交互的穩健策略,而無需步驟級別的監督。在數學推理和多輪函數調用基準上的廣泛實驗表明,ARTIST始終優於最先進的基線模型,相較於基礎模型實現了高達22%的絕對提升,並在最具挑戰性的任務上取得了顯著增益。詳細研究和指標分析揭示,代理強化學習訓練促進了更深層次的推理、更有效的工具使用以及更高質量的解決方案。我們的結果確立了結合工具集成的代理強化學習作為LLMs中穩健、可解釋且可泛化問題解決的一個強大新前沿。
形式化數學推理仍然是人工智慧領域的一個關鍵挑戰,現有基準在範圍和規模上的限制阻礙了其發展。為解決這一問題,我們提出了FormalMATH,這是一個基於Lean4的大規模基準,包含5,560個經過形式化驗證的問題,涵蓋從高中奧林匹克競賽到大學本科水平的各類定理,涉及多個領域(如代數、應用數學、微積分、數論和離散數學)。為減少手動形式化的低效性,我們引入了一種新穎的人機協同自動形式化流程,該流程整合了:(1) 專用於語句自動形式化的大型語言模型(LLMs),(2) 多LLM語意驗證,以及(3) 基於否定的反證過濾策略,利用現成的LLM證明器。這一方法在確保與原始自然語言問題一致性的同時,將專家註釋成本降低了72.09%。我們對基於最先進LLM的定理證明器進行了評估,結果顯示其存在顯著局限性:即使在實際取樣預算下,最強的模型也僅達到16.46%的成功率,表現出明顯的領域偏見(例如在代數中表現出色但在微積分中失敗)以及對簡化自動化策略的過度依賴。值得注意的是,我們發現了在鏈式推理場景中,自然語言解決方案指導與證明成功率之間存在反直覺的負相關關係,這表明人類撰寫的非形式化推理在形式化推理環境中引入了噪音而非清晰度。我們相信,FormalMATH為形式化數學推理的基準測試提供了一個堅實的基礎。
多模態獎勵模型(MRMs)在提升多模態大型語言模型(MLLMs)的表現中扮演著關鍵角色。儘管近期的進展主要集中在改進MRMs的模型結構和訓練數據上,但對於獎勵建模中長期推理能力的有效性以及如何在MRMs中激活這些能力的探索卻相對有限。本文探討了如何利用強化學習(RL)來改進獎勵建模。具體而言,我們將獎勵建模問題重新表述為基於規則的RL任務。然而,我們觀察到,直接應用現有的RL算法(如Reinforce++)於獎勵建模,往往會因這些算法的固有局限性而導致訓練不穩定甚至崩潰。為解決這一問題,我們提出了StableReinforce算法,該算法對現有RL方法的訓練損失、優勢估計策略和獎勵設計進行了改進。這些改進帶來了更穩定的訓練動態和更優異的性能。為了促進MRM的訓練,我們從多樣化的數據集中收集了20萬條偏好數據。我們使用StableReinforce算法在該數據集上訓練的獎勵模型R1-Reward,在多模態獎勵建模基準測試中顯著提升了性能。與之前的SOTA模型相比,R1-Reward在VL Reward-Bench上提升了8.4%,在Multimodal Reward Bench上提升了14.3%。此外,隨著推理計算資源的增加,R1-Reward的性能進一步提升,這凸顯了RL算法在優化MRMs中的潛力。
我們介紹了ReplaceMe,這是一種通用的免訓練深度剪枝方法,能夠有效地將Transformer模塊替換為線性操作,同時在低壓縮比下保持高性能。與傳統需要額外訓練或微調的剪枝方法不同,我們的方法僅需一個小型校準數據集,用於估計線性變換以近似被剪枝的模塊。這一估計的線性映射可以無縫地與剩餘的Transformer模塊合併,無需任何額外的網絡參數。我們的實驗表明,ReplaceMe在免訓練方法中始終表現優異,並與涉及大量重新訓練/微調及架構修改的頂尖剪枝方法保持高度競爭力。應用於多個大型語言模型(LLMs)時,ReplaceMe實現了高達25%的剪枝,同時在公開基準測試中保留了約90%的原始模型性能——無需任何訓練或修復步驟,從而實現了最小的計算開銷(見圖1)。我們提供了一個開源庫,實現了ReplaceMe以及多種頂尖的深度剪枝技術,可在該存儲庫中獲取。
大型語言模型(LLMs)中的思維鏈(CoT)推理可以被形式化為一個潛在變量問題,其中模型需要生成中間推理步驟。雖然先前的方法,如迭代獎勵排名微調(RAFT),依賴於此類公式,但它們通常對所有提示應用統一的推理預算,未能考慮到難度和收斂行為的變異性。本工作將CoT訓練中的主要瓶頸識別為由於靜態抽樣策略導致的低效隨機梯度估計。我們提出了GVM-RAFT,一種針對特定提示的動態樣本分配策略,旨在計算預算約束下最小化隨機梯度方差。該方法通過監控提示接受率和隨機梯度範數,動態分配計算資源,確保所得梯度方差最小化。我們的理論分析表明,在適當條件下,所提出的動態抽樣策略能加速收斂保證。在數學推理上的實驗顯示,GVM-RAFT相比於原始RAFT實現了2-4倍的速度提升和顯著的準確性改進。所提出的動態抽樣策略具有通用性,可以整合到其他強化學習算法中,如GRPO,從而帶來類似的收斂和測試準確性提升。我們的代碼可在https://github.com/RLHFlow/GVM獲取。
即時、智能且自然的語音互動是下一代人機交互的核心要素。近期研究展示了基於大型語言模型(LLMs)構建智能語音聊天機器人的潛力。本文介紹了LLaMA-Omni 2,這是一系列參數量從0.5B到14B不等的語音語言模型(SpeechLMs),能夠實現高質量的即時語音互動。LLaMA-Omni 2基於Qwen2.5系列模型,整合了語音編碼器和自迴歸流式語音解碼器。儘管僅在20萬輪多輪語音對話樣本上進行訓練,LLaMA-Omni 2在多個語音問答和語音指令跟蹤基準測試中表現出色,超越了先前如GLM-4-Voice等基於數百萬小時語音數據訓練的頂尖SpeechLMs。
有效的社交智能模擬要求語言代理能夠動態調整推理深度,這一能力在現有方法中顯著缺失。現有方法要么缺乏此類推理能力,要么在所有場景中強制執行統一的長鏈式推理,導致過度的令牌使用和不恰當的社交模擬。本文提出了一種自適應模式學習(AML)方法,該方法根據實時上下文從四種思維模式(直覺反應→深度思考)中進行策略性選擇。我們框架的核心創新——自適應模式策略優化(AMPO)算法,相較於現有方法引入了三個關鍵改進:(1)多粒度思維模式設計,(2)跨社交互動的上下文感知模式切換,以及(3)通過深度自適應處理實現的令牌高效推理。在社交智能任務上的大量實驗證實,AML比最先進的方法實現了15.6%的任務性能提升。值得注意的是,我們的方法在推理鏈長度縮短32.8%的情況下,性能比GRPO高出7.0%。這些結果表明,AMPO中實現的上下文敏感思維模式選擇,相比GRPO的固定深度方法,能夠實現更接近人類的自適應推理。
我们针对交互演示强化学习(RLID)中的一个根本性挑战进行了探讨:演示噪声与覆盖范围限制。尽管现有的数据收集方法提供了宝贵的交互演示,但它们往往产生稀疏、不连贯且含有噪声的轨迹,未能全面捕捉技能变化与过渡的全部可能性。我们的核心洞见在于,即便面对噪声多且稀疏的演示,仍存在无限多条物理上可行的轨迹,这些轨迹自然地连接了已演示技能或从其邻近状态中涌现,构成了技能变化与过渡的连续空间。基于这一洞见,我们提出了两种数据增强技术:一是缝合轨迹图(STG),它发掘了演示技能间潜在的过渡路径;二是状态转移场(STF),它为演示邻域内的任意状态建立了独特的连接。为了利用增强数据实现有效的RLID,我们开发了自适应轨迹采样(ATS)策略,用于动态课程生成,以及历史编码机制,以支持依赖记忆的技能学习。我们的方法实现了稳健的技能获取,显著超越了参考演示的泛化能力。在多种交互任务上的广泛实验表明,相较于现有最先进方法,我们的方法在收敛稳定性、泛化能力和恢复鲁棒性方面均取得了显著提升。
由於手動收集精確編輯數據面臨挑戰,現有數據集通常採用各種自動化方法構建,這導致了編輯指令與原始-編輯圖像對之間不匹配所產生的噪聲監督信號。近期研究嘗試通過生成更高質量的編輯圖像、在識別任務上進行預訓練或引入視覺-語言模型(VLMs)來改進編輯模型,但未能解決這一根本問題。本文提出了一種新穎的解決方案,即為給定的圖像對構建更有效的編輯指令。這包括修正編輯指令以更好地與原始-編輯圖像對對齊,並使用對比編輯指令進一步提升其有效性。具體而言,我們發現編輯模型在不同推理步驟中表現出特定的生成屬性,這些屬性與文本無關。基於這些先驗屬性,我們為VLMs定義了一個統一的指導來修正編輯指令。然而,存在一些僅靠修正指令無法解決的具有挑戰性的編輯場景。為此,我們進一步構建了包含正負指令的對比監督信號,並通過三元組損失將其引入模型訓練,從而進一步提升監督的有效性。我們的方法無需使用先前工作中使用的VLM模塊或預訓練任務,提供了一種更直接且高效的方式來提供更好的監督信號,為基於指令的圖像編輯提供了一種新穎、簡單且有效的解決方案。在多個基準測試上的結果表明,我們的方法顯著優於現有方法。與之前的SOTA SmartEdit相比,我們在Real-Edit基準上實現了9.19%的提升,同時訓練數據量減少了30倍,模型規模縮小了13倍。
我們推出Ming-Lite-Uni,這是一個開源的多模態框架,其特色在於全新設計的統一視覺生成器以及專為融合視覺與語言而生的原生多模態自回歸模型。具體而言,該項目提供了集成MetaQueries與M2-omni框架的開源實現,並引入了創新的多尺度可學習令牌及多尺度表示對齊策略。通過利用固定的MLLM(多語言學習模型)與可學習的擴散模型,Ming-Lite-Uni使得原生多模態AR模型不僅能執行文本到圖像的生成任務,還能基於指令進行圖像編輯,從而將其能力擴展至純視覺理解之外。我們的實驗結果展示了Ming-Lite-Uni的強大性能,並揭示了其交互過程令人印象深刻的流暢性。所有代碼及模型權重均已開源,以促進社區內的進一步探索。值得注意的是,此項工作與同期多模態AI里程碑——如2025年3月25日更新、具備原生圖像生成能力的ChatGPT-4o——相呼應,凸顯了像Ming-Lite-Uni這樣的統一模型在邁向通用人工智能(AGI)道路上的廣泛意義。Ming-Lite-Uni目前處於Alpha階段,並將很快得到進一步完善。
大型语言模型(LLMs)在多个领域取得了令人瞩目的性能。然而,其训练所需的大量硬件资源对效率和可扩展性构成了显著障碍。为缓解这一挑战,低精度训练技术已被广泛采用,显著提升了训练效率。尽管取得了这些进展,低精度训练涉及多个组件——如权重、激活值和梯度——每个组件都可以用不同的数值格式表示。由此产生的多样性使得低精度训练研究领域呈现碎片化,研究人员难以获得对该领域的统一概览。本综述对现有的低精度训练方法进行了全面回顾。为系统化组织这些方法,我们根据其底层数值格式将其分为三大类,这是影响硬件兼容性、计算效率以及读者参考便利性的关键因素。这些类别包括:(1)定点与整数方法,(2)浮点方法,以及(3)自定义格式方法。此外,我们讨论了量化感知训练方法,这些方法在前向传播过程中与低精度训练具有关键相似性。最后,我们指出了推动该领域发展的若干有前景的研究方向。本综述中讨论的论文合集可在 https://github.com/Hao840/Awesome-Low-Precision-Training 获取。
理解因果事件關係並在影片中實現細粒度時間定位,對於視覺語言模型而言仍具挑戰性。現有方法要麼壓縮影片標記以降低時間分辨率,要麼將影片視為未分割的流,這模糊了細粒度的事件邊界並限制了因果依賴性的建模。我們提出了TEMPURA(時間事件掩碼預測與理解以進行行動推理),這是一個兩階段訓練框架,旨在增強影片的時間理解能力。TEMPURA首先應用掩碼事件預測推理來重建缺失事件,並從密集事件註釋中生成逐步的因果解釋,借鑒了有效的填充技術。隨後,TEMPURA學習執行影片分割和密集描述,將影片分解為非重疊的事件,並提供詳細的時間戳對齊描述。我們在VER上訓練TEMPURA,這是一個由我們策劃的大規模數據集,包含100萬個訓練實例和50萬個影片,這些影片具有時間對齊的事件描述和結構化的推理步驟。在時間定位和亮點檢測基準上的實驗表明,TEMPURA優於強大的基線模型,證明了將因果推理與細粒度時間分割相結合能提升影片理解能力。
当前的多主体定制方法面临两大关键挑战:一是获取多样化的多主体训练数据难度大,二是不同主体间的属性存在纠缠。为填补这些空白,我们提出了MUSAR——一个简单却高效的框架,仅需单主体训练数据即可实现鲁棒的多主体定制。首先,为突破数据限制,我们引入了去偏双联学习法。该方法通过单主体图像构建双联训练对,以促进多主体学习,同时通过静态注意力路由和双分支LoRA主动纠正双联构建引入的分布偏差。其次,为消除跨主体纠缠,我们引入了动态注意力路由机制,该机制自适应地在生成图像与条件主体间建立双射映射。这一设计不仅实现了多主体表征的解耦,还保持了随着参考主体增加而可扩展的泛化性能。综合实验表明,尽管仅需单主体数据集,我们的MUSAR在图像质量、主体一致性和交互自然度上均优于现有方法——即便是那些基于多主体数据集训练的方法。
注意力机制对于大型语言模型(LLMs)的成功至关重要,推动了多个领域的显著进步。然而,在处理需要强调拓扑连接的图结构数据时,与基于固定链接的消息传递机制(如图神经网络GNNs所采用的方法)相比,注意力机制显得力不从心。这引发了一个问题:“在自然语言环境中,注意力机制是否无法有效处理图数据?”基于这些观察,我们从注意力机制的角度出发,开展了一项实证研究,以探索LLMs如何处理图结构数据。目的是更深入地理解LLMs在图结构上的注意力行为。我们揭示了LLMs如何将注意力应用于图结构数据的独特现象,并分析了这些发现,以改进LLMs对此类数据的建模。我们的研究主要发现如下:1)尽管LLMs能够识别图数据并捕捉文本节点间的交互,但由于其固有的架构限制,它们在建模图结构内部节点间关系方面存在困难。2)LLMs在图节点间的注意力分布与理想的结构模式不符,表明其未能适应图拓扑的细微差别。3)完全连接的注意力机制与固定连接均非最优选择;每种方法在其应用场景中都有特定的局限性。相反,中间状态的注意力窗口提升了LLM的训练性能,并在推理过程中无缝过渡到完全连接的窗口。源代码:https://github.com/millioniron/LLM_exploration{LLM4Exploration}
近期在大规模场景下的NeRF方法强调了场景分解对于可扩展NeRF的重要性。尽管已实现合理的可扩展性,但仍存在几个关键问题尚未探索,即可学习的分解、场景异质性建模以及建模效率。本文中,我们提出了Switch-NeRF++,一种异构哈希专家混合(HMoHE)网络,该网络在一个统一框架内解决了这些挑战。它是一个高度可扩展的NeRF,能够以端到端的方式高效地学习大规模场景的异构分解和异构NeRF。在我们的框架中,一个门控网络学习分解场景并将3D点分配给专门的NeRF专家。该门控网络与专家通过我们提出的稀疏门控专家混合(MoE)NeRF框架共同优化。我们引入了基于哈希的门控网络和不同的异构哈希专家。基于哈希的门控高效地学习大规模场景的分解。不同的异构哈希专家由不同分辨率范围的哈希网格组成,能够有效学习不同场景部分的异构表示。这些设计选择使我们的框架成为面向现实世界大规模场景建模的端到端且高度可扩展的NeRF解决方案,以实现质量和效率的双重提升。我们在现有的大规模NeRF数据集和来自UrbanBIS的超大规模场景(>6.5平方公里)新数据集上评估了我们的准确性和可扩展性。大量实验表明,我们的方法能够轻松扩展到各种大规模场景,并实现最先进的场景渲染精度。此外,与Switch-NeRF相比,我们的方法在训练速度上提升了8倍,在渲染速度上提升了16倍,展现出显著的效率优势。代码将在https://github.com/MiZhenxing/Switch-NeRF发布。
基於海量數據集訓練的大型語言模型(LLMs)可能無意中獲取敏感信息,如個人細節和潛在有害內容。這種風險在多模態LLMs中進一步加劇,因為它們整合了來自多種模態(圖像和文本)的信息。攻擊者可以通過多模態提示來利用這些知識,提取敏感細節。評估多模態LLMs如何有效遺忘此類信息(針對性遺忘)需要創建高質量、註釋良好的圖像-文本對。雖然先前關於遺忘的研究主要集中在文本上,但多模態遺忘仍未被充分探索。為填補這一空白,我們首先引入了一個多模態遺忘基準,UnLOK-VQA(遺忘外部知識的視覺問答),以及一個攻擊與防禦框架,用於評估從多模態LLMs中刪除特定多模態知識的方法。我們使用自動化管道擴展了一個視覺問答數據集,生成不同接近度的樣本以測試泛化性和特異性,隨後進行手動過濾以保持高質量。然後,我們針對七種攻擊(四種白盒,三種黑盒)評估了六種防禦目標,包括一種利用隱藏狀態可解釋性的新穎白盒方法。我們的結果顯示,多模態攻擊優於僅文本或僅圖像的攻擊,而最有效的防禦方法從模型內部狀態中移除答案信息。此外,更大的模型在後編輯中表現出更高的魯棒性,表明規模增強了安全性。UnLOK-VQA為推進多模態LLMs中的遺忘研究提供了一個嚴格的基準。
事件相機捕捉運動動態,提供了一種獨特的模態,在各種計算機視覺任務中具有巨大潛力。然而,RGB-事件融合面臨三個固有的不對齊問題:(i) 時間、(ii) 空間和 (iii) 模態不對齊。現有的體素網格表示忽略了連續事件窗口之間的時間相關性,並且其基於異步稀疏事件簡單累積的公式與RGB模態的同步密集特性不相容。為解決這些挑戰,我們提出了一種新穎的事件表示方法——運動增強事件張量(MET),通過利用密集光流和事件時間特徵,將稀疏事件體素轉化為密集且時間連貫的形式。此外,我們引入了頻率感知雙向流聚合模塊(BFAM)和時間融合模塊(TFM)。BFAM利用頻域和MET來緩解模態不對齊,而雙向流聚合和時間融合機制則解決了時空不對齊問題。在兩個大規模數據集上的實驗結果表明,我們的框架顯著優於最先進的RGB-事件語義分割方法。我們的代碼可在以下網址獲取:https://github.com/zyaocoder/BRENet。