每日精選AI研究論文及翻譯
視覺-語言-動作(VLA)模型通常通過在機器人數據上預訓練大規模視覺-語言模型(VLM)來彌合感知空間與動作空間之間的差距。雖然這種方法顯著提升了性能,但也帶來了高昂的訓練成本。本文探討了如何有效地將視覺-語言(VL)表徵與動作(A)相連接。我們提出了VLA-Adapter,這是一種新穎的範式,旨在減少VLA模型對大規模VLM和廣泛預訓練的依賴。為此,我們首先系統分析了各種VL條件的有效性,並提出了哪些條件對於連接感知與動作空間至關重要的關鍵發現。基於這些洞察,我們提出了一個帶有橋接注意力的輕量級策略模塊,它能自主地將最佳條件注入動作空間。通過這種方式,我們的方法僅使用0.5B參數的骨幹網絡,無需任何機器人數據預訓練,即可實現高性能。在模擬和真實世界機器人基準上的大量實驗表明,VLA-Adapter不僅達到了最先進的性能水平,還提供了迄今為止最快的推理速度。此外,得益於所提出的先進橋接範式,VLA-Adapter使得在單個消費級GPU上僅需8小時即可訓練出一個強大的VLA模型,大大降低了部署VLA模型的門檻。項目頁面:https://vla-adapter.github.io/。
以人為本的視頻生成(HCVG)方法旨在從多模態輸入(包括文本、圖像和音頻)中合成人類視頻。現有方法在有效協調這些異質模態方面面臨兩大挑戰:配對三元組條件訓練數據的稀缺性,以及在多模態輸入下協調主體保持和音視頻同步子任務的困難。在本研究中,我們提出了HuMo,一個統一的多模態協同控制HCVG框架。針對第一個挑戰,我們構建了一個高質量數據集,包含多樣化且配對的文本、參考圖像和音頻。針對第二個挑戰,我們提出了一種兩階段漸進式多模態訓練範式,並配備了任務專屬策略。對於主體保持任務,為了維持基礎模型的提示跟隨和視覺生成能力,我們採用了最小侵入式圖像注入策略。對於音視頻同步任務,除了普遍採用的音頻交叉注意力層外,我們提出了一種通過預測聚焦的策略,隱式引導模型將音頻與面部區域關聯起來。為了實現跨模態輸入可控性的聯合學習,基於先前獲取的能力,我們逐步整合了音視頻同步任務。在推理階段,為了實現靈活且細粒度的多模態控制,我們設計了一種時間自適應的無分類器指導策略,該策略在去噪步驟中動態調整指導權重。大量實驗結果表明,HuMo在各子任務上超越了專門的頂尖方法,為協同多模態條件下的HCVG建立了一個統一框架。項目頁面:https://phantom-video.github.io/HuMo。
視覺-語言-動作(Vision-Language-Action, VLA)模型近期已成為機器人操作領域中的一個強大範式。儘管大規模預訓練與監督式微調(Supervised Fine-Tuning, SFT)帶來了顯著進展,這些模型仍面臨兩大根本挑戰:(i) 用於SFT擴展的大規模人類操作機器人軌跡數據稀缺且成本高昂,以及(ii) 在涉及分佈偏移的任務中泛化能力有限。大型推理模型(Large Reasoning Models, LRMs)的最新突破表明,強化學習(Reinforcement Learning, RL)能顯著提升逐步推理能力,這自然引發了一個問題:RL能否同樣改善VLA模型的長時序逐步動作規劃?在本研究中,我們提出了SimpleVLA-RL,這是一個專為VLA模型設計的高效RL框架。基於veRL,我們引入了VLA專屬的軌跡採樣、可擴展的並行化、多環境渲染以及優化的損失計算。當應用於OpenVLA-OFT時,SimpleVLA-RL在LIBERO上達到了SoTA性能,並憑藉我們引入的探索增強策略,在RoboTwin 1.0&2.0上甚至超越了pi_0。SimpleVLA-RL不僅降低了大規模數據的依賴並實現了穩健的泛化,還在真實世界任務中顯著超越了SFT。此外,我們在RL訓練過程中發現了一種新現象「pushcut」,即策略發現了在先前訓練過程中未見過的模式。Github: https://github.com/PRIME-RL/SimpleVLA-RL
語音到語音的大型語言模型(SLLMs)正吸引越來越多的關注。這些模型源自於基於文本的大型語言模型(LLMs),但SLLMs在知識和推理能力上往往表現出退化。我們假設,這種限制源於當前SLLMs的訓練範式未能彌補特徵表示空間中的聲學-語義差距。為解決這一問題,我們提出了EchoX,它利用語義表示並動態生成語音訓練目標。這種方法整合了聲學和語義學習,使EchoX作為一個語音LLM能夠保持強大的推理能力。實驗結果顯示,EchoX在約六千小時的訓練數據下,在多個基於知識的問答基準上達到了先進的性能。該項目可在https://github.com/FreedomIntelligence/EchoX 獲取。
近期,音頻驅動的虛擬形象視頻生成技術取得了顯著進展,大幅提升了音視覺的真實感。然而,現有方法僅將指令條件視為由聲學或視覺線索驅動的低層次追蹤,而未能建模指令所傳達的交流意圖。這一限制削弱了其敘事連貫性和角色表現力。為彌補這一不足,我們提出了Kling-Avatar,這是一種新穎的級聯框架,它將多模態指令理解與逼真肖像生成相統一。我們的方法採用兩階段流程。在第一階段,我們設計了一個多模態大語言模型(MLLM)導演,該導演基於多樣化的指令信號生成藍圖視頻,從而控制角色動作和情感等高層次語義。在第二階段,在藍圖關鍵幀的引導下,我們採用首尾幀策略並行生成多個子片段。這種從全局到局部的框架在精細保留細節的同時,忠實地編碼了多模態指令背後的高層意圖。我們的並行架構還支持快速穩定地生成長時視頻,使其適用於數字人直播和視頻博客等實際應用。為全面評估我們的方法,我們構建了一個包含375個精選樣本的基準測試集,涵蓋了多樣化的指令和具有挑戰性的場景。大量實驗表明,Kling-Avatar能夠生成生動流暢、長達1080p分辨率、48幀每秒的視頻,在唇形同步精度、情感與動態表現力、指令可控性、身份保持以及跨域泛化能力上均表現優異。這些成果確立了Kling-Avatar作為語義基礎上高保真音頻驅動虛擬形象合成的新基準。
在長期任務中,基於大型語言模型(LLMs)的智能體面臨一個重大挑戰:稀疏的、基於結果的獎勵使得難以對中間步驟進行信用分配。以往的方法主要集中於創建密集的獎勵信號來引導學習,無論是通過傳統的強化學習技術如逆強化學習,還是使用過程獎勵模型來提供逐步反饋。本文中,我們發現了LLMs學習動態中的一個根本問題:策略梯度的幅度與熵本質上耦合,這導致對自信正確動作的更新效率低下,而對不確定動作的更新可能不穩定。為解決這一問題,我們提出了熵調製策略梯度(EMPG),這是一個基於步驟不確定性和最終任務結果重新校準學習信號的框架。EMPG放大對自信正確動作的更新,懲罰自信錯誤,並減弱來自不確定步驟的更新以穩定探索。我們進一步引入了一個未來清晰度獎勵項,鼓勵智能體尋找更可預測的解決路徑。通過在WebShop、ALFWorld和Deep Search這三個具有挑戰性的智能體任務上的全面實驗,我們展示了EMPG實現了顯著的性能提升,並顯著超越了強勁的策略梯度基線。項目頁面位於https://empgseed-seed.github.io/。
開源文本到圖像(T2I)模型的發展一直受到大規模、專注於推理的數據集和全面評估基準缺失的阻礙,導致其性能與領先的閉源系統存在差距。為應對這一挑戰,我們推出了FLUX-Reason-6M和PRISM-Bench(精確且穩健的圖像合成測量基準)。FLUX-Reason-6M是一個龐大的數據集,包含600萬張高質量的FLUX生成圖像和2000萬條雙語(英文和中文)描述,專門設計用於教授複雜推理。這些圖像根據六個關鍵特徵進行組織:想象力、實體、文本渲染、風格、情感和構圖,並設計了明確的生成思維鏈(GCoT)來提供圖像生成步驟的詳細分解。整個數據整理過程耗費了15,000個A100 GPU天,為社區提供了以往僅在大型工業實驗室中才能獲得的資源。PRISM-Bench提供了一個新穎的評估標準,包含七個不同的軌道,其中包括使用GCoT的艱鉅長文本挑戰。通過精心設計的提示,它利用先進的視覺語言模型進行細緻的人類對齊評估,涵蓋提示-圖像對齊和圖像美學。我們在PRISM-Bench上對19個領先模型進行了廣泛評估,揭示了關鍵的性能差距,並突出了需要改進的具體領域。我們的數據集、基準和評估代碼均已發布,以推動下一波面向推理的T2I生成。項目頁面:https://flux-reason-6m.github.io/。
本文提出了一種富有洞察力的範式,通過自動編碼器的視角來理解圖像到文本的編碼過程(I2T)以及從文本重建圖像的解碼過程(T2I)。我們以重建保真度作為統一的訓練目標,強化了理解與生成過程之間連貫的雙向信息流,從而實現了相互增益。為此,我們提出了UAE,一個新穎的統一多模態學習框架。首先,我們利用大規模長上下文圖像描述對解碼器進行預訓練,以捕捉細粒度的語義和複雜的空間關係。接著,我們通過強化學習(RL)提出了Unified-GRPO,涵蓋三個階段:(1)冷啟動階段,使用語義重建損失溫和地初始化編碼器和解碼器;(2)生成促進理解階段,訓練編碼器生成信息豐富的描述,最大化解碼器的重建質量,從而增強其視覺理解能力;(3)理解促進生成階段,精煉解碼器以從這些描述中重建圖像,迫使它利用每一個細節,提升其長上下文指令跟隨和生成保真度。為評估效果,我們引入了Unified-Bench,這是首個專門用於評估統一多模態模型(UMMs)統一程度的基準測試。在多模態學習領域中出現了一個令人驚喜的“頓悟時刻”:隨著RL的進展,編碼器自主生成更具描述性的文本,而解碼器同時展現出深刻理解這些複雜描述的能力,從而實現了驚人的重建保真度。
大型語言模型(LLMs)具備廣泛的世界知識和強大的通用推理能力,然而在標準機器學習(ML)任務中,它們難以從多個上下文範例中學習,即僅通過上下文學習(ICL)而不依賴梯度下降來利用多樣本示範。我們引入了MachineLearningLM,這是一個便攜的持續預訓練框架,它賦予通用LLM強大的上下文ML能力,同時保留其通用知識和推理能力,以支持更廣泛的聊天工作流程。 我們的預訓練程序從數百萬個結構因果模型(SCMs)中合成ML任務,涵蓋樣本數量高達1,024。我們首先使用隨機森林教師模型,將基於樹的決策策略蒸餾到LLM中,以增強數值建模的魯棒性。所有任務均通過一個高效的提示序列化,使得每個上下文窗口能容納3到6倍的範例,並通過批量推理實現高達50倍的攤銷吞吐量。 儘管設置簡約(使用Qwen-2.5-7B-Instruct模型,LoRA秩為8),MachineLearningLM在金融、物理、生物和醫療領域的分佈外表格分類任務上,平均優於強勁的LLM基線(如GPT-5-mini)約15%。它展現了顯著的多樣本擴展定律:隨著上下文示範從8增加到1,024,準確率單調上升。在沒有任何任務特定訓練的情況下,它在數百個樣本上達到了隨機森林級別的準確率。通用聊天能力,包括知識和推理,得到了保留:在MMLU上取得了75.4%的成績。
基於可驗證獎勵的強化學習(RLVR)是一種強大的範式,旨在提升大型語言模型(LLMs)的推理能力。然而,現有的RLVR方法往往探索不足,導致過早收斂和熵崩潰。為應對這一挑戰,我們引入了好奇心驅動探索(CDE)框架,該框架利用模型自身的內在好奇心來引導探索。我們通過從行動者和評論者兩方面獲取的信號來形式化好奇心:對於行動者,我們使用其生成回應的困惑度;對於評論者,我們則採用多頭架構中價值估計的方差。這兩種信號在RLVR框架內作為探索獎勵,用以指導模型。我們的理論分析表明,行動者層面的獎勵本質上懲罰過度自信的錯誤,並促進正確回應的多樣性;此外,我們將評論者層面的獎勵與強化學習中已確立的基於計數的探索獎勵聯繫起來。實證結果顯示,在AIME基準測試中,我們的方法相比使用GRPO/PPO的標準RLVR實現了約3分的提升。進一步分析揭示了RLVR內部的校準崩潰機制,為常見的LLM故障模式提供了新的見解。
大型音频语言模型(LALMs)正迅速进步,但由于评估工具包效率低下,限制了公平比较和系统评估,其评价仍面临挑战。当前框架存在三个关键问题:处理速度慢,阻碍了大规模研究;提示不一致,损害了可重复性;任务覆盖范围狭窄,遗漏了重要的音频推理能力。我们引入了AU-Harness,一个高效且全面的LALMs评估框架。通过优化的批处理和并行执行,我们的系统比现有工具包实现了高达127%的速度提升,使得之前不切实际的大规模评估成为可能。我们提供了标准化的提示协议和灵活的配置,以支持跨多种场景的公平模型比较。此外,我们引入了两个新的评估类别:LLM自适应对话者识别,用于时间音频理解;以及口语语言推理,用于复杂的基于音频的认知任务。通过对380多项任务的评估,我们揭示了当前LALMs在时间理解和复杂口语语言推理任务上的显著差距。我们的发现还强调了音频基准测试中指令模态缺乏标准化的问题,这在具有挑战性的复杂指令跟随下游任务中可能导致高达9.5个绝对百分点的性能差异。AU-Harness不仅提供了实用的评估工具,还深入剖析了模型的局限性,推动了LALMs的系统性发展。
在空間智能領域已取得顯著進展,涵蓋了空間重建與世界探索兩大方面。然而,當前模型的可擴展性與現實世界逼真度仍因大規模、高質量訓練數據的稀缺而受到嚴重限制。儘管多個數據集提供了相機姿態信息,但它們通常在規模、多樣性及註釋豐富度上存在局限,尤其是針對具有真實相機運動的現實世界動態場景。為此,我們收集了SpatialVID數據集,該數據集包含大量野外拍攝的視頻,涵蓋多樣場景、相機運動以及密集的三維註釋,如逐幀相機姿態、深度和運動指令。具體而言,我們收集了超過21,000小時的原始視頻,並通過分層過濾管道將其處理成270萬個片段,總計7,089小時的動態內容。隨後,一個註釋管道為這些片段增添了詳細的空間與語義信息,包括相機姿態、深度圖、動態遮罩、結構化描述和序列化運動指令。對SpatialVID數據統計的分析顯示,其豐富性與多樣性直接促進了模型泛化能力與性能的提升,使其成為視頻與三維視覺研究領域的關鍵資源。
圖表理解對視覺語言模型(VLMs)的推理能力提出了嚴峻考驗。先前的方法存在關鍵限制:一些依賴外部工具,使其脆弱且受預定義工具集約束;另一些則微調專用模型,這些模型通常採用單一推理策略,如基於文本的思維鏈(CoT)。基於文本推理的中間步驟難以驗證,這使得利用獎勵事實準確性的強化學習信號變得複雜。為解決這一問題,我們提出了一種“代碼即思維”(CaT)方法,將圖表的視覺信息以可驗證的符號格式表示。我們的核心洞見是,這一策略必須具備適應性:固定的純代碼實現在符號表示不適用的複雜圖表上始終失敗。這一發現促使我們引入視覺可編程性:一種可學習的屬性,用於判斷圖表-問題對是否更適合用代碼或直接視覺分析來解決。我們在一個自適應框架中實現了這一概念,其中VLM學習在CaT路徑和直接視覺推理路徑之間進行選擇。模型的選擇策略通過強化學習訓練,採用了一種新穎的雙重獎勵系統。該系統結合了數據準確性獎勵,使模型基於事實並防止數值幻覺,以及決策獎勵,教會模型何時使用每種策略,防止其默認採用單一推理模式。實驗在多樣化的圖表理解基準上展示了強勁且穩健的性能。我們的工作表明,VLMs不僅可以被教會如何推理,還能動態地為每項任務選擇最佳推理路徑。
僅含編碼器的語言模型常被應用於多種標準機器學習任務中,包括分類與檢索。然而,近期針對編碼器模型的研究,尤其是多語言模型方面,顯得相對匱乏。我們在此介紹mmBERT,這是一款僅含編碼器的語言模型,其預訓練基於超過1800種語言、總計3T詞彙量的多語種文本。構建mmBERT過程中,我們引入了多項創新元素,如逆掩碼比率調度與逆溫度採樣比率。我們在衰減階段才將超過1700種低資源語言納入數據混合,結果顯示此舉顯著提升了模型性能,並最大化地利用了相對有限的訓練數據所帶來的增益。儘管這些低資源語言僅在短暫的衰減階段被包含,我們仍達到了與OpenAI的o3及Google的Gemini 2.5 Pro等模型相當的分類性能。總體而言,我們證明了mmBERT在分類與檢索任務上,無論是對高資源還是低資源語言,均顯著超越了前一代模型的表現。
理解三维空间关系仍是当前视觉-语言模型(VLMs)的一大局限。先前的研究通过创建基于单张图像或室内视频的空间问答(QA)数据集来解决这一问题。然而,现实世界中的具身AI代理,如机器人和自动驾驶汽车,通常依赖于自我中心的多视角观测。为此,我们引入了Ego3D-Bench,这是一个旨在利用自我中心的多视角户外数据评估VLMs空间推理能力的新基准。Ego3D-Bench包含超过8,600个QA对,通过人类标注者的深度参与确保了质量和多样性。我们对包括GPT-4o、Gemini1.5-Pro、InternVL3和Qwen2.5-VL在内的16种SOTA VLMs进行了基准测试。结果显示,人类水平得分与VLM表现之间存在显著差距,表明当前VLMs在空间理解上仍未能达到人类水平。为弥合这一差距,我们提出了Ego3D-VLM,一个后训练框架,旨在增强VLMs的三维空间推理能力。Ego3D-VLM基于估计的全局三维坐标生成认知地图,使多选题QA平均提升12%,绝对距离估计平均提升56%。Ego3D-VLM模块化设计,可与任何现有VLM集成。Ego3D-Bench与Ego3D-VLM共同为推进真实世界多视角环境中人类水平空间理解提供了宝贵工具。
尽管对比语言-图像预训练(CLIP)在多种视觉任务中展现出强大的性能,但其在人物表征学习中的应用面临两个关键挑战:(i)专注于人物中心图像的大规模标注视觉语言数据的稀缺性,以及(ii)全局对比学习固有的局限性,即在保持对细粒度匹配至关重要的判别性局部特征的同时,容易受到噪声文本标记的影响。本研究通过数据整理和模型架构的协同改进,推动了CLIP在人物表征学习中的应用。首先,我们开发了一种抗噪声的数据构建流程,利用多模态大语言模型(MLLMs)的上下文学习能力,自动筛选并为网络来源的图像生成描述,从而构建了WebPerson——一个包含500万高质量人物中心图像-文本对的大规模数据集。其次,我们提出了梯度注意力引导的双掩码协同(GA-DMS)框架,该框架通过基于梯度注意力相似性评分自适应地掩码噪声文本标记,改进了跨模态对齐。此外,我们引入了掩码标记预测目标,迫使模型预测信息丰富的文本标记,从而增强了细粒度语义表征学习。大量实验表明,GA-DMS在多个基准测试中均达到了最先进的性能。
高斯潑濺(Gaussian Splatting, GS)作為一種將離散點轉化為連續空間表示的最新技術,在3D場景建模和2D圖像超分辨率領域已展現出顯著成效。本文探討了其在圖像修復中的未開發潛力,該任務既要求局部像素合成的連貫性,又需全局語義恢復的一致性。我們提出了首個基於2D高斯潑濺的圖像修復框架,該框架將不完整圖像編碼為2D高斯潑濺係數的連續場,並通過可微分的柵格化過程重建最終圖像。GS的連續渲染範式本質上促進了修復結果在像素層面的連貫性。為提升效率與可擴展性,我們引入了一種分塊柵格化策略,有效降低了記憶體開銷並加速了推理過程。針對全局語義一致性,我們整合了預訓練DINO模型的特徵。我們觀察到,DINO的全局特徵對小範圍缺失區域具有天然的魯棒性,並能有效適應於指導大遮罩場景下的語義對齊,確保修復內容與周圍場景在語境上保持一致。在標準基準上的大量實驗表明,我們的方法在定量指標與感知質量上均達到了競爭力,為高斯潑濺在2D圖像處理中的應用開闢了新方向。
近期,多模态大语言模型(MLLMs)的进展为具身智能开辟了新天地,使其能够实现多模态理解、推理与交互,以及持续的空间决策。然而,当前基于MLLM的具身系统面临两大关键局限。首先,几何适应性差距:仅依赖二维输入训练或硬编码三维几何注入的模型,要么空间信息不足,要么二维泛化受限,导致在应对多样空间需求的任务时适应性欠佳。其次,具身约束差距:先前研究常忽视真实机器人的物理限制与能力,致使任务计划虽理论上可行却实际难以执行。为弥合这些差距,我们推出了OmniEVA——一款具身多功能规划器,通过两项核心创新实现高级具身推理与任务规划:(1)任务自适应的三维基础机制,引入门控路由器,依据上下文需求对三维融合进行显式选择性调控,为多样具身任务提供情境感知的三维基础。(2)具身感知推理框架,将任务目标与具身约束共同纳入推理循环,生成既目标导向又可执行的规划决策。大量实验结果表明,OmniEVA不仅在通用具身推理性能上达到业界领先水平,还在广泛的下游场景中展现出强大能力。对一系列提出的具身基准测试的评估,包括基础与复合任务,均证实了其稳健且多功能的规划能力。项目页面:https://omnieva.github.io
近期,大规模视觉语言模型(LVLMs)在通用医疗任务中展现了卓越的性能。然而,其在牙科等专业领域的有效性仍待深入探索。特别是,全景X射线作为口腔放射学中广泛应用的成像方式,由于密集的解剖结构和细微的病理线索,其解读面临挑战,这些挑战并未被现有的医疗基准或指令数据集所涵盖。为此,我们推出了MMOral,这是首个专为全景X射线解读设计的大规模多模态指令数据集和基准。MMOral包含20,563张标注图像,配以130万条跨多种任务类型的指令跟随实例,涵盖属性提取、报告生成、视觉问答及基于图像的对话等。此外,我们提出了MMOral-Bench,一个全面评估套件,覆盖牙科诊断的五个关键维度。我们在MMOral-Bench上评估了64个LVLMs,发现即使表现最佳的模型,即GPT-4o,其准确率也仅为41.45%,揭示了当前模型在该领域的显著局限性。为促进这一特定领域的进步,我们还提出了OralGPT,它基于Qwen2.5-VL-7B模型,利用我们精心策划的MMOral指令数据集进行监督微调(SFT)。值得注意的是,仅一次SFT周期便显著提升了LVLMs的性能,例如OralGPT实现了24.73%的改进。MMOral和OralGPT均具备作为智能牙科关键基础的巨大潜力,并有望推动牙科领域更具临床影响力的多模态AI系统的发展。数据集、模型、基准及评估套件可在https://github.com/isbrycee/OralGPT获取。
長上下文語言模型的出現,其上下文窗口擴展至數百萬個標記,為複雜的程式碼理解與軟體開發評估開創了新的契機。我們提出了LoCoBench,這是一個專為評估長上下文大型語言模型(LLMs)在真實且複雜的軟體開發場景中表現而設計的全面基準測試。與現有的程式碼評估基準不同,後者多聚焦於單一函數完成或短上下文任務,LoCoBench則填補了對長上下文能力評估的關鍵空白,這些能力要求理解整個程式碼庫、跨多個檔案進行推理,並在大型軟體系統中保持架構一致性。我們的基準測試提供了系統生成的8,000個評估場景,涵蓋10種程式語言,上下文長度從10K到1M標記不等,這一100倍的變化範圍使得我們能夠精確評估在實際軟體開發環境中長上下文性能的衰減情況。LoCoBench引入了8個任務類別,涵蓋了長上下文能力的核心方面:架構理解、跨檔案重構、多階段開發、錯誤調查、功能實現、程式碼理解、整合測試及安全分析。通過一個五階段的流程,我們創建了多樣化且高質量的場景,挑戰LLMs在空前規模上對複雜程式碼庫進行推理的能力。我們引入了一個全面的評估框架,包含4個維度的17項指標,其中包括8個新的評估指標,這些指標綜合形成LoCoBench評分(LCBS)。我們對當前最先進的長上下文模型進行評估,揭示了顯著的性能差距,表明在複雜軟體開發中實現長上下文理解仍是一個亟待解決的重大挑戰,需要更多關注。LoCoBench已發佈於:https://github.com/SalesforceAIResearch/LoCoBench。
僅使用單一攝像頭和拓撲地圖進行視覺導航,最近已成為需要額外傳感器和三維地圖方法的一種吸引人的替代方案。這通常通過一種“圖像相對”的方法來實現,即從給定的當前觀測圖像和子目標圖像對中估計控制。然而,世界在圖像層面的表示存在侷限性,因為圖像嚴格依賴於智能體的姿態和具體形態。相比之下,作為地圖屬性的物體,提供了一種與具體形態和軌跡無關的世界表示。在本研究中,我們提出了一種學習“物體相對”控制的新範式,該範式展現了幾個理想特性:a) 無需嚴格模仿先前經驗即可探索新路線,b) 控制預測問題可以與解決圖像匹配問題分離,c) 在跨具體形態部署中,對於訓練-測試和地圖-執行設置的變化,可以實現高度不變性。我們提出了一種以“相對”三維場景圖形式呈現的拓撲度量地圖表示,用於獲取更具信息量的物體層面全局路徑規劃成本。我們訓練了一個名為“ObjectReact”的局部控制器,直接基於高層次的“WayObject Costmap”表示進行條件化,從而消除了對顯式RGB輸入的需求。我們展示了在傳感器高度變化和多種挑戰底層空間理解能力的導航任務中(例如,反向導航地圖軌跡),學習物體相對控制相較於圖像相對控制的優勢。我們進一步表明,僅在模擬中訓練的策略能夠很好地泛化到現實世界的室內環境中。代碼和補充材料可通過項目頁面訪問:https://object-react.github.io/
在使用可驗證獎勵的強化學習(RLVR)微調大型語言模型(LLMs)時,一個核心矛盾在於,儘管單次嘗試準確率(Pass@1)有所提升,但多次嘗試性能(Pass@k)卻經常下降。這種現象往往伴隨著災難性遺忘,即模型喪失先前習得的技能。雖然已有各種方法被提出,但作為主動解決方案,分歧項的選擇和功能卻出人意料地未被深入探討。我們認為,標準的RLVR目標——無論是使用模式尋求的反向KL分歧,還是完全放棄分歧項——都缺乏一個關鍵的知識保留機制。反向KL通過縮窄策略主動加速了這種衰退,而完全放棄分歧項則無法防止模型偏離其多樣化的知識基礎。我們提出了一個根本性的視角轉變:將分歧項本身作為解決方案。我們的框架,多樣性保持混合強化學習(DPH-RL),利用質量覆蓋的f-分歧(如正向KL和JS分歧)作為複習機制。通過持續參考初始策略,這種方法迫使模型保持廣泛的解決方案覆蓋範圍。在數學和SQL生成上的大量實驗表明,DPH-RL不僅解決了Pass@k的下降問題,還提升了域內和域外的Pass@1和Pass@k性能。此外,DPH-RL在訓練效率上更高,因為它使用生成函數計算f-分歧,僅需從初始策略中採樣,而無需在線參考模型。我們的工作強調了改進RLVR的一個關鍵但被忽視的維度,證明了正確選擇分歧度量是構建更通用和多樣化推理模型的強大工具。
學術研究中提出的深度學習漏洞檢測方案,並非總能為開發者所便捷使用,且其在工業環境中的適用性鮮有探討。將此類技術從學術界轉移至工業界,面臨著可信度、遺留系統、數字素養有限以及學術與工業專業知識間差距等挑戰。特別是對於深度學習而言,性能及其與現有工作流程的整合更是額外的關注點。在本研究中,我們首先評估了CodeBERT在檢測工業及開源軟件中易受攻擊函數方面的性能。我們分析了其在開源數據上微調後對工業數據的跨領域泛化能力,反之亦然,並探討了處理類別不平衡的策略。基於這些結果,我們開發了AI-DO(開發者操作中的自動化漏洞檢測集成),這是一個集成於持續集成-持續部署(CI/CD)流程中的推薦系統,它利用微調後的CodeBERT在代碼審查期間檢測並定位漏洞,而不中斷工作流程。最後,我們通過對公司IT專業人員的調查,評估了該工具的感知有用性。我們的結果表明,基於工業數據訓練的模型在相同領域內能準確檢測漏洞,但在開原始碼上性能下降;而通過適當的欠採樣技術對開源數據進行微調的深度學習模型,則提升了漏洞檢測的效果。
多模態推薦系統正日益成為電子商務和內容平台的基礎技術,通過聯合建模用戶的歷史行為與物品的多模態特徵(如視覺和文本),實現個性化服務。然而,現有方法大多依賴於靜態融合策略或基於圖的局部交互建模,面臨兩個關鍵限制:(1)對細粒度跨模態關聯的建模能力不足,導致融合質量欠佳;(2)缺乏全局分佈層面的一致性,引發表示偏差。為解決這些問題,我們提出了MambaRec,這是一個通過注意力引導學習整合局部特徵對齊與全局分佈正則化的新框架。其核心是引入了擴展細化注意力模塊(DREAM),該模塊利用多尺度擴展卷積結合通道和空間注意力,對齊視覺與文本模態間的細粒度語義模式。此模塊捕捉了層次化關係和上下文感知關聯,提升了跨模態語義建模能力。此外,我們應用最大均值差異(MMD)和對比損失函數來約束全局模態對齊,增強語義一致性。這種雙重正則化減少了模態特定偏差,提升了魯棒性。為提高可擴展性,MambaRec採用了降維策略,降低了高維多模態特徵的計算成本。在真實電子商務數據集上的廣泛實驗表明,MambaRec在融合質量、泛化能力和效率方面均優於現有方法。我們的代碼已公開於https://github.com/rkl71/MambaRec。
我們團隊「All You Need Is A Fuzzing Brain」在DARPA的人工智慧網路挑戰賽(AIxCC)中,成為七支決賽隊伍之一,並在最終輪次中獲得第四名。比賽期間,我們開發了一套網路推理系統(CRS),該系統自主發現了現實世界開源C和Java項目中的28個安全漏洞——其中包括六個先前未知的零日漏洞——並成功修補了其中的14個。完整的CRS已開源於https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain。本文詳細介紹了我們CRS的技術細節,重點闡述了其基於大型語言模型(LLM)的組件與策略。基於AIxCC,我們進一步推出了一個公開排行榜,用於評估頂尖LLM在漏洞檢測與修補任務上的表現,該排行榜數據源自AIxCC數據集。排行榜可訪問於https://o2lab.github.io/FuzzingBrain-Leaderboard/。
針對大型語言模型(LLMs)的數據中毒攻擊早期研究表明,注入後門異常容易。近期,LLMs引入了逐步推理機制,這擴大了攻擊面,涵蓋了中間的思維鏈(CoT)及其將問題分解為子問題的固有特性。利用這些向量進行更隱蔽的中毒,我們提出了「分解推理毒藥」,其中攻擊者僅修改推理路徑,保持提示和最終答案的純淨,並將觸發器分散到多個單獨無害的組件中。 有趣的是,雖然注入這些分解後的毒藥仍有可能,但可靠地激活它們以改變最終答案(而不僅僅是CoT)卻出奇地困難。這種困難源於模型往往能夠從其思維過程中被激活的後門中恢復。最終,似乎一種新興的後門魯棒性正源自這些先進LLMs的推理能力,以及推理與最終答案生成之間的架構分離。