每日精選AI研究論文及翻譯
我們推出Qwen3-Omni,這是一款首次實現了在文本、圖像、音頻和視頻領域均保持頂尖性能的多模態模型,且相較於單模態模型無任何性能下降。Qwen3-Omni在Qwen系列中與同規模單模態模型性能相當,尤其在音頻任務上表現卓越。在36個音頻及音視覺基準測試中,Qwen3-Omni於32個基準上達到了開源領域的SOTA(State-of-the-Art),並在22個基準上實現了總體SOTA,超越了如Gemini-2.5-Pro、Seed-ASR和GPT-4o-Transcribe等強大的閉源模型。Qwen3-Omni採用了Thinker-Talker MoE架構,統一了文本、圖像、音頻和視頻的感知與生成,產出流暢文本和自然實時語音。它支持119種語言的文本交互、19種語言的語音理解及10種語言的語音生成。為降低流式合成中的首包延遲,Talker通過多碼本方案自回歸預測離散語音編解碼。利用這些碼本的表示能力,我們以輕量級因果ConvNet替代計算密集的塊級擴散,實現從首個編解碼幀開始的流式處理。在冷啟動環境下,Qwen3-Omni理論上可實現234毫秒的端到端首包延遲。為進一步強化多模態推理,我們引入了Thinking模型,它能對來自任何模態的輸入進行顯式推理。鑑於研究界目前缺乏通用音頻描述模型,我們微調Qwen3-Omni-30B-A3B得到Qwen3-Omni-30B-A3B-Captioner,為任意音頻輸入生成詳盡、低幻覺的描述。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking及Qwen3-Omni-30B-A3B-Captioner已根據Apache 2.0許可公開釋出。
我們將「智能代理能力」定義為AI系統作為自主代理者所展現的湧現能力,能夠主動發現問題、提出假設,並通過與環境和工具的自主互動來執行解決方案。這一基本能力標誌著「AI代理時代」的黎明,其驅動力來自於產業的關鍵轉變:迫切需要的不僅是會思考,更要能工作的AI系統。儘管當前AI在推理和生成回應方面表現卓越,但各行業要求的是能夠執行任務、操作工具並推動現實世界成果的自主代理者。隨著代理智能成為區分認知系統與生產性工作者的決定性特徵,高效培養機器自主性變得至關重要。現有方法遵循語言模型的傳統擴展法則,認為更多數據能帶來更好的代理能力。我們從根本上挑戰這一範式。LIMI(少即是多智能代理)證明,代理能力的發展遵循截然不同的原則。通過戰略性地聚焦於協作軟件開發和科學研究工作流程,我們展示了精細的代理智能可以從少量但策略性策劃的自主行為示範中湧現。僅使用78個精心設計的訓練樣本,LIMI在綜合代理基準測試中達到了73.5%的成績,顯著超越了最先進的模型:Kimi-K2-Instruct(24.1%)、DeepSeek-V3.1(11.9%)、Qwen3-235B-A22B-Instruct(27.5%)和GLM-4.5(45.1%)。最引人注目的是,LIMI在僅使用10,000個樣本訓練的模型基礎上實現了53.7%的提升——以128倍更少的樣本獲得了更優的代理智能。我們的研究確立了「代理效率原則」:機器自主性並非源於數據的豐富,而是來自於高質量代理示範的策略性策劃。
基於擴散模型的視頻插入技術近期取得了顯著進展。然而,現有方法依賴於複雜的控制信號,卻在保持主體一致性方面存在困難,這限制了其實際應用。本文聚焦於無遮罩視頻插入任務,旨在解決三大關鍵挑戰:數據稀缺、主體與場景的平衡以及插入的和諧性。針對數據稀缺問題,我們提出了一種新的數據管道InsertPipe,自動構建多樣化的跨對數據。基於此數據管道,我們開發了OmniInsert,這是一個新穎的統一框架,適用於從單一或多個主體參考進行無遮罩視頻插入。具體而言,為維持主體與場景的平衡,我們引入了一種簡單而有效的條件特徵注入機制,以清晰注入多源條件,並提出了一種新穎的漸進式訓練策略,使模型能夠平衡來自主體和源視頻的特徵注入。同時,我們設計了主體聚焦損失函數,以提升主體的細節表現。為了進一步增強插入的和諧性,我們提出了一種插入偏好優化方法,通過模擬人類偏好來優化模型,並在參考過程中整合了上下文感知重述模塊,以無縫地將主體融入原始場景。針對該領域缺乏基準測試的問題,我們引入了InsertBench,這是一個包含多樣場景並精心挑選主體的綜合基準。在InsertBench上的評估表明,OmniInsert超越了現有的閉源商業解決方案。代碼將予以公開。
我們推出了元代理研究環境(Meta Agents Research Environments, ARE),這是一個用於可擴展環境創建、合成或真實應用集成以及代理編排執行的研究平台。ARE提供了簡單的抽象層,用於構建複雜且多樣的環境,每個環境都有其獨特的規則、工具、內容和驗證器,有助於彌合模型開發與實際部署之間的差距。我們還提出了Gaia2,這是一個基於ARE構建的基準測試,旨在衡量代理的通用能力。除了搜索和執行,Gaia2要求代理處理模糊性和噪聲,適應動態環境,與其他代理協作,並在時間約束下運作。與之前的基準測試不同,Gaia2以異步方式運行,揭示了在靜態設置中不可見的新故障模式。我們的實驗表明,沒有任何系統能在整個智能譜系中佔據主導地位:更強的推理能力往往以效率為代價,且預算擴展曲線趨於平穩,這凸顯了對新架構和自適應計算策略的需求。或許更重要的是,ARE的抽象層使得Gaia2能夠持續擴展到其他環境,使社區能夠快速創建針對其領域量身定制的新基準測試。在人工智能的下半場,進步越來越依賴於定義有意義的任務和穩健的評估,以推動前沿能力的發展。
尽管在工业搜索和推荐系统中复制大规模语言模型(LLMs)的成功引起了越来越多的兴趣,但现有的大多数工业努力仍局限于移植Transformer架构,这仅能在强大的深度学习推荐模型(DLRMs)基础上带来渐进式的改进。从第一性原理的角度来看,LLMs的突破不仅源于其架构,还依赖于两种互补机制:上下文工程,通过丰富原始输入查询的上下文线索以更好地激发模型能力;以及多步推理,通过中间推理路径迭代优化模型输出。然而,在工业排序系统中,这两种机制及其释放显著改进的潜力仍大多未被充分探索。 本文提出OnePiece,一个统一框架,将LLM风格的上下文工程和推理无缝集成到工业级联管道的检索与排序模型中。OnePiece基于纯Transformer骨干网络,并进一步引入了三项关键创新:(1)结构化上下文工程,通过偏好和场景信号增强交互历史,并将其统一为结构化的标记输入序列,适用于检索与排序;(2)分块潜在推理,赋予模型多步表示精炼能力,并通过块大小扩展推理带宽;(3)渐进式多任务训练,利用用户反馈链有效监督训练期间的推理步骤。OnePiece已在Shopee的主要个性化搜索场景中部署,并在不同关键业务指标上实现了持续的在线增益,包括超过+2%的GMV/UU和+2.90%的广告收入增长。
本文介紹了TempSamp-R1,這是一種新的強化微調框架,旨在提升多模態大語言模型(MLLMs)在視頻時間定位任務中的適應效果。我們揭示現有的強化學習方法,如群組相對策略優化(GRPO),依賴於在線採樣進行策略更新。然而,在具有大時間搜索空間的任務中,這種策略既效率低下又性能有限,因為它往往無法識別出時間上精確的解決方案。為解決這一限制,TempSamp-R1利用真實標註作為離線監督,提供時間上精確的指導,有效補償在線解決方案中的稀疏性和不對齊問題。為了進一步穩定訓練並減少基於獎勵更新的方差,TempSamp-R1提供了一種非線性軟優勢計算方法,通過非對稱變換動態重塑獎勵反饋。通過採用混合思維鏈(CoT)訓練範式,TempSamp-R1優化了一個單一的統一模型,以支持CoT和非CoT推理模式,從而高效處理不同推理複雜度的查詢。實驗結果表明,TempSamp-R1優於基於GRPO的基線,在基準數據集上建立了新的最先進性能:Charades-STA(R1@0.7: 52.9%, +2.7%)、ActivityNet Captions(R1@0.5: 56.0%, +5.3%)和QVHighlights(mAP: 30.0%, +3.0%)。此外,TempSamp-R1在有限數據下展示了強大的少樣本泛化能力。代碼:https://github.com/HVision-NKU/TempSamp-R1
本文提出了一种名为VideoFrom3D的创新框架,旨在从粗略几何、相机轨迹及参考图像中合成高质量的三维场景视频。该框架简化了三维图形设计流程,实现了灵活的设计探索与快速成果产出。一种直接从粗略几何合成视频的方法可能是基于几何结构来调节视频扩散模型。然而,现有的视频扩散模型在生成复杂场景的高保真结果时面临挑战,主要因为难以同时建模视觉质量、运动及时序一致性。为解决这一问题,我们提出了一种生成框架,该框架结合了图像与视频扩散模型的互补优势。具体而言,我们的框架由稀疏锚点视图生成(SAG)模块和几何引导的生成中间帧(GGI)模块组成。SAG模块利用图像扩散模型,在稀疏外观引导采样的辅助下,生成高质量且跨视图一致的锚点视图。基于这些锚点视图,GGI模块通过视频扩散模型,结合基于流量的相机控制与结构引导,忠实插值中间帧。值得注意的是,这两个模块均无需依赖任何三维场景模型与自然图像的配对数据集,这类数据集极难获取。全面的实验表明,我们的方法在多样且具挑战性的场景下,能够生成高质量、风格一致的场景视频,表现优于简单及扩展的基线方法。
線上強化學習(RL)在後訓練語言模型中佔據核心地位,但其擴展至擴散模型仍面臨挑戰,主要由於難以處理的似然性。近期研究通過離散化反向採樣過程來實現GRPO風格的訓練,然而這些方法繼承了根本性缺陷,包括求解器限制、前後向不一致性,以及與無分類器指導(CFG)的複雜整合。我們提出了擴散負感知微調(DiffusionNFT),這是一種新的線上RL範式,它通過流匹配直接在正向過程中優化擴散模型。DiffusionNFT對比正負生成以定義隱含的策略改進方向,自然地將強化信號融入監督學習目標中。此種表述方式允許使用任意黑箱求解器進行訓練,消除了對似然估計的需求,並僅需乾淨圖像而非採樣軌跡來進行策略優化。在直接比較中,DiffusionNFT的效率比FlowGRPO高出多達25倍,且無需CFG。例如,DiffusionNFT在1千步內將GenEval分數從0.24提升至0.98,而FlowGRPO則需超過5千步並額外應用CFG才能達到0.95。通過利用多個獎勵模型,DiffusionNFT在每個測試基準上均顯著提升了SD3.5-Medium的性能。
我們推出SWE-Bench Pro,這是一個更具挑戰性的基準測試,它建立在SWE-BENCH [25]的最佳實踐基礎上,但明確設計用於捕捉超出SWE-BENCH範圍的真實、複雜、企業級問題。SWE-BENCH PRO包含來自41個活躍維護的存儲庫的1,865個問題,這些存儲庫涵蓋了商業應用、B2B服務和開發者工具。該基準測試分為一個公開集,其中包含來自11個存儲庫的開放訪問問題,一個保留集包含12個存儲庫,以及一個商業集包含18個專有存儲庫,我們與早期初創公司有正式合作協議。保留集和商業集中的問題不公開訪問,但我們發布了商業集的結果。我們的基準測試以長時間任務為特色,這些任務可能需要專業軟件工程師數小時至數天才能完成,通常涉及跨多個文件的補丁和大量的代碼修改。所有任務均經過人工驗證,並附有足夠的上下文以確保可解決性。在我們對廣泛使用的編碼模型的評估中,在統一的框架下,我們觀察到它們在SWE-Bench PRO上的表現仍低於25%(Pass@1),其中GPT-5迄今為止取得了最高分,達到23.3%。為了更好地理解這些限制,我們對收集的代理軌跡中觀察到的失敗模式進行了聚類,以更清晰地描述當前模型表現出的錯誤模式。總體而言,SWE-BENCH PRO提供了一個抗污染的測試平台,更真實地捕捉了現實世界軟件開發的複雜性和多樣性,推動了真正自主的專業級軟件工程代理的追求。
大型語言模型(LLMs)的最新進展已擴展了上下文長度,使助手能夠維持長時間的對話歷史,從而提供連貫且個性化的回應。然而,這種能力依賴於鍵值(KV)快取,其記憶體隨著對話長度線性增長,在嚴格的資源限制下迅速成為主導。減少這一開銷的活躍研究方向是KV快取壓縮,旨在限制快取大小同時保持準確性。然而,現有方法面臨兩個主要限制:(i)在全上下文預填充後驅逐條目會導致無界的峰值記憶體,以及(ii)依賴於查詢的驅逐將快取縮小到單一查詢,導致在多輪對話中準確性下降。我們提出了EpiCache,這是一個在固定記憶體預算下用於長對話問答(LongConvQA)的無訓練KV快取管理框架。EpiCache通過分塊預填充來限制快取增長,並通過情景KV壓縮來保留與主題相關的上下文,該方法將對話歷史聚類為連貫的情景並應用情景特定的KV快取驅逐。我們進一步設計了一種自適應的分層預算分配策略,該策略測量每層對驅逐的敏感性,並據此分配記憶體預算。在三個LongConvQA基準測試中,EpiCache相比近期基線將準確性提高了高達40%,在4-6倍壓縮下保持了接近完整的KV準確性,並將延遲和記憶體分別減少了高達2.4倍和3.5倍,從而在嚴格的資源限制下實現了高效的多輪互動。
近期強化學習(RL)的進展提升了大型語言模型(LLMs)的推理能力,但對多模態大型語言模型(MLLMs)的影響有限。尤其在視覺密集任務如幾何推理中,MLLMs經常出現幻覺,導致推理不準確。我們將此歸因於MLLMs中的感知瓶頸,這限制了推理訓練的效益。為量化此問題,我們設計了一個幾何感知問答(GeoPQA)基準,針對基本幾何概念和空間關係進行測試。在GeoPQA上的實驗揭示了MLLMs在視覺感知方面的顯著不足,這限制了RL獎勵信號對有效訓練的作用。為解決此瓶頸,我們提出了一個兩階段RL訓練框架,首先增強對幾何結構的視覺感知,然後培養推理能力。應用於Qwen2.5-VL-3B-Instruct模型時,與直接推理訓練方法相比,我們的兩階段訓練使幾何推理提升了9.7%,幾何問題解決能力提升了9.1%。我們的方法也推廣到其他視覺密集領域,如圖表理解,突顯了感知基礎在有效MLLM推理中的重要性。
本文介绍了一种新型高度灵活且拟人化的并联腕部装置——ByteWrist,专为机器人操作设计。ByteWrist通过集成弧形末端连杆的紧凑型三级并联驱动机制,有效解决了现有串联与并联腕部在狭小空间操作中的关键限制。该设计在实现精确RPY(滚转-俯仰-偏航)运动的同时,保持了卓越的紧凑性,使其特别适用于家庭服务、医疗辅助及精密装配等复杂非结构化环境。其核心创新点包括:(1) 嵌套式三级电机驱动连杆,在最小化体积的同时实现独立多自由度控制;(2) 弧形末端连杆,优化力传递并扩大运动范围;(3) 作为球面关节的中心支撑球,增强结构刚度而不牺牲灵活性。此外,我们提供了全面的运动学建模,包括正/逆运动学及用于精确控制的数值雅可比矩阵解法。实验表明,ByteWrist在狭小空间机动性和双臂协同操作任务中表现出色,优于基于Kinova的系统。结果显示,与传统设计相比,ByteWrist在紧凑性、效率和刚度方面均有显著提升,确立了其作为受限环境下新一代机器人操作解决方案的潜力。
我們對當前的大型推理模型(LRMs)進行了一項中等規模、在一定程度上無污染的評估,並獲得了一些初步發現。同時,我們發布了ROME,這是一個旨在測試基於視覺線索推理能力的視覺語言模型評估基準。我們在本網站上附上了基準測試、評估數據及其他更新的鏈接: https://flageval-baai.github.io/LRM-Eval/
大型語言模型(LLMs)在預訓練階段獲取了大量的世界知識,這些知識隨後通過監督式微調(SFT)等後訓練技術進一步塑造。然而,SFT對模型知識的影響尚未得到充分探討,這限制了我們在微調模型中控制知識變更行為的能力。為填補這一空白,我們評估了來自LLaMA-2和LLaMA-3系列的五個LLM在閉卷問答(CBQA)任務中的表現。令人驚訝的是,使用1,920個樣本進行微調的模型表現比僅使用240個樣本微調的模型差達14%。此外,微調數據中知識掌握程度的不同會導致超過12%的性能波動。為探究這些效應,我們從詞元和參數層面分析了模型行為。分析顯示,SFT過程中高達90%的參數更新並未對知識增強做出貢獻。根據微調數據的特性,恢復這些更新可以提升CBQA任務的表現。這些見解為開發更有效強化模型知識的微調策略提供了實用指導。
大型语言模型(LLM)的开发者致力于使其模型诚实、有益且无害。然而,面对恶意请求时,模型被训练以拒绝回应,从而牺牲了其有益性。我们揭示,前沿的LLM可能会发展出一种偏好,即选择不诚实作为新策略,即便其他选项存在。受影响的模型在应对有害请求时,会输出看似有害但实际上微妙地错误或无害的内容。这种行为在难以预测的变体中显现,即便在同一模型家族内部也是如此。我们未发现欺骗倾向的明显原因,但证明了能力更强的模型在执行此策略上更为擅长。策略性不诚实已对安全评估产生实际影响,正如我们所示,不诚实的回应能够欺骗所有用于检测越狱的输出监控器,使得基准评分不可靠。此外,策略性不诚实可充当对抗恶意用户的蜜罐,显著混淆了先前的越狱攻击。尽管输出监控器失效,我们展示了通过内部激活的线性探针可可靠地检测策略性不诚实。我们在具有可验证结果的数据集上验证了探针,并利用其特性作为导向向量。总体而言,我们将策略性不诚实视为一个具体例证,反映了LLM对齐难以控制的广泛问题,尤其是在有益性与无害性发生冲突时。
對大型語言模型(LLMs)高效部署的需求,激發了對量化技術的關注,該技術能降低推理成本,以及參數高效微調(PEFT),後者則能減少訓練開銷。這促進了量化感知PEFT的發展,旨在生成既精確又高效的量化模型。在此背景下,微調前減少量化誤差對於實現高模型精度至關重要。然而,現有依賴低秩適應的方法存在表示能力有限的問題。近期基於傅里葉相關變換(FT)的適配器提供了比低秩適配器更強的表示能力,但它們直接整合到量化模型中往往導致誤差減少效果不佳且計算開銷增加。為克服這些限制,我們提出了QWHA方法,該方法通過採用沃爾什-哈達瑪變換(WHT)作為變換核,並結合一種包含自適應參數選擇與值精煉的新型適配器初始化方案,將基於FT的適配器整合到量化模型中。我們證明,QWHA在促進微調的同時有效緩解了量化誤差,且其設計大幅降低了計算成本。實驗結果顯示,QWHA在低比特量化精度上持續超越基準方法,並在訓練速度上相較現有基於FT的適配器實現了顯著提升。相關代碼已公開於https://github.com/vantaa89/qwha。
图形用户界面(GUI)是人机交互的主要媒介,然而,由于视觉元素的复杂性、动态环境以及多步推理的需求,自动化GUI交互仍面临挑战。现有的基于视觉语言模型(VLM)的方法常受限于分辨率不足、领域不匹配及序列决策能力欠缺等问题。为解决这些难题,我们提出了Mano,一个构建于多模态基础模型之上的鲁棒GUI代理,该模型已在大量网页及计算机系统数据上进行了预训练。我们的方法整合了一个新颖的模拟环境以生成高保真数据,一个三阶段训练流程(监督微调、离线强化学习及在线强化学习),以及一个用于错误恢复的验证模块。Mano在多个GUI基准测试中展现了顶尖性能,包括Mind2Web和OSWorld,在成功率和操作准确性上实现了显著提升。本研究为将强化学习与VLM有效结合以实际部署GUI代理提供了新见解,强调了领域特定数据、迭代训练及整体奖励设计的重要性。
我們提出了一種名為合成引導預訓練(Synthetic Bootstrapped Pretraining, SBP)的語言模型預訓練方法,該方法首先從預訓練數據集中學習文檔間關係的模型,然後利用該模型合成一個龐大的新語料庫進行聯合訓練。標準的預訓練方法教會語言模型學習單一文檔內詞元間的因果關聯,但並未設計來有效建模那些豐富且可學習的文檔間關聯,而這些關聯有可能帶來更好的性能。我們通過設計一個計算匹配的預訓練設置來驗證SBP,並從頭開始預訓練了一個擁有30億參數的模型,使用了高達1萬億個詞元。我們發現,SBP在強重複基線之上持續改進,並實現了相當於訪問20倍更多獨特數據的理論上限所能達到的性能提升。定性分析顯示,合成文檔超越了單純的改寫——SBP首先從原始材料中抽象出核心概念,然後在此基礎上構建新的敘述。除了強勁的實證性能外,SBP還自然地符合貝葉斯解釋:合成器隱含地學習了相關文檔間共享的潛在概念。
通用多模態嵌入模型在捕捉查詢與候選項之間的語義關聯方面取得了巨大成功。然而,現有方法要麼將查詢和候選項壓縮為單一向量,可能限制了細粒度信息的表達能力,要麼生成過多向量,導致多向量檢索成本過高。在本研究中,我們提出了MetaEmbed,這是一種重新構思多模態嵌入如何在大規模下構建與交互的新框架。在訓練過程中,固定數量的可學習元標記被附加到輸入序列中。在測試時,它們的最後一層上下文表示作為緊湊而富有表現力的多向量嵌入。通過提出的Matryoshka多向量檢索訓練,MetaEmbed學會了在多個向量間按粒度組織信息。由此,我們實現了多模態檢索中的測試時規模調整,用戶可根據效率需求選擇用於索引和檢索交互的標記數量,以平衡檢索質量。在Massive多模態嵌入基準(MMEB)和視覺文檔檢索基準(ViDoRe)上的廣泛評估證實,MetaEmbed在保持對32B參數模型強健擴展性的同時,達到了最先進的檢索性能。
無需訓練的視頻物體編輯旨在實現精確的物體層面操作,包括物體插入、替換和刪除。然而,該領域在保持保真度和時間一致性方面面臨重大挑戰。現有方法通常針對U-Net架構設計,存在兩個主要限制:由於一階求解器導致的反演不準確,以及粗糙的“硬”特徵替換引起的上下文衝突。這些問題在擴散變壓器(DiTs)中更為嚴峻,因為先前層選擇啟發式的不適用性使得有效指導變得困難。為解決這些限制,我們引入了ContextFlow,這是一種基於DiT的無需訓練視頻物體編輯新框架。具體而言,我們首先採用高階校正流求解器建立穩健的編輯基礎。我們框架的核心是自適應上下文增強(用於指定編輯內容),這一機制解決了上下文衝突。它不替換特徵,而是通過並行重建和編輯路徑中的鍵值對連接來豐富自注意力上下文,使模型能夠動態融合信息。此外,為確定應用此增強的位置(用於指定編輯位置),我們提出了一種系統的數據驅動分析,以識別任務特定的關鍵層。基於一種新穎的指導響應性度量,我們的方法精確定位了對不同任務(如插入、替換)最具影響力的DiT塊,實現了有針對性且高效的指導。大量實驗表明,ContextFlow顯著優於現有的無需訓練方法,甚至超越了幾種基於訓練的最新方法,提供了時間一致、高保真的結果。
大型語言模型(LLMs)的廣泛應用一直受到其傾向於產生幻覺的阻礙,即生成看似合理但實際上不正確的資訊。雖然檢索增強生成(RAG)系統試圖通過將回應基於外部知識來解決這一問題,但幻覺仍然是一個持續存在的挑戰,特別是對於形態複雜、資源匱乏的語言如土耳其語。本文介紹了Turk-LettuceDetect,這是首個專門為土耳其語RAG應用設計的幻覺檢測模型套件。基於LettuceDetect框架,我們將幻覺檢測制定為一個詞元級別的分類任務,並微調了三種不同的編碼器架構:土耳其語專用的ModernBERT、TurkEmbed4STS和多語言的EuroBERT。這些模型在機器翻譯的RAGTruth基準數據集上進行了訓練,該數據集包含17,790個實例,涵蓋問答、數據到文本生成和摘要任務。我們的實驗結果顯示,基於ModernBERT的模型在完整測試集上達到了0.7266的F1分數,特別是在結構化任務上表現出色。這些模型在支持長達8,192個詞元的上下文時保持了計算效率,使其適合實時部署。比較分析表明,雖然最先進的LLMs展示了高召回率,但由於過度生成幻覺內容,其精確度較低,這凸顯了專門檢測機制的必要性。通過發布我們的模型和翻譯數據集,這項工作填補了多語言自然語言處理中的一個關鍵空白,並為開發更可靠和值得信賴的土耳其語及其他語言的人工智慧應用奠定了基礎。
跨注意力機制是編碼器-解碼器架構中的核心機制,廣泛應用於語音轉文字(S2T)處理等多個領域。其分數已被重新用於各種下游應用——例如時間戳估計和音頻-文本對齊——基於其反映了輸入語音表示與生成文本之間依賴關係的假設。儘管在更廣泛的自然語言處理(NLP)文獻中,注意力機制的解釋性質已受到廣泛討論,但這一假設在語音領域仍大多未經探索。為填補這一空白,我們通過將跨注意力分數與源自特徵歸因的輸入顯著性圖進行比較,評估了S2T模型中跨注意力的解釋能力。我們的分析涵蓋了單語和多語、單任務和多任務模型的多個規模,結果顯示注意力分數與基於顯著性的解釋中度至高度一致,尤其是在跨頭部和層級聚合時。然而,分析也表明跨注意力僅捕捉了約50%的輸入相關性,並且在最佳情況下,僅部分反映了解碼器如何關注編碼器的表示——僅佔顯著性的52-75%。這些發現揭示了將跨注意力作為解釋代理的基本局限性,表明其提供了推動S2T模型預測因素的有益但並不完整的視角。
將推薦模型擴展為大型推薦模型已成為最廣泛討論的話題之一。近期的研究重點已轉向超越嵌入維度擴展的組件,因為人們認為單純擴展嵌入維度可能導致性能下降。儘管對嵌入已有一些初步觀察,但其不可擴展性的根本原因仍不明確。此外,性能下降是否在不同類型的模型和數據集中普遍存在,仍是一個未經探索的領域。針對嵌入維度對性能的影響,我們在10個稀疏程度和規模各異的數據集上,使用4種代表性的經典架構進行了大規模實驗。我們意外地觀察到兩種新現象:雙峰現象和對數現象。對於前者,隨著嵌入維度的增加,性能先提升後下降,再次上升,最終又下降;對於後者,則呈現出完美的對數曲線。我們的研究貢獻有三方面:首先,我們發現了在擴展協同過濾模型時的兩種新現象;其次,我們深入理解了雙峰現象的成因;最後,我們從理論上分析了協同過濾模型的噪聲魯棒性,其結果與實證觀察相符。
近期,大型多模态模型(LMMs)的进展已彰显其作为通用多模态助手的显著成功,特别是在整体图像与视频语言理解方面。相对而言,对于扩展细粒度像素级理解能力的关注较少,这类能力要求模型实现视觉信号与语言语义之间的像素级对齐。先前的一些研究已将LMMs应用于相关任务,如区域级描述和指代表达分割。然而,这些模型仅限于独立执行指代或分割任务,未能将这些细粒度感知能力整合到视觉推理中。为填补这一空白,我们提出了UniPixel,一个能够灵活理解视觉提示输入并生成基于掩码响应的大型多模态模型。我们的模型通过无缝整合像素级感知与通用视觉理解能力而独树一帜。具体而言,UniPixel处理视觉提示并根据需求生成相关掩码,在推理过程中基于这些中间指针进行后续推理,从而实现细粒度的像素级推理。我们方法的有效性已在涵盖像素级指代/分割及图像/视频中对象中心理解等多样化任务的10个基准测试中得到验证。此外,还设计了一个新颖的PixelQA任务,该任务联合要求指代、分割和问答,以验证我们方法的灵活性。
我們推出「推理核心」(Reasoning Core),這是一個專為強化學習與可驗證獎勵(RLVR)設計的新型可擴展環境,旨在提升大型語言模型(LLMs)的基礎符號推理能力。與現有專注於遊戲或孤立謎題的基準不同,推理核心程序化地生成涵蓋核心形式領域的問題,包括PDDL規劃、一階邏輯、上下文無關文法解析、因果推理以及系統方程求解。該環境基於高通用性問題分佈、通過外部工具進行驗證以及持續難度控制等關鍵設計原則構建,這些原則共同提供了近乎無限的新穎訓練實例。對前沿LLMs的初始零樣本評估證實了推理核心任務的難度,使其成為提升未來模型推理能力的有望資源。
當前最先進的自動駕駛車輛在道路上的大型鄰近物體遮擋其局部傳感器時,可能會面臨安全關鍵情境。為解決此問題,提出了車對車(V2V)協同自動駕駛的概念,而近期引入的一種協同自動駕駛框架更進一步採用了整合多模態大型語言模型(MLLM)的方法,以融合協同感知與規劃過程。然而,儘管將思維圖推理應用於MLLM具有潛在優勢,這一想法尚未被先前的協同自動駕駛研究所考慮。本文中,我們提出了一種專為基於MLLM的協同自動駕駛設計的新穎思維圖框架。我們的思維圖包含了我們提出的遮擋感知感知與規劃感知預測的新穎理念。我們精心策劃了V2V-GoT-QA數據集,並開發了V2V-GoT模型,用於訓練和測試協同駕駛的思維圖。實驗結果表明,我們的方法在協同感知、預測及規劃任務上均優於其他基準方法。
大型語言模型(LLMs)的安全性和對齊性對於其負責任的部署至關重要。目前的評估方法主要集中於識別和防止明顯有害的輸出。然而,這些方法往往未能解決一種更為隱蔽的故障模式:模型在內部進行惡意或欺騙性推理時,卻產生了看似無害的輸出。這種漏洞通常由複雜的系統提示注入觸發,使模型能夠繞過傳統的安全過濾器,構成了一種重要但尚未充分探索的風險。為填補這一空白,我們引入了欺騙性推理暴露套件(D-REX),這是一個新穎的數據集,旨在評估模型內部推理過程與其最終輸出之間的差異。D-REX是通過一場競爭性的紅隊演練構建的,參與者設計了對抗性系統提示以誘導此類欺騙行為。D-REX中的每個樣本都包含對抗性系統提示、終端用戶的測試查詢、模型看似無害的回應,以及關鍵的模型內部思維鏈,這揭示了潛在的惡意意圖。我們的基準測試促進了一項新的、至關重要的評估任務:欺騙性對齊的檢測。我們證明,D-REX對現有模型和安全機制提出了重大挑戰,突顯了迫切需要新技術來審查LLMs的內部過程,而不僅僅是其最終輸出。
即便不直接聆聽聲音,人類也能憑藉聽覺常識,輕鬆推斷出音高、響度或聲源關聯等聽覺屬性。相比之下,語言模型往往缺乏此種能力,這限制了它們在多模態交互中的效能。為彌補這一差距,我們提出了AuditoryBench++,這是一個全面的基準測試,用於評估僅基於文本設置下的聽覺知識與推理能力。該基準涵蓋了從基礎聽覺比較到情境化推理的任務,使我們能夠細緻分析模型如何處理和整合聽覺概念。此外,我們引入了AIR-CoT,這是一種新穎的聽覺想象推理方法,它通過特殊標記的跨度檢測與知識注入,在推理過程中生成並整合聽覺信息。對近期大型語言模型(LLMs)及多模態大型語言模型(Multimodal LLMs)的廣泛實驗表明,AIR-CoT普遍優於現成模型及那些增強了聽覺知識的模型。項目頁面可訪問https://auditorybenchpp.github.io。
本文探討了合併大型神經網絡低秩適應所面臨的挑戰。隨著參數高效適應技術(如低秩適應LoRA)的興起,模型微調變得更加便捷。雖然使用LoRA進行模型微調極為高效,但現有的合併方法往往通過合併完整大小的權重矩陣來犧牲這一效率。我們提出了核心空間合併框架,該框架能在共同的對齊基礎上合併LoRA適應的模型,從而保持低秩適應的效率,同時大幅提升跨任務的準確性。我們進一步提供了形式化證明,表明投影到核心空間可確保信息無損,並提供了複雜度分析,展示了效率提升。大量實驗結果表明,核心空間顯著改進了現有的合併技術,在視覺和語言任務上均達到了最先進的成果,同時僅使用了極少的計算資源。代碼庫可在https://github.com/apanariello4/core-space-merging獲取。
強化學習已成為提升大型語言模型(LLMs)推理能力的基礎技術。然而,現有算法對所有詞元採用統一優化策略,忽視了它們在推理過程中的不同角色。為解決這一限制,我們引入了異質自適應策略優化(Heterogeneous Adaptive Policy Optimization, HAPO),這是一種全面的詞元感知算法,能根據詞元熵動態調整優化策略。在滾動採樣方面,我們提出了自適應溫度採樣,實時調整採樣溫度,促進高熵詞元的探索,同時保持低熵詞元的連貫性。對於優勢計算,我們引入了詞元級別組平均法,在詞元層面進行優勢歸一化,既考慮了序列長度如詞元平均損失,又保持了無偏處理。隨後,我們開發了差分優勢再分配,利用熵和重要性比率來調節具有明確信號詞元的獎勵調整更新。對於裁剪損失,我們設計了非對稱自適應裁剪,允許對噪聲低熵詞元進行激進的概率降低,同時為高熵詞元保留探索空間。通過系統研究熵與訓練動態之間的關係,我們將詞元級別處理嵌入到每個階段,以實現精細控制。大量實驗表明,HAPO在多個模型規模上均持續優於DAPO。我們的代碼可在https://github.com/starriver030515/HAPO找到。
在開源AI生態系統中,隱藏的授權衝突構成了嚴重的法律與道德風險,使組織面臨潛在訴訟,並讓用戶暴露於未揭露的風險之中。然而,該領域尚缺乏數據驅動的理解,以了解這些衝突發生的頻率、其起源地以及哪些社群最受影響。我們首次對Hugging Face上的數據集與模型授權進行了端到端的審計,並追蹤它們在下游開源軟件應用中的整合情況,涵蓋了36.4萬個數據集、160萬個模型及14萬個GitHub項目。我們的實證分析揭示了系統性的不合規現象,其中35.5%的模型到應用的轉換通過在寬鬆條款下重新授權,消除了限制性授權條款。此外,我們原型化了一個可擴展的規則引擎,該引擎編碼了近200條SPDX及模型特定的條款,用於檢測授權衝突,能夠解決軟件應用中86.4%的授權衝突問題。為支持未來研究,我們公開了我們的數據集及原型引擎。本研究強調了授權合規作為開源AI中一項關鍵治理挑戰的重要性,並提供了實現自動化、AI感知的大規模合規所需的數據與工具。
我們引入了perioperation這一機器人數據收集範式,它通過傳感化並記錄人類操作來最大化數據向真實機器人的可遷移性。我們在DEXOP中實現了這一範式,這是一種被動式手部外骨骼,旨在增強人類在自然環境中收集豐富感官(視覺+觸覺)數據的能力,以應對多種靈巧操作任務。DEXOP將人類手指與機器人手指機械連接,為用戶提供直接接觸反饋(通過本體感覺),並將人手姿態鏡像到被動機器人手上,從而最大化演示技能向機器人的轉移。相比遙操作,力反饋和姿態鏡像使任務演示對人類來說更加自然,提高了速度和準確性。我們在多種需要豐富接觸的靈巧任務中評估了DEXOP,展示了其大規模收集高質量演示數據的能力。使用DEXOP數據學習的策略,在單位數據收集時間內顯著提升了任務表現,使DEXOP成為推進機器人靈巧性的有力工具。我們的項目頁面位於https://dex-op.github.io。
基於擴散的大型語言模型(DLLMs)近期作為自迴歸解碼器的替代方案,引起了越來越多的關注。在本研究中,我們探討了使用基於擴散的大型語言模型LLaDA進行自動語音識別(ASR)的實證研究。我們首先研究了其作為Whisper-LLaMA轉錄的外部審議處理模塊的應用。通過利用LLaDA的雙向注意力與去噪能力,我們探索了隨機遮罩、低置信度遮罩以及半自迴歸策略,結果顯示Whisper-LLaDA相較於基準顯著降低了詞錯誤率(WER)。在LibriSpeech數據集上,最佳級聯系統在test-clean/test-other上分別達到了2.25%/4.94%的WER,這意味著在test-other子集上相較於Whisper-LLaMA基準實現了12.3%的相對提升。相比之下,未結合音頻特徵的純文本LLaDA未能提升識別準確度,這凸顯了音頻條件嵌入的重要性。我們進一步評估了Whisper-LLaDA作為ASR獨立解碼器的性能,採用基於擴散和半自迴歸的解碼策略。大多數實驗配置在推理速度上快於Whisper-LLaMA基準,儘管識別準確度略有下降。這些發現為基於擴散的LLMs在ASR中的應用提供了實證視角,並指出了改進的潛在方向。
貝葉斯優化(BO)的效率在很大程度上依賴於高斯過程(GP)核的選擇,該核在有限的評估預算下對探索與利用的平衡起著核心作用。傳統的BO方法通常依賴於固定或啟發式的核選擇策略,當所選核與底層目標函數不匹配時,可能導致收斂緩慢或次優解。為解決這一限制,我們提出了一種新穎的上下文感知核演化(CAKE)方法,利用大型語言模型(LLMs)來增強BO。具體而言,CAKE利用LLMs作為交叉和變異算子,根據優化過程中觀察到的數據自適應地生成和精煉GP核。為了最大化CAKE的效能,我們進一步提出了基於貝葉斯信息準則(BIC)的獲取核排序(BAKER)方法,通過平衡BIC衡量的模型擬合度與每次BO迭代的期望改進來選擇最有效的核。大量實驗表明,我們基於CAKE的新BO方法在一系列實際任務中,包括超參數優化、控制器調諧和光子芯片設計,均顯著優於現有的基準方法。我們的代碼已公開於https://github.com/cake4bo/cake。
大型語言模型(LLMs)在各種任務和應用中廣泛使用。然而,儘管其功能廣泛,研究顯示它們缺乏文化對齊性(ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating),並因文化知識和能力的不足而產生偏見的生成結果(naous-etal-2024-beer)。評估LLMs的文化意識和對齊性尤其具有挑戰性,這主要是由於缺乏適當的評估指標以及無法獲得代表區域和次區域層面文化複雜性的文化基礎數據集。現有的文化特定項目(CSIs)數據集主要集中於區域層面的概念,且可能包含誤判。為解決這一問題,我們引入了一個針對印度文化的新穎CSI數據集,涵蓋17個文化面向。該數據集包含來自36個次區域的sim8k文化概念。為了衡量LLMs在文化文本適應任務中的文化能力,我們使用創建的CSIs、LLM作為評判者以及來自不同社會人口區域的人類評估來評估這些適應。此外,我們進行了定量分析,展示了所有考慮的LLMs在選擇性次區域覆蓋和表面層次適應方面的表現。我們的數據集可在此處獲取:https://huggingface.co/datasets/nlip/DIWALI,項目網頁\href{https://nlip-lab.github.io/nlip/publications/diwali/},以及我們的代碼庫與模型輸出可在此找到:https://github.com/pramitsahoo/culture-evaluation。
我們推出BeepBank-500,這是一個緊湊、完全合成的音效/警示數據集(包含300至500個片段),專為人機交互和音頻機器學習領域的快速、無版權顧慮的實驗而設計。每個片段均基於參數化配方生成,控制波形類型(正弦波、方波、三角波、調頻波)、基頻、持續時間、振幅包絡、振幅調製(AM)以及輕量級的Schroeder式混響效果。我們採用三種混響設置:乾聲,以及兩種合成房間效果,分別標記為“rir small”(小)和“rir medium”(中),這些標記貫穿全文及元數據中。我們發布了單聲道48 kHz WAV音頻(16位)、豐富的元數據表(信號/頻譜特徵),以及針對(i)波形類型分類和(ii)單音f0回歸的微型可重現基線。該數據集旨在支持音效分類、音色分析和起始點檢測等任務,並明確了使用許可和限制。音頻通過CC0-1.0協議貢獻至公共領域;代碼採用MIT許可。數據DOI:https://doi.org/10.5281/zenodo.17172015。代碼:https://github.com/mandip42/earcons-mini-500。
分析文化遺產文物對於多模態大語言模型(MLLMs)而言仍具挑戰性:通用模型缺乏領域專業知識,而監督微調(SFT)往往過度擬合表面模式,導致在鑑定和歷史歸因方面產生脆弱的推理能力。這引發了一個問題:如何為MLLMs配備針對古希臘陶器的穩健、專家級推理能力。我們提出了VaseVL,這是一個先SFT後強化學習(RL)的系統,將評估轉化為監督:我們構建了一個問題類型的分類體系,探測SFT模型以定位特定類型的性能差距,並針對這些差距進行類型條件化、面向組合性的獎勵優化。我們還發布了VaseVQA,這是一個包含31,773張圖像的綜合基準,旨在探測深度理解。實驗結果顯示,在風格分類和歷史歸因方面達到了最先進的水平,相較於僅使用SFT的基線,在組合穩健性上取得了顯著提升,驗證了診斷引導、分類體系條件化的獎勵工程,並為未來研究提供了可重複使用的資源。代碼和數據集將在https://github.com/AIGeeksGroup/VaseVQA 上公開。
大型視覺語言模型(L-VLMs)在多種視覺與語言任務中展現了卓越的性能,包括視覺問答(VQA)。然而,其高昂的計算成本使得它們在資源受限的環境和推理密集型應用中顯得不太實用。相比之下,小型視覺語言模型(S-VLMs)雖具效率,但與大型模型相比存在顯著的性能差距。在本研究中,我們引入了模型對齊器(MPA),這是一個新穎的框架,旨在通過利用未標記圖像和從L-VLMs進行有效的知識轉移,系統性地提升S-VLMs的性能。MPA不同於依賴標記訓練數據的傳統知識蒸餾方法,而是採用了一種基於對齊的策略,精確識別S-VLMs與L-VLMs之間的知識差異,並僅針對這些差異進行訓練優化。我們在四個多樣化的VQA基準測試上進行了廣泛的實驗,包括TextVQA、ST-VQA、ChartQA和OKVQA,每個測試都需要特定的推理能力,如文本識別、圖表解釋以及常識與事實理解。我們的結果表明,MPA在所有基準測試上均能持續提升S-VLMs的性能,在保持計算效率的同時縮小了性能差距。我們已將代碼公開。
水下立體深度估計為機器人任務(如導航、檢測和地圖繪製)提供了精確的三維幾何信息,利用低成本被動相機獲取度量深度,同時避免了單目方法的尺度模糊性。然而,現有方法面臨兩個關鍵挑戰:(i)在缺乏大量標註數據的情況下,如何高效地將大型視覺基礎編碼器適應於水下領域;(ii)如何將全局一致但尺度模糊的單目先驗與局部度量但光度脆弱的立體對應緊密融合。為解決這些挑戰,我們提出了StereoAdapter,這是一個參數高效的自監督框架,集成了LoRA適應的單目基礎編碼器與遞歸立體精化模塊。我們進一步引入了動態LoRA適應,以實現高效的秩選擇,並在合成的UW-StereoDepth-40K數據集上進行預訓練,從而增強在各種水下條件下的魯棒性。在模擬和真實世界基準上的全面評估顯示,與最先進的方法相比,在TartanAir上提升了6.11%,在SQUID上提升了5.12%,而BlueROV2機器人的實際部署進一步證明了我們方法的一致魯棒性。代碼:https://github.com/AIGeeksGroup/StereoAdapter。網站:https://aigeeksgroup.github.io/StereoAdapter。
神經音頻編解碼器是現代生成式音頻管線的核心組件。儘管近期的編解碼器在低比特率重建方面表現出色,並為下游任務提供了強大的表示能力,但大多數並不支持流式處理,這限制了它們在實時應用中的使用。我們提出了FocalCodec-Stream,這是一種基於焦點調製的混合編解碼器,能夠將語音壓縮至0.55至0.80 kbps的單一二進制碼本,理論延遲為80毫秒。我們的方法結合了WavLM的多階段因果蒸餾與針對性的架構改進,包括一個輕量級的優化模塊,該模塊在延遲約束下提升了音質。實驗表明,FocalCodec-Stream在可比比特率下優於現有的流式編解碼器,同時保留了語義和聲學信息。這實現了重建質量、下游任務性能、延遲和效率之間的有利平衡。代碼和檢查點將在https://github.com/lucadellalib/focalcodec發布。
自動化程式碼審查(CR)是大型語言模型(LLMs)的一個關鍵應用,但進展受到「現實差距」的阻礙:現有的基準測試使用簡化且缺乏上下文資料來評估模型在孤立子任務上的表現。這未能反映真實世界CR中豐富的整體上下文特性。為彌合這一差距,我們引入了CodeFuse-CR-Bench,這是首個針對倉庫級CR評估的全面性感知基準。CodeFuse-CR-Bench包含來自70個Python專案的601個高品質實例,涵蓋九個Pull-Request(PR)問題領域,每個實例提供了豐富的多面向上下文,包括相關問題、PR詳情和倉庫狀態,從而實現端到端評估。除了表面指標外,我們還提出了一種新穎的評估框架,該框架結合了基於規則的位置和語法檢查與基於模型的審查品質判斷。我們首次對最先進的LLMs在這一全面CR任務上進行了大規模評估。我們的結果建立了關鍵的基準,並揭示:(1)沒有一個LLM在所有CR方面都佔據主導地位;(2)Gemini 2.5 Pro達到了最高的綜合性能;(3)不同的LLM對冗餘上下文表現出不同的魯棒性。這些發現強調了全面、多維度評估的必要性,並為推進真正智能且實用的CR助手提供了可操作的見解。
過程獎勵模型(PRMs)提供了細粒度的步驟級評估,促進了大語言模型(LLMs)中更深層次的推理過程,在複雜任務如數學推理中表現出色。然而,由於人工標註數據的高成本和有限的可擴展性,開發PRMs面臨挑戰。來自蒙特卡羅(MC)估計的合成數據是一個有前景的替代方案,但其高噪聲比會導致過擬合,阻礙大規模訓練。在本研究中,我們對MC估計合成數據中的噪聲分佈進行了初步研究,發現標註模型由於其標註能力的限制,往往會低估和高估步驟的正確性。基於這些洞察,我們提出了自去噪蒙特卡羅標註(SCAN),這是一個高效的數據合成和噪聲容忍學習框架。我們的主要發現表明:(1)即使是輕量級模型(例如1.5B參數)通過自去噪策略也能產生高質量的標註,使PRMs僅需普通MC估計6%的推理成本即可實現優異性能。(2)通過我們穩健的學習策略,PRMs能夠有效地從這種弱監督中學習,在ProcessBench中實現了39.2 F1分數的提升(從19.9到59.1)。儘管僅使用了緊湊的合成數據集,我們的模型仍超越了包括在PRM800K等大規模人工標註數據集上訓練的強基線。此外,隨著合成數據的擴展,性能持續提升,凸顯了SCAN在可擴展、成本效益高且穩健的PRM訓練中的潛力。