每日精選AI研究論文及翻譯
诸如深度研究(Deep Research)等网络代理已展现出超越人类的认知能力,能够解决极具挑战性的信息检索问题。然而,大多数研究仍主要集中于文本领域,忽视了现实世界中的视觉信息。这使得多模态深度研究面临巨大挑战,因为此类代理在感知、逻辑、知识运用及使用更复杂工具方面,相较于纯文本代理,需要具备更强的推理能力。为应对这一局限,我们引入了WebWatcher,一款具备增强视觉-语言推理能力的多模态深度研究代理。它利用高质量合成多模态轨迹进行高效的冷启动训练,借助多种工具进行深度推理,并通过强化学习进一步提升泛化能力。为了更好地评估多模态代理的能力,我们提出了BrowseComp-VL,一个采用BrowseComp风格的基准测试,要求涉及视觉与文本信息的复杂信息检索。实验结果表明,WebWatcher在四项具有挑战性的视觉问答(VQA)基准测试中,显著优于专有基线、RAG工作流程及开源代理,为解决复杂的多模态信息检索任务铺平了道路。
從單一圖像或文本提示生成可探索的3D世界,構成了空間智能的基石。近期研究利用視頻模型實現了廣泛範圍且可泛化的3D世界生成。然而,現有方法在生成場景的範圍上往往受限。在本研究中,我們提出了Matrix-3D框架,該框架利用全景表示進行大範圍全向可探索3D世界的生成,結合了條件視頻生成與全景3D重建技術。我們首先訓練了一個以場景網格渲染為條件的軌跡引導全景視頻擴散模型,以實現高質量且幾何一致的場景視頻生成。為了將全景場景視頻提升至3D世界,我們提出了兩種獨立的方法:(1) 一種前饋式大型全景重建模型,用於快速3D場景重建;(2) 一種基於優化的流程,用於精確且細緻的3D場景重建。為了促進有效訓練,我們還引入了Matrix-Pano數據集,這是首個大規模合成集合,包含116K高質量靜態全景視頻序列,並附有深度和軌跡註釋。大量實驗證明,我們提出的框架在全景視頻生成和3D世界生成方面達到了最先進的性能。更多詳情請見https://matrix-3d.github.io。
近期,基于大型语言模型(LLM)的智能体在整合外部工具处理复杂、知识密集型任务方面展现了显著能力。在众多工具选择中,搜索工具在获取海量外部知识方面扮演着关键角色。然而,开源智能体在实现专家级搜索智能——即解决模糊查询、生成精准搜索、分析结果及进行深入探索的能力上仍显不足。现有方法在可扩展性、效率及数据质量方面存在局限。例如,现有在线强化学习(RL)方法中的小步数限制(如≤10步)制约了复杂策略的学习。本文介绍了ASearcher,一个用于大规模搜索智能体RL训练的开源项目。我们的主要贡献包括:(1)可扩展的全异步RL训练,支持长周期搜索同时保持高训练效率;(2)基于提示的LLM智能体,自主合成高质量且具挑战性的问答对,构建大规模QA数据集。通过RL训练,我们的基于提示的QwQ-32B智能体在xBench和GAIA上分别实现了46.7%和20.8%的Avg@4提升。值得注意的是,我们的智能体展现出极长的搜索周期,训练期间工具调用超过40步,输出标记数超过150k。凭借简洁的智能体设计且无需外部LLM,ASearcher-Web-QwQ在xBench和GAIA上的Avg@4得分分别达到42.1和52.8,超越了现有的开源32B智能体。我们已在https://github.com/inclusionAI/ASearcher开源了模型、训练数据及代码。
指令遵循能力推动了大型语言模型(LLMs)的新时代,并构成了诸如推理与代理行为等更高级能力的基础技能。随着任务难度增加,自然语言指令中蕴含的逻辑结构愈发复杂。然而,LLMs在此类富含逻辑的指令上的表现仍待深入探究。我们提出了LogicIFGen与LogicIFEval。LogicIFGen是一个可扩展的自动化框架,用于从代码函数生成可验证的指令,这些指令能自然表达丰富的逻辑,如条件判断、嵌套、递归及函数调用。我们进一步精选了一系列复杂的代码函数,并利用LogicIFGen构建了LogicIFEval,这是一个包含426条可验证的富含逻辑指令的基准测试集。实验表明,当前最先进的LLMs在遵循LogicIFEval中的指令时仍面临困难。大多数LLMs仅能正确执行不到60%的指令,暴露出其在指令遵循能力上的显著不足。代码与基准测试集:https://github.com/mianzhang/LogicIF
本文提出CharacterShot,一個可控且一致的4D角色動畫框架,使任何設計師都能從單一參考角色圖像和2D姿態序列中創建動態3D角色(即4D角色動畫)。我們首先基於前沿的DiT圖像到視頻模型預訓練一個強大的2D角色動畫模型,該模型允許任何2D姿態序列作為可控信號。接著,通過引入雙注意力模塊和相機先驗,我們將動畫模型從2D提升至3D,生成具有時空一致性和視角一致性的多視角視頻。最後,我們對這些多視角視頻應用新穎的鄰域約束4D高斯濺射優化,從而獲得連續且穩定的4D角色表示。此外,為提升角色中心性能,我們構建了大規模數據集Character4D,包含13,115個具有多樣外觀和動作的獨特角色,並從多個視角進行渲染。在我們新構建的基準測試CharacterBench上的大量實驗表明,我們的方法優於當前最先進的方法。代碼、模型和數據集將在https://github.com/Jeoyal/CharacterShot公開提供。
擴散式大型語言模型(dLLMs)通過迭代去噪生成文本,然而當前的解碼策略捨棄了豐富的中間預測,僅保留最終輸出。我們的研究揭示了一個關鍵現象——時間振盪,即正確答案常在處理過程中間出現,卻在後續去噪步驟中被覆蓋。為解決這一問題,我們引入了兩種互補的方法來利用時間一致性:1)時間自一致性投票,這是一種無需訓練、在測試時應用的解碼策略,通過聚合去噪步驟中的預測來選擇最一致的輸出;以及2)一種稱為時間一致性強化的訓練後方法,它使用時間語義熵(TSE)——衡量中間預測間語義穩定性的指標——作為獎勵信號,以鼓勵生成穩定的結果。多個基準測試的實證結果證明了我們方法的有效性。僅使用負TSE獎勵,我們在Countdown數據集上觀察到了相較於現有dLLM平均24.7%的顯著提升。結合準確率獎勵,我們在GSM8K、MATH500、SVAMP和Countdown上分別實現了2.0%、4.3%、6.6%和25.3%的絕對增益。我們的研究成果強調了dLLMs中時間動態的未開發潛力,並提供了兩種簡單而有效的工具來利用這些潛力。
近期,大型推理模型展現了強大的數學與編程能力,而深度搜索則利用這些推理能力來應對具有挑戰性的信息檢索任務。現有的深度搜索工作通常局限於單一知識來源,無論是本地還是網絡。然而,企業往往需要能夠同時利用本地和網絡語料庫搜索工具的私有深度搜索系統。直接訓練一個配備多種搜索工具的代理,採用平面強化學習(RL)是一種直觀的想法,但這存在訓練數據效率低下和對複雜工具掌握不足等問題。為解決上述問題,我們提出了一種分層代理深度搜索框架——HierSearch,該框架通過分層RL進行訓練。在底層,訓練一個本地深度搜索代理和一個網絡深度搜索代理,從各自領域檢索證據。在高層,一個規劃代理協調底層代理並提供最終答案。此外,為防止直接答案複製和錯誤傳播,我們設計了一個知識精煉器,過濾掉底層代理返回的幻覺和不相關證據。實驗表明,與平面RL相比,HierSearch在通用、金融和醫療領域的六個基準測試中,均取得了更好的性能,並超越了多種深度搜索和多源檢索增強生成基線。
我們提出了VertexRegen,這是一種新穎的網格生成框架,能夠實現連續細節層次的生成。現有的自回歸方法以部分到完整的方式生成網格,因此生成的中間步驟代表的是不完整的結構。VertexRegen從漸進式網格中汲取靈感,將生成過程重新表述為邊緣摺疊(即頂點分裂)的逆過程,並通過生成模型來學習這一過程。實驗結果表明,VertexRegen生成的網格質量與最先進的方法相當,同時獨特地提供了隨時生成的能力,具有在任何步驟停止以產生具有不同細節層次的有效網格的靈活性。
视觉语言模型已展现出作为计算机使用代理(CUA)的卓越能力,能够自动化执行多样化的计算机任务。随着其商业潜力的增长,最先进的CUA系统的关键细节仍处于封闭状态。鉴于这些代理将越来越多地调解数字交互并代表我们执行重要决策,研究界需要开放获取CUA框架,以研究其能力、局限性和风险。为弥合这一差距,我们提出了OpenCUA,一个全面的开源框架,用于扩展CUA数据和基础模型。我们的框架包括:(1)一个无缝捕捉人类计算机使用演示的标注基础设施;(2)AgentNet,首个跨越3个操作系统和200多个应用程序及网站的大规模计算机使用任务数据集;(3)一个可扩展的管道,将演示转化为状态-动作对,并伴随反思性的长链思维推理,确保随着数据规模的扩大,性能增益持续稳健。我们的端到端代理模型在CUA基准测试中表现出色。特别是,OpenCUA-32B在OSWorld-Verified上实现了34.8%的平均成功率,在开源模型中确立了新的最先进水平(SOTA),并超越了OpenAI的CUA(GPT-4o)。进一步分析证实,我们的方法在跨领域泛化良好,并显著受益于增加的测试时计算。我们发布了标注工具、数据集、代码和模型,为CUA的进一步研究构建开放基础。
圖形用戶界面(GUI)定位任務,即將自然語言指令映射到精確的屏幕座標,是自主GUI代理的基礎。儘管現有方法通過大量監督訓練或帶有標記獎勵的強化學習取得了強勁性能,但它們仍受制於像素級註釋的成本和可用性。我們觀察到,當模型對同一GUI元素生成多個預測時,空間重疊模式揭示了可以指導更精確定位的隱含置信信號。基於這一洞察,我們提出了GUI-RC(區域一致性),這是一種測試時擴展方法,它從多個採樣預測中構建空間投票網格,以識別模型表現出最高一致性的共識區域。在無需任何訓練的情況下,GUI-RC在ScreenSpot基準測試中將各種架構的準確率提高了2-3%。我們進一步引入了GUI-RCPO(區域一致性策略優化),它將這些一致性模式轉化為測試時強化學習的獎勵。通過計算每個預測與集體共識的對齊程度,GUI-RCPO使模型能夠在推理過程中迭代地優化其在未標記數據上的輸出。大量實驗證明了我們方法的通用性:GUI-RC將Qwen2.5-VL-3B-Instruct在ScreenSpot-v2上的準確率從80.11%提升至83.57%,而GUI-RCPO通過自監督優化進一步將其提升至85.14%。我們的方法揭示了測試時擴展和測試時強化學習在GUI定位中的未開發潛力,為構建更健壯且數據高效的GUI代理提供了一條有前景的路徑。
近期關於提升大型語言模型(LLMs)推理能力的研究引入了顯式長度控制作為一種在保持準確性的同時約束計算成本的手段。然而,現有方法依賴於固定長度的訓練預算,未能充分利用學習過程中從探索到壓縮的自然進展。在本研究中,我們提出了一種基於課程學習的長度控制推理策略,使用群組相對策略優化(GRPO)。我們的方法從寬鬆的token預算開始,並在訓練過程中逐步收緊,鼓勵模型首先發現有效的解決策略,然後將其提煉成更簡潔的推理軌跡。我們通過一個獎勵函數來增強GRPO,該函數平衡了三個信號:任務正確性(通過驗證器反饋)、長度效率和格式遵循(通過結構標籤)。在GSM8K、MATH500、SVAMP、College Math和GSM+上的實驗表明,基於課程的訓練在相同的最終預算下始終優於固定預算的基線,實現了更高的準確性和顯著提升的token效率。我們進一步消融了獎勵權重和衰減計劃設計的影響,表明漸進約束作為訓練高效推理模型的強大歸納偏置。我們的代碼和檢查點已發佈於:https://github.com/hammoudhasan/curriculum_grpo。
当前基于音频驱动的虚拟形象视频生成扩散模型在合成长视频时,难以实现自然的音频同步和身份一致性。本文提出了StableAvatar,这是首个端到端的视频扩散Transformer,能够无需后处理即可合成无限长度的高质量视频。StableAvatar以参考图像和音频为条件,整合了定制化的训练和推理模块,以实现无限长度视频的生成。我们观察到,现有模型无法生成长视频的主要原因在于其音频建模方式。这些模型通常依赖第三方现成的提取器来获取音频嵌入,然后通过交叉注意力直接注入扩散模型。由于当前的扩散模型骨干缺乏任何与音频相关的先验知识,这种方法会导致视频片段间潜在分布误差的严重累积,使得后续片段的潜在分布逐渐偏离最优分布。为解决这一问题,StableAvatar引入了一种新颖的时间步感知音频适配器,通过时间步感知调制来防止误差累积。在推理过程中,我们提出了一种新颖的音频原生引导机制,通过利用扩散模型自身演化的联合音频-潜在预测作为动态引导信号,进一步增强音频同步。为了提升无限长度视频的流畅性,我们引入了一种动态加权滑动窗口策略,对潜在信息进行时间上的融合。基准测试实验从定性和定量两方面验证了StableAvatar的有效性。
基於擴散模型和自回歸模型的文本到圖像(T2I)生成技術已得到廣泛研究。最近,掩碼生成變壓器作為自回歸模型的替代方案受到關注,它通過雙向注意力和並行解碼克服了因果注意力和自回歸解碼的固有侷限,實現了高效且高質量的圖像生成。然而,組合式T2I生成仍然具有挑戰性,因為即使是最先進的擴散模型也常常無法準確綁定屬性並實現文本與圖像的正確對齊。雖然擴散模型已針對此問題進行了深入研究,但掩碼生成變壓器在這一背景下表現出類似的侷限性,卻尚未得到探討。為此,我們提出了一種名為「對比注意力引導下的解碼」(UNCAGE)的新穎免訓練方法,該方法利用注意力圖來優先解碼那些清晰代表單個物體的標記,從而提升組合保真度。UNCAGE在多個基準和指標的定量與定性評估中均展現出性能的持續提升,且推理開銷微乎其微。我們的代碼已公開於https://github.com/furiosa-ai/uncage。
我們推出Aryabhata 1.0,這是一個專為印度學術考試——聯合入學考試(JEE)優化的緊湊型7B參數數學推理模型。儘管大型語言模型(LLMs)發展迅速,現有模型往往仍不適合教育用途。Aryabhata 1.0通過融合強大的開源推理模型構建,隨後採用課程學習進行監督微調(SFT),並使用通過最佳n次拒絕採樣精選的驗證過的思維鏈(CoT)軌跡。為了進一步提升性能,我們應用帶有可驗證獎勵的強化學習(RLVR),採用A2C目標與群體相對優勢估計,以及創新的探索策略,如自適應群體大小調整和溫度縮放。 在分佈內(JEE Main 2025)和分佈外(MATH, GSM8K)基準測試中,Aryabhata在準確性和效率上均優於現有模型,同時提供教學上有用的逐步推理。我們將Aryabhata作為基礎模型發布,以推進以考試為中心的開源小型語言模型的發展。這是我們首次公開釋出,旨在收集社區反饋(https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0在Hugging Face上});PW正在積極訓練未來模型,以進一步提高學生的學習成果。
有效使用工具對於大型語言模型(LLMs)與其環境進行有意義的互動至關重要。然而,由於構建穩定訓練環境和設計可驗證獎勵機制的挑戰,專門針對工具使用的強化學習(RL)框架的缺乏限制了這一領域的進展。為解決這一問題,我們提出了一種自動化環境構建流程,該流程結合了場景分解、文檔生成、功能整合、複雜度調整以及本地化部署。這一流程能夠創建高質量的訓練環境,這些環境能夠提供詳細且可量化的反饋,而無需依賴外部工具。此外,我們引入了一種可驗證的獎勵機制,該機制評估工具使用的精確性和任務執行的完整性。當與從構建環境中收集的軌跡數據相結合時,這一機制能夠無縫集成到標準的RL算法中,以促進基於反饋的模型訓練。對不同規模的LLMs進行的實驗表明,無論推理模式或訓練算法如何,我們的方法均能顯著提升模型的工具使用性能,而不損害其一般能力。我們的分析表明,這些性能提升源於模型對上下文理解和推理能力的改善,這是由於模型底層MLP參數的更新所驅動的。
有效的多镜头生成要求有目的性、电影般的过渡和严格的电影连续性。然而,当前的方法往往优先考虑基本的视觉一致性,忽视了推动叙事流畅性的关键编辑模式(如正反打镜头、插入镜头等),这些模式对于引人入胜的叙事至关重要。这导致输出结果可能在视觉上连贯,但缺乏叙事的复杂性和真正的电影完整性。为了弥补这一差距,我们引入了“下一镜头生成”(Next Shot Generation, NSG):合成一个后续的高质量镜头,该镜头严格遵循专业编辑模式,同时保持严谨的电影连续性。我们的框架Cut2Next利用了一种扩散变换器(Diffusion Transformer, DiT),并通过一种新颖的层次化多提示策略进行上下文调优。该策略使用关系提示来定义整体上下文和镜头间的编辑风格,而个体提示则指定每个镜头的内容和电影摄影属性。这些提示共同指导Cut2Next生成电影上合适的下一镜头。架构创新,如上下文感知条件注入(Context-Aware Condition Injection, CACI)和层次化注意力掩码(Hierarchical Attention Mask, HAM),进一步整合了这些多样化的信号,而无需引入新的参数。我们构建了RawCuts(大规模)和CuratedCuts(精炼)两个数据集,均带有层次化提示,并引入了CutBench进行评估。实验表明,Cut2Next在视觉一致性和文本保真度方面表现出色。关键的是,用户研究显示,用户对Cut2Next有强烈的偏好,特别是对其遵循预定编辑模式和整体电影连续性的认可,验证了其生成高质量、叙事表达力强且电影连贯的后续镜头的能力。
一隻能夠通用抓取物件的靈巧手,對於開發通用型具身人工智慧至關重要。然而,以往的方法過於專注於低層次的抓取穩定性指標,忽略了對下游操作至關重要的功能感知定位和類人姿態。為解決這些局限,我們提出了AffordDex,這是一個具有兩階段訓練的新框架,能夠學習一種內在理解運動先驗和物體功能性的通用抓取策略。在第一階段,軌跡模仿器在大量人手運動數據上進行預訓練,以注入自然運動的強先驗。在第二階段,一個殘差模塊被訓練來將這些通用的類人運動適應於特定物體實例。這一精煉過程由兩個關鍵組件引導:我們的負功能感知分割(NAA)模塊,它識別功能不當的接觸區域;以及一個特權師生蒸餾過程,確保最終基於視覺的策略高度成功。大量實驗表明,AffordDex不僅實現了通用的靈巧抓取,而且在姿態上極為類人,在接觸位置上功能適宜。因此,AffordDex在已見物體、未見實例甚至全新類別上均顯著優於最先進的基線方法。
我們首次提出了一種評估框架,使得任何未經微調或專門訓練的本地大型語言模型(LLMs)都能夠完整地進行《外交》遊戲的全壓制模式。由於《外交》遊戲狀態的高度複雜性和信息密度,以往的研究需要依賴前沿的大型語言模型或進行微調。加之比賽結果的高變異性,這些因素使得《外交》成為難以研究的對象。在本研究中,我們採用數據驅動的迭代方法,優化了文本遊戲狀態的表示方式,從而使得一個240億參數的模型能夠在無需任何微調的情況下可靠地完成比賽。我們開發了工具以促進假設檢驗和統計分析,並展示了關於說服力、激進玩法風格以及跨模型性能的案例研究。我們在多種流行的大型語言模型上進行了多樣化的實驗,發現較大的模型表現最佳,但較小的模型仍能勝任遊戲。此外,我們引入了關鍵狀態分析:一種實驗協議,用於快速迭代並深入分析遊戲中的關鍵時刻。我們的框架通過消除對微調的需求,使得對大型語言模型戰略推理能力的評估變得民主化,並提供了這些能力如何從廣泛使用的大型語言模型中自然湧現的洞見。我們的代碼已隨附提供,並將開源。
得益於跨模態模型的發展,文本到視頻檢索(T2VR)正迅速進步,但其魯棒性仍大多未經檢驗。現有的針對T2VR的攻擊旨在將視頻推離查詢,即壓低視頻的排名,而將視頻拉向特定查詢的攻擊,即提升視頻的排名,則大多未被探索。這類攻擊可能更具影響力,因為攻擊者可能獲得更多觀看/點擊以謀取經濟利益並廣泛傳播(錯誤)信息。為此,我們率先提出了一種針對T2VR的攻擊,以對抗性地提升視頻排名,稱之為視頻提升攻擊(ViPro)。我們進一步提出了模態細化(MoRe),以捕捉視覺與文本模態之間更細粒度、更複雜的交互,從而增強黑盒可遷移性。全面的實驗涵蓋了2個現有基線、3個領先的T2VR模型、3個主流數據集,包含超過1萬個視頻,並在3種場景下進行評估。所有實驗均在多目標設置下進行,以反映攻擊者同時針對多個查詢提升視頻排名的現實場景。我們還評估了我們的攻擊在防禦和不可感知性方面的表現。總體而言,在白/灰/黑盒設置下,ViPro平均超越其他基線超過30/10/4%。我們的工作揭示了一個被忽視的脆弱性,提供了對攻擊上下限的定性分析,並為潛在的對策提供了見解。代碼將在https://github.com/michaeltian108/ViPro 公開提供。
本文提出了一种简单而有效的正则化方法,用于改进编码器-解码器自动语音识别(ASR)模型中由解码器诱导的内部语言模型,从而增强模型在域内及域外环境下的鲁棒性与泛化能力。所提出的方法称为“解码器中心的正则化在编码器-解码器中的应用”(DeCRED),通过在解码器中添加辅助分类器,利用中间逻辑值实现下一令牌预测。实验表明,DeCRED相对于11个测试集,将内部语言模型的BPE困惑度平均降低了36.6%。此外,在7个域内测试集中的5个及4个域外测试集中的3个上,该方法相较于基线模型实现了实际词错误率(WER)的改善,分别将宏平均WER从6.4%降至6.3%,以及从18.2%降至16.2%。在TEDLIUM3数据集上,DeCRED取得了7.0%的WER,分别比基线模型和以编码器为中心的InterCTC正则化方法高出0.6%和0.5%。最后,我们将DeCRED与OWSM v3.1及Whisper-medium进行了比较,尽管在更少数据和更少参数的情况下进行训练,DeCRED仍展现出具有竞争力的WER表现。
如GitHub Copilot等AI編碼助手正迅速改變軟件開發的面貌,但其安全性仍存在極大的不確定性——尤其是在網絡安全這類高風險領域。現有的紅隊測試工具往往依賴於固定的基準測試或不切實際的提示,錯過了許多現實世界中的漏洞。我們提出了ASTRA,這是一個自動化代理系統,旨在系統性地揭露AI驅動的代碼生成與安全指導系統中的安全缺陷。ASTRA運作分為三個階段:(1) 它構建結構化的領域特定知識圖譜,以模擬複雜的軟件任務及已知弱點;(2) 在知識圖譜的引導下,對每個目標模型進行在線漏洞探索,自適應地探測其輸入空間(即空間探索)及推理過程(即時間探索);(3) 生成高質量的違規誘導案例,以提升模型的對齊度。與以往方法不同,ASTRA專注於開發者可能實際提出的真實輸入請求,並結合離線抽象引導的領域建模與在線領域知識圖譜適應,來揭示邊緣案例的漏洞。在兩大主要評估領域中,ASTRA發現的問題比現有技術多出11%至66%,其生成的測試案例使對齊訓練效果提升了17%,展現了其在構建更安全AI系統方面的實用價值。
本文提出了一種名為AimBot的輕量級視覺增強技術,該技術通過提供明確的空間線索來改善機器人操作中的視覺運動策略學習。AimBot在多重視角RGB圖像上疊加射擊線和瞄準鏡十字線,提供輔助視覺引導,這些引導編碼了末端執行器的狀態。這些疊加圖像由深度圖像、相機外參以及當前末端執行器姿態計算得出,明確傳達了夾爪與場景中物體之間的空間關係。AimBot僅帶來極小的計算開銷(少於1毫秒),且無需改變模型架構,因為它僅需將原始RGB圖像替換為增強後的版本。儘管方法簡單,我們的結果顯示,AimBot在模擬和現實環境中均能持續提升多種視覺運動策略的性能,凸顯了基於空間的視覺反饋的優勢。
大型語言模型(LLMs)在多個領域展現了卓越的能力,其中代碼生成已成為一個關鍵的研究焦點。儘管已有眾多基準被提出來評估其代碼生成能力,這些基準仍面臨幾項關鍵限制。首先,它們通常依賴於人工註釋,這既耗時又難以在不同編程語言和問題複雜度之間擴展。其次,現有基準大多集中於Python,而少數多語言基準則存在難度有限且語言分佈不均的問題。為應對這些挑戰,我們提出了AutoCodeGen,這是一種無需人工註釋即可生成高難度多語言代碼生成數據集的自動化方法。AutoCodeGen通過利用LLMs生成測試輸入並通過多語言沙箱獲取測試輸出,確保了測試案例的正確性和完整性,同時通過逆向問題生成和多步過濾實現了高數據質量。基於這一新方法,我們引入了AutoCodeBench,這是一個包含3,920個問題、均勻分佈於20種編程語言的大規模代碼生成基準,專門設計用於評估LLMs在具有挑戰性、多樣性及實用性的多語言任務上的表現。我們在AutoCodeBench及其簡化版AutoCodeBench-Lite上評估了超過30個領先的開源和專有LLMs。結果顯示,即便是最先進的LLMs也難以應對這些任務的複雜性、多樣性及多語言特性。此外,我們還推出了專為基礎模型設計的AutoCodeBench-Complete,以評估其少樣本代碼生成能力。我們希望AutoCodeBench系列能成為一項寶貴資源,激勵社區關注更具挑戰性和實用性的多語言代碼生成場景。
大型語言模型(LLMs)在機器翻譯(MT)領域已展現出卓越性能,尤其是在利用上下文學習(ICL)時,其在高資源語言(HRLs)翻譯任務中可與監督模型相媲美。然而,在低資源語言(LRLs)的翻譯上,它們仍顯不足。通過相似性搜索進行示例選擇及監督微調雖有助益,但這些改進受制於現有平行數據集的規模、質量及多樣性。低資源機器翻譯中常見的一種技術是合成平行數據生成,其中最常用的是反向翻譯,即自動將現有的目標語言文本翻譯回源語言。然而,這方法的前提是存在高質量且相關的目標語言文本,而對於許多低資源語言而言,這類文本並不易得。本文介紹了TopXGen,一種基於LLM的方法,用於在多種低資源語言中生成高質量且主題多樣的數據,這些數據隨後可通過反向翻譯產生有用且多樣的平行文本,用於上下文學習和微調。我們的直覺是,儘管LLMs在翻譯成低資源語言時存在困難,但它們在翻譯成高資源語言方面的能力及其多語性使其能夠生成高質量、自然流暢的目標語言文本,這些文本能很好地翻譯回高資源的源語言。我們展示了TopXGen在微調和上下文學習期間顯著提升了LLM的翻譯性能。代碼及輸出結果可在https://github.com/ArmelRandy/topxgen獲取。
尽管大型语言模型的能力日益增强,但期望它们在互联网上代表性不足的任务中表现出色仍然是不合理的。利用LLMs进行专门应用,特别是在小众编程语言和私有领域中,仍然具有挑战性且大部分尚未解决。在本研究中,我们通过提出一种全面的开源方法来解决这一差距,该方法旨在使LLMs适应Q编程语言,这是一种在量化金融中流行的工具,与Python、C、Java等“主流”语言相比,在互联网上的存在感要低得多,因此并非通用AI模型的强项。我们引入了一个新的LeetCode风格的Q评估数据集,在该数据集上对主要前沿模型进行基准测试,然后通过预训练、监督微调和强化学习,基于Qwen-2.5系列训练了一套推理和非推理模型,涵盖五个参数规模(1.5B、3B、7B、14B、32B)。我们的最佳模型在我们的Q基准测试中达到了59%的pass@1准确率,超越了表现最佳的前沿模型Claude Opus-4,领先29.5个百分点。此外,所有模型,甚至我们的1.5B模型,在此任务上都优于GPT-4.1。除了发布模型、代码和数据外,我们还提供了数据集构建、模型预训练、监督微调和强化学习的详细蓝图。我们的方法论具有广泛的适用性,并讨论了这些技术如何扩展到其他任务,包括那些评估可能依赖于软性或主观信号的任务。
針對3D高斯濺射的風格轉換任務,已有許多先前研究進行了探索,但這些方法需要在融入風格資訊或對濺射表示進行特徵提取網絡優化的同時,重建或微調濺射。我們提出了一種無需重建與優化的3D高斯濺射風格化方法。該方法通過在濺射表示的隱式表面上生成圖結構來實現。隨後,採用一種基於表面的前饋風格化技術,並將其插值回場景中的各個濺射。這使得任何風格圖像與3D高斯濺射都能直接使用,無需額外的訓練或優化。此外,該方法還能實現快速的濺射風格化,即使在消費級硬件上也能在2分鐘內完成。我們展示了該方法所達到的質量效果,並與其他3D高斯濺射風格轉換方法進行了比較。相關代碼已公開於https://github.com/davidmhart/FastSplatStyler。
在實際硬體上實現量子博弈論面臨著噪音、退相干以及量子比特連接性有限等挑戰,然而此類實驗驗證對於理論預測的確認至關重要。我們在IBM Quantum的ibm sherbrooke超導處理器上,首次完整實驗實現了基於Eisert-Wilkens-Lewenstein(EWL)框架的“性別之戰”博弈。通過在[0, π]範圍內31個糾纏值γ下,對四種量子策略(I、H、R(π/4)、R(π))進行了每種配置2048次測量的評估,從而實現了理論預測與硬體執行之間的直接比較。為減輕噪音和變異性,我們引入了一種引導式電路映射(GCM)方法,該方法基於實時拓撲和校準數據動態選擇量子比特對並優化路由。理論模型預測相較於經典均衡可帶來高達108%的收益提升,儘管硬體引入了一定偏差,但採用GCM的實驗結果仍將預期收益趨勢的相對誤差控制在3.5%-12%以內。這些發現表明,在現實的NISQ(含噪中尺度量子)條件下,戰略協調中的量子優勢依然能夠保持,為量子博弈論在多智能體、經濟及分佈式決策系統中的實際應用開闢了道路。
理解大型語言模型(LLMs)權重中所編碼的偏見與刻板印象,對於制定有效的緩解策略至關重要。偏見行為往往微妙且難以孤立,即便刻意誘發,系統性分析與去偏見仍面臨特別挑戰。為此,我們引入了BiasGym,這是一個簡單、成本效益高且可推廣的框架,用於可靠地注入、分析並緩解LLMs內的概念關聯。BiasGym由兩部分組成:BiasInject,通過基於令牌的微調將特定偏見注入模型,同時保持模型凍結;以及BiasScope,利用這些注入的信號來識別並引導負責偏見行為的組件。我們的方法支持一致的偏見誘發以進行機制分析,實現有針對性的去偏見而不降低下游任務的性能,並能推廣至訓練期間未見的偏見。我們展示了BiasGym在減少現實世界刻板印象(例如,某國人為“魯莽駕駛者”)及探測虛構關聯(例如,某國人擁有“藍色皮膚”)方面的有效性,證明了其在安全干預與可解釋性研究中的實用性。
紅血球(RBCs)對人體健康至關重要,其精確的形態學分析對於診斷血液疾病具有重要意義。儘管基礎模型在醫學診斷中展現出潛力,但針對紅血球分析的全面人工智慧解決方案仍顯稀缺。本文介紹了RedDino,這是一種專為紅血球影像分析設計的自監督基礎模型。RedDino採用了針對紅血球特徵的DINOv2自監督學習框架改進版,並基於精心挑選的125萬張來自不同採集方式和來源的紅血球影像數據集進行訓練。廣泛的評估表明,RedDino在紅血球形態分類任務上超越了現有的頂尖模型。通過包括線性探測和最近鄰分類在內的多項測試,我們確認了其強大的特徵表示能力和泛化性能。我們的主要貢獻包括:(1)專為紅血球分析定制的基礎模型,(2)探索DINOv2配置用於紅血球建模的消融研究,以及(3)對泛化性能的詳細評估。RedDino通過捕捉細微的形態特徵,解決了計算血液學中的關鍵挑戰,推動了可靠診斷工具的發展。RedDino的源代碼及預訓練模型可在https://github.com/Snarci/RedDino獲取,預訓練模型亦可從我們的Hugging Face集合https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc下載。
城市化、氣候變遷和農業壓力正日益增加對精確及時環境監測的需求。地表溫度(LST)是此背景下的一個關鍵變量,並通過遙感衛星進行反演。然而,這些系統面臨著空間與時間分辨率之間的權衡。雖然時空融合方法提供了有前景的解決方案,但少有方法能夠實現每日10米分辨率的LST估算。在本研究中,我們提出了WGAST,一種基於Terra MODIS、Landsat 8和Sentinel-2時空融合的弱監督生成網絡,用於每日10米LST估算。WGAST是首個為此任務設計的端到端深度學習框架。它採用了條件生成對抗架構,其生成器由四個階段組成:特徵提取、融合、LST重建和噪聲抑制。第一階段使用一組編碼器從輸入中提取多層次潛在表示,這些表示隨後在第二階段通過餘弦相似度、歸一化和時間注意力機制進行融合。第三階段將融合特徵解碼為高分辨率LST,接著使用高斯濾波器抑制高頻噪聲。訓練遵循基於物理平均原則的弱監督策略,並通過PatchGAN判別器進行強化。實驗表明,WGAST在定量和定性評估中均優於現有方法。與表現最佳的基線相比,WGAST平均降低了17.18%的RMSE,並提高了11.00%的SSIM。此外,WGAST對雲導致的LST具有魯棒性,並能有效捕捉細尺度熱模式,這一點已通過33個地面傳感器得到驗證。代碼可在https://github.com/Sofianebouaziz1/WGAST.git獲取。
大型語言模型(LLMs)的持續學習能力對於推進人工通用智能至關重要。然而,跨多個領域對LLMs進行持續微調往往會遭遇災難性遺忘,其特徵表現為:1)對其通用能力的顯著遺忘,以及2)在先前學習任務中的性能急劇下降。為以簡單而穩定的方式同時解決這兩個問題,我們提出了通用樣本回放(GeRe)框架,該框架利用常規的預訓練文本來實現高效的反遺忘。在GeRe框架下重新審視最普遍的回放實踐之外,我們進一步利用神經狀態引入了一種基於閾值邊際(TM)損失的增強激活狀態約束優化方法,該方法在回放學習過程中保持激活狀態的一致性。我們首次驗證,一小組固定且預先收集的通用回放樣本足以解決這兩個問題——既保留通用能力,又提升在序列任務中的整體性能。事實上,前者本質上能夠促進後者。通過對照實驗,我們系統地比較了GeRe框架下TM與不同回放策略的性能,包括基於標籤擬合的原始方法、通過KL散度進行的logit模仿以及通過L1/L2損失進行的特徵模仿。結果表明,TM持續提升性能並展現出更好的魯棒性。我們的工作為未來LLMs的高效回放鋪平了道路。我們的代碼和數據可在https://github.com/Qznan/GeRe獲取。
当前针对大型语言模型(LLMs)的数学推理基准测试正趋于饱和,部分测试的准确率已超过90%,但训练集污染问题日益严重。为此,我们推出了Putnam-AXIOM基准,该基准包含522道来自享有盛誉的威廉·洛厄尔·普特南数学竞赛的大学级别竞赛题目,以及Putnam-AXIOM变体集,这是一个由100道功能变体组成的未见过的配套集,这些变体通过程序化地扰动变量和常数生成。这一变体协议能够产生无限数量的难度相当、未经见过的实例,从而构建了一个抗污染测试平台。在原始集上,OpenAI的o1-preview——评估中最强的模型——得分为41.9%,但在配对的变体集上,其准确率下降了19.6%(相对减少46.8%)。其余十八个模型也呈现出相同的下降趋势,其中十个模型的95%置信区间无重叠。这些差距暗示了记忆效应,并强调了动态基准的必要性。我们以“盒装”准确率为基础,补充了教师强制准确率(TFA),这是一种轻量级指标,直接对推理轨迹评分并自动化自然语言证明评估。因此,Putnam-AXIOM为评估LLMs的高级数学推理能力提供了一个严谨、抗污染的评估框架。数据和评估代码已公开于https://github.com/brando90/putnam-axiom。
地球表面不斷變化,偵測這些變化能為人類社會的各個方面提供寶貴的洞察。雖然傳統的變化偵測方法已被用於從雙時態影像中偵測變化,但這些方法通常需要專家知識才能進行準確解讀。為了讓非專業用戶能更廣泛且靈活地獲取變化資訊,變化偵測視覺問答(CDVQA)任務應運而生。然而,現有的CDVQA方法是在訓練與測試資料集具有相似分佈的假設下開發的,這一假設在現實應用中並不成立,因為領域轉移經常發生。本文重新審視了CDVQA任務,重點關注解決領域轉移問題。為此,引入了一個新的多模態多領域資料集BrightVQA,以促進CDVQA中的領域泛化研究。此外,提出了一種新穎的狀態空間模型,稱為文本條件狀態空間模型(TCSSM)。TCSSM框架旨在統一利用雙時態影像與地理災害相關的文本資訊,跨領域提取領域不變特徵。TCSSM中存在的輸入依賴參數通過雙時態影像和地理災害相關描述動態預測,從而促進雙時態視覺資料與相關文本描述之間的對齊。進行了大量實驗,將所提方法與最先進的模型進行評估,並一致展示了其優越性能。程式碼和資料集將在https://github.com/Elman295/TCSSM上公開,以備接受後使用。
隨著卷積神經網絡和基於Transformer的神經網絡的發展,藝術風格遷移技術早已成為可能。大多數算法將藝術風格遷移應用於整幅圖像,但個別用戶可能僅需對圖像中的特定區域進行風格遷移。標準做法是在風格化後簡單地對圖像進行遮罩處理。本研究表明,這種方法往往無法正確捕捉感興趣區域的風格特徵。我們提出了一種基於部分卷積的風格遷移網絡,能夠精確地將風格特徵僅應用於感興趣區域。此外,我們還提出了網絡內部融合技術,以應對區域選擇中的不完美之處。我們通過SA-1B數據集中的示例展示,這種方法在視覺和量化上都提升了風格化效果。代碼已公開於https://github.com/davidmhart/StyleTransferMasked。
副語言發聲——包括如笑聲和呼吸等非言語聲音,以及如“嗯”和“哦”等詞彙化的感嘆詞——是自然口語交流中不可或缺的部分。儘管這些提示在傳達情感、意圖和互動信號方面具有重要意義,但在傳統的自動語音識別(ASR)和文本轉語音(TTS)系統中,這些提示大多被忽視。我們提出了NVSpeech,這是一個集成且可擴展的管道,它橋接了副語言發聲的識別與合成,涵蓋了數據集構建、ASR建模和可控的TTS。(1)我們引入了一個手動標註的數據集,包含48,430條人類語音發聲,涉及18個詞彙級別的副語言類別。(2)我們開發了副語言感知的ASR模型,該模型將副語言提示視為內聯可解碼的標記(例如,“你真有趣[笑聲]”),從而實現詞彙和非言語的聯合轉錄。該模型隨後用於自動標註一個大型語料庫,這是首個大規模的中文數據集,包含174,179條發聲(573小時),並帶有詞彙級別的對齊和副語言提示。(3)我們在人工標註和自動標註的數據上微調零樣本TTS模型,以實現對副語言發聲的顯式控制,允許在任意標記位置進行上下文感知的插入,以實現類人語音合成。通過統一副語言發聲的識別與生成,NVSpeech提供了首個開放、大規模、詞彙級別標註的管道,用於普通話表達性語音建模,以可擴展和可控的方式整合了識別與合成。數據集和音頻演示可在https://nvspeech170k.github.io/獲取。