每日精選AI研究論文及翻譯
通用人工智能代理正日益被視為下一代人工智慧的基礎框架,其具備複雜推理、網絡互動、編程及自主研究的能力。然而,現有的代理系統要麼是閉源的,要麼嚴重依賴於多種付費API和專有工具,這限制了研究界的可訪問性和可重現性。在本研究中,我們介紹了Cognitive Kernel-Pro,這是一個完全開源且(在最大程度上)免費的多模塊代理框架,旨在普及高級AI代理的開發與評估。在Cognitive Kernel-Pro中,我們系統地探討了為代理基礎模型策劃高質量訓練數據的方法,專注於在四個關鍵領域——網絡、文件、代碼和通用推理——構建查詢、軌跡和可驗證答案。此外,我們探索了代理測試時反思與投票的新策略,以增強代理的魯棒性和性能。我們在GAIA上對Cognitive Kernel-Pro進行了評估,取得了開源和免費代理中的頂尖成果。值得注意的是,我們的8B參數開源模型超越了之前領先的系統,如WebDancer和WebSailor,為可訪問的高能力AI代理樹立了新的性能標準。代碼可在https://github.com/Tencent/CognitiveKernel-Pro獲取。
擴散式大型語言模型(DLLMs)正逐漸成為主導的自回歸大型語言模型的有力替代方案,提供高效的並行生成能力和強大的全局上下文建模能力。然而,DLLMs的實際應用受到一個關鍵架構限制的阻礙:需要靜態預定義的生成長度。這種靜態長度分配導致了一個棘手的權衡:長度不足會嚴重影響複雜任務的性能,而過長的長度則會帶來顯著的計算開銷,有時甚至導致性能下降。儘管推理框架是固定的,我們觀察到模型本身具有與特定任務最佳回應長度相關的內部信號。為彌補這一差距,我們利用這些潛在信號,引入了DAEDAL,這是一種新穎的免訓練去噪策略,實現了擴散式大型語言模型的動態自適應長度擴展。DAEDAL分兩個階段運作:1)在去噪過程之前,DAEDAL從一個較短的初始長度開始,並根據序列完成度指標迭代擴展至粗略的任務適宜長度。2)在去噪過程中,DAEDAL通過插入掩碼標記來精確定位並擴展生成不足的區域,確保最終輸出完全發展。在DLLMs上的大量實驗表明,DAEDAL的性能與精心調校的固定長度基線相當,在某些情況下甚至更優,同時通過實現更高的有效標記比率來提升計算效率。通過解決靜態長度限制,DAEDAL釋放了DLLMs的新潛力,彌補了與自回歸模型之間的關鍵差距,為更高效、更強大的生成鋪平了道路。
当前扩散变换器的成功在很大程度上依赖于由预训练变分自编码器(VAE)塑造的压缩潜在空间。然而,这种两阶段训练范式不可避免地引入了累积误差和解码伪影。为解决上述问题,研究人员以复杂的级联管道和增加的标记复杂性为代价,回归到像素空间。与他们的努力形成对比,我们提出利用神经场建模逐块解码,并展示了一种单尺度、单阶段、高效的端到端解决方案,称为像素神经场扩散(PixelNerd)。得益于PixNerd中高效的神经场表示,我们无需任何复杂的级联管道或VAE,直接在ImageNet 256×256上实现了2.15的FID,在ImageNet 512×512上实现了2.84的FID。我们还将PixNerd框架扩展至文本到图像应用。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的总体得分,在DPG基准测试中取得了80.9的总体得分。
大型视觉语言模型(VLMs)在二维视觉理解任务中取得了显著进展,激发了将这些能力扩展到三维场景理解的兴趣。然而,当前的三维VLMs由于高质量空间数据的限制以及视角假设的静态性,往往在稳健推理和泛化方面表现不佳。为应对这些挑战,我们提出了3D-R1,一个旨在增强三维VLMs推理能力的基础模型。具体而言,我们首先利用现有的三维VL数据集和基于Gemini 2.5 Pro的数据引擎,构建了一个包含因果推理链(CoT)的高质量合成数据集,命名为Scene-30K,作为3D-R1的冷启动初始化数据。此外,我们在强化学习训练过程中采用了如GRPO等RLHF策略,以增强推理能力,并引入了三种奖励函数:感知奖励、语义相似性奖励和格式奖励,以确保检测准确性和回答语义的精确性。进一步地,我们提出了一种动态视角选择策略,自适应地选取对三维场景理解最具信息量的视角。大量实验表明,3D-R1在多个三维场景基准测试中平均提升了10%,凸显了其在增强三维场景理解中的推理与泛化能力的有效性。代码:https://github.com/AIGeeksGroup/3D-R1。网站:https://aigeeksgroup.github.io/3D-R1。
近期,大型語言模型(LLM)代理在軟件問題解決方面取得了顯著進展,這得益於多代理協作和蒙特卡洛樹搜索(MCTS)等先進技術的應用。然而,現有的代理如同無記憶的探索者,將每個問題視為獨立事件,未能保留或重用先前修復經驗中的知識。這導致了對失敗路徑的重複探索,並錯失了將成功解決方法應用於類似問題的機會。為解決這一問題,我們引入了SWE-Exp,這是一種經驗增強型方法,它從先前的代理軌跡中提煉出簡潔且可操作的經驗,實現了跨問題的持續學習。我們的方法引入了一個多維度的經驗庫,既捕捉成功的修復嘗試,也記錄失敗的案例。具體而言,它從不同層面提取可重用的問題解決知識——從高層次的問題理解到具體的代碼變更。實驗表明,在開源代理框架下,SWE-Exp在SWE-bench-Verified上達到了41.6%的Pass@1解決率,處於領先水平。我們的方法建立了一種新範式,使自動化軟件工程代理能夠系統地積累並利用修復專業知識,從根本上實現了從試錯探索到戰略性、經驗驅動的問題解決的轉變。
得益於大型語言模型(LLMs)的先進推理能力,問題解決已取得了顯著進展。最近,基於代理的框架(如SWE-agent)通過使自主工具使用代理能夠處理複雜的軟件工程任務,進一步推動了這一進展。雖然現有的基於代理的問題解決方法主要依賴於代理的獨立探索,但它們往往陷入局部解決方案,無法識別跨代碼庫不同部分的問題模式。為解決這一局限,我們提出了SWE-Debate,這是一個競爭性的多代理辯論框架,旨在鼓勵多樣化的推理路徑並實現更為統一的問題定位。SWE-Debate首先通過遍歷代碼依賴圖創建多個故障傳播軌跡作為定位提案。然後,它組織了一場三輪辯論,由專門的代理參與,每個代理沿著故障傳播軌跡體現不同的推理視角。這種結構化的競爭使代理能夠協作地收斂於一個統一的修復計劃。最後,這個統一的修復計劃被整合到基於蒙特卡洛樹搜索(MCTS)的代碼修改代理中,用於生成補丁。在SWE-bench基準測試上的實驗表明,SWE-Debate在開源代理框架中取得了新的最先進成果,並大幅超越了基線方法。
评估大型语言模型(LLMs)的对话能力仍是一项具有挑战性的任务。当前主流方法主要依赖于“LLM作为评判者”的范式,即通过提示一个LLM充当评估者来评判对话质量。然而,此类方法常受多种偏见影响,从而削弱了评估结果的可靠性与一致性。为缓解这些偏见,近期研究采用多个LLM作为评判者,并汇总其判断以选出最优评估。尽管有效,这种多评判者方法在推理过程中带来了显著的计算开销。本文提出了一种高效的多轮对话评估器,通过将多个LLM评判者的偏好知识聚合至单一模型中,捕捉其集体智慧。我们的方法在保留多样化多评判者反馈优势的同时,大幅降低了评估成本,实现了快速且灵活的对话质量评估。在七个单评分及成对比较对话评估基准上的广泛实验表明,本方法在多种场景下均优于现有基线,展现了其效率与鲁棒性。
大型語言模型的最新進展推動了多模態LLM(MLLM)的發展,這些模型將文本、語音和視覺整合在統一的框架中。隨著MLLM從狹窄的、單語言的、任務特定的系統演變為通用指令跟隨模型,一個關鍵的前沿在於評估其在長短上下文中的多語言和多模態能力。然而,現有的基準在聯合評估這些維度方面存在不足:它們通常僅限於英語,大多一次只關注單一模態,依賴於短形式的上下文,或缺乏人工註釋——這阻礙了對模型在語言、模態和任務複雜性方面性能的全面評估。為解決這些不足,我們引入了MCIF(多模態跨語言指令跟隨),這是第一個基於科學講座的多語言人工註釋基準,旨在評估跨語言、多模態設置中對短形式和長形式輸入的指令跟隨能力。MCIF涵蓋了三個核心模態——語音、視覺和文本——以及四種多樣化的語言(英語、德語、意大利語和中文),從而能夠全面評估MLLM在跨語言解釋指令並將其與多模態上下文信息結合的能力。MCIF以CC-BY 4.0許可證發布,以鼓勵MLLM開發中的開放研究和進展。
多模態指稱分割旨在基於文本或音頻格式的指稱表達,對視覺場景中的目標物體進行分割,這些場景包括圖像、視頻和3D場景。此任務在需要根據用戶指令精確感知物體的實際應用中扮演著至關重要的角色。在過去十年中,得益於卷積神經網絡、變壓器模型以及大型語言模型的進步,多模態感知能力得到了顯著提升,從而使得這一領域在多模態社區中獲得了廣泛關注。本文對多模態指稱分割進行了全面的綜述。我們首先介紹了該領域的背景,包括問題定義和常用數據集。接著,我們總結了指稱分割的統一元架構,並回顧了在圖像、視頻和3D場景這三大主要視覺場景中的代表性方法。我們進一步探討了廣義指稱表達(GREx)方法,以應對現實世界複雜性的挑戰,同時也涉及相關任務和實際應用。此外,我們還提供了在標準基準上的廣泛性能比較。我們持續在https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation 上追踪相關工作。
音訊驅動的視訊生成旨在合成與輸入音訊錄音相符的真實視訊,類似於人類從聽覺輸入中視覺化場景的能力。然而,現有方法主要集中於探索語義信息,例如音訊中聲源的類別,這限制了它們生成具有準確內容和空間構成的視訊的能力。相比之下,我們人類不僅能自然地識別聲源的語義類別,還能確定其深層編碼的空間屬性,包括位置和移動方向。這些有用的信息可以通過考慮源自聲音固有物理特性(如響度或頻率)的特定空間指標來闡明。由於先前的方法大多忽略了這一因素,我們提出了SpA2V,這是第一個明確利用音訊中的空間聽覺線索來生成具有高語義和空間對應性的視訊的框架。SpA2V將生成過程分解為兩個階段:1)音訊引導的視訊規劃:我們精心調整了一種最先進的多模態大語言模型(MLLM),用於從輸入音訊中提取空間和語義線索來構建視訊場景佈局(VSLs)的新任務。這作為一種中間表示,彌合了音訊和視訊模態之間的差距。2)基於佈局的視訊生成:我們開發了一種高效且有效的方法,將VSLs作為條件指導無縫整合到預訓練的擴散模型中,從而實現基於VSL的視訊生成,且無需額外訓練。大量實驗表明,SpA2V在生成與輸入音訊語義和空間對齊的真實視訊方面表現出色。
大型语言模型(LLMs)在生成与人类写作极为相似的文本方面展现了卓越的能力。然而,它们常常生成事实错误的陈述,这一问题通常被称为“幻觉”。解决幻觉问题对于提升LLMs的可靠性和有效性至关重要。尽管大量研究聚焦于英语中的幻觉现象,本研究将这一探讨扩展至三种语言的对话数据:印地语、波斯语和普通话。我们提供了一份数据集的全面分析,以考察GPT-3.5、GPT-4o、Llama-3.1、Gemma-2.0、DeepSeek-R1及Qwen-3在这些语言中的事实错误与语言错误。研究发现,LLMs在普通话中产生的幻觉回应极少,而在印地语和波斯语中则生成了显著更多的幻觉内容。
以图像为目标的视觉导航是一个基础且具挑战性的问题。传统方法要么依赖于端到端的强化学习(RL),要么采用基于模块化策略,以拓扑图或鸟瞰图(BEV)作为记忆,这些方法无法充分建模已探索的三维环境与目标图像之间的几何关系。为了在三维空间中高效且精确地定位目标图像,我们构建了基于可渲染三维高斯(3DGS)表示的导航系统。然而,由于3DGS优化的计算强度以及六自由度(6-DoF)相机姿态的大搜索空间,在智能体探索过程中直接利用3DGS进行图像定位效率极低。为此,我们提出了IGL-Nav,一种增量式三维高斯定位框架,用于实现高效且三维感知的图像目标导航。具体而言,我们随着新图像的到来,通过前馈单目预测逐步更新场景表示。随后,我们利用几何信息进行离散空间匹配,粗略定位目标,这一过程可等效于高效的三维卷积。当智能体接近目标时,我们最终通过可微分渲染优化求解精细的目标姿态。所提出的IGL-Nav在多种实验配置下均大幅超越了现有最先进方法。它还能应对更具挑战性的自由视角图像目标设定,并可在现实世界机器人平台上部署,使用手机在任意姿态下捕捉目标图像。项目页面:https://gwxuan.github.io/IGL-Nav/。
尽管人工智能在生成文本、音频、图像和视频方面表现出色,但创造如电子游戏等互动视听内容仍面临挑战。当前的大型语言模型(LLMs)能够生成JavaScript游戏和动画,但缺乏自动化的评估指标,且在处理通常需要人类团队耗时数月(多镜头、多代理)使用艺术家制作的资产来完成的复杂内容时显得力不从心。为解决这些问题,我们构建了一套新的评估指标和一个多代理系统。 我们提出了AVR-Eval,这是一种利用音频视频记录(AVRs)来相对评估多媒体内容质量的指标。一个全模态模型(处理文本、视频和音频)比较两种内容的AVRs,并由一个文本模型审查评估结果以确定优劣。我们展示了AVR-Eval能够准确区分优质内容与破损或不匹配的内容。 我们开发了AVR-Agent,这是一个从多媒体资产库(音频、图像、3D模型)生成JavaScript代码的多代理系统。编码代理选择相关资产,生成多个初始代码版本,使用AVR-Eval识别最佳版本,并通过来自AVR的全模态代理反馈迭代改进。 我们在游戏和动画上进行了实验,使用AVR-Eval(内容A对B的胜率)进行评估。我们发现,由AVR-Agent生成的内容相较于一次性生成的内容具有显著更高的胜率。然而,模型在有效利用定制资产和AVR反馈方面存在困难,未能展现出更高的胜率。这揭示了一个关键差距:虽然人类能够从高质量资产和视听反馈中获益,但当前的编码模型似乎未能同样有效地利用这些资源,凸显了人类与机器在内容创作方法上的根本差异。