每日精選AI研究論文及翻譯
记忆对于人工智能代理至关重要,然而广泛采用的静态记忆,旨在预先创建随时可用的记忆,不可避免地会遭受严重的信息损失。为解决这一局限,我们提出了一种名为通用代理记忆(GAM)的新框架。GAM遵循“即时编译(JIT)”原则,在运行时专注于为其客户端创建优化的上下文,同时在离线阶段仅保留简单但有用的记忆。为此,GAM采用了一种双重设计,包含以下组件:1)记忆器,通过轻量级记忆突出关键历史信息,同时在通用页面存储中维护完整的历史信息;2)研究者,根据预先构建的记忆,从页面存储中检索并整合有用信息以响应在线请求。这一设计使GAM能够有效利用前沿大型语言模型(LLMs)的代理能力和测试时扩展性,同时通过强化学习促进端到端的性能优化。在我们的实验研究中,我们展示了GAM在各种基于记忆的任务完成场景中相较于现有记忆系统取得的显著改进。
人類能透過學習不同世界中的潛在規則,自然適應具有差異化動力機制、觀測模式與獎勵結構的多樣環境。相比之下,現有智能體通常通過在單一領域內自我演化來實現改進,這種方式隱含地假設了固定的環境分佈。跨環境學習能力至今仍缺乏系統性衡量標準:既沒有可控異質環境的標準集合,也缺乏統一表徵智能體學習過程的方法。我們通過兩個步驟解決這些不足:首先提出AutoEnv自動化框架,將環境視為可因子化的狀態轉移、觀測與獎勵分佈,實現低成本(平均4.12美元)生成異質世界。基於AutoEnv構建的AutoEnv-36數據集包含36個環境共358個驗證關卡,七個語言模型在該數據集上僅獲得12-49%的標準化獎勵,證明了AutoEnv-36的挑戰性。其次,我們將智能體學習形式化為以組件為核心的過程,包含選擇、優化、評估三個階段作用於可改進的智能體組件。據此設計八種學習方法並在AutoEnv-36上評估,實證顯示單一學習方法的增益隨環境數量增加迅速衰減,表明固定學習策略難以適應異質環境擴展。雖然環境自適應的學習方法選擇能顯著提升性能,但隨策略空間擴展會出現收益遞減現象。這些結果既揭示了實現可擴展跨環境泛化的必要性,也凸顯了當前智能體學習的侷限性,從而確立AutoEnv與AutoEnv-36作為研究跨環境智能體學習的基準平臺。程式碼已開源於https://github.com/FoundationAgents/AutoEnv。
像素擴散技術旨在以端到端方式直接在像素空間中生成圖像。這種方法避免了兩階段潛在擴散中VAE的局限性,提供了更高的模型容量。現有的像素擴散模型存在訓練和推理速度緩慢的問題,因為它們通常使用單一擴散轉換器同時建模高頻信號和低頻語義。為追求更高效的像素擴散範式,我們提出頻率解耦像素擴散框架。基於分離高低頻分量生成的直覺思路,我們採用輕量級像素解碼器在擴散轉換器的語義引導下生成高頻細節,從而使擴散轉換器專注於低頻語義建模。此外,我們引入頻率感知流匹配損失函數,強調視覺顯著頻率同時抑制次要頻率。大量實驗表明,DeCo在像素擴散模型中實現卓越性能,在ImageNet數據集上分別達到1.62(256×256)和2.22(512×512)的FID分數,縮小了與潛在擴散方法的差距。我們的預訓練文生圖模型在系統級比較中更以0.86的綜合得分在GenEval基準上保持領先。代碼已開源於https://github.com/Zehong-Ma/DeCo。
深度研究模型透過多步驟研究來產生長篇且具備完善引證的答案。然而,多數開源深度研究模型是透過帶有可驗證獎勵的強化學習(RLVR)在易於驗證的短問答任務上訓練而成,這種方法無法擴展到現實中的長篇任務。我們提出「動態評量標準強化學習」(RLER)來解決此問題:在訓練過程中建立並維護與策略模型共同演進的評量標準,使評量標準能整合模型新探索的資訊,並提供具區分度的同策略反饋。運用RLER技術,我們開發出Deep Research Tulu(DR Tulu-8B),這是首個直接針對開放式長篇深度研究任務訓練的開源模型。在科學、醫療和通用領域的四項長篇深度研究基準測試中,DR Tulu不僅大幅超越現有開源深度研究模型,更達到或超越專有深度研究系統的表現,同時模型體積更小且單次查詢成本顯著降低。為推動未來研究,我們公開所有資料、模型與程式碼,包含專為深度研究系統設計的新型MCP代理基礎架構。
電腦使用代理(CUA)正日益具備透過圖形用戶界面(GUI)自主操作數位環境的能力。然而,大多數GUI仍主要為人類設計——優先考慮美觀性和可用性——這迫使代理採取人類導向的行為模式,但這些行為對高效執行任務並非必要。與此同時,面向編碼的語言模型(Coder)快速發展,正在變革自動化GUI設計。這引發了一個根本性問題:能否以CUA作為評判者來輔助Coder進行自動化GUI設計?為探究此問題,我們推出AUI-Gym——一個涵蓋52個跨領域應用的自動化GUI開發基準測試平台。利用語言模型,我們合成了模擬真實場景的1560項任務。為確保任務可靠性,我們進一步開發了可程式化驗證器,用於檢查每項任務是否能在對應環境中執行。基於此,我們提出「編碼者-代理協作」框架:Coder擔任設計師角色,生成並修改網站;CUA則作為評判者,評估功能性並優化設計。成功標準並非視覺效果,而是任務可解決性與CUA導航成功率。為將CUA反饋轉化為可行指導,我們設計了CUA儀表板,將多步驟導航歷程壓縮為簡明視覺摘要,為迭代重設計提供可解釋的指引。通過讓代理同時擔任設計者與評判者,我們的框架將介面設計推向以代理為本源的效率與可靠性。此研究推動代理從被動使用轉向主動參與數位環境。我們的程式碼與數據集已公開於:https://github.com/showlab/AUI。
擴散轉換器近期在1K解析度的文字生成圖像任務中表現卓越,但我們發現將其原生擴展至4K解析度並涵蓋多樣縱橫比時,會暴露出一個涉及位置編碼、VAE壓縮與最佳化過程的緊密耦合失效模式。單獨解決任一因素仍會導致大量品質損失。因此我們採用數據-模型協同設計視角,提出基於Flux架構的UltraFlux擴散轉換器:其原生支援4K訓練,並採用具備多縱橫比控制覆蓋的百萬級4K圖像數據集MultiAspect-4K-1M,該數據集同時包含雙語描述文本以及豐富的視覺語言模型/圖像品質評估元數據,可實現解析度與縱橫比感知的取樣策略。在模型層面,UltraFlux整合四大創新:(i) 採用Resonance二維旋轉位置編碼與YaRN技術,實現訓練窗口感知、頻率感知及縱橫比感知的4K位置編碼;(ii) 透過簡潔的非對抗式VAE訓練後優化方案提升4K重建保真度;(iii) 設計信噪比感知的Huber小波目標函數,重新平衡時間步與頻帶間的梯度分佈;(iv) 建立階段式美學課程學習策略,將高美學標準的監督集中於模型先驗主導的高噪聲階段。這些組件共同構建出穩定且細節保留能力強的4K擴散轉換器,可泛化應用於寬屏、方屏與豎屏等多元縱橫比場景。在4096解析度的Aesthetic-Eval基準測試與多縱橫比4K設定下,UltraFlux在保真度、美學品質與語意對齊指標上持續超越主流開源模型,若搭配大型語言模型提示詞優化器,其表現更可媲美或超越專有模型Seedream 4.0。
近期,大規模視訊生成模型展現出強大的視覺能力,能夠根據當前觀測的邏輯與物理線索預測未來影格。本研究探討如何將此能力應用於可控式圖像轉視訊生成,透過將影格內嵌的視覺訊號解讀為指令,此範式我們稱之為「影格內視覺指令」。相較於基於文字提示的控制方式(其提供的文字描述本質上具有全域性與粗略性),影格內視覺指令透過疊加文字、箭頭或軌跡等元素,將使用者引導直接編碼於視覺領域。藉由為不同物件分配專屬指令,此方法能在視覺主體與預期動作之間建立明確、空間感知且無歧義的對應關係。在Veo 3.1、Kling 2.5及Wan 2.2三款尖端生成器上的大量實驗表明,視訊模型能可靠解讀並執行此類視覺內嵌指令,尤其在複雜多物件場景中表現突出。
扩展测试时计算量能够提升大语言模型(LLM)在不同任务上的表现,这一策略已被延伸至工具增强型智能体领域。对于这类智能体而言,扩展不仅涉及基于标记的"思考",还包括通过工具调用的"行动"。工具调用次数直接制约着智能体与外部环境的交互能力。然而我们发现,单纯增加工具调用预算并不能提升性能,因为智能体缺乏"预算意识"会很快触及性能天花板。为解决这一问题,我们研究如何在明确工具调用预算下有效扩展此类智能体,重点关注网络搜索智能体。我们首先提出预算追踪器——一种轻量级插件,可为智能体提供持续的预算意识,实现简单而有效的扩展。进一步我们开发了BATS(预算感知的测试时扩展框架),该先进框架利用预算意识动态调整其规划与验证策略,根据剩余资源决定是"深入挖掘"有潜力的线索,还是"转向"新路径。为系统分析成本与性能的缩放关系,我们建立了统一成本度量标准,同步考量标记消耗与工具消耗。我们首次对预算约束下的智能体进行系统性研究,表明具备预算意识的方法能产生更优的缩放曲线,并推动成本-性能帕累托边界外移。本研究通过实证分析为工具增强型智能体的扩展机制提供了更透明、更系统化的理解路径。
視覺語言模型(VLMs)在語言空間的推理方面表現卓越,但在需要密集視覺感知的認知理解(例如空間推理與幾何意識)方面仍存在侷限。此限制源於當前VLMs缺乏有效機制來捕捉跨空間維度的密集視覺資訊。我們提出「視覺思維鏈」(COVT)框架,使VLMs不僅能透過語言推理,更能透過連續視覺標記——一種編碼豐富感知線索的緊湊潛在表徵——進行思考。在約20個標記的有限預算內,COVT從輕量級視覺專家模型中提煉知識,捕捉如二維外觀、三維幾何、空間佈局與邊緣結構等互補特徵。訓練過程中,搭載COVT的VLM透過自回歸方式預測這些視覺標記,以重建密集監督信號(如深度圖、分割圖、邊緣特徵與DINO特徵)。推理階段,模型直接在連續視覺標記空間中進行推理,在保持效率的同時可選解碼生成密集預測以提升可解釋性。在超過十項多元感知基準測試(含CV-Bench、MMVP、RealWorldQA、MMStar、WorldMedQA與HRBench)中驗證,將COVT整合至Qwen2.5-VL與LLaVA等強效VLMs後,性能持續提升3%至16%,證明緊湊的連續視覺思維能實現更精準、紮根且可解釋的多模態智能。
我们推出混元视频1.5——一款轻量而强大的开源视频生成模型。该模型仅需83亿参数即可实现业界顶尖的视觉质量与运动连贯性,并能在消费级GPU上高效推理。这一成果基于多项核心技术突破:精细化的数据筛选、采用选择性滑动分块注意力机制(SSTA)的先进DiT架构、通过字形感知文本编码增强的双语理解能力、渐进式预训练与后训练策略,以及高效的视频超分网络。依托这些设计,我们构建出能够跨时长与分辨率生成高质量文生视频、图生视频的统一框架。大量实验表明,这个紧凑而高效的模型在开源视频生成领域树立了全新标杆。通过开源代码与模型权重,我们为社区提供了高性能基础平台,显著降低视频创作与研究门槛,使更广泛的用户群体能够接触先进视频生成技术。所有开源资源已发布于https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5。
可靠的獎勵函數對於影像生成領域的強化學習至關重要。當前大多數強化學習方法依賴預訓練的偏好模型,這些模型通過輸出標量獎勵來近似人類偏好。然而這類獎勵往往難以捕捉人類感知,且易受獎勵破解影響——即高分數並未對應更高影像品質。為解決此問題,我們提出Adv-GRPO框架,該對抗式獎勵強化學習系統會迭代更新獎勵模型與生成器。獎勵模型以參考影像作為正樣本進行監督訓練,能有效抵禦破解攻擊。有別於通過KL正則化約束參數更新的傳統方法,我們學習的獎勵直接通過視覺輸出引導生成器,從而產生更高品質的影像。現有獎勵函數的優化雖能緩解獎勵破解,但其固有偏差依然存在:例如PickScore可能降低影像品質,而基於OCR的獎勵常損害美學保真度。對此,我們將影像本身作為獎勵載體,利用參考影像與視覺基礎模型(如DINO)提供豐富的視覺獎勵。這些密集的視覺信號(而非單一標量)使影像品質、美學表現及任務特定指標均獲得持續提升。最後我們證明,結合參考樣本與基礎模型獎勵可實現分佈遷移與靈活風格定製。在人類評估中,本方法在影像品質與美學維度分別以70.0%和72.4%的勝率超越Flow-GRPO與SD3。程式碼與模型均已開源。
放射学在现代医学中扮演着关键角色,但影像检查量的增长速度已远超放射科医师队伍的增长。基础模型为辅助完成各类放射学任务提供了可行路径,但现有医学模型仍存在局限:将三维CT和MRI视为低分辨率二维切片处理、丢弃关键灰度对比信息,且缺乏反映真实临床实践的评估框架。我们推出Pillar-0——基于某大型学术中心42,990例盆腹部CT、86,411例胸部CT、14,348例头部CT及11,543例乳腺MRI预训练的放射学基础模型,同时提出RATE框架,该框架利用大语言模型以近乎完美的准确率提取366种放射学征象的结构化标签。在包含14,230例盆腹部CT、10,646例胸部CT、4,906例头部CT及1,585例乳腺MRI的内部测试集上,Pillar-0创造了性能新标杆,平均AUROC分别达86.4、88.0、90.1和82.9,以7.8-15.8个AUROC点的优势超越MedGemma(谷歌)、MedImageInsight(微软)、灵枢(阿里巴巴)和Merlin(斯坦福),并在87.2%(319/366)的任务中排名第一。在斯坦福腹部CT数据集的外部验证中,Pillar-0同样优于所有基线模型(AUROC 82.2 vs 80.6)。该模型还能胜任预训练范围外的任务,例如在肺癌长期风险预测中,其NLST数据集上的C指数较当前最优模型Sybil提升3.0点,并在MGH(提升5.9)和CGMH(提升1.9)数据集上展现良好泛化能力。在脑出血检测任务中,Pillar-0仅需次优基线模型1/20的数据量即可获得超过95的AUROC。Pillar-0与RATE共同构建了开放、临床严谨的高性能放射学系统基础,突破了以往因算力、数据及评估限制而难以实现的应用场景。
扩散变换器在视觉合成领域展现出卓越能力,但在高级语义推理和长程规划方面仍存在不足。这一局限常导致视觉幻觉现象以及与用户指令的错位,尤其在涉及复杂场景理解、人物-物体交互、多阶段动作和情境运动推理的场景中更为明显。为应对这些挑战,我们提出Plan-X框架,通过显式强化高级语义规划来指导视频生成过程。该框架的核心是语义规划器——一个可学习的多模态语言模型,能够基于文本提示和视觉上下文对用户意图进行推理,并自回归地生成一系列基于文本的时空语义标记。这些与高级文本提示指导形成互补的语义标记,可视为随时间推移形成的结构化"语义草图",为擅长合成高保真视觉细节的视频扩散模型提供指引。Plan-X有效融合了语言模型在多模态情境推理与规划方面的优势,以及扩散模型在逼真视频合成方面的特长。大量实验表明,我们的框架能显著减少视觉幻觉,实现与多模态语境一致、符合指令要求的细粒度视频生成。
多智能体系统在通用推理任务中表现出色,但在专业领域的训练缺失限制了其准确性。现有训练方法为系统中所有智能体训练统一的大语言模型(LLM),由于不同智能体底层数据分布的差异,这种模式可能限制系统性能。因此,下一代解决方案应转向基于异构大语言模型的智能体训练。然而该方法会引入新的优化挑战:智能体运行频率各异、决策过程中子智能体调用次数不等,且智能体常部署于独立服务器导致端到端梯度流中断。针对这些问题,我们提出M-GRPO——面向垂直多智能体系统(含主控智能体与多轮工具执行子智能体)的群组相对策略优化分层扩展算法。M-GRPO通过计算主控与子智能体的群组相对优势度,实现分层信用分配;同时引入轨迹对齐机制,在可变子智能体调用情况下生成定长批处理数据。我们部署了去耦合训练管道,各智能体在独立服务器运行,仅通过共享存储交换最小统计量,无需跨服务器反向传播即可实现可扩展训练。在真实场景基准测试(如GAIA、XBench-DeepSearch和WebWalkerQA)中,M-GRPO始终优于单智能体GRPO及冻结子智能体的多智能体GRPO,展现出更优的稳定性和样本效率。结果表明,对齐异构轨迹与解耦专业化智能体优化能有效增强工具增强型推理任务性能。
我们推出M^3-Bench——首个基于模型上下文协议评估多模态工具使用的基准测试。该基准针对需要视觉定位与文本推理、跨工具依赖关系以及中间资源跨步骤持久化的现实多跳多线程工作流。我们提出相似度驱动的对齐方法:序列化每个工具调用,通过句子编码器嵌入函数签名,并执行相似度分桶的匈牙利匹配以获得可审计的一一对应关系。在此对齐基础上,我们报告可解释的度量指标,将语义保真度与工作流一致性进行解耦分析。该基准涵盖28个服务器共231种工具,通过经过人工验证的执行器-评判器流水线提供标准化轨迹;辅助性四大型语言模型评审团集成报告最终任务完成度与信息锚定度。对代表性前沿多模态大模型的评估显示,其在多模态MCP工具使用方面存在持续性短板,尤其在参数保真度和结构一致性上,这表明需要开发能联合推理图像、文本与工具图的新方法。本基准匿名代码库位于https://github.com/EtaYang10th/Open-M3-Bench。
我们提出One4D——一个统一的4D生成与重建框架,能生成同步的RGB帧与点云图的动态4D内容。通过统一掩码条件机制(UMC)对输入帧的不同稀疏度进行一致性处理,该框架可实现从单张图像生成4D内容、完整视频重建4D内容,以及基于稀疏帧的混合生成与重建之间的无缝切换。我们通过精心设计的网络架构,将强大视频生成模型适配于RGB与点云图的联合生成。针对深度图或点云图重建的常用扩散模型微调策略在联合生成任务中常导致基础视频模型快速退化,为此我们提出解耦LoRA控制(DLC),采用两个模态专用LoRA适配器构建RGB帧与点云图的解耦计算分支,并通过轻量级零初始化控制链接逐步学习像素级互一致性。在有限算力下使用合成与真实4D数据集混合训练后,One4D在生成与重建任务中均能产出高质量RGB帧与精准点云图。本工作标志着基于视频扩散模型实现通用高质量几何化4D世界建模的重要进展。项目页面:https://mizhenxing.github.io/One4D
多選題問答(MCQA)作為評估和強化微調(RFT)現代多模態語言模型的常用形式,其受限的輸出格式便於實現簡化的確定性自動驗證。然而我們發現,選項可能洩露可被利用的線索,導致準確率指標無法可靠反映真實能力,並在RFT過程中助長顯性或隱性的答案猜測行為。我們提出ReVeL(基於大語言模型的重寫與驗證)框架,通過將多選題改寫為開放式問題,同時盡可能保持答案的可驗證性。該框架根據不同答案類型對問題進行分類,並分別應用差異化的重寫與驗證方案。在應用於RFT時,我們轉換了2萬個MCQA樣本,並採用GRPO方法對Qwen2.5-VL模型進行微調。經ReVeL-OpenQA訓練的模型在多選題基準測試中保持與MCQA相當的準確率,並將開放式問答準確率提升約六個百分點,表明其相較基於MCQA的訓練具有更優的數據效率和更穩健的獎勵信號。用於評估時,ReVeL還揭示出多選題基準測試中最高達20個百分點的分數虛高現象(相對於開放式問答),同時提升評判準確度並降低成本與延遲。我們將公開釋出程式碼與數據集。
尽管网络数据质量对大语言模型至关重要,但现有数据策展工作多集中于过滤和去重,将HTML到文本的提取视为固定的预处理步骤。当前网络语料库普遍采用基于启发式规则的提取器(如Trafilatura),这类工具难以保持文档结构,且经常破坏公式、代码和表格等结构化元素。我们提出假设:提升提取质量对下游性能的影响不亚于激进过滤策略。为此我们推出MinerU-HTML——一种将内容提取重构为序列标注问题的新型提取流程,该方案通过60亿参数的语言模型实现。与基于文本密度的启发式方法不同,MinerU-HTML利用语义理解能力,采用两阶段格式化流程:先对语义元素进行显式分类,再转换为Markdown格式。关键优势在于,基于模型的方法具有内在可扩展性,而启发式方法的改进路径有限。在包含7,887个标注网页的基准测试集MainWebBench上,MinerU-HTML的ROUGE-N F1值达到81.8%,显著优于Trafilatura的63.6%,且在结构化元素保留方面表现卓越(代码块90.9%,公式94.0%)。基于该技术,我们从两个Common Crawl快照构建了AICC多语言语料库(7.3万亿词元)。在控制变量的预训练实验中,经过相同过滤处理的AICC(620亿词元)在13个基准测试中平均准确率达50.8%,较Trafilatura提取的TfCC提升1.08个百分点,直接证明提取质量对模型能力的重要影响。AICC在关键基准测试上也优于RefinedWeb和FineWeb。我们公开发布MainWebBench、MinerU-HTML和AICC,以此表明HTML提取是网络语料库构建中至关重要却常被低估的环节。
本研究提出了可控图层分解(CLD)方法,旨在实现栅格图像的精细化可控多层分离。在实际设计流程中,设计师通常先独立生成并编辑每个RGBA图层,再将其合成为最终栅格图像。然而这一过程不可逆:一旦合成后,便无法进行图层级编辑。现有方法多依赖于图像抠图与修复技术,但在可控性与分割精度方面仍存在局限。为解决这些挑战,我们提出两个核心模块:LayerDecompose-DiT(LD-DiT)通过解耦图像元素至独立图层实现精细化控制;多层条件适配器(MLCA)通过向多层标记注入目标图像信息以实现精准条件生成。为进行全面评估,我们构建了新的测试基准并定制了专用评价指标。实验结果表明,CLD在分解质量与可控性方面均优于现有方法。此外,CLD分离出的图层可直接在PowerPoint等常用设计工具中进行编辑,凸显了其在真实创意工作流程中的实用价值与适用性。
我们提出了一种完全数据驱动的互信息估计器设计方法。鉴于任何互信息估计器都是两个随机变量观测样本的函数,我们通过神经网络(MIST)对该函数进行参数化,并以端到端方式训练其预测互信息值。训练基于包含62.5万个已知真实互信息值的合成联合分布元数据集进行。为处理可变样本量与维度,我们采用二维注意力机制确保输入样本的置换不变性。通过优化分位数回归损失函数,估计器能够逼近互信息的采样分布而非返回单一估计值,从而实现不确定性量化。本研究方案采用完全经验化路径,以通用理论保证换取灵活性与效率,这与前人工作形成显著区别。实验表明,学习得到的估计器在不同样本量、维度及训练时未见的联合分布上均显著超越经典基线方法。基于分位数的置信区间校准良好,比自助法置信区间更可靠,且推理速度较现有神经基线快数个数量级。除直接实证优势外,该框架可生成可训练的全微分估计器,能嵌入更大型学习流水线。利用互信息对可逆变换的不变性特性,通过标准化流可使元数据集适配任意数据模态,从而为多样化目标元分布提供灵活训练方案。
信息寻求是智能代理的核心能力,要求其在长轨迹任务中收集并推理工具生成的信息。然而,这种多步骤的信息寻求任务对于基于语言模型的代理而言仍具挑战性。虽然过程奖励模型(PRM)可通过在测试时对候选步骤进行排序来指导代理,但现有PRM专为二元判断的短程推理设计,既无法捕捉信息寻求步骤中更丰富的维度(如工具交互和工具输出推理),也难以处理长视野任务中快速增长的上下文。为突破这些限制,我们提出PRInTS——一种具备双重能力的生成式PRM:(1)基于PRM对多维度步骤质量(如工具输出解读、工具调用信息量)的推理进行密集评分;(2)通过轨迹摘要压缩增长中的上下文,同时保留步骤评估所需的关键信息。在FRAMES、GAIA(1-3级)和WebWalkerQA(易-难级)多个基准上的广泛评估及消融实验表明,采用PRInTS的n选优采样能增强开源模型及专用代理的信息寻求能力,使小型骨干代理达到甚至超越前沿模型的性能,并优于其他强奖励模型基线。
我们提出"超分万物"(Upsample Anything)——一种轻量级测试时优化框架,无需任何训练即可将低分辨率特征恢复为高分辨率像素级输出。尽管视觉基础模型在多样化下游任务中展现出强大的泛化能力,但其表征通常会被下采样14倍/16倍(如ViT),这限制了它们在像素级应用中的直接使用。现有特征上采样方法依赖于特定数据集的重新训练或繁重的隐式优化,制约了可扩展性与泛化能力。本框架通过简单的单图优化学习结合空间与色域线索的各向异性高斯核,有效衔接了高斯泼溅与联合双边上采样。所学核函数作为通用的边缘感知算子,可跨架构与模态无缝迁移,实现特征图、深度图或概率图的精确高分辨率重建。该方法处理224×224图像仅需约0.419秒,在语义分割、深度估计以及深度图/概率图上采样任务中均达到最先进性能。项目页面:https://seominseok0429.github.io/Upsample-Anything/
视觉语言模型(VLMs)在标准视频任务中表现优异,但在涉及运动动力学与空间交互的物理推理方面仍存在局限。这一缺陷降低了其解析真实或AI生成内容(AIGC)视频的能力,也制约了生成物理一致性内容的表现。我们提出一种解决方案,通过将物理世界语境线索转化为符合VLM感知、理解与推理机制的可解释表征,以弥补现有不足。本文推出MASS-Bench综合基准数据集,包含4,350个真实世界与AIGC视频及8,361个自由形式视频问答对,聚焦物理相关理解任务,并提供包含视觉检测、子片段定位、实体全序列三维运动追踪的精细化标注。我们进一步提出MASS——一种模型无关的方法,通过基于深度的三维编码与视觉定位将时空信号注入VLM语言空间,并结合用于物体动态分析的运动追踪器。为增强跨模态对齐与推理能力,我们采用强化微调策略。实验与消融研究表明,优化后的VLM在物理推理与理解任务上分别以8.7%和6.0%的优势超越同类及更大规模基线模型,以及现有先进模型,达到与Gemini-2.5-Flash等闭源顶尖VLM相媲美的性能。这些结果验证了我们方法的有效性。
尽管视觉-语言-动作模型在零样本泛化和仿真到现实迁移方面取得进展,长周期机器人操作仍是其面临的重要挑战。现有模型存在阶段幻觉问题——智能体利用粗糙的评估信号来规避多步骤任务,虽报告高进度却未真正完成任务。我们提出EvoVLA,一种通过三个互补组件解决该问题的自监督VLA框架:采用三元对比学习与Gemini生成难负样本的阶段对齐奖励机制,可防止视觉捷径;基于位姿的物体探索策略,将好奇心锚定在物体-夹爪相对位姿而非原始像素;长周期记忆模块,通过选择性上下文保留与门控融合稳定长周期决策中的内在塑造。在包含三项多阶段任务的长周期操作基准Discoverse-L上的大量实验表明,EvoVLA相较最强基线(OpenVLA-OFT)将平均任务成功率提升10.2个百分点,达到69.2%。该框架还实现了1.5倍的样本效率提升,并将阶段幻觉率从38.5%降至14.8%。在物理机器人上的实际部署显示,四项操作任务平均成功率高达54.6%,较OpenVLA-OFT提升11个百分点,证明了有效的仿真到现实迁移与强大泛化能力。代码与项目网站详见:https://github.com/AIGeeksGroup/EvoVLA 与 https://aigeeksgroup.github.io/EvoVLA。
当前顶尖的流模型虽能生成卓越质量的结果,却依赖缓慢的迭代采样过程。为加速采样,可从预训练教师模型中蒸馏出流映射,而传统方法需依赖外部数据集进行采样。我们认为这种数据依赖性会引发根本性的"教师-数据失配"风险——静态数据集可能无法完整甚至偏离地反映教师模型的全部生成能力。这促使我们反思数据依赖是否真是流映射蒸馏成功的必要条件。本研究探索了一种无需外部数据的替代方案:仅从先验分布中采样(该分布经构造可确保与教师模型兼容),从而彻底规避失配风险。为验证这一理念的可行性,我们提出了一个原则性框架,既能预测教师模型的采样路径,又能主动修正自身误差累积以保证高保真度。我们的方法显著超越了所有基于数据的方案,以明显优势确立了新标杆。具体而言,基于SiT-XL/2+REPA的蒸馏在ImageNet 256×256分辨率上达到1.45的FID指标,在512×512分辨率上达1.49,且均仅需1次采样步数。本研究希望为生成模型加速建立更稳健的范式,推动无需数据的流映射蒸馏技术获得更广泛采纳。
尽管当前的世界模型能够生成高度逼真的视频,但其在机器人路径规划方面的能力仍不明确且缺乏量化评估。我们推出Target-Bench——首个专门用于评估世界模型在真实环境中实现无地图语义目标路径规划的基准测试。该基准提供450段机器人实地采集的视频序列,涵盖45个语义类别,并配有基于SLAM技术的真实轨迹数据。我们的评估流程通过从生成视频中还原相机运动,采用五项互补指标来衡量规划性能,这些指标可量化模型的目标抵达能力、轨迹精度和方向一致性。我们对包括Sora 2、Veo 3.1及Wan系列在内的前沿模型进行评估,发现最佳现成模型(Wan2.2-Flash)仅获得0.299的综合评分,揭示了当前世界模型在机器人规划任务中的显著局限。实验表明,仅使用本数据集中的325个场景对开源50亿参数模型进行微调,即可获得0.345的综合评分——较其基础版本(0.066)提升超400%,并优于最佳现成模型15%。我们将开源相关代码与数据集。
我们提出了一种从推荐系统的用户和物品嵌入向量中提取单语义神经元的方法。单语义神经元被定义为与连贯可解释概念对齐的潜在维度。该方法采用稀疏自编码器(SAE)来揭示预训练表征内部的语义结构。与语言模型研究不同,推荐系统中的单语义特性必须保持独立用户嵌入与物品嵌入之间的交互关系。为此,我们引入了预测感知训练目标,通过冻结推荐模型进行反向传播,并使学习到的潜在结构与模型的用户-物品亲和度预测保持一致。最终获得的神经元能够捕捉类型、流行度、时间趋势等属性,支持包括定向过滤和内容推广在内的后置控制操作,且无需修改基础模型。本方法适用于不同推荐模型与数据集,为可解释可控的个性化推荐提供了实用工具。代码与评估资源详见https://github.com/DeltaLabTLV/Monosemanticity4Rec。
解釋忠實度——用於衡量解釋反映模型真實推理過程的準確性——在推薦系統領域仍存在嚴重的研究不足。本文提出SPINRec(神經推薦解釋的隨機路徑積分法),這是一種模型無關的解決方案,通過將路徑積分技術適應推薦數據的稀疏性和隱式特徵。為突破既有方法的局限,SPINRec採用隨機基線採樣策略:從經驗數據分佈中抽取多個合理用戶畫像並選擇最具忠實度的歸因路徑,而非依賴固定或不切實際的基線進行積分。該設計能同時捕捉已觀測和未觀測交互的影響,生成更穩定且個性化的解釋。我們在三個模型(矩陣分解、變分自編碼器、神經協同過濾)、三個數據集(MovieLens 1M、雅虎音樂、Pinterest)及一套包含基於AUC的擾動曲線和定長診斷的反事實指標上,開展了迄今最全面的忠實度評估。SPINRec在所有基準測試中均表現優異,為推薦系統的可解釋性樹立了新標杆。代碼與評估工具已開源於https://github.com/DeltaLabTLV/SPINRec。
手物交互生成技术在推动动画与机器人应用发展中具有关键作用。当前基于视频的方法主要采用单视角模式,这阻碍了全面的三维几何感知,并常导致几何失真或非真实运动模式。虽然三维手物交互方法能够生成动态合理的运动,但其对实验室受控环境下采集的高质量三维数据的依赖性,严重限制了其在真实场景中的泛化能力。为突破这些局限,我们提出了SyncMV4D——首个通过统一视觉先验、运动动力学和多视角几何来联合生成同步多视角手物交互视频与四维运动的模型。我们的框架具有两大核心创新:(1)协同生成手物交互视频与中间运动的多视角联合扩散模型;(2)将粗粒度中间运动优化为全局对齐的四维度量点轨迹的扩散点对齐器。为实现二维外观与四维动态的紧密耦合,我们建立了闭环式相互增强循环:在扩散去噪过程中,生成的视频为四维运动优化提供条件约束,而对齐后的四维点轨迹通过重投影指导下一步的联合生成。实验表明,本方法在视觉真实感、运动合理性和多视角一致性方面均优于当前最先进方案。
大型语言模型(LLMs)已被广泛应用于事实性任务,例如"哮喘的治疗方法有哪些?"或"拉脱维亚的首都是哪里?"。然而,这些模型在其内部概率表征中如何稳定地区分真实、虚假以及非真非假内容,目前仍不明确。我们提出"表征稳定性"这一概念,用以衡量LLMs的真值表征在面对真值操作定义扰动时的稳健性。我们通过以下方式评估表征稳定性:(i)在LLMs的激活值上训练线性探针以区分真实与非真实陈述;(ii)在受控标签变化下测量其学习到的决策边界偏移程度。基于16个开源模型的激活值和三个事实领域数据,我们比较了两种非真非假陈述:第一种是关于我们确信未出现在任何训练数据中的实体的类事实断言,称为"陌生型非真非假陈述";第二种是来自知名虚构语境的非事实主张,称为"熟悉型非真非假陈述"。实验表明,陌生型陈述会引发最大的边界偏移,在脆弱领域(如词汇定义)导致高达40%的真值判断反转,而熟悉的虚构陈述则保持更连贯的聚类特征,仅产生较小变化(≤8.2%)。这些结果表明,表征稳定性更多源于认知熟悉度而非语言形式。从更广义角度看,我们的方法为审计和训练LLMs提供了一种诊断工具,使其在语义不确定性下能保持连贯的真值分配,而非仅优化输出准确性。
偽裝目標檢測是一項新興且具挑戰性的計算機視覺任務,其核心在於識別並分割那些因顏色、紋理和尺寸高度相似而與環境融為一體的物體。該任務在低光照條件、部分遮擋、微小目標尺寸、複雜背景紋理以及多目標共存等場景下尤為困難。儘管已有諸多先進方法被提出,現有技術在複雜場景(特別是涉及微小及多目標時)仍難以實現精確檢測,表明該領域存在改進空間。為此,我們提出一種多尺度遞歸網絡:通過金字塔視覺Transformer骨幹網絡提取多尺度特徵,並利用專注力驅動的尺度融合單元進行選擇性特徵融合。為提升檢測精度,解碼器採用多粒度融合單元進行遞歸式特徵優化。我們還創新性地設計了遞歸反饋解碼策略,以增強全局上下文理解能力,幫助模型克服任務難點。通過聯合利用多尺度學習與遞歸特徵優化,本方法實現了性能突破,成功檢測微小及多目標偽裝物體。在兩個偽裝目標檢測基準數據集上達到最優性能,其餘兩個數據集位列第二。相關代碼、模型權重與結果已開源於:https://github.com/linaagh98/MSRNet。