每日精選AI研究論文及翻譯
光學字元辨識(OCR)已從行級轉錄發展至結構化文件解析,要求模型能還原包含版面佈局、表格和公式的長序列內容。儘管視覺語言模型近期取得進展,現有系統大多仍依賴自迴歸解碼,這種方式會引入序列延遲,並在長文件中放大錯誤傳播。本研究從逆向渲染的角度重新審視文件OCR,提出從左到右的因果生成實際上是序列化處理的副產品,而非任務的內在屬性。基於此洞見,我們提出MinerU-Diffusion——一個統一的基於擴散模型的框架,通過視覺條件下的並行擴散去噪取代自迴歸序列解碼。該框架採用分塊擴散解碼器與不確定性驅動的課程學習策略,實現穩定訓練與高效長序列推理。大量實驗表明,MinerU-Diffusion在提升魯棒性的同時,解碼速度較自迴歸基線最高加快3.2倍。在我們提出的語義重排基準測試中,其對語言先驗的依賴性更低,展現出更強的視覺OCR能力。
動力系統理論與強化學習將世界演化視為由動作驅動的潛在狀態動態變化,而視覺觀測則提供關於狀態的部分資訊。近期影片世界模型試圖從數據中學習這種動作條件化的動態。然而現有數據集難以滿足需求:通常缺乏多樣化且具語義意義的動作空間,且動作直接與視覺觀測綁定,而非透過潛在狀態中介。這導致動作常與像素級變化糾纏,使模型難以學習結構化世界動態並維持長時序的一致性演化。本文提出WildWorld——一個具顯式狀態標註的大規模動作條件化世界建模數據集,通過從寫實級3A動作角色扮演遊戲(魔物獵人:Wilds)自動採集而成。WildWorld包含逾1.08億幀畫面,具備450餘種動作(含移動、攻擊、技能施放),並同步提供每幀的角色骨骼、世界狀態、相機位姿與深度圖標註。我們進一步構建WildBench評估框架,透過動作追蹤與狀態對齊兩項任務評測模型。大量實驗揭示在建模語義豐富的動作與維持長時序狀態一致性方面仍存在持續挑戰,凸顯具狀態感知的影片生成之必要性。項目頁面詳見 https://shandaai.github.io/wildworld-project/。
具備代理能力的多模態大型語言模型(如OpenAI o3和Gemini Agentic Vision)通過迭代式視覺工具調用實現了卓越的推理能力。然而,級聯式的感知、推理與工具調用循環會帶來顯著的序列化開銷。這種被稱為「代理深度」的開銷會產生過高的延遲,嚴重限制系統層級的並發性能。為此,我們提出SpecEyes——一個代理級別的推測加速框架,旨在突破此序列化瓶頸。我們的核心洞見在於:輕量級的無工具型多模態大型語言模型可作為推測規劃器,預測執行軌跡,從而在不犧牲準確性的前提下提前終止高成本工具鏈。為規範此推測規劃過程,我們引入基於答案可分離性的認知門控機制,該機制無需依賴真實標籤即可量化模型的自驗證置信度。此外,我們設計了異構並行漏斗架構,利用小模型的無狀態並發特性來掩蓋大模型的帶狀態串行執行過程,從而最大化系統吞吐量。在V* Bench、HR-Bench和POPE上的大量實驗表明,SpecEyes相較於代理基準實現了1.1-3.35倍的加速效果,同時保持甚至提升了準確率(最高提升6.7%),從而在並發工作負載下顯著提升服務吞吐量。
基於大型語言模型(LLM)的系統正日益普及,其通過構建可執行的運算流程來解決任務,這些流程交織了LLM調用、資訊檢索、工具使用、程式碼執行、記憶體更新與驗證等環節。本綜述回顧了近期關於設計與優化此類流程的方法,我們將其視為能動性計算圖(ACGs)。我們根據流程結構確定的時機來組織文獻,其中「結構」指代組件或智能體的構成、彼此間的依賴關係以及資訊流動方式。這一視角區分了靜態方法(在部署前固定可複用的流程框架)與動態方法(在執行前或執行中針對特定任務選擇、生成或修訂流程)。我們進一步沿三個維度梳理現有研究:結構確定的時機、流程中優化的具體部分,以及指導優化的評估信號(如任務指標、驗證器信號、偏好或軌跡反饋)。同時,我們區分了可複用的流程模板、運行時實例化的具體圖結構,以及執行軌跡,從而將可複用的設計選擇與實際部署的運行結構及實時行為分離。最後,我們提出一種結構感知的評估視角,在任務下游指標之外,兼顧圖層級屬性、執行成本、魯棒性及跨輸入的結構變異性。本文旨在為LLM智能體的流程優化研究提供清晰的術語體系、統一的方法定位框架、更具可比性的文獻視角,以及更可重現的評估標準。
人類對新概念的認知本質上是一個串流處理過程:我們持續識別新物件或身份,並隨著時間推移更新記憶。然而現有的多模態個性化方法大多侷限於靜態圖像或離線影片,這使得連續視覺輸入與即時現實回饋脫節,限制了其提供未來AI助手所需的即時互動式個性化回應能力。為彌合這一差距,我們首次提出並正式定義了「個性化串流影片理解」(PSVU)這一新穎任務。為推動該新方向的研究,我們推出首個專為評估此挑戰性設定而設計的綜合基準PEARL-Bench,其透過兩種模式評估模型在精確時間點回應個性化概念的能力:(1)幀級模式:聚焦離散幀中的特定人物或物件;(2)創新影片級模式:關注跨連續幀展開的個性化動作。PEARL-Bench包含132支獨特影片及2,173個帶精確時間戳的細粒度標註,透過自動生成與人工驗證相結合的流程嚴格確保概念多樣性與標註品質。為應對此挑戰性新設定,我們進一步提出即插即用、無需訓練的策略PEARL作為強基線模型。對8個離線與線上模型的廣泛評估表明,PEARL實現了最先進的性能,尤其當應用於3種不同架構時均能帶來一致的PSVU提升,證明其為高效且穩健的策略。我們期望此工作能推動視覺語言模型(VLM)的個性化發展,並激發對串流式個性化AI助手的進一步研究。程式碼已開源於:https://github.com/Yuanhong-Zheng/PEARL。
基於高品質資料訓練的光流模型在面對真實世界失真(如模糊、雜訊和壓縮偽影)時,性能往往會急遽下降。為突破此限制,我們提出「退化感知光流」這一新任務,旨在從真實失真影片中實現精確的稠密對應估計。我們的核心發現是:圖像修復擴散模型的中間表徵本質具備失真感知能力,但缺乏時間維度的感知。為解決此問題,我們通過全時空注意力機制將模型提升至跨幀感知層級,並實證證明所得特徵具備零樣本對應能力。基於此發現,我們提出DA-Flow混合架構,在迭代優化框架中將擴散特徵與卷積特徵進行融合。在多個基準測試中,DA-Flow在嚴重失真條件下顯著超越現有光流方法。
高品質的關節化3D資產對於具身人工智慧與物理模擬至關重要,然而現有3D生成技術仍聚焦於靜態網格,導致「即時模擬就緒」的互動式物件存在技術缺口。當前多數關節化物件生成方法依賴多階段流程,各解耦模組間的誤差會逐級累積。與此相對,統一多模態大語言模型提供了一條單階段路徑,能同步實現靜態資產理解與模擬就緒資產生成。但基於稠密體素的3D標記化會產生過長的3D標記序列與高記憶體開銷,限制其對複雜關節化物件的擴展性。為此,我們提出SIMART——一個統一的多模態大語言模型框架,可同步執行部件級分解與運動學預測。通過引入稀疏3D VQ-VAE,SIMART相較稠密體素標記將標記數量減少70%,從而實現高保真度的多部件組裝。該框架在PartNet-Mobility數據集與真實世界AIGC數據集上達到最先進性能,並能驅動基於物理的機器人模擬。
能夠進行交錯生成的統一模型已成為一個前景廣闊的範式,學術界逐漸趨向於採用自迴歸建模處理文本生成,並以流匹配技術處理圖像生成。為推進此方向,我們提出了一個專為交錯生成設計的統一強化學習框架。我們以該框架的基本單元——單輪推理驅動的圖像生成——進行驗證:模型先通過推理擴展用戶提示詞,再進行圖像合成。通過將此多模態生成過程建模為具有稀疏終端獎勵的馬爾可夫決策過程,我們提出UniGRPO框架,利用GRPO聯合優化文本與圖像生成策略。秉持極簡主義方法以避免過度設計,我們無縫整合標準GRPO用於推理和FlowGRPO用於視覺合成,從而充分利用兩種模態的成熟訓練方案。為確保擴展至多輪交錯生成的可行性,我們對原始FlowGRPO進行兩項關鍵改進:(1)取消無分類器引導機制,以維持線性、無分支的決策軌跡,這對擴展至涉及多輪交互與多條件生成(如編輯)的複雜場景至關重要;(2)將潛空間KL懲罰項替換為對速度場直接施加的MSE懲罰項,通過更魯棒且直觀的正則化信號有效抑制獎勵破解現象。實驗表明,此統一訓練方案能通過推理顯著提升圖像生成質量,為未來完全交錯模型的訓練後優化提供了可擴展的強健基線。
当前顶尖的视频生成模型虽能实现惊人的照片级真实感,但在精确控制生成内容与特定场景需求对齐方面仍存在不足。此外,由于缺乏底层显式几何结构,这些模型无法保证三维一致性。反观三维引擎,其能对每个场景元素进行细粒度控制,并通过设计原生保障三维一致性,但输出效果往往仍陷于"恐怖谷"困境。要弥合这种仿真与真实之间的鸿沟,既需要结构精度(输出必须精确保留输入的几何结构与动态特性),又需要全局语义转换(材质、光照与纹理需进行整体性转换以实现照片真实感)。我们提出RealMaster方法,利用视频扩散模型将渲染视频提升至照片级真实感,同时保持与三维引擎输出的完全对齐。为训练该模型,我们通过基于锚点的传播策略生成配对数据集:首尾帧经真实感增强后,借助几何条件线索在中间帧中进行传播。随后在这些配对视频上训练IC-LoRA模型,将流程中的高质量输出蒸馏至可突破流程限制的模型中,使其能处理序列中途出现的物体与角色,并实现无需锚点帧的推理。在复杂GTA-V序列上的评估表明,RealMaster显著优于现有视频编辑基线方法,在提升真实感的同时完整保留了原始三维控制所规定的几何结构、动态特性与身份特征。
无姿态前馈式三维高斯溅射(3DGS)技术为快速三维建模开辟了新领域,使得仅需单次前向传播就能从未标定的多视角图像中生成高质量的高斯表征。该领域的主流方法采用统一的单体架构(通常基于以几何为核心的三维基础模型),在单一网络内联合估计相机姿态并合成3DGS表征。尽管这种"一体化"设计在架构上较为简洁,但由于其将几何推理与外观建模纠缠于共享表征中,可能并非高保真3DGS生成的最优方案。本研究提出2Xplat——一种基于双专家设计的无姿态前馈式3DGS框架,其显式地将几何估计与高斯生成相分离。专用几何专家首先预测相机姿态,随后将这些姿态显式传递给负责合成三维高斯的外观专家。尽管该方案概念简洁且在先前研究中未被充分探索,但实践证明其极具效能:在少于5千次训练迭代的情况下,这一双专家流程显著超越了既往无姿态前馈式3DGS方法,并达到与最先进姿态已知方法相当的性能。这些成果对当前主流的一体化范式提出挑战,揭示了模块化设计原则在复杂三维几何估计与外观合成任务中的潜在优势。
多模态思维链推理要求大型视觉语言模型构建感知锚定与多步推理交错进行的推理轨迹。然而,现有可验证奖励强化学习方法通常在粗粒度层面优化推理,将思维链统一对待而未区分其视觉锚定程度的差异。本研究通过多模态推理轨迹的令牌级分析发现,成功推理的特征在于能同时反映感知锚定与探索性推理的结构化令牌动态。基于此分析,我们提出感知-探索策略优化方法:通过隐状态相似性推导感知先验,并利用平滑门控机制将其与令牌熵融合以生成令牌级优势值。该方法可与GRPO、DAPO等现有可验证奖励强化学习框架无缝集成,无需额外监督或辅助分支。在涵盖几何推理、视觉定位、视觉谜题求解和少样本分类的多样化多模态基准测试中,该方法相较强基线模型展现出持续稳健的性能提升,同时保持稳定的训练动态。代码地址:https://github.com/xzxxntxdy/PEPO
多模态大语言模型(MLLMs)虽已推动通用视频理解技术的进步,但在处理长时高分辨率视频时仍面临挑战——尽管存在显著的时空冗余,其视觉变换器(ViTs)或大语言模型仍对每个像素进行均等处理。我们提出AutoGaze这一轻量级模块,可在视频被ViT或MLLM处理前自动去除冗余图像块。通过下一标记预测和强化学习联合训练,AutoGaze能自回归地选择最精简的多尺度图像块集合,在用户设定的误差阈值内实现视频重构,在保留信息的同时消除冗余。实验表明,AutoGaze可将视觉标记数量减少4-100倍,并将ViT和MLLM的处理速度提升最高达19倍,使得MLLM能够处理长达1000帧的4K分辨率视频,并在视频基准测试中取得领先成果(如在VideoMME上达到67.0%)。此外,我们推出HLVid基准:首个包含5分钟4K分辨率视频的高清长视频问答数据集,搭载AutoGaze的MLLM较基线模型提升10.1%,较原有最佳MLLM领先4.5%。项目页面:https://autogaze.github.io/。
視覺-語言-動作模型通常直接將視覺觀測與語言指令映射為機器人控制信號。這種「黑箱」式映射要求單次前向傳播同時處理指令解析、空間定位與低層級控制,常導致空間精度不足且在分布外場景中魯棒性有限。為解決這些局限,我們提出VP-VLA雙系統框架,通過結構化視覺提示接口實現高層推理與低層執行的解耦。具體而言,「系統2規劃器」將複雜指令分解為子任務,並識別相關目標物體與目的位置。這些空間錨點隨後以十字準星、邊界框等結構化視覺提示形式直接疊加於視覺觀測中。在訓練時通過新型輔助視覺定位目標增強後,「系統1控制器」能依託這些提示可靠生成精確的低層執行動作。在Robocasa-GR1-Tabletop基準測試與SimplerEnv仿真中的實驗表明,VP-VLA將成功率分別提升5%與8.3%,超越包括QwenOFT與GR00T-N1.6在內的競爭基線模型。
近期潛在世界模型(如V-JEPA)的研究進展顯示,其通過視頻觀測預測未來世界狀態的能力頗具潛力。然而,基於短時觀測窗口的密集預測會限制時序上下文信息,易使預測器偏向局部低層次外推,難以捕捉長時程語義,從而降低下游任務的實用性。與此相對,視覺-語言模型(VLM)通過對均勻採樣幀的推理提供強語義基礎和通用知識,但由於計算驅動的稀疏採樣、將細粒度交互狀態壓縮為文本導向表徵的語言輸出瓶頸,以及適應小規模動作條件數據集時的數據機制失配,使其難以作為獨立的密集預測器。我們提出一種VLM引導的JEPA式潛在世界建模框架,通過雙時序路徑結合密集幀動態建模與長時程語義引導:密集JEPA分支負責細粒度運動與交互線索,均勻採樣的VLM思維分支則以較大時序步長提供知識豐富的引導。為有效傳遞VLM的漸進式推理信號,我們引入分層金字塔表徵提取模塊,將多層VLM表徵聚合為兼容潛在預測的引導特徵。在手部操控軌跡預測實驗中,本方法在強VLM基線和JEPA預測器基線上均表現更優,並產生更魯棒的長時程推演行為。
系统文献综述对于整合科学证据至关重要,但存在成本高昂、难以规模化且耗时较长的问题,这为循证决策形成了瓶颈。本研究旨在探究大型语言模型能否实现从文献检索、文章筛选、数据提取到报告合成的全流程系统综述自动化。针对世卫组织指定的九种优先病原体流行病学综述,我们开发的开源智能体管道(AgentSLR)在专家标注真实数据验证中表现出与人类研究者相当的效能,同时将综述时长从约7周缩短至20小时(效率提升58倍)。通过对五种前沿模型的比较研究,我们发现系统综述任务的性能差异主要源于各模型的独特能力,而非模型规模或推理成本。借助人机协同验证机制,我们识别出关键失效模式。研究结果表明,智能体人工智能能显著加速专业领域的科学证据整合进程。
主动计算机视觉通过序列化、局部化的扫视机制,有望实现高效且生物合理的感知,但一直缺乏可扩展的通用架构与预训练流程,致使主动视觉基础模型(AVFM)的研究长期空白。我们提出CanViT——首个任务与策略无关的AVFM。该模型采用场景相对旋转位置编码,将视网膜拓扑的视觉Transformer主干与空间拓扑的场景级潜在工作区(即画布)相绑定。通过新型非对称交叉注意力机制"画布注意力",实现了与高容量工作记忆的高效交互。我们分离了思考(主干层)与记忆(画布层),通过消除画布侧自注意力与全连接层,实现了低延迟序列推理及对大尺度场景的扩展能力。我们提出无需标注的主动视觉预训练方案——策略无关的被动到主动稠密潜在蒸馏:通过随机位置、缩放级别和长度的低分辨率扫视序列,重构场景级的DINOv3嵌入表示。在单张H100显卡上,我们从随机初始化开始对CanViT-B进行了166小时的预训练,使用1320万张ImageNet-21k场景图像(规模超先前主动模型一个数量级)和10亿次随机扫视。在ADE20K分割任务中,冻结的CanViT-B仅凭单次低分辨率扫视即达到38.5% mIoU,以19.5倍推理FLOPs的优势超越最佳主动模型27.6%的表现(且无需微调),并优于FLOPs或输入匹配的DINOv3教师模型。增加扫视次数后,CanViT-B在ADE20K上的mIoU进一步提升至45.9%。在ImageNet-1k分类任务中,采用冻结教师探针的CanViT-B达到81.2% top-1准确率。该模型可泛化至更长序列、更大场景及新策略。我们的研究显著缩小了被动与主动视觉在语义分割领域的性能差距,证明了AVFM作为新研究方向的潜力。
RNA二级结构的精准预测是转录组注释、非编码RNA机制分析和RNA治疗设计的基石。基于深度学习和RNA基础模型的最新成果难以阐释,因为现有基准测试可能高估了跨RNA家族的泛化能力。我们推出综合层级非编码RNA群组注释库(CHANRG),该基准包含170,083个结构非冗余RNA,通过结构感知去重、基因组感知分割设计和多尺度结构评估,从Rfam 15.0的逾千万条序列中筛选而成。在29种预测工具的测试中,基础模型方法在保留集上获得最高精度,但在分布外数据中丧失大部分优势;而结构化解码器和直接神经预测器仍保持显著更强的鲁棒性。这种差距在控制序列长度后依然存在,既反映了结构覆盖度的损失,也体现了高阶构象连接的错误识别。CHANRG与无填充对称感知评估栈共同构建了更严格、批处理不变的框架,可助力开发具有可验证分布外鲁棒性的RNA结构预测工具。
主题驱动的图像生成技术正日益被期望能够实现对单张图像中多个实体的细粒度控制。在多参考工作流中,用户可提供多张主体图像、背景参考图以及带有实体索引的长文本提示,以实现对同一场景中多个人物的控制。在此设定下,关键失效模式是跨主体属性错位——即属性被保留、编辑或转移至错误主体。现有基准与评估指标大多强调整体保真度或单主体自相似性,导致此类故障难以诊断。我们推出MultiBind基准,该基准基于真实多人照片构建:每个实例提供带掩码和边界框的槽位有序主体裁剪图、规范化主体参考、修复后的背景参考,以及从结构化标注中提取的密集实体索引提示。我们还提出维度混淆评估方案,通过匹配生成主体与真实槽位,并运用面向面部身份、外观、姿态和表情的专用评估器测量槽位间相似度。通过减去对应的真实相似度矩阵,我们的方法能区分自我退化与真实跨主体干扰,并揭示可解释的故障模式(如漂移、置换、主导和融合)。对现代多参考生成器的实验表明,MultiBind可揭示传统重建指标无法检测的绑定故障。
视频动作模型(VAM)已成为具身智能领域的重要框架,其通过从原始视频流中学习隐式世界动态,生成时序一致的动作预测。尽管此类模型通过视觉推理在长周期任务中表现优异,但在仅凭视觉无法完整观测关键交互状态的密集接触场景中仍存在局限。特别是视觉标记无法可靠编码细粒度力调节与接触转换,导致行为不稳定或不精确。为弥补这一缺陷,我们提出视频-触觉动作模型(VTAM),这是一种融合触觉感知作为互补 grounding 信号的多模态世界建模框架。VTAM通过轻量级模态迁移微调将触觉流集成至预训练视频变换器,无需触觉-语言配对数据或独立触觉预训练即可实现高效跨模态表征学习。为稳定多模态融合,我们引入触觉正则化损失以强化跨模态注意力均衡,防止动作模型中视觉潜变量的主导地位。VTAM在密集接触操作中展现出卓越性能,平均保持90%的稳健成功率。在需要高保真力感知的挑战性场景(如薯片抓取任务)中,VTAM较π0.5基线提升80%性能。我们的研究证明,整合触觉反馈对于修正世界动作模型中的视觉估计误差至关重要,为物理 grounded 的具身基础模型提供了可扩展路径。
具有可验证奖励的强化学习(RLVR)显著提升了大语言模型(LLM)的推理能力,但这些改进背后的词元级机制尚不明确。我们通过三项核心分析对RLVR的分布效应展开系统性实证研究:(1)基础模型与RL模型间分布偏移的词元级表征;(2)通过交叉采样干预探究词元级分布偏移对序列级推理性能的影响;(3)这些偏移在词元层面的精细作用机制。研究发现,RL微调会引发高度稀疏且目标明确的改变,仅少数词元分布在基础策略与RL策略间出现显著差异。我们进一步通过词元熵值、位置集中度及概率质量重分配等分析,揭示了这些分布偏移的结构特征与演化规律。为评估这些稀疏变化的功能重要性,我们开展交叉采样实验:在设定不同干预预算的条件下,选择性地交换基础模型与RL模型间的词元选择。实验表明,仅需在基础模型生成结果中插入少量RL采样词元,即可逐步恢复RL模型的性能增益;反之,若在RL生成的序列中注入少量基础模型词元选择,性能会迅速衰退至基础水平,由此锁定直接决定RLVR性能增益的关键词元级决策集合。最后,我们探索以优势信号的差异加权变体作为诊断干预手段,发现其能产生超越基线模型的改进效果。本研究共同揭示了RLVR引发的分布变化规律,为理解RLVR微调作为精准优化过程提供了词元级的精细观测视角。
预测未来运动在视频理解与可控视频生成中至关重要。密集点轨迹作为一种紧凑且富有表现力的运动表征方式,但如何根据观测视频建模其未来演化仍具挑战。我们提出一种通过历史轨迹与视频上下文预测未来轨迹及可见度的框架。该方法包含三个核心组件:(1)网格锚点偏移编码,通过将每个点表示为相对于像素中心锚点的偏移量,降低位置依赖性偏差;(2)TrajLoom-VAE,通过掩码重建与时空一致性正则化器,学习密集轨迹的紧凑时空潜空间;(3)TrajLoom-Flow,通过流匹配在潜空间生成未来轨迹,结合边界提示和在线K步微调实现稳定采样。我们还推出TrajLoomBench基准测试平台,该统一基准涵盖真实与合成视频,采用与视频生成基准对齐的标准化设置。相较于先进方法,我们的方案将预测时长从24帧扩展至81帧,同时在多个数据集上提升运动真实感与稳定性。预测轨迹可直接支持下游视频生成与编辑任务。代码、模型检查点及数据集详见 https://trajloom.github.io/。
现实世界具有非平稳性与无限复杂性,智能体需要持续学习而无需承担从头训练的过高成本。虽然在线持续学习为此提供了框架,但新知识的学习往往会干扰已掌握知识,导致遗忘与泛化能力下降。为此,我们提出抽象增强训练(AAT),通过损失函数层面的改进促使模型捕捉样本间潜在的关联结构。通过联合优化具体实例及其抽象表征,AAT引入了一种内存高效的归纳偏置,能在严格在线数据流中稳定学习过程,无需使用回放缓冲区。为捕捉抽象的多维特性,我们在两个基准测试中引入并评估AAT:一是通过实体掩码实现抽象的可控关系数据集,二是通过共享谚语表达抽象的叙事数据集。实验结果表明,AAT在零额外内存开销且仅对训练目标做最小改动的情况下,取得了媲美甚至超越强经验回放(ER)基线的性能。这项工作揭示了结构抽象可作为ER的一种高效无内存替代方案。
现有提升大型视觉语言模型(LVLM)效率的方法主要基于视觉标记缩减的概念。然而,这种方法会形成信息瓶颈,损害模型性能,尤其是在需要细粒度理解和推理的复杂任务上。本研究通过引入"按需视觉机制"(VISOR)对这一范式提出挑战,该方法能在不丢弃视觉信息的前提下降低推理成本。VISOR并非压缩图像,而是通过稀疏化图像与文本标记的交互来提升效率。具体而言,语言模型通过少量精心布局的注意力层处理完整的高分辨率视觉标记:通用视觉上下文由文本-图像间的高效交叉注意力提供,而少数动态选择的精确定位自注意力层则对视觉表征本身进行细化,在需要时实现复杂的高分辨率推理。基于此原理,我们首先通过调整自注意力层数量,训练出适用于不同计算预算的通用网络,继而引入轻量级策略机制,根据样本复杂度动态分配视觉计算资源。大量实验表明,VISOR在显著降低计算成本的同时,在多样化基准测试中达到或超越了现有最优结果,并在需要精细视觉理解的挑战性任务中表现卓越。
單目新視角合成長期依賴多視角圖像對進行監督,這限制了訓練數據的規模與多樣性。我們提出單視角即可實現此目標:僅需單一視角圖像即可完成訓練。本文介紹的OVIE模型完全基於非配對的網絡圖像進行訓練。我們在訓練階段採用單目深度估計器作為幾何支架:將源圖像提升至三維空間,施加採樣的相機變換後再投影生成偽目標視角。為處理遮擋解除區域的內容生成,我們提出掩碼訓練機制,將幾何、感知和紋理損失約束於有效區域,從而實現對3000萬張未經篩選圖像的訓練。在推理階段,OVIE無需任何幾何先驗,既不依賴深度估計器也不需三維表徵。僅使用真實場景圖像訓練的OVIE在零樣本設定下超越現有方法,推理速度較次優基準快600倍。代碼與模型已開源於https://github.com/AdrienRR/ovie。
多模态人工智能代理正日益自动化涉及在线网络执行的复杂现实工作流程。然而,当前的网络代理基准存在一个关键局限:它们完全聚焦于基于网络的交互与感知,缺乏对用户现实物理环境的 grounding。这一局限使得在关键场景下的评估无法实现,例如当代理必须通过具身视觉感知(如通过AR眼镜)识别用户周围环境中的物体,随后在线完成相关任务时。为弥补这一空白,我们推出了Ego2Web——首个旨在连接具身视频感知与网络代理执行的基准测试。Ego2Web将现实世界的第一人称视频记录与需要视觉理解、网络任务规划及在线环境交互的网络任务相匹配,确保任务的成功完成。我们采用自动化数据生成流程结合人工验证与优化,构建了涵盖电子商务、媒体检索、知识查询等多种网络任务类型的高质量视频-任务对。为实现基准测试的精准可扩展评估,我们还开发了创新的LLM-as-a-Judge自动评估方法Ego2WebJudge,其与人类判断的一致性达到约84%,显著优于现有评估方法。在Ego2Web上对多种先进代理进行的实验表明,其性能表现较弱,在所有任务类别中均有较大提升空间。我们还对任务设计进行了全面消融研究,揭示了所提出任务中对视频精准理解的必要性以及当前代理的局限性。我们期待Ego2Web能成为开发真正具备跨物理与数字世界无缝感知、理解与行动能力的AI助手的关键新资源。
尽管视觉语言模型(VLMs)已取得显著性能,其欧几里得嵌入在捕捉层次关系(如部分-整体或父子结构)方面仍存在局限,且在多对象组合场景中常面临挑战。双曲视觉语言模型通过蕴含关系更好地保留层次结构并建模部分-整体关系(即整体场景及其部分图像),从而缓解了这一问题。然而现有方法未能建模每个部分对整体具有不同层次的语义代表性。我们提出不确定性引导的组合式双曲对齐(UNCHA)来增强双曲视觉语言模型。UNCHA通过双曲不确定性建模部分到整体的语义代表性,对整体场景中更具代表性的部分分配较低不确定性,而对代表性较弱的部分分配较高不确定性。随后将这种代表性通过不确定性引导的权重融入对比学习目标。最后,通过基于信息熵的项进行正则化的蕴含损失进一步校准不确定性。借助所提出的损失函数,UNCHA能够学习具有更精确部分-整体排序关系的双曲嵌入,从而捕捉图像中潜在的组合结构,并提升对复杂多对象场景的理解能力。UNCHA在零样本分类、检索和多标签分类基准测试中实现了最先进的性能。我们的代码与模型已开源:https://github.com/jeeit17/UNCHA.git。
基于视频的世界模型为具身模拟与规划提供了强大范式,但当前最先进的模型常因训练数据泛化及忽略物理规律的似然目标,产生物体穿透、反重力运动等违反物理法则的操控效果。我们提出ABot-PhysWorld——一个140亿参数的扩散Transformer模型,能生成视觉逼真、物理合理且动作可控的视频。该模型基于包含三百万段物理标注操控视频的精选数据集,采用新型DPO后训练框架与解耦判别器,在保持画质的同时抑制非物理行为。通过并行上下文模块实现跨具身系统的精确空间动作注入。为更好评估泛化能力,我们推出首个训练无关的具身零样本基准EZSbench,融合真实与合成环境中未见过的机器人-任务-场景组合,采用解耦评估协议分别检验物理真实性与动作对齐度。ABot-PhysWorld在PBench和EZSbench上实现最新最优性能,在物理合理性与轨迹一致性方面超越Veo 3.1与Sora v2 Pro。我们将开源EZSbench以推动具身视频生成的标准化评估。
大型语言模型是否具备道德推理能力,抑或仅是看似如此?我们通过科尔伯格道德发展阶段的框架,探究LLM对道德困境的回应是否展现真正的发展性递进,还是说对齐训练仅仅产生了表面类似成熟道德判断的推理式输出,却缺乏内在发展轨迹。采用经三种评判模型验证的LLM即评判者评分流程,我们对涵盖不同架构、参数规模和训练方案的13个LLM在六大经典道德困境中产生的600余条回应进行分类,并开展十项互补分析以解析所得模式的本质与内在一致性。 研究结果揭示出惊人的倒置现象:无论模型规模、架构或提示策略如何,回应均压倒性地对应后习俗推理阶段(第5-6阶段),这与人类以第4阶段为主导的发展常态形成根本倒置。尤为显著的是,部分模型表现出道德脱钩现象:即陈述的道德理由与行为选择之间存在系统性不一致。这种逻辑不连贯性在不同规模和提示策略下持续存在,构成独立于修辞复杂度的直接推理一致性失败。模型规模虽具有统计学显著但实际微弱的影响;训练类型无显著独立主效应;模型表现出近乎机械化的跨困境一致性,对语义迥异的道德问题产生逻辑无法区分的回应。 我们提出这些模式构成了道德腹语效应的证据:通过对齐训练习得成熟道德推理的修辞范式,却未能形成这些范式本应表征的底层发展轨迹。
人工智能代理系统——这种能在有限人工监督下自主采取行动以实现复杂目标的系统——已进入主流应用领域。目前这些系统正被广泛用于软件开发、商业运营以及日常个人任务的自动化处理。尽管人工智能代理涉及代理法、合同法、侵权责任到劳动法等多个法律领域,但它们对当前全球影响力最大的AI监管法规——欧盟《人工智能法案》提出了尤为紧迫的挑战。在AI代理技术发展及普及前颁布的欧盟AI法案,在面对这项变革性技术带来的治理难题时正遭遇重大障碍,包括自主任务执行中的性能故障、恶意行为者滥用代理的风险,以及AI代理所创造经济机遇的获取不平等问题。我们系统分析了欧盟AI法案应对这些挑战的策略,既关注法规的具体条款,更关键的是考察旨在支撑法规实施的制度框架。通过对法案中监测与执法职责分配、行业自律机制依赖度以及政府资源投入水平的剖析,我们揭示了原本为传统AI系统设计的监管框架如何难以适配AI代理的特性。综合来看,我们的研究结果表明,欧盟及全球政策制定者若想有效管控下一代AI技术,就需要尽快调整现有监管路径。
确定性预执行安全门控机制通过评估智能体单步动作与其分配角色的兼容性实现权限管控。尽管在单动作授权层面表现有效,此类系统在结构上无法识别分布式攻击——即那些将恶意意图分解为多个独立合规步骤的威胁。本文提出会话风险记忆模块(SRM),该轻量级确定性模块通过轨迹级授权机制扩展了无状态执行门控体系。SRM通过维护表征智能体会话行为演化的紧凑语义质心,并基于门控输出与基准值的差值进行指数移动平均来累积风险信号。该模块与底层门控系统共享语义向量表示,无需额外模型组件、训练过程或概率推断。我们在包含慢速数据渗出、渐进权限提升及合规性漂移等场景的80轮多回合基准测试中评估SRM性能。结果表明:ILION+SRM系统在保持100%检测率的同时,实现了F1=1.0000且误报率为0%的优异表现,而无状态ILION系统的F1值为0.9756且误报率达5%。关键的是,SRM在每回合计算开销低于250微秒的条件下消除了所有误报。该框架从概念上区分了空间授权一致性(按动作评估)与时间授权一致性(按轨迹评估),为智能体系统的会话级安全提供了理论依据。
当前AI智能体框架过早固守单一交互协议、固定工具集成策略和静态用户模型,限制了其在多样化交互范式中的部署能力。为突破这些局限,我们提出STEM智能体(具备自适应、工具化、可扩展特性的多智能体架构),其模块化设计灵感源于生物多能性——未分化的智能体核心可分化成专用协议处理器、工具绑定模块及记忆子系统,最终组合成功能完整的AI系统。该框架通过统一网关整合五种互操作协议(A2A、AG-UI、A2UI、UCP和AP2),引入持续学习二十余项行为维度用户偏好的调用者分析器,基于模型上下文协议(MCP)外部化所有领域能力,并采用仿生技能习得机制:重复交互模式通过类似细胞分化的成熟生命周期,固化为可复用的智能体技能。与之配套的记忆系统整合了情景修剪、语义去重及模式提取等巩固机制,确保持续交互下实现亚线性增长。通过涵盖全部五个架构层的413项测试套件,系统可在三秒内完成协议处理器行为验证与组件集成测试。
无参考图像质量评估(NR-IQA)旨在无需原始质量参考图像的情况下估计感知质量。学习NR-IQA模型面临一个根本性瓶颈:需要大量昂贵的人类感知标签。我们提出SHAMISA——一种非对比自监督框架,通过利用显式结构化关系监督从无标注的失真图像中学习。与强加刚性二元相似性约束的现有方法不同,SHAMISA引入了隐式结构关联,这种关联被定义为从合成元数据和内在特征结构推断出的、兼具失真感知与内容敏感特性的柔性可控关系。核心创新在于我们的组合失真引擎,该引擎能从连续参数空间生成不可数级的退化类型,并通过分组确保每次仅有一个失真因子发生变化。这使得在训练过程中能对表征相似性进行细粒度控制:具有共享失真模式的图像在嵌入空间中相互靠近,而失真程度的变化则产生结构化、可预测的偏移。我们通过双源关系图整合这些特性,该图同时编码已知退化轮廓和涌现的结构亲和性,以全程指导学习过程。卷积编码器在此监督下训练后冻结用于推理,质量预测通过线性回归器对其特征执行。在合成、真实及跨数据集NR-IQA基准上的大量实验表明,SHAMISA在无需人工质量标注或对比损失的情况下,实现了优异的整体性能,并具有改进的跨数据集泛化能力和鲁棒性。
影片物件中心學習旨在將原始影片分解為少量物件槽位,但現有的槽位注意力模型常存在嚴重過度碎片化問題。這是因為模型被隱性驅使佔用所有槽位以最小化重建目標,導致單一物件被多個冗餘槽位表徵。我們通過重建引導的槽位課程學習(SlotCurri)突破此限制:訓練初期僅使用少量粗粒度槽位,隨後逐步在重建誤差持續偏高區域分配新槽位,由此實現按需擴展表徵容量,從根源避免碎片化。然而在槽位擴展過程中,唯有當粗粒度語義已充分分離時,有意義的子部件才會顯現;但受限於初始槽位預算與均方誤差目標,語義邊界往往保持模糊。為此,我們在均方誤差基礎上引入能保留局部對比度與邊緣信息的結構感知損失,促使每個槽位強化其語義邊界。最後,我們提出循環推理機制,使槽位在幀序列中進行前向與後向滾動,即使在最初幾幀也能產生時間連貫的物件表徵。SlotCurri通過上述三重設計——在重建失敗處動態分配表徵容量,輔以結構線索與循環推理——有效解決物件過度碎片化問題。在YouTube-VIS和MOVi-C數據集上分別實現+6.8和+8.3的FG-ARI顯著提升,驗證了SlotCurri的優越性。代碼已開源於github.com/wjun0830/SlotCurri。
随着企业用户日益依赖AI代理通过自然语言查询数据,构建可靠的数据代理仍面临挑战。现实世界的数据往往分散在多个异构数据库系统中,存在引用不一致及信息埋没于非结构化文本等问题。现有基准测试仅能解决局部难题——例如将自然语言问题转换为SQL查询、基于上下文提供的小型表格回答问题——但未能评估跨多数据库系统进行数据整合、转换与分析的全流程。为填补这一空白,我们基于对六个行业企业数据代理工作负载的形态研究,提出了数据代理基准测试(DAB)。该基准涵盖12个数据集、9个领域、4种数据库管理系统中的54个查询任务。在DAB测试中,性能最优的前沿模型(Gemini-3-Pro)仅达到38%的pass@1准确率。我们对五款前沿大语言模型进行基准测试,分析其失败模式,并提炼出未来数据代理开发的要点。相关基准测试与实验代码已发布于github.com/ucbepic/DataAgentBench。