每日精選AI研究論文及翻譯
視覺語言模型(VLM)的發展長期依賴於擴大模型規模,這阻礙了其在計算資源受限的行動與邊緣設備(如智慧型手機和機器人)上的部署。本研究旨在探索緊湊型(如20億與80億參數)VLM的性能極限。我們挑戰當前主流觀點——即頂尖VLM必須依賴通過大規模對比式預訓練(如CLIP/SigLIP)初始化的視覺編碼器。我們發現存在目標錯配問題:專注於區分能力的對比學習會強制模型形成粗粒度、類別層級的不變性,從而壓抑了密集描述與複雜VLM推理所需的細粒度視覺線索。為解決此問題,我們提出Penguin-VL模型,其視覺編碼器直接從純文字大型語言模型初始化。實驗表明,Penguin編碼器可作為傳統對比式預訓練的優越替代方案,為多模態理解釋放更高程度的視覺保真度與數據效率。在多項圖像與影片基準測試中,Penguin-VL在數學推理任務上與主流VLM(如Qwen3-VL)表現相當,並在文件理解、視覺知識問答及多視角影片理解等任務中實現超越。值得注意的是,這些成果是通過輕量級架構實現的,證明視覺表徵能力的提升(而非模型擴容)才是性能突破的主要驅動力。消融實驗顯示,Penguin編碼器始終優於對比式預訓練編碼器,能保留對密集感知與複雜推理至關重要的細粒度時空線索,使其成為高效能計算VLM的即插即用替代方案,在資源受限環境中實現卓越性能。程式碼:https://github.com/tencent-ailab/Penguin-VL
鄰近約束是大型語言模型強化學習穩定性的基礎。雖然PPO中的標準剪切機制可作為信賴區域的有效替代方案,但我們發現關鍵瓶頸:固定邊界嚴格限制了低機率動作的向上更新空間,不成比例地壓制高優勢的尾部策略,並引發快速熵崩潰。為解決此問題,我們提出帶約束策略優化(BandPO)。BandPO以Band取代標準剪切機制——這是一個統一理論運算元,能將由f散度定義的信賴區域投影至動態的機率感知剪切區間。理論分析證實Band有效解決了此探索瓶頸。我們將此映射建構為凸優化問題,在推導特定散度閉合解的同時保證全局最優數值解。跨越多種模型與數據集的大規模實驗表明,BandPO在持續優於標準剪切與Clip-Higher方法的同時,能有效緩解熵崩潰現象。
世界模型提供了一個強大的框架,能根據行動或指令模擬環境動態,從而實現行動規劃或策略學習等下游任務。近期研究雖將世界模型作為學習型模擬器使用,但其在決策時規劃的應用仍因計算量過大而難以實現即時控制。關鍵瓶頸在於潛在表徵:傳統分詞器將每個觀測值編碼為數百個詞元,導致規劃速度緩慢且資源消耗龐大。為解決此問題,我們提出CompACT——一種將每個觀測值壓縮至僅需8個詞元的離散分詞器,在保留規劃所需關鍵資訊的同時,大幅降低計算成本。搭載CompACT分詞器的行動條件化世界模型,能以數量級更快的規劃速度實現具競爭力的規劃性能,為世界模型的實際部署邁出實質性一步。
實現可商用的人類影片生成技術,要求數位演員在動態鏡頭、多視角與複雜動作中保持嚴格一致的全身身份特徵,這一設定對現有方法仍具挑戰性。既有方法常存在過度聚焦臉部而忽略身體一致性,或產生因姿勢鎖定導致主體僵硬的複製貼上瑕疵。我們提出Actor-18M——專為捕捉無約束視角與環境下身份一致性而設計的大規模人類影片資料集,包含160萬支影片與1800萬張對應人體圖像,涵蓋任意視角與標準三視圖表徵。基於此資料集,我們開發WildActor框架,實現任意視角條件下的人類影片生成。透過非對稱身份保持注意力機制,結合視角自適應蒙地卡羅取樣策略,該框架能根據邊際效用迭代重加權參考條件,實現平衡的流形覆蓋。在自建Actor-Bench評估體系中,WildActor於多樣化鏡頭構圖、大視角轉換及劇烈運動場景下,均能穩定保持身體身份特徵,在這些挑戰性設定中超越現有方法。
思維鏈監控是一項極具前景的工具,可用於檢測現代推理模型的異常行為並理解其決策動機。然而,若模型能夠控制其思維鏈中的語言表達,便可能削弱思維鏈的可監控性。為衡量這種不良能力——即思維鏈可控性——我們推出思維鏈控制評估套件,其中包含要求模型在遵循思維鏈指令的前提下解決問題的任務,例如在回答遺傳學問題時不得使用「染色體」一詞。我們發現推理模型的思維鏈可控性顯著低於輸出可控性:以Claude Sonnet 4.5為例,其思維鏈可控成功率僅2.7%,而最終輸出可控性達61.9%。研究還表明,更大規模模型的思維鏈可控性較高,但會隨強化學習訓練量、測試時計算資源及問題難度的增加而下降。即便在模型被給予規避監控的誘因(而非直接指令)時,思維鏈可控性失效現象依然存在,不過當模型知曉自身被監控時,可控性會輕微提升。同樣地,通過對抗性優化提示詞來激發可控性,並未實質性提升控制效果。這些結果使我們謹慎樂觀地認為,當前思維鏈可控性尚不太可能成為威脅可監控性的失效模式。但低可控性背後的機制尚未明確。鑑於其對維護思維鏈可監控性的重要性,我們建議前沿實驗室在未來模型中持續追蹤思維鏈可控性指標。
變壓器架構已成為多數現代大型語言模型的基礎骨架,因此其預訓練穩定性與收斂速度至關重要。基於序列堆疊層間的邏輯依賴性,我們提出用於語言模型預訓練的漸進殘差預熱法(ProRes)。該方法實踐「底層先學習」的理念,通過將每層殘差連接乘以一個從0漸進增至1的標量係數,並使深層網絡需要更長的預熱步數,從而讓深層等待底層先進入穩定狀態後再參與學習。我們通過在不同模型規模、歸一化方法及初始化策略下的預訓練實驗,驗證了ProRes的有效性。綜合分析表明,ProRes不僅能穩定預訓練過程,更創造出獨特的優化軌跡,實現更快的收斂速度、更強的泛化能力與更優的下游任務表現。相關代碼已開源於:https://github.com/dandingsky/ProRes。
記憶能力對於長時程且依賴歷史的機器人操作至關重要。這類任務通常涉及重複動作計數或處理暫時被遮擋的物件。近期視覺-語言-動作模型開始整合記憶機制,但其評估仍侷限於狹窄的非標準化環境,這限制了系統性理解、模型比較與進展衡量。為解決這些挑戰,我們推出RoboMME:一個大規模標準化基準測試平台,用於評估並推進VLA模型在長時程依賴歷史場景中的表現。該基準包含16項操作任務,基於精心設計的分類框架構建,可評估時序記憶、空間記憶、物件記憶與流程記憶。我們進一步開發了14種基於π0.5架構的記憶增強型VLA模型變體,透過多重整合策略系統性探索不同記憶表徵方式。實驗結果表明,記憶表徵的有效性高度依賴具體任務,每種設計在不同任務中均展現出獨特優勢與侷限性。影片與程式碼請參見專案網站:https://robomme.github.io。
扩散变换器(DiT)通过静态分块操作将图像处理为固定长度的令牌序列。尽管这种设计有效,但其对低信息与高信息区域采用均等计算量,忽略了图像各区域细节密度的差异性,以及去噪过程从早期时间步的粗略结构向后期精细细节演变的特性。我们提出动态分块扩散变换器(DC-DiT),在DiT主干网络上增加可学习的编码器-路由器-解码器支架,通过端到端扩散训练习得的分块机制,以数据依赖方式将二维输入自适应压缩为更短的令牌序列。该机制能自动将均匀背景区域压缩为较少令牌,同时为细节丰富区域分配更多令牌,在没有显式监督的情况下形成有意义的视觉分割。此外,它还能根据扩散时间步调整压缩策略:在噪声较多的阶段使用较少令牌,随着精细细节显现逐渐增加令牌数量。在类别条件ImageNet 256×256数据集上,DC-DiT在4倍和16倍压缩条件下,相较于参数匹配和FLOP匹配的DiT基线模型,FID和初始分数指标均持续提升,表明这是一项具有潜力的技术,可进一步应用于像素空间、视频及3D生成领域。除精度优势外,DC-DiT具备实用价值:可从预训练DiT检查点进行升级(训练步数最多减少8倍),并能与其他动态计算方法结合进一步降低生成过程的FLOPs消耗。
基于扩散模型的视频生成技术近期虽在视觉真实感方面取得显著进展,但仍难以遵循重力、惯性和碰撞等基本物理定律。生成物体常出现帧间运动不一致、运动轨迹不合理或违反物理约束等问题,限制了AI生成视频的真实性与可靠性。为弥补这一不足,我们提出物理模拟器在环视频生成框架(PSIVG),该创新框架将物理模拟器集成至视频扩散过程。PSIVG首先通过预训练扩散模型生成模板视频,继而重建四维场景与前景物体网格,在物理模拟器中初始化这些元素并生成符合物理规律的运动轨迹。这些模拟轨迹随后用于引导视频生成器实现时空物理一致性运动。为进一步提升物体运动过程中的纹理一致性,我们提出测试时纹理一致性优化技术(TTCO),该技术基于模拟器提取的像素对应关系自适应调整文本与特征嵌入。综合实验表明,PSIVG在保持视觉质量与多样性的同时,能生成更符合现实物理规律的视频。项目页面:https://vcai.mpi-inf.mpg.de/projects/PSIVG/
近期大規模語言模型(LLM)的突破為多模態推理開闢了新途徑。然而現有方法大多仍依賴預訓練視覺語言模型(VLM)對圖像-文本對進行孤立編碼,忽略了現實世界多模態數據天然形成的關聯結構。這促使人們轉向多模態圖(MMG)推理——圖中節點同時具備文本與視覺屬性,邊緣則提供結構化線索。要在此類異質多模態信號上實現基於LLM的推理並保持圖拓撲結構,需解決兩大關鍵挑戰:弱跨模態一致性問題與異質模態偏好問題。為此,我們提出Mario統一框架,可同步化解上述挑戰,實現高效的基於LLM的MMG推理。該框架包含兩個創新階段:首先採用圖條件約束的VLM設計,通過圖拓撲指導的細粒度跨模態對比學習聯合優化文本與視覺特徵;其次提出模態自適應圖指令調優機制,將對齊後的多模態特徵組織為圖感知指令視圖,並通過可學習路由器為每個節點及其鄰域動態篩選最富信息量的模態配置傳輸至LLM。在多個MMG基準測試上的廣泛實驗表明,無論在監督學習還是零樣本場景下,Mario在節點分類與鏈接預測任務中均持續優於當前最先進的圖模型。代碼已公開於https://github.com/sunyuanfu/Mario。
傳統序列式大型語言模型代理在處理具有預算限制與多樣性要求等嚴格約束的長程規劃任務時表現不佳。隨著規劃進程推進與上下文擴充,這類代理往往會偏離全域約束。我們提出HiMAP-Travel階層式多代理框架,將規劃拆分為策略協調與並行日程執行兩階段:協調器負責跨日資源分配,日程執行器則可並行獨立規劃。該框架通過三大關鍵機制實現:跨並行代理的預算與唯一性約束事務監控器、允許代理拒絕不可行子目標並觸發重規劃的協商協議,以及通過角色條件化由單一GRPO訓練策略驅動所有代理。在TravelPlanner測試中,搭載Qwen3-8B的HiMAP-Travel達成52.78%驗證集與52.65%測試集最終通過率。在控制模型、訓練與工具變因的對比實驗中,其表現較序列式DeepTravel基準提升+8.67個百分點,並超越ATLAS達+17.65個百分點、優於MTP達+10.0個百分點。在FlexTravelBench多輪對話場景中,通過並行化將延遲降低2.5倍的同時,實現44.34%(雙輪)與37.42%(三輪)的最終通過率。
视觉特效(VFX)对于提升视频内容的表现力与创意至关重要,但高质量特效制作通常需要专业知识及昂贵的生产流程。现有AIGC系统在特效生成领域面临重大挑战:特效专用数据稀缺,且超自然或风格化效果本身存在建模难度。此外,这些方法常需针对每种特效进行微调,严重限制了其对新特效的扩展性与泛化能力。本文提出EffectMaker——一个支持基于参考视频的特效定制化统一推理生成框架。该框架采用多模态大语言模型解析高级别特效语义并推理其如何适配目标主体,同时利用扩散变换器通过上下文学习从参考视频中捕捉细粒度视觉线索。二者构成语义-视觉双路径引导机制,无需逐特效微调即可实现精准、可控且效果一致的合成。我们还构建了EffectData数据集,这是目前规模最大、质量最高的合成数据集,涵盖3000种特效类别的13万条视频,以提升泛化性与可扩展性。实验表明,EffectMaker在视觉质量与特效一致性上均优于现有先进基线,为定制化特效生成提供了可扩展的灵活范式。项目页面:https://effectmaker.github.io
基于流模型的视觉-语言-动作模型在具身控制任务中表现卓越,但在多步采样过程中存在难以处理的似然性问题,阻碍了在线强化学习的应用。我们提出\textit{boldsymbolπ-StepNFT}(步进式负向感知微调),该框架无需价值函数网络与似然计算,每个优化步骤仅需单次前向传播。研究发现,更广阔的探索空间需要更细粒度的步进式对齐指导。实验表明,π-StepNFT在LIBERO数据集上展现出具有竞争力的少样本鲁棒性,释放了潜在性能。此外,在ManiSkill任务中实现了卓越的泛化能力,通过避免对多模态特征的过拟合,在分布外场景下超越了基于价值函数的基线方法。这一特性为复杂现实应用提供了可扩展的解决方案。
長文本建模是大型語言模型的關鍵能力,然而注意力機制的二次方複雜度仍是主要瓶頸,尤其在計算密集的前填充階段。儘管已有各種稀疏注意力機制被提出,但這些方法通常存在搜尋延遲過高或稀疏度不足的問題。本文提出FlashPrefill框架,透過即時模式發現與閾值處理實現超高速前填充。該框架採用快速區塊搜尋技術,能同步定位動態的垂直型、斜線型與區塊稀疏注意力模式。關鍵在於其引入的動態閾值機制,既能規避注意力分數排序或累積的巨量開銷,又能有效消除長尾分布以提升稀疏度。大量實驗表明,FlashPrefill實現了效率的飛躍性突破,在256K長度序列上達成27.78倍的加速效果。值得注意的是,有別於現有方法在短文本上出現效能衰減,FlashPrefill即使在4K上下文長度下仍保持1.71倍加速,展現其跨序列尺度的穩健性與實用價值。
随着具备不同能力、成本和领域专长的大型语言模型(LLMs)的快速发展,在推理时进行智能模型选择已成为关键需求。常规查询可由较小模型处理,但复杂任务需要能力更强的模型。然而,静态模型部署无法适应输入查询的复杂性和领域特性,导致性能欠佳与成本增加。基于查询特征自适应选择模型的动态路由系统应运而生,成为解决这一挑战的关键方案。 本文对当前最先进的多LLM路由与级联方法进行了系统性分析。区别于混合专家架构在单一模型内部进行路由的模式,我们研究跨多个独立训练LLM的路由机制。我们涵盖了多样化的路由范式,包括查询难度评估、人类偏好学习、聚类分析、不确定性量化、强化学习、多模态处理以及级联策略。针对每种范式,我们分析了代表性方法并审视其核心权衡关系。在分类框架之外,我们提出一个三维概念体系来刻画路由系统的特征:决策时机、信息利用方式以及计算机制。这一视角揭示出实用系统往往具有组合性,需要在操作约束下整合多种范式。 分析表明,有效的多LLM路由需要平衡相互制约的目标。最优路由策略的选择取决于部署环境与计算约束。精心设计的路由系统通过战略性利用各模型的专业能力并最大化效率收益,其性能甚至可超越最强大的单体模型。然而,开发能够跨架构、跨模态、跨应用泛化的路由机制仍存在开放挑战。
演示文稿生成需要深入的内容研究、连贯的视觉设计以及基于观察的迭代优化。然而现有的演示文稿生成工具往往依赖预定义流程和固定模板。为此,我们提出DeepPresenter——一种能适应用户多样化意图、支持有效反馈驱动优化、并突破脚本化流程限制的智能框架。该框架通过自主规划、渲染和修订中间幻灯片成果物,实现对环境观察的长周期优化。与依赖内部信号(如推理轨迹)的自我反思不同,我们的环境锚定反思机制将生成过程建立在可感知的成果物状态(如已渲染幻灯片)之上,使系统能在执行过程中识别并修正演示文稿特有的问题。在涵盖多样化演示场景的评估集上,DeepPresenter实现了最先进的性能,且微调后的90亿参数模型在成本显著降低的同时仍保持强大竞争力。项目地址:https://github.com/icip-cas/PPTAgent
基于扩散模型的世界模拟器已展现出统一世界模拟的强大潜力,但迭代去噪过程的计算成本仍然过高,难以实现交互式应用和长周期推演。虽然特征缓存技术可在无需重新训练的情况下加速推理,但我们发现针对单模态扩散设计的策略在世界模型中表现不佳,原因在于两个世界模型特有的障碍:多模态耦合与空间变异导致的令牌异质性,以及非均匀时间动态性——即少量关键令牌主导误差增长,使得均匀跳帧策略要么失稳要么过于保守。我们提出WorldCache,一个专为扩散世界模型设计的缓存框架。我们引入了曲率引导的异质令牌预测技术,通过基于物理学的曲率评分估计令牌可预测性,并对方向突变的混沌令牌采用埃尔米特引导的阻尼预测器。同时设计了混沌优先的自适应跳帧机制,通过累积曲率归一化的无量纲漂移信号,仅在瓶颈令牌开始漂移时重新计算。在扩散世界模型上的实验表明,WorldCache可实现最高3.7倍的端到端加速,同时保持98%的推演质量,充分证明了该方法在资源受限场景下的巨大优势与实用性。代码已发布于https://github.com/FofGofx/WorldCache。
计算机辅助设计(CAD)依赖于结构化且可编辑的几何表示,然而现有生成方法受限于带有显式设计历史或边界表示(BRep)标注的小型标注数据集。与此同时,数百万未标注的三维网格模型尚未被开发利用,限制了可扩展CAD生成技术的发展。为此,我们提出DreamCAD——一种多模态生成框架,能够通过点级监督直接生成可编辑的BRep模型,无需CAD专用标注。DreamCAD将每个BRep表示为参数化曲面片(如贝塞尔曲面)的集合,并采用可微分细分方法生成网格。该技术实现了在三维数据集上的大规模训练,同时能重建具有连通性的可编辑曲面。此外,我们推出了迄今最大的CAD标注数据集CADCap-1M,其中包含使用GPT-5生成的100余万条描述文本,以推进文本到CAD的研究。DreamCAD在ABC和Objaverse基准测试中,针对文本、图像和点云三种模态均实现了最先进的性能表现,在提升几何保真度的同时获得了超过75%的用户偏好度。相关代码和数据集将公开提供。
在知识密集型场景中,对话智能体日益普及,其正确行为依赖于在与用户实时交互过程中,从大规模、专有且非结构化的语料库中检索并应用领域特定知识。然而现有基准测试大多独立评估检索功能或工具使用能力,导致在长周期交互中缺乏对非结构化数据进行真实全面智能体评估的基准。我们推出τ-Knowledge——τ-Bench的扩展框架,用于评估智能体在需协调外部自然语言知识与工具输出以产生可验证、符合策略的状态变更的环境中的表现。新领域τ-Banking模拟真实金融科技客服工作流,要求智能体在执行工具介导的账户更新时,导航约700份相互关联的知识文档。无论是基于嵌入向量的检索还是终端搜索,即便配备高推理预算的前沿模型也仅能达到25.5%通过率¹,且可靠性在重复试验中急剧下降。智能体难以从高度互联的知识库中准确检索文档,也无法对复杂内部策略进行精确推理。总体而言,τ-Knowledge为开发面向人类部署场景中整合非结构化知识的智能体提供了真实测试平台。
训练神经偏微分方程求解器常受限于昂贵的数据生成成本,或面临因高阶导数导致优化空间复杂而难以稳定的物理信息神经网络(PINN)。为解决该问题,我们提出一种基于蒙特卡洛方法的替代方案,通过将偏微分方程解估计为随机过程,为训练过程提供弱监督。借助球面行走法,我们提出名为球面行走神经算子(WoS-NO)的学习框架,利用WoS生成的弱监督信号训练任意给定的神经算子。通过WoS算法的随机表示,我们将蒙特卡洛行走的计算成本分摊到偏微分方程实例的分布上,在训练过程中生成廉价且含噪声的偏微分方程解估计值。该方法被形式化为无数据的物理信息优化目标,通过训练神经算子回归这些弱监督信号,使其能够学习整个偏微分方程族系的广义解映射。该策略无需昂贵的预计算数据集,避免了内存密集且不稳定的高阶导数损失函数计算,并展现出对新偏微分方程参数和领域的零样本泛化能力。实验表明,在相同训练步数下,我们的方法相比标准物理信息训练方案L2误差最高提升8.75倍,训练速度最高提升6.31倍,GPU内存消耗最高降低2.97倍。代码发布于https://github.com/neuraloperator/WoS-NO。
随着大语言模型推理时计算资源的扩展,其推理能力实现了突破性进展。然而,现有的推理时扩展方法通常依赖低效次优的离散搜索算法或试错式提示策略来优化在线决策。本文提出nabla-Reasoner——一种将词元逻辑的可微分优化融入解码循环的迭代生成框架,实现策略的动态优化。其核心组件可微分文本优化通过融合大语言模型似然度与奖励模型的梯度信号,实现对文本表征的精细化调整。该框架进一步结合拒绝采样与加速设计,以增强解码鲁棒性并提升速度。理论分析表明,在样本空间执行推理时梯度下降以最大化奖励的行为,与通过KL正则化强化学习对齐大语言模型策略具有对偶性。实验证明,在具有挑战性的数学推理基准测试中,nabla-Reasoner的准确率提升超20%,同时相较强基线模型调用次数减少约10-40%。本研究实现了从零阶搜索到一阶优化的范式转变,为增强大语言模型推理能力提供了高性价比路径。
群組相對策略優化(GRPO)在後訓練自迴歸語言模型上表現卓越,但直接應用於擴散式大型語言模型時常引發獎勵崩潰。我們發現兩個不相容的根源:首先,GRPO依賴由序列機率定義的重要性比率,而此機率在擴散式大型語言模型中難以精確計算,需透過估計(如基於ELBO或平均場似然代理值)獲得,導致比率本質上存在噪聲。其次,標準GRPO的公式設計未考慮估計比率——其條件式剪裁可能被與模型無關的估計噪聲異常繞過,產生梯度尖峰;而固定群組大小的歸一化機制在高方差比率估計下會放大梯度幅度波動。我們證明這些效應會形成自我強化的不穩定循環,加劇策略偏移並進一步增加比率方差。為打破此循環,我們提出StableDRL:一種針對擴散式大型語言模型改寫的GRPO框架,採用(i)無條件剪裁以抑制異常值引發的梯度尖峰,以及(ii)自歸一化將更新約束於每樣本梯度的凸包內。我們更透過階梯式注意力機制將StableDRL擴展至區塊級擴散模型。
大型语言模型有时会产生虚假或误导性回应。针对此问题存在两种解决路径:诚实性诱导——通过修改提示词或权重使模型如实作答;以及谎言检测——对特定回应进行真伪分类。现有研究多在专门训练用于撒谎或隐瞒信息的模型上评估此类方法,但这些人为构建的情境可能与自然发生的虚假行为存在差异。我们转而研究中国开发者发布的开源权重LLM,这些模型被训练用于审查政治敏感话题:以Qwen3系列模型为例,其在处理法轮功或天安门抗议等议题时常输出虚假信息,但偶尔会给出正确答案,表明模型实际掌握了受训时被要求抑制的知识。以此为测试平台,我们系统评估了多种诱导与检测技术。在诚实性诱导方面,去除对话模板的采样法、少样本提示以及在通用诚实性数据上的微调最能稳定提升真实回答率。对于谎言检测,直接让受审查模型对其自身回答进行分类的表现接近未审查模型的上限,而基于无关数据训练的线性探针则提供了更经济的替代方案。最强的诚实性诱导技术还可迁移至包括DeepSeek R1在内的前沿开源权重模型。值得注意的是,所有方法均未能完全消除虚假回应。我们已公开全部提示词、代码及对话记录。
我們提出PixARMesh方法,能夠從單張RGB圖像自迴歸地重建完整3D室內場景網格。有別於依賴隱式符號距離場與事後佈局優化的現有方法,PixARMesh通過統一模型聯合預測物體佈局與幾何結構,在單次前向傳播中即可生成具有連貫性且符合美術標準的網格。基於網格生成模型的最新進展,我們通過跨注意力機制將像素對齊圖像特徵與全局場景上下文融入點雲編碼器,實現從單張圖像進行精確空間推理。場景生成過程採用自迴歸方式,從包含上下文、位姿和網格的統一令牌流中逐步構建,最終產生具有高保真幾何結構的緊湊網格。在合成與真實數據集上的實驗表明,PixARMesh在重建質量方面達到最先進水平,同時能生成可直接應用於下游任務的輕量級高質量網格。
離線目標條件強化學習(GCRL)通過靜態預收集數據集學習目標條件策略。然而,由於狀態-動作空間的覆蓋範圍有限,精確的價值估計仍是挑戰。近期物理信息方法嘗試通過一階偏微分方程(如程函方程)正則化對價值函數施加物理和幾何約束,但這類公式在複雜高維環境中常出現不適定性。本文提出源自哈密頓-雅可比-貝爾曼(HJB)方程黏性解的物理信息正則化方法,通過物理學歸納偏置將學習過程錨定於最優控制理論,顯式正則化並限制價值迭代中的更新幅度。進一步基於費曼-卡茨定理將偏微分方程解重構為期望形式,實現可蒙特卡洛估計的目標函數,避免高階梯度數值不穩定性。實驗表明該方法能提升幾何一致性,可廣泛應用於導航任務及高維複雜操作任務。開原始碼見 https://github.com/HrishikeshVish/phys-fk-value-GCRL。
针对多样化退化场景下的图像复原任务,统一式全能框架常因特征干扰与专家专业性不足而面临挑战。本文提出SLER-IR——一种球面分层专家路由框架,通过动态激活网络各层的专用专家模型解决问题。为确保路由可靠性,我们引入基于对比学习的球面均匀退化嵌入方法,将退化表征映射至超球面空间以消除线性嵌入的几何偏差。此外,全局-局部粒度融合模块通过整合全局语义与局部退化线索,有效应对空间非均匀退化及训练-测试粒度差异问题。在三任务与五任务基准测试上的实验表明,SLER-IR在PSNR和SSIM指标上均较现有最优方法取得稳定提升。相关代码与模型将公开发布。
动作空间的规范设定在基于模仿的机器人操作策略学习中具有关键作用,其从根本上塑造了策略学习的优化格局。尽管近期研究重点主要集中于扩展训练数据和模型容量,但动作空间的选择仍遵循临时启发式规则或传统设计,导致对机器人策略设计理念的理解存在模糊性。为厘清这一模糊认知,我们开展了大规模系统性实证研究,证实动作空间确实对机器人策略学习存在显著而复杂的影响。我们沿时间和空间维度剖析动作设计空间,从而结构化分析这些选择如何影响策略可学习性和控制稳定性。基于双手机器人上13,000多次真实环境推演及四类场景中500多个训练模型的评估,我们对比了绝对表征与差分表征、关节空间与任务空间参数化的权衡关系。大规模实验结果表明:设计策略预测差分动作能持续提升性能,而关节空间与任务空间表征具有互补优势——前者倾向于控制稳定性,后者更利于泛化能力。
指令遵循能力是大语言模型(LLMs)的基础能力,其提升依赖于可扩展且准确的评判模型反馈。然而,由于现有元评估基准存在若干缺陷——如数据覆盖不足、与模型优化场景不匹配的过度简化的成对评估范式等,当前评判模型在指令遵循任务中的可靠性仍待深入探究。为此,我们提出IF-RewardBench,一个面向指令遵循任务的综合性元评估基准,涵盖多样化的指令类型与约束条件。针对每条指令,我们基于指令遵循质量构建包含多个响应间所有成对偏好的偏好图。该设计实现了列表式评估范式,可评估评判模型对多个响应进行排序的能力,这对指导模型对齐至关重要。在IF-RewardBench上的大量实验表明,当前评判模型存在显著缺陷,同时证明相较于现有基准,我们的基准与下游任务性能呈现更强的正相关性。代码与数据详见https://github.com/thu-coai/IF-RewardBench。
众所周知,变分自编码器的重建FID(rFID)与潜在扩散模型的生成FID(gFID)相关性较弱。我们提出插值FID(iFID)——rFID的一种简单变体,其与gFID表现出强相关性。具体而言,对于数据集中的每个元素,我们检索其在潜在空间中的最近邻(NN)并插值两者的潜在表征,随后解码插值后的潜在向量,并计算解码样本与原始数据集之间的FID值。此外,我们通过证明rFID与扩散精炼阶段的样本质量相关,而iFID与扩散导航阶段的样本质量相关,从而完善了"rFID与gFID相关性弱"的论断。进一步地,通过结合扩散泛化与幻觉的相关研究成果,我们阐释了iFID与gFID具有强相关性的原因,以及重建类指标为何与gFID呈负相关。实验表明,iFID是首个与扩散gFID呈现强相关性的指标,其皮尔逊线性相关与斯皮尔曼秩相关系数均达到约0.85。源代码已发布于https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID。
要充分釋放視覺豐富文件的潛力,需依賴能同時理解文本與複雜版面的檢索系統,這是視覺文件檢索(VDR)的核心挑戰。現有多向量架構雖功能強大,卻面臨關鍵的存儲瓶頸——現有優化策略(如嵌入合併、剪枝或使用抽象標記)若非犧牲性能就是忽略關鍵版面線索,皆無法有效解決此問題。為此,我們提出ColParse新範式:通過文件解析模型生成少量具版面感知的子圖像嵌入,再與全局頁面級向量融合,形成緊湊且結構化的多向量表徵。大量實驗表明,該方法能在多個基準測試和基礎模型中實現超過95%的存儲需求壓縮,同時顯著提升檢索性能。ColParse由此彌合了多向量檢索的細粒度精度與大規模部署實際需求間的關鍵鴻溝,為構建高效可解釋的多模態信息系統開辟了新路徑。
最新研究发现,基础模型的中间层往往能产生比最终层更具判别力的表征。虽然这一现象最初被归因于自回归预训练,但在通过监督式和判别式自监督目标训练的模型中也得到了验证。本文通过系统研究分析预训练视觉Transformer中中间层的行为特性。基于多样化图像分类基准的大规模线性探测实验表明,预训练数据与下游数据之间的分布偏移是导致深层性能下降的主要原因。我们进一步开展了模块级细粒度分析,发现对Transformer块输出进行标准探测并非最优方案:在显著分布偏移情况下,前馈网络内部的激活值探测能获得最佳性能;而当分布偏移较弱时,多头自注意力模块的归一化输出则表现最优。