每日精選AI研究論文及翻譯
人類透過多感官協同作用學習抽象概念,一旦形成,這類表徵往往能從單一模態中被喚起。受此原理啟發,我們提出Concerto——一種極簡化的人類空間認知概念學習模擬框架,它結合了3D模態內自蒸餾與2D-3D跨模態聯合嵌入。儘管設計簡潔,Concerto通過零樣本可視化證明能學習到更具連貫性和信息量的空間特徵。在3D場景感知的線性探測任務中,其性能分別超越獨立的最先進2D和3D自監督模型14.2%與4.8%,同時也優於它們的特徵拼接組合。經過完整微調後,Concerto在多個場景理解基準測試中創下新紀錄(例如在ScanNet上達到80.7% mIoU)。我們進一步提出專為視頻提升點雲空間理解定制的Concerto變體,以及能將Concerto表徵線性投影至CLIP語言空間的轉譯器,從而實現開放世界感知。這些成果凸顯出Concerto所湧現的空間表徵具有卓越的細粒度幾何與語義一致性。
現實世界中的任務需要在不同粒度層次上做出決策,人類通過利用統一的認知表徵在此方面表現卓越——在這種表徵中,規劃從根本上被理解為高層次的行動形式。然而,當前基於大型語言模型(LLM)的智能體缺乏這種在決策粒度間流暢切換的關鍵能力。這一侷限性源於現有範式強制將高層次規劃與低層次行動嚴格分離,從而削弱了動態適應性並限制了泛化能力。我們提出ReCode(遞歸代碼生成)這一新範式,通過在單一代碼表徵中統一規劃與行動來解決此侷限。在該表徵中,ReCode將高層次計劃視為抽象佔位函數,智能體隨後將其遞歸分解為更細粒度的子函數,直至抵達原始動作層級。這種遞歸方法消解了規劃與行動間的僵化邊界,使智能體能夠動態控制其決策粒度。此外,遞歸結構內在生成豐富的多粒度訓練數據,使模型能夠學習層次化決策過程。大量實驗表明,ReCode在推理性能上顯著超越先進基準模型,並在訓練中展現出卓越的數據效率,驗證了我們的核心見解:通過遞歸代碼生成統一規劃與行動,是實現通用粒度控制的強大而有效的方法。代碼已開源於 https://github.com/FoundationAgents/ReCode。
大型語言模型(LLM)的快速發展催生了數據代理的興起——這類自主系統旨在協調「數據+AI」生態系統以處理複雜的數據相關任務。然而,「數據代理」一詞目前存在術語定義模糊與應用標準不統一的問題,常將簡單的查詢響應器與複雜的自主架構混為一談。這種術語模糊性導致用戶期望錯位、責任歸屬挑戰以及行業發展障礙。受SAE J3016駕駛自動化標準啟發,本綜述首次提出針對數據代理的系統化分層分類法,包含六個級別,用以描繪從人工操作(L0)到生成式全自主數據代理(L5)的漸進式自主性轉變,從而明確能力邊界與責任分配。透過此框架,我們按自主性遞增的順序對現有研究進行結構化梳理,涵蓋專注於數據管理、準備與分析的專項數據代理,以及追求更高自主性的多功能綜合系統新興成果。我們進一步分析推進數據代理演進的關鍵躍遷與技術缺口,特別是當前從L2到L3的過渡階段——數據代理正從流程執行邁向自主協調。最後提出前瞻性發展路線圖,展望主動式生成數據代理的到來。
直接對原始數據分佈進行顯式似然建模是機器學習領域的核心課題,通過自迴歸建模在大語言模型中實現了規模化成功。然而,在視覺像素數據上進行連續自迴歸建模會面臨極長序列和高維空間的挑戰。本文提出FARMER——一種創新的端到端生成框架,將歸一化流與自迴歸模型相結合,實現從原始像素直接進行可追蹤似然估計與高質量圖像合成。FARMER採用可逆自迴歸流將圖像轉換為潛在序列,並通過自迴歸模型隱式建模其分佈。為解決像素級建模的冗餘性和複雜性,我們提出自監督降維方案,將歸一化流潛在通道劃分為信息組與冗餘組,從而實現更高效的自迴歸建模。此外,我們設計一步式蒸餾方案顯著加速推理速度,並提出基於重採樣的無分類器引導算法以提升圖像生成質量。大量實驗表明,FARMER在提供精確似然估計和可擴展訓練的同時,相比現有基於像素的生成模型具有競爭性性能。
当前视觉-语言-动作模型常受限于僵化的静态交互范式,无法同步实现观察、聆听、言语和行动等能力,亦难以动态处理实时用户中断。这种局限性阻碍了具身智能体的无缝协作,导致用户体验呆板迟滞。为解决这些问题,我们提出VITA-E——一种创新性具身交互框架,兼具行为并发性与准实时中断处理能力。该框架核心采用双模型架构:两个并行运行的VLA实例分别作为「主动模型」与「待机模型」,使具身智能体能够像人类多任务处理那样,同步且可中断地执行环境感知、语音监听、言语回应及动作执行。我们进一步提出「模型即控制器」范式,通过微调视觉语言模型生成特殊标记作为系统级指令,将模型推理与系统行为深度耦合。在实体人形机器人平台上的实验表明,VITA-E能可靠处理复杂交互场景。本框架兼容多种双系统VLA模型,在紧急停止与语音中断场景中达成极高成功率,同时完美实现语音行动并发执行。这一成果标志着向更自然、更强大的具身助手迈出重要一步。
音訊驅動的人體動畫模型在時間自回歸生成過程中常出現身份漂移問題,導致角色隨時間推移逐漸喪失身份特徵。現有解決方案是生成關鍵幀作為中間時間錨點以防止退化,但這需要額外的關鍵幀生成階段,且可能限制自然運動動態。為此,我們提出前瞻錨定技術,該技術利用當前生成窗口前方未來時間步的關鍵幀,而非窗口內的關鍵幀。這使關鍵幀從固定邊界轉變為定向導航標:模型在響應即時音訊線索的同時持續追蹤這些未來錨點,通過持久引導保持身份一致性。該技術還實現了自關鍵幀生成功能,其中參考圖像可直接作為前瞻目標,完全無需關鍵幀生成流程。我們發現前瞻時間距離能自然控制表現力與一致性之間的平衡:較大距離可提供更自由的運動空間,較小距離則強化身份特徵保持。將此技術應用於三種最新人體動畫模型後,前瞻錨定在唇形同步、身份保持和視覺品質方面均實現卓越表現,在多種不同架構中展現出改進的時間調節能力。影片成果請見以下連結:https://lookahead-anchoring.github.io。
人類天生能將三維世界的幾何結構與語義內容視為相互交織的維度,從而實現對複雜場景的連貫精準認知。然而過往多數方法側重於訓練大型幾何模型進行低階三維重建,並將高階空間理解獨立處理,忽視了這兩個三維場景分析基礎維度間的關鍵互動,導致泛化能力受限且在下游三維理解任務中表現不佳。近期研究嘗試通過簡單對齊三維模型與特定語言模型來緩解此問題,但這將感知能力侷限於對齊模型的容量,難以適應下游任務需求。本文提出實例錨定幾何轉換器(IGGT),這是一種端到端的大型統一轉換器,能整合空間重建與實例級上下文理解的知識。具體而言,我們設計了「三維一致性對比學習」策略,引導IGGT僅通過二維視覺輸入,編碼出融合幾何結構與實例錨定聚類的統一表徵。該表徵支持將二維視覺輸入一致性提升為具有明確區分物體實例的連貫三維場景。為推進此任務,我們進一步構建InsScene-15K大規模數據集,包含高質量RGB圖像、位姿、深度圖,以及通過創新數據篩選流程生成的三維一致性實例級遮罩標註。
擴散模型與流匹配模型已成為強大的機器人策略框架,使視覺-語言-動作模型能夠在不同場景與指令間實現泛化。然而,當透過模仿學習進行訓練時,其高生成能力會對人類示範中的噪音(如急動、停頓和抖動)極為敏感,這些噪音會降低動作連貫性。動作連貫性不足將導致部署時出現不穩定與軌跡漂移,在需要精確操作的細粒度操控任務中,這類失誤可能引發災難性後果。本文提出適用於VLA模型的動作連貫性引導技術,該無需重新訓練的測試階段引導演算法能提升動作連貫性,從而實現效能增益。在RoboCasa、DexMimicGen及真實世界SO-101任務上的評估顯示,ACG能持續改善動作連貫性,並在多樣化操控任務中提升成功率。程式碼與專案頁面分別公開於:https://github.com/DAVIAN-Robotics/ACG 與 https://DAVIAN-Robotics.github.io/ACG。
文本嵌入模型在现实搜索应用中扮演着基础性角色。通过将查询和文档映射到共享的嵌入空间,这类模型能以高效率实现具有竞争力的检索性能。然而与专用重排器相比,其排序保真度仍存在局限,特别是相较于近期基于大语言模型的列表级重排器——后者能捕捉细粒度的查询-文档及文档-文档交互关系。本文提出名为E^2Rank的简洁高效统一框架(意为"基于嵌入的高效排序",亦指"嵌入到排序"),通过列表级排序目标下的持续训练,将单一文本嵌入模型扩展至同时执行高质量检索与列表级重排,从而在保持卓越效率的同时实现强劲效能。该框架以查询嵌入与文档嵌入的余弦相似度作为统一排序函数,而由原始查询及其候选文档构建的列表级排序提示,则充当了融入Top-K文档信号的增强型查询,类似于传统检索模型中的伪相关性反馈。这一设计在保留基础嵌入模型效率与表征质量的同时,显著提升了其重排性能。实验表明,E^2Rank在BEIR重排基准测试中达到最先进水平,在需要深度推理的BRIGHT基准测试中展现出竞争优势,且重排延迟极低。我们还发现排序训练过程能提升模型在MTEB基准测试中的嵌入性能。研究结果表明,单一嵌入模型可有效统一检索与重排任务,兼具计算效率与竞争优势的排序准确性。
大型多模态模型在生成逼真且符合提示要求的图像方面取得了显著进展,但其输出结果常与可验证知识相矛盾,尤其在涉及细粒度属性或时效性事件的提示场景下。传统检索增强方法试图通过引入外部信息解决此问题,但由于依赖静态知识源和浅层证据整合机制,本质上无法将生成过程锚定于准确且动态演进的知识。为弥补这一缺陷,我们提出ORIG——一种面向事实性图像生成任务的智能开放式多模态检索增强框架。该框架通过迭代式网络多模态证据检索与过滤机制,将精炼知识逐步整合至增强提示中以指导图像生成。为支持系统性评估,我们构建了FIG-Eval基准数据集,涵盖感知、组合及时态三大维度的十个类别。实验表明,ORIG在事实一致性与整体图像质量上显著优于现有强基线模型,彰显了开放式多模态检索在事实性图像生成领域的应用潜力。
视频生成是实现世界模型的关键路径,其中高效的长视频推理能力尤为重要。为此,我们推出LongCat-Video——一个拥有136亿参数的基础视频生成模型,在多项视频生成任务中均展现强大性能。该模型尤其擅长高效生成高质量长视频,是我们构建世界模型的首步探索。其核心特性包括:多任务统一架构:基于扩散Transformer(DiT)框架,单一模型即可支持文本生成视频、图像生成视频及视频续写任务;长视频生成能力:通过视频续写任务的预训练,LongCat-Video能保持数分钟长视频生成的高质量与时序连贯性;高效推理机制:采用时空维度由粗到精的生成策略,结合区块稀疏注意力技术,可在数分钟内生成720p/30fps视频,尤其在高分辨率下显著提升效率;多奖励强化学习优化:经过多奖励RLHF训练,模型性能媲美最新闭源及领先开源模型。为加速领域发展,代码与模型权重已全面开源。
多头注意力机制(MHA)已成为现代大语言模型的基石,通过并行注意力头增强表征能力。然而增加头数会天然削弱单个头的能力,且现有注意力机制——无论是标准MHA还是其变体如分组查询注意力(GQA)和分组绑定注意力(GTA)——都只是简单拼接孤立头的输出而缺乏强交互。为解决这一局限,我们提出碰撞头注意力机制(KHA),使注意力头能够相互"碰撞",在缩放点积注意力计算前实现跨头的特征级交互。这是通过在所有头上应用共享且对角线初始化的投影矩阵实现的。对角线初始化在训练初期保留头的特异性,同时让模型逐步学习融合的跨头表征。KHA仅增加极少参数量和浮点运算量,可无缝集成到MHA、GQA、GTA等注意力变体中。我们通过在1万亿高质量词元上训练61亿参数(激活10.1亿)的混合专家模型验证KHA。相比基线注意力机制,KHA带来更优越稳定的训练动态,在下游任务中取得更优性能。
奖励模型在将AI行为与人类偏好对齐方面发挥着关键作用,但仍面临两大根本性挑战:(1)模态失衡——现有奖励模型主要集中于文本和图像模态,对视频、音频等其他模态的支持有限;(2)偏好固化——基于固定二元偏好对的训练难以捕捉个性化偏好的复杂性和多样性。为解决上述问题,我们提出Omni-Reward通用奖励建模框架,通过支持自由形式偏好向通用全模态奖励建模迈出重要一步,具体包含:(1)评估体系:建立首个支持自由形式偏好的全模态奖励模型基准Omni-RewardBench,涵盖文本、图像、视频、音频及3D五大模态的九类任务;(2)数据构建:打造多模态偏好数据集Omni-RewardData,包含24.8万组通用偏好对和6.9万组指令调优对,用于训练通用全模态奖励模型;(3)模型架构:提出Omni-RewardModel,集成判别式与生成式奖励模型,在Omni-RewardBench及其他主流奖励建模基准上均表现出色。
多模态大语言模型(MLLMs)已在开放世界视觉理解任务中展现出强大的通用能力。然而,现有MLLM大多聚焦于整体场景层级的理解,往往忽视了细粒度、以对象为中心的推理需求。本文提出PixelRefer——一个统一的区域级MLLM框架,能够对图像和视频中用户指定区域进行精细化理解。基于大语言模型注意力机制主要聚焦于对象级标记的发现,我们设计了尺度自适应对象标记器(SAOT),从任意形状区域生成紧凑且语义丰富的对象表征。分析表明全局视觉标记主要在大语言模型浅层发挥作用,由此启发我们开发了高效变体PixelRefer-Lite。该版本通过对象中心注入模块将全局上下文预融合至对象标记,形成轻量化的纯对象框架,在保持高语义保真度的同时显著降低计算成本。为支持细粒度指令微调,我们构建了包含220万样本的高质量对象中心指令数据集PixelRefer-2.2M。大量实验表明:PixelRefer在多个基准测试中以更少训练样本实现领先性能,而PixelRefer-Lite在保持竞争力的准确率同时展现出显著效率优势。
在数学与编程领域中应用可验证奖励强化学习(RLVR),显著提升了大型语言模型的推理与问题解决能力。尽管该方法在单次生成问题求解中表现成功,但强化学习微调过程可能削弱模型的探索能力——具体表现为生成结果多样性的下降,以及在大N值的最佳N采样(Best-of-N)中随之出现的性能衰减。本研究聚焦于优化max@k指标(pass@k指标的连续泛化形式),推导出可直接优化该指标的无偏策略梯度估计。进一步将推导扩展至现代RLVR算法中常见的离策略更新机制,从而提升样本效率。实证研究表明,我们的目标函数能有效优化离策略场景下的max@k指标,使模型与最佳N推理策略保持一致。
近期,统一多模态模型在能力与通用性方面展现出显著提升,但主流系统仍多需从头训练且消耗大量算力资源。本文证明,通过策略性融合专精于生成或理解任务的公开模型,能以更高效率获得具有竞争力的性能。我们的核心设计是在保留原始模块的同时,于整个网络中交错插入多模态自注意力模块。这种双重融合机制具有双重优势:(1)在充分保留基础模型原有优势的前提下实现高效的多模态融合;(2)促使理解编码器的高级语义表征与生成编码器的低级空间信号产生协同融合。该方法仅需约350亿标记的训练量,便在多项基准测试中取得优异成果:组合式文生图任务GenEval得分0.91,复杂文生图任务DPG-Bench得分82.16,图像编辑任务GEditBench与ImgEdit-Bench分别获得6.06和3.77分。我们完整开源代码、模型权重及数据集,以支持统一多模态建模的未来研究。
多模态大语言模型(MLLMs)中的视觉-语言对齐通常依赖于监督微调(SFT)或强化学习(RL)。SFT方法稳定高效但需大规模人工标注且难以捕捉细微偏好,而RL虽能引入奖励信号进行训练,却存在计算开销大与稳定性不足的问题。这些局限性凸显了可扩展性、鲁棒性以及对齐质量之间的权衡。为此,我们提出MergeMix——一种连接SFT与RL的训练时增强范式。该方法首先通过具有更丰富聚类表征与空间上下文的令牌融合实现注意力感知的图像混合,随后构建混合图像与原始图像的偏好对,并采用SimPO损失函数进行优化,形成偏好驱动的MLLMs训练范式。作为混合增强技术,MergeMix通过提升注意力一致性与训练效率,在分类任务中超越了其他基于启发式的方法。大量实验表明,MergeMix以更优的效率实现了具有竞争力的准确率,为分类任务和MLLMs的偏好对齐提供了可扩展的解决方案。
強化學習(RL)在提升大型語言模型(LLM)的推理能力方面已展現顯著潛力。然而,強化學習在LLM中的成功高度依賴人工標註數據集和可驗證獎勵機制,這限制了其擴展性與通用性。受該範式在棋類遊戲中成功的啟發,近期提出的自我對弈式強化學習方法旨在無需人工標註數據的情況下增強LLM的推理能力。但現有方法主要依賴具備明確反饋的實體環境(如Python解釋器或遊戲引擎),將其擴展至通用領域仍面臨挑戰。為解決這些難題,我們提出多智能體進化框架(MAE),該框架使LLM能夠在數學計算、邏輯推理和常識問答等多樣化任務中實現自我進化。MAE的核心設計基於由單一LLM實例化的三智能體交互架構(提問者、求解者、評判者),並應用強化學習優化其行為:提問者生成問題,求解者嘗試解答,評判者則在協同進化過程中對二者進行評估。基於Qwen2.5-3B-Instruct模型的實驗表明,MAE在多個基準測試中實現平均4.54%的性能提升。這些結果凸顯了MAE作為一種可擴展、高數據效率的方法,能夠在極少依賴人工監督的前提下有效增強LLM的通用推理能力。
对机器人通才——即能够跨多样环境执行多种任务的可指导智能体——的追求,需要建立严谨且可扩展的评估体系。然而现实世界中的机器人策略测试仍存在根本性局限:人力投入密集、效率低下、大规模测试存在安全隐患且难以复现。现有仿真基准测试同样受限,因其训练与测试均在相同合成领域内进行,无法评估基于真实世界演示或替代仿真环境训练的模型。随着策略范围与复杂度的提升,这些障碍只会加剧,因为机器人领域的"成功"定义往往取决于人类对执行质量的精细判断。本文提出一种新型基准测试框架,通过将视觉语言动作模型评估迁移至结合在线人类反馈的大规模仿真环境,从而突破上述局限。该方法利用视觉语言模型、2D到3D生成建模及可微分渲染等技术进展,将广泛使用的机器人数据集中的视频演示自动转换为仿真环境中的对应场景。在这些数字孪生体中,我们通过自动化视觉语言模型引导评分和从众包工作者收集的可扩展人类偏好判断,对视觉语言动作模型策略进行双重评估,将人类参与从繁琐的场景设置、重置和安全监控转变为轻量级的偏好比较。为衡量鲁棒性,我们沿纹理、物体布局等多维度对仿真环境进行系统性扰动,在受控变量下对策略泛化能力进行压力测试。最终构建出一个持续演进、可复现、可扩展的基准测试体系,专门针对真实世界训练的机器人操作策略,填补了当前机器人技术生态中的关键能力空白。
现有方法通常依赖大规模微调来使大语言模型适应信息重排序任务,这种计算成本高昂。本研究证明,现代大语言模型仅需少量高质量监督数据即可实现有效适配。为此,我们设计了可复用的开源流程LIMRANK-SYNTHESIZER,用于生成多样化、高难度且贴近真实场景的重排序样本。基于此合成数据,我们微调出重排序模型LIMRANK,并在两个具有挑战性的基准测试(即面向推理密集型检索的BRIGHT和面向指令跟随检索的FollowIR)上开展评估。实验结果表明,LIMRANK仅需使用前人研究不足5%的训练数据即可达到具有竞争力的性能。进一步的消融实验验证了LIMRANK-SYNTHESIZER的有效性,以及LIMRANK在科学文献检索和面向知识密集型问题解决的检索增强生成等下游任务中强大的泛化能力。
大型语言模型(LLMs)已成为开发人员在代码相关任务中的重要助手。虽然LLMs在代码生成和错误修复等传统编程任务中表现出色,但在视觉化编程任务中往往表现不佳,常产生美学效果欠佳的代码。本文提出了一种新型流程来提升LLM生成代码的美学质量。我们首先构建了AesCode-358K——一个专注于代码美学的大规模指令微调数据集;接着提出代理奖励反馈机制,通过多智能体系统评估代码的可执行性、静态美学和交互美学;在此基础上开发了GRPO-AR算法,将这些评估信号整合至GRPO算法中,实现功能性与代码美学的联合优化;最后建立了OpenDesign基准用于评估代码美学。实验结果表明,结合AesCode-358K的监督微调与代理奖励反馈的强化学习,能显著提升模型在OpenDesign上的表现,并在PandasPlotBench等现有基准上取得改进。值得注意的是,我们的AesCoder-4B模型超越了GPT-4o和GPT-4.1,其性能可与参数量达480B-685B的大型开源模型相媲美,这充分验证了所提方法的有效性。
图像自回归模型已成为视觉生成模型的重要范式。尽管性能表现优异,但由于需要大量采样步骤,其生成速度始终较慢。虽然近期提出的蒸馏解码一代(DD1)技术实现了图像自回归模型的少步采样,但在单步采样场景下仍存在显著性能下降,且依赖预定义映射限制了灵活性。本研究提出创新方法蒸馏解码二代(DD2),进一步推进图像自回归模型单步采样的可行性。与DD1不同,DD2无需依赖预定义映射。我们将原始自回归模型视为教师模型,其在潜空间嵌入中为每个词元位置提供真实条件分数。基于此,我们提出新颖的条件分数蒸馏损失函数来训练单步生成器:通过训练独立网络预测生成分布的条件分数,并在每个词元位置基于前序词元进行分数蒸馏。实验结果表明,DD2在ImageNet-256数据集上实现单步采样时,FID指标仅从3.40微增至5.43。相较于最强基线DD1,DD2将单步采样与原始自回归模型的性能差距缩小了67%,同时训练速度提升最高达12.3倍。DD2朝着单步自回归生成的目标迈出重要一步,为快速高质量的AR建模开辟了新可能。代码已开源于https://github.com/imagination-research/Distilled-Decoding-2。
物理模拟依赖于空间变化的力学属性,这些属性通常需要耗费大量精力手工制作。VoMP作为一种前馈式方法,经过训练能够预测三维物体整体体积范围内的杨氏模量(E)、泊松比(ν)和密度(ρ),适用于任何可渲染并体素化的表征形式。该方法通过聚合每体素的多视角特征,并将其输入训练后的几何变换器,以预测每体素的材料潜在编码。这些潜在编码位于物理合理材料构成的流形上,该流形通过真实世界数据集学习获得,确保了解码后每体素材料的有效性。为获取物体级训练数据,我们提出结合分割三维数据集、材料数据库和视觉语言模型知识的标注流程,并建立新基准测试。实验表明,VoMP能精准估算体积属性,在精度和速度上远超现有技术。
我们推出PRISM-Bench——一个基于谜题的视觉挑战基准,其设计目标不仅是评估模型能否解决问题,更能揭示模型的推理过程。与仅衡量最终答案准确度的传统评估不同,PRISM-Bench引入了一项诊断性任务:给定一个视觉谜题和包含恰好一处错误的逐步思维链(CoT),模型必须识别出首个错误步骤。这一设定能对逻辑一致性、错误检测能力和视觉推理进行细粒度评估。PRISM-Bench中的谜题需要多步骤的符号推理、几何推理和类比推理,有效规避了基于表面模式匹配的解题捷径。对前沿多模态大模型(MLLM)的评估表明,流畅生成与可靠推理之间存在持续差距:能生成合理思维链的模型往往难以定位简单的逻辑谬误。通过将答案生成与推理验证相分离,PRISM-Bench为评估多模态推理能力提供了更精准的视角,并凸显了在开发可信赖多模态大模型过程中实施诊断性评估方案的必要性。
当前的三维/四维生成方法通常以提升真实感、效率与美学表现为优化目标,但往往难以在不同视角下保持主体的语义一致性。基于单张或少量特定主体图像进行生成方法适配(即个性化或主体驱动生成),能够创造出与主体身份特征相符的视觉内容。然而,个性化三维/四维生成领域仍存在大量探索空间。本研究提出TIRE(追踪、修复、重映射)这一创新性主体驱动式三维/四维生成方法:首先对现有三维生成模型输出的初始三维资产进行视频追踪,定位需修改区域;随后采用主体驱动的二维修复模型渐进式填充目标区域;最后将修改后的二维多视角观测结果重映射至三维空间,同时保持全局一致性。大量实验表明,相较于现有先进方法,本方案在三维/四维生成的身份特征保持方面实现显著提升。项目网站详见:https://zsh2000.github.io/track-inpaint-resplat.github.io/。
基於單一影像實現照片級真實感的三維人體全身重建,在影視和遊戲應用中是一項關鍵但極具挑戰性的任務,這主要源於固有的三維歧義性與嚴重的自遮擋問題。現有方法雖可通過SMPL模型估計與SMPL條件下的圖像生成模型來合成新視角,但其依賴從SMPL網格提取的粗糙三維先驗,難以處理複雜人體姿態並重建精細細節。本文提出SyncHuman框架,首次將二維多視角生成模型與三維原生生成模型相結合,即使在挑戰性姿態下也能實現從單視圖影像的高質量著衣人體網格重建。多視角生成模型擅長捕捉二維細節卻缺乏結構一致性,而三維原生生成模型能產生結構一致但粗糙的三維形狀。通過融合兩者的互補優勢,我們構建了更高效的生成框架。具體而言,我們首先聯合微調多視角生成模型與三維原生生成模型,並提出像素對齊的2D-3D同步注意力機制,以生成幾何對齊的三維形狀與二維多視角圖像。為進一步增強細節,我們引入特徵注入機制,將二維多視角圖像中的精細特徵映射至對齊的三維形狀,實現精確且高保真的重建。大量實驗表明,SyncHuman即使在包含挑戰性姿態的圖像上也能實現魯棒且逼真的三維人體重建。本方法在幾何精度與視覺保真度上均超越基準方法,為未來三維生成模型發展開辟了嶄新路徑。
大型语言模型常出现API幻觉及编辑定位失准问题,而语言服务器能基于真实代码提供经过验证的IDE级精确信息。我们推出Lanser-CLI——一个CLI优先的编排层,通过锚定并协调语言服务器协议(LSP)服务器,为编码智能体和持续集成系统提供确定性、可复现的工作流。我们的核心观点是:语言服务器不仅提供结构信息(定义、引用、类型、诊断),更提供可操作的过程奖励——即通过机器校验的渐进式信号,使智能体的规划循环与程序现实保持一致。本研究通过Lanser-CLI实现三大创新:(i) 突破脆弱"文件:行号:列号"定址模式,采用选择器DSL(符号化、AST路径及内容锚定选择器)并配备严谨的重定位算法;(ii) 通过标准化语言服务器响应、记录环境/能力元数据及稳定内容哈希值,构建确定性分析包;(iii) 为突变操作(重命名、代码操作)设立安全边界,集成预览功能、工作区沙箱及Git感知的事务性应用机制;(iv) 基于语言服务器事实(诊断增量、消歧置信度、安全应用检查)构建可在线计算、离线复现的过程奖励函数。我们通过冻结快照形式化确定性,并为过程奖励建立单调性属性,使其适用于过程监督与反事实分析。项目页面:https://github.com/yifanzhang-pro/lanser-cli
本文针对深度伪造检测任务中的尺度定律进行了系统性研究。具体而言,我们分析了模型性能与真实图像域数量、深度伪造生成方法及训练图像数量之间的关联。由于现有数据集均无法满足本研究对规模的要求,我们构建了该领域迄今最大的数据集ScaleDF,其中包含来自51个不同数据集(域)的580余万张真实图像,以及通过102种深度伪造方法生成的880余万张伪造图像。基于ScaleDF数据集,我们观察到与大型语言模型相似的能量律缩放现象:随着真实域数量或深度伪造方法的增加,平均检测误差会遵循可预测的能量律衰减规律。这一关键发现不仅使我们能预测达到目标性能所需增加的真实域或深度伪造方法数量,更启发我们以数据为中心的方式来应对不断演进的深度伪造技术。此外,我们还研究了缩放背景下预训练与数据增强在深度伪造检测中的作用,并探讨了缩放本身存在的局限性。
大型语言模型(LLMs)在零样本推理方面表现卓越,但在处理复杂的多步骤推理时仍存在困难。近期通过添加中间推理步骤(如思维链CoT和程序化思维PoT)增强LLMs的方法虽能提升性能,却常产生不理想的解决方案,尤其在算法领域。我们提出实例级程序合成方法(PIPS),该方法利用结构性反馈在实例层面生成并优化程序,且无需依赖任务特定指导或显式测试用例。为进一步提升性能,PIPS引入了置信度度量机制,可基于每个实例动态选择直接推理或程序合成路径。在三种前沿LLMs及30个基准测试(包括Big Bench超难集全部任务、视觉问答任务、关系推理任务和数学推理任务)上的实验表明:相较于PoT和CoT,PIPS将绝对调和平均准确率最高分别提升8.6%和9.4%;在算法任务中,与Gemini-2.0-Flash的PoT相比,PIPS将不良程序生成量降低65.1%。
近期文本到图像扩散模型的加速进展已能实现单步生成高保真图像。然而,由于单步模型有效捕捉新概念分布的能力有限,如何对这些模型进行个性化改造以融入新概念仍具挑战。我们提出双向概念蒸馏框架EchoDistill,旨在实现单步扩散个性化。该框架采用端到端训练流程,同步训练多步扩散模型(教师)和单步扩散模型(学生):概念首先从教师模型蒸馏至学生模型,随后通过回声机制从学生模型反馈至教师模型。在EchoDistill过程中,我们共享双模型的文本编码器以确保语义理解的一致性。随后,学生模型通过对抗损失优化以对齐真实图像分布,并通过对齐损失保持与教师模型输出的一致性。此外,我们引入双向回声优化策略,使学生模型能利用其快速生成能力向教师模型提供反馈。这种双向概念蒸馏机制不仅增强了学生模型对新概念的个性化能力,还提升了教师模型的生成质量。实验表明,在单步扩散个性化设定下,该协作框架显著优于现有个性化方法,为T2I扩散模型建立了快速有效的个性化新范式。
我们提出基于记忆的语言建模方法,将其作为基于深度神经网络语言建模的高效环保替代方案。该方法具备对数线性可扩展的下一词元预测性能与强大的记忆能力。通过实现k近邻分类的快速近似算法,基于记忆的语言建模在训练和推理阶段均保持较小的生态足迹,因其完全依赖CPU运行且具有较低的词元延迟。其内部机制简洁明了且完全透明。我们将自研的基于记忆语言建模系统OLIFANT与GPT-2、GPT-Neo在下一词元预测准确度、碳排放估算及运行速度等方面进行对比,并对该模型进行了深度解析。
本文提出了一种基于扩散模型的新型车道线检测方法DiffusionLane,将车道线检测任务建模为车道参数空间中的去噪扩散过程。首先,我们对真实车道线参数(起点坐标与角度)添加高斯噪声得到带噪车道锚点,模型通过渐进式优化这些噪声锚点来还原目标车道。其次,针对噪声锚点导致的编码器特征表征能力弱化问题,我们提出混合解码策略:设计融合全局与局部解码器的混合扩散解码器以生成高质量车道锚点。为进一步增强编码器特征表征,在训练阶段引入辅助头模块,采用可学习车道锚点来强化对编码器的监督信号。在四个基准数据集(Carlane、Tusimple、CULane和LLAMAS)上的实验表明,相较于现有最优方法,DiffusionLane具有强泛化能力和优异检测性能。例如,采用ResNet18的DiffusionLane在域适应数据集Carlane上以至少1%的准确率优势超越现有方法;采用MobileNetV4的模型在CULane上取得81.32%的F1分数,ResNet34版本在Tusimple上达到96.89%准确率,而ResNet101版本在LLAMAS上获得97.59%的F1分数。代码已开源于https://github.com/zkyntu/UnLanedet。
扩散变换器(DiTs)虽能实现最先进的生成性能,但其随序列长度呈平方级增长的计算成本使得大规模预训练代价高昂。令牌丢弃技术可降低训练成本,但简单策略会损害表征质量,现有方法要么参数量庞大,要么无法适应高丢弃率。我们提出SPRINT——面向高效扩散变换器的稀疏-稠密残差融合方法,该方案通过激进式令牌丢弃(最高达75%)仍能保持生成质量。SPRINT利用浅层与深层网络的互补特性:浅层处理全部令牌以捕捉局部细节,深层仅对稀疏令牌子集运算以减少计算量,并通过残差连接融合二者输出。训练采用两阶段策略:先进行长时掩码预训练以提升效率,再通过短时全令牌微调弥合训练-推断差距。在ImageNet-1K 256×256数据集上,SPRINT在保持相当FID/FDD指标的同时实现9.8倍训练加速,其推断阶段采用的路径丢弃引导(PDG)技术可在提升质量的同时将FLOPs削减近半。这些成果表明SPRINT为高效DiT训练提供了一种简洁、有效且通用的解决方案。
扩散模型与流匹配模型的显著成功,引发了大量研究致力于在测试阶段对其进行适配以实现可控生成任务。这些应用涵盖图像编辑、修复、压缩及个性化等多个领域。然而,由于此类模型的采样过程具有迭代特性,使用基于梯度的优化方法直接控制最终生成图像在计算上并不现实。因此,现有方法通常采用对每个时间步进行独立操作的策略。本文提出FlowOpt——一种将整个流过程视为黑箱的零阶(无梯度)优化框架,无需通过模型进行反向传播即可实现对整个采样路径的优化。该方法不仅效率卓越,还允许用户监控中间优化结果,并在需要时执行早停机制。我们证明了FlowOpt步长的充分条件,在该条件下可确保收敛至全局最优解,并进一步展示了如何通过经验估计该上界以选择合适的步长。我们通过图像编辑任务验证FlowOpt的实用性,展示两种应用模式:(i)反演(确定生成给定图像的初始噪声);(ii)在遵循目标文本提示的前提下,直接引导编辑图像与源图像保持相似性。两种场景下,FlowOpt在保持与现有方法基本相当的神经函数评估次数(NFEs)的同时,均实现了最先进的性能。代码及示例详见项目网页。
基于矩阵的预条件优化器(如Muon)近期被证明在训练大规模神经网络(包括大语言模型)时比基于标量的优化器更高效。与此同时,最新的大语言模型预训练优化器基准测试表明,采用方差缩减技术(如MARS)的优化器相较未采用该技术的标准优化器能实现显著加速。为兼取二者之长,本文提出MARS-M新型优化器,将MARS的方差缩减技术与Muon相融合。在标准正则性条件下,我们证明Muon-M以一阶驻点收敛速率\(\mathcal{O}(T^{-1/3})\)收敛,较Muon的\(\mathcal{O}(T^{-1/4})\)速率有所提升。我们在语言建模和计算机视觉任务上的实证结果表明,MARS-M在各类下游基准测试中持续获得更低的损失值和更优的性能。MARS-M的实现代码已发布于https://github.com/AGI-Arena/MARS/MARS_M。
近期,大型语言模型(LLMs)在听觉语音识别(ASR)、视觉语音识别(VSR)及视听语音识别(AVSR)领域取得了显著进展。然而,人们对微调过程中其内部动态机制的理解仍显不足。在自然语言处理领域,最新研究揭示了注意力汇聚现象(即某些词元会吸引异常高的注意力)以及与之相关的大规模激活现象(即汇聚词元的某些特征在LLMs中呈现巨量激活)。本研究首次针对多模态语音识别中的这些现象展开探讨。通过对视听LLMs的详细分析,我们在ASR、VSR和AVSR任务中不仅发现句首(BOS)词元存在注意力汇聚和大规模激活现象,还在中间低语义词元中识别出相同现象。研究表明,大规模激活现象源于MLP层,且所有汇聚词元均对应固定的特征索引。我们进一步发现中间汇聚词元与BOS词元具有极高的余弦相似度,从而放大了注意力汇聚和激活效应。基于这些发现,我们提出一种简单的去相关损失函数,通过降低BOS词元与其他词元间的余弦相似度,有效抑制中间汇聚现象和大规模激活。该方法在高视听特征降采样率下能显著降低词错误率(WER),同时在较低降采样率下保持性能稳定。