每日精選AI研究論文及翻譯
近期影片生成領域的進展揭示了一個意外現象:基於擴散模型的影片生成系統展現出非平凡的推理能力。過往研究將此歸因於「幀間鏈式推理」機制,假設推理過程會沿影片幀序列逐步展開。本研究挑戰此假設,揭示了一種截然不同的運作機制。我們發現影片模型的推理能力主要沿著擴散去噪步驟湧現。透過質性分析與定向探測實驗,我們觀察到模型在早期去噪階段會探索多種候選方案,並逐步收斂至最終答案,此過程被我們命名為「步驟鏈式推理」。除核心機制外,我們還識別出三種對模型性能至關重要的湧現推理行為:(1)工作記憶能力,實現持續參照;(2)自我校正與增強機制,允許從錯誤中間解恢復;(3)先感知後操作的特性,即早期步驟建立語義基礎,後續步驟執行結構化操控。在單個擴散步驟中,我們進一步發現擴散轉換器內部存在自發形成的功能專化現象:早期層編碼密集感知結構,中間層執行推理運算,後期層整合潛在表徵。基於這些發現,我們提出一種無需訓練的簡易策略作為概念驗證,通過整合相同模型在不同隨機種子下的潛在軌跡來提升推理性能。總體而言,本研究系統性闡明了影片生成模型中推理能力的湧現機制,為未來研究如何善用影片模型內在推理動態作為新型智能基底奠定了基礎。
近期程式碼大型語言模型在通用程式設計任務上取得了顯著進展。然而,在需要理解硬體語義、特殊語言結構與嚴格資源限制的工業場景中,其性能會急遽下降。為應對這些挑戰,我們推出InCoder-32B(工業級程式碼生成器-32B),首個320億參數的程式碼基礎模型,統一整合了晶片設計、GPU核心優化、嵌入式系統、編譯器優化及3D建模等領域的程式碼智能。通過採用高效架構,我們從零開始訓練InCoder-32B,包含通用程式碼預訓練、精選工業程式碼退火處理、中期訓練(使用合成工業推理數據將上下文長度從8K逐步擴展至128K符元),以及基於執行驗證的後期訓練。我們在14個主流通用程式碼基準測試與橫跨4大專業領域的9個工業基準測試上進行廣泛評估。結果顯示InCoder-32B在通用任務中表現極具競爭力,同時在工業領域建立了強大的開源基準線。
全模态大语言模型(OLMs)通过原生整合音频、视觉与文本,重新定义了人机交互的边界。然而,现有OLM基准测试仍固守静态的、以准确性为核心的任务范式,未能有效评估社会交互性这一支撑自然对话中动态线索处理的核心能力。为此,我们提出SocialOmni基准框架,从三个核心维度系统化评估对话交互能力:(一)说话人分离与身份识别(谁在说话),(二)插话时机控制(何时介入),(三)自然插话生成(如何表达)。该基准包含2,000个感知样本及经严格质控的209组交互生成诊断实例,这些实例均具有精确的时间与上下文约束,并辅以受控的视听不一致场景以检验模型鲁棒性。我们对12个主流OLM进行测试,发现不同模型的社会交互能力存在显著差异。更关键的是,分析表明模型的感知准确性与其生成情境适配插话的能力存在明显解耦,这揭示仅依靠理解导向的度量指标不足以全面刻画对话社会胜任力。值得期待的是,SocialOmni的诊断结果为未来OLM弥合感知与交互间的鸿沟提供了可操作的改进方向。
我們推出MiroThinker-1.7,這款新型研究智能體專為複雜長程推理任務而設計。在此基礎上,我們進一步推出MiroThinker-H1,通過強化重型推理能力來實現更可靠的多步驟問題解決。特別值得注意的是,MiroThinker-1.7通過強調結構化規劃、情境推理與工具交互的智能體中期訓練階段,提升了每個交互步驟的可靠性。這使得智能體在複雜任務中能實現更有效的多步驟交互與持續推理。MiroThinker-H1更將驗證機制直接整合至局部與全局層面的推理過程中:中間推理決策可在推論時進行評估與優化,同時對整體推理軌跡進行審計,確保最終答案由連貫的證據鏈所支持。在涵蓋開放網絡研究、科學推理與金融分析的基準測試中,MiroThinker-H1在深度研究任務上達成最先進性能,同時在專業領域保持強勁表現。我們同步開源MiroThinker-1.7與MiroThinker-1.7-mini模型,以顯著提升的效率提供極具競爭力的研究智能體能力。
我們推出千帆OCR,這是一個擁有40億參數的端到端視覺語言模型,將文檔解析、版面分析與文檔理解統一整合於單一架構中。該模型可直接實現圖像到Markdown格式的轉換,並支持多種提示驅動任務,包括表格提取、圖表理解、文檔問答及關鍵信息提取。為解決端到端OCR中顯性版面分析缺失的問題,我們提出「佈局即思維」機制,通過特殊思維標記觸發的可選思考階段,在生成最終輸出前先產生結構化版面表徵——包括邊界框、元素類型和閱讀順序——從而恢復版面定位能力,並提升複雜版面處理的準確性。千帆OCR在OmniDocBench v1.5(93.12分)和OlmOCR Bench(79.8分)上位列端到端模型榜首,在OCRBench、CCOCR、DocVQA和ChartQA等基準測試中與同規模通用VLM模型表現相當,並在公開關鍵信息提取基準上取得最高平均分,超越Gemini-3.1-Pro、Seed-2.0和Qwen3-VL-235B。該模型已通過百度智能雲千帆平台對外開放使用。
近期多模態大型推理模型(MLRMs)的進展顯著提升了視覺問答任務的表現。然而我們觀察到,轉折詞(例如「因為」「但是」「且慢」)與幻覺現象密切相關,且易呈現高熵狀態。我們認為,充足的上下文推理資訊可直接從詞元機率分佈中提取。受疊加表徵理論啟發,我們提出利用潛在疊加推理來整合多重候選語義,並維持潛在的推理軌跡。我們的假設是:對離散文本輸入的依賴可能驅使模型趨向序列化顯式推理,從而在高熵推理階段未能充分利用密集的上下文線索。因此,我們提出從詞元機率分佈構建豐富語義表徵,以增強上下文推理能力。基於此目標,我們提出潛在熵感知解碼(LEAD)——一種高效的即插即用解碼策略,通過語義上下文實現可靠推理。該方法的核心在於熵感知推理模式切換:模型在高熵狀態下採用機率加權的連續嵌入表徵,並在熵值降低時切換回離散詞元嵌入。此外,我們提出先驗引導的視覺錨點注入策略,促使模型聚焦視覺資訊。大量實驗表明,LEAD在多個基準測試中有效減輕了各類MLRMs的幻覺現象。
模擬機器人與環境的互動是具身人工智慧的基石。近期少數研究展現出利用影片生成技術突破傳統模擬器剛性視覺/物理限制的潛力。然而這些方法主要侷限於二維空間或受靜態環境線索引導,忽略了機器人-環境互動本質上是四維時空事件、需要精確互動建模的基礎現實。為恢復此四維本質同時確保精確的機器人控制,我們提出Kinema4D——新型動作條件式四維生成機器人模擬器,其將機器人-環境互動解耦為:i) 機器人控制的精確四維表徵:透過運動學驅動基於URDF的三維機器人,生成精確的四維機器人控制軌跡;ii) 環境反應的生成式四維建模:將四維機器人軌跡投影為點雲圖的時空視覺信號,控制生成模型將複雜環境的反應動力學合成為同步的RGB/點雲序列。為促進訓練,我們構建大規模數據集Robo4D-200k,包含201,426個具高質量四維標註的機器人互動片段。大量實驗表明,我們的方法能有效模擬物理合理、幾何一致且具身無關的互動,忠實反映多樣化的真實世界動力學。該方法首次展現出潛在的零樣本遷移能力,為推進下一代具身模擬奠定了高擬真基礎。
近期影片擴散轉換器的突破性進展,使得互動式遊戲世界模型能夠實現用戶在長時間跨度中探索生成環境。然而現有方法在精確動作控制與長時序三維一致性方面仍面臨挑戰。多數現有研究將用戶動作視為抽象條件信號,忽略了動作與三維世界之間的根本幾何耦合關係——即動作會引發相對相機運動,並在三维世界中累積形成全局相機姿態。本文確立相機姿態作為統一幾何表徵,以共同錨定即時動作控制與長期三維一致性。首先,我們基於物理學定義連續動作空間,並以李代數表徵用戶輸入來推導精確的六自由度相機姿態,通過相機嵌入器注入生成模型以確保動作對齊精度。其次,我們將全局相機姿態作為空間索引來檢索過往觀測數據,實現長時序導航中幾何一致的地點重訪。為支持本研究,我們構建了包含3,000分鐘真實人類遊戲過程的大規模數據集,並標註相機軌跡與文本描述。大量實驗表明,本方法在動作可控性、長時序視覺品質與三維空間一致性方面顯著優於現有頂尖互動遊戲世界模型。
當前改進大型語言模型的主流範式依賴於離線訓練,需藉助人工標註或模擬環境,導致模型在實際部署中積累的豐富經驗完全未被利用。我們提出線上體驗式學習(OEL)框架,使語言模型能從自身部署經驗中持續改進。OEL分兩階段運作:首先,從用戶端收集的互動軌跡中提取並積累可遷移的體驗知識;其次,透過策略上下文蒸餾將這些知識固化到模型參數中,此過程無需訪問用戶端環境。兩個階段迭代形成線上學習循環,改進後的模型能收集更高質量的軌跡,從而為後續輪次提供更豐富的體驗知識。我們在多個模型規模及思考型與非思考型變體上,基於文本遊戲環境評估OEL。結果顯示,OEL在連續迭代中實現穩定提升,不僅增強任務準確性與標記效率,同時保持分佈外性能。進一步分析表明,提取的體驗知識遠比原始軌跡有效,且知識源與策略模型間的策略一致性對有效學習至關重要。
在完整模式假設下,文字轉SQL解析技術已取得顯著進展。然而在真實企業環境中,由於資料庫包含數百個具有大量雜訊中繼資料的資料表,此前提往往難以成立。與其預先注入完整模式,智慧代理必須主動識別並驗證相關子集,由此催生出本文研究的「未知模式」情境。為解決此問題,我們提出TRUST-SQL框架(基於工具的真實模式未知推理)。我們將該任務建模為部分可觀測馬可夫決策過程,使自主代理能透過結構化的四階段協議,將推理過程錨定於經過驗證的中繼資料。關鍵在於,該協議為我們新穎的雙軌GRPO策略提供了結構化邊界。透過應用詞元層級的掩碼優勢值,此策略能將探索獎勵與執行結果分離以解決信用分配問題,相較標準GRPO實現了9.9%的相對提升。在五個基準測試上的大量實驗表明,TRUST-SQL的4B與8B變體相較基礎模型分別實現了30.6%與16.6%的平均絕對提升。值得注意的是,儘管完全無需預載中繼資料,我們的框架始終達到甚至超越了依賴模式預填充的強基線模型。
大型语言模型(LLMs)与金融领域的融合正在推动行业从被动信息检索向动态智能交互的范式转变。尽管通用工具学习领域已涌现大量基准测试,但具有高风险性、强合规要求及数据快速迭代特点的金融领域,仍缺乏针对性的评估体系。现有金融评估主要聚焦静态文本分析或文档问答,忽视了工具执行的复杂现实;而通用工具基准则缺乏金融领域所需的专业性,往往依赖模拟环境或极少量的金融API。为弥补这一空白,我们推出首个面向真实场景的可运行基准平台FinToolBench。与先前仅支持少量模拟工具的研究不同,该平台构建了包含760个可执行金融工具与295项严格工具化查询的生态体系。我们提出超越二元执行成功率的创新评估框架,从时效性、意图类型及监管领域匹配等金融关键维度进行智能体评估。此外,我们开发了具备金融认知能力的工具检索与推理基线模型FATR,以提升系统稳定性与合规性。通过建立首个可审计的金融智能执行测试平台,FinToolBench为可信金融AI设立了新标准。工具清单、执行环境及评估代码将开源发布,以推动后续研究。
许多大型语言模型应用需要以长上下文为条件。Transformer模型通常通过存储庞大的逐层键值缓存(KV-cache)来支持这一功能,但这会带来显著的内存开销。一种理想的替代方案是压缩记忆机制:一次性读取上下文,将其压缩存储为紧凑状态,并基于该状态响应多个查询。我们在上下文移除场景下研究该机制,即模型在推理时必须在不接触原始上下文的情况下生成答案。我们提出GradMem方法,通过逐样本的测试时优化将上下文写入记忆。给定上下文后,GradMem在保持模型权重冻结的前提下,对一小组前缀记忆标记执行数步梯度下降。该方法显式优化模型层级的自监督上下文重构损失,形成具有迭代误差校正功能的损失驱动写入机制,这与仅前向传播的方法形成鲜明对比。在关联键值检索任务中,GradMem在相同记忆容量下优于仅前向传播的记忆写入方法,且额外梯度步数比重复前向写入更能有效扩展容量。我们进一步证明GradMem可迁移至合成基准测试之外:在预训练语言模型上,仅依靠记忆编码信息即可在bAbI和SQuAD变体等自然语言任务中取得具有竞争力的结果。
尽管近期流匹配模型通过直接在像素空间操作规避了潜在自编码器的重建瓶颈,但像素流形中语义连续性的缺失导致最优传输路径严重纠缠。这会在路径交汇点引发剧烈的轨迹冲突,从而产生次优解。我们并未采用有信息损耗的潜在表示来回避该问题,而是通过提出路径点扩散变压器(WiT)直接解构像素空间轨迹。WiT通过从预训练视觉模型投影的语义路径点对连续向量场进行因式分解,将最优传输拆分为先验-路径点和路径点-像素两个阶段,有效解耦生成轨迹。具体而言,在迭代去噪过程中,轻量级生成器根据当前含噪状态动态推断中间路径点,随后通过像素自适应层归一化机制持续调节主扩散变压器的演化方向,逐步导向下一状态,最终生成RGB像素。在ImageNet 256×256数据集上的评估表明,WiT超越了现有像素空间基线模型,并将即时训练收敛速度提升2.2倍。代码已开源於https://github.com/hainuo-wang/WiT.git。
统一多模态模型(UMMs)的视觉生成组件通常受限于其预训练过程,这类预训练往往依赖于低效的范式以及稀缺的高质量图文配对数据。本文系统分析了UMM视觉生成的预训练方案,发现这两大问题是主要瓶颈。为此,我们提出面向UMM的纯图像训练框架(IOMM)——一种数据高效的双阶段训练方法。第一阶段仅利用海量无标注的纯图像数据对视觉生成组件进行预训练,从而在这一高成本阶段消除对配对数据的依赖;第二阶段通过混合使用无标注图像和少量精选图文配对数据对模型进行微调,显著提升指令对齐能力与生成质量。大量实验表明,IOMM不仅提升了训练效率,更达到了业界领先性能。例如,我们的IOMM-B(36亿参数)模型仅消耗约1050 H800 GPU小时即完成从零训练(其中绝大部分1000小时用于高效的纯图像预训练阶段),在GenEval和WISE评估中分别取得0.89和0.55的分数,超越了BAGEL-7B(0.82和0.55)和BLIP3-o-4B(0.84和0.50)等强基线模型。代码已开源:https://github.com/LINs-lab/IOMM。
在多轮多智能体大语言模型游戏评估中,运行间方差往往十分显著。在长程交互过程中,早期微小的偏差会随着回合数累积,并被多智能体耦合效应放大。这不仅会导致胜率估计出现偏差,更使得重复锦标赛中的排名结果不可靠。提示词选择通过产生不同的有效策略,进一步加剧了这一问题。我们提出MEMO(记忆增强的模型上下文优化框架),通过耦合记忆保留与探索机制来优化推理时上下文,从而同时解决不稳定性与性能不足的问题。该自博弈框架包含两个核心机制:记忆保留模块维护持久化记忆库,存储自博弈轨迹中的结构化洞见,并在后续对局中将其作为先验知识注入;探索模块采用锦标赛式提示词进化策略,通过TrueSkill进行不确定性感知选择,并利用优先级回放机制重访关键决策状态。在五款文本游戏中,MEMO将GPT-4o-mini的平均胜率从25.1%提升至49.5%,将Qwen-2.5-7B-Instruct的胜率从20.9%提升至44.3%(每项任务使用2,000场自博弈)。运行间方差亦显著降低,使不同提示词变体间的排名更稳定。这些结果表明,通过上下文优化,多智能体大语言模型在游戏中的表现与鲁棒性仍有巨大提升空间。MEMO在谈判类和不完全信息游戏中提升最为显著,而在完全信息场景下强化学习仍更具优势。
尽管大语言模型(LLMs)已发展为工具使用型智能体,但在长周期交互中仍显脆弱。与数学推理中错误常可通过回溯修正不同,工具使用失败往往引发不可逆的副作用,这使得精确的步骤级验证至关重要。然而现有流程级基准测试主要局限于封闭世界的数学领域,未能捕捉工具执行的动态性和开放性。为弥补这一空白,我们推出AgentProcessBench——首个专注于评估现实场景中工具增强轨迹的步骤级效能的基准测试。该基准包含1,000条多样化轨迹和8,509个人工标注的步骤注释,标注者间一致性达89.1%。其特色在于采用三元标注方案捕捉探索行为,并通过错误传播规则降低标注歧义。大量实验揭示关键发现:(1)较弱策略模型因提前终止而呈现虚高的正确步骤比例;(2)区分中性动作与错误动作仍是当前模型的重大挑战;(3)流程衍生信号为结果监督提供互补价值,显著增强测试时的扩展能力。我们期待AgentProcessBench能推动奖励模型的未来研究,为通用智能体的发展铺平道路。代码与数据详见https://github.com/RUCBM/AgentProcessBench。
高品質機器翻譯能夠擴展至數百種語言,為多語言系統設立了高標準。然而相較全球現存的7000種語言,現有系統的覆蓋範圍仍相當有限:目標端僅支持約200種語言,源語言端或許能通過跨語言遷移技術擴展至數百種。由於缺乏可靠的基準測試與評估指標,這些數字的準確性至今難以驗證。 我們提出全語種機器翻譯系統——首個支持超過1600種語言的機器翻譯架構。此規模的實現得益於綜合性數據策略,該策略整合了大規模公開多語料庫與新建數據集,包括人工校對的MeDLEY雙語語料。 我們探索了兩種針對機器翻譯任務適配大語言模型的技術路徑:解碼器專用模型與編碼器-解碼器架構中的功能模塊。值得注意的是,所有參數量從1B到8B的模型均達到或超越70B參數大語言模型的基線性能,展現出明顯的專業化優勢,並能在低算力環境下實現優質翻譯。針對英語至1600種語言的翻譯評估進一步表明:基線模型雖能解析低資源語言,但往往無法生成具有意義保真度的譯文;而OMT-LLaMA模型顯著擴展了可實現連貫生成的語言範圍。此外,OMT模型在跨語言遷移方面取得突破,針對評估的1600種語言已接近解決機器翻譯中「理解」層面的難題。我們的排行榜與核心人工評測數據集正持續向全語種方向動態演化,並免費開放使用。
具备思维链推理能力的大语言模型(LLMs)在复杂问题求解任务中实现了最优性能,但其冗长的推理轨迹和庞大的上下文需求导致其难以部署于边缘设备。这些挑战包括高昂的令牌生成成本、庞大的KV缓存占用空间,以及将推理能力蒸馏到移动设备端小型模型时的效率低下问题。现有方法通常依赖将大型模型的推理轨迹蒸馏至小型模型,但这些轨迹存在表述冗余和风格重复的问题,不适用于设备端推理。本研究提出一种轻量级方法,通过结合LoRA适配器与监督微调来实现小型LLMs的推理能力。我们进一步引入基于强化学习的预算强制机制,在精度损失最小化的前提下显著缩短响应长度。针对内存受限的解码场景,我们采用并行测试时缩放技术,以微小幅度的延迟增加换取准确率提升。最后,我们提出动态适配器切换机制(仅在需要时激活推理)及提示词编码阶段的KV缓存共享策略,有效缩短设备端推理的首令牌生成时间。基于Qwen2.5-7B的实验表明,我们的方法能在严格资源限制下实现高效精准的推理,使LLM推理技术切实适用于移动场景。演示移动设备运行效果的视频已发布于项目页面。
智能体技能(即在推理时注入的结构化程序知识包)正日益广泛地用于增强LLM智能体处理软件工程任务的能力。然而,其在端到端开发环境中的实际效用仍不明确。我们推出SWE-Skills-Bench——首个需求驱动的基准测试,专门用于衡量真实软件工程场景中智能体技能的边际效用。该基准将49个公开的软件工程技能与固定提交点的真实GitHub仓库、包含明确验收标准的需求文档进行配对,在六大软件工程子领域生成约565个任务实例。我们引入确定性验证框架,将每个任务的验收标准映射至基于执行的测试,实现有/无技能注入的受控配对评估。研究结果表明技能注入的收益远低于快速普及所暗示的程度:49项技能中有39项未带来通过率提升,平均增益仅为+1.2%。令牌开销从适度节省到激增451%不等,而通过率维持不变。仅七项专业技能产生显著增益(最高+30%),三项技能因版本失配的指导与项目上下文冲突导致性能下降(最高-10%)。这些发现表明智能体技能属于窄域干预手段,其效用高度依赖领域适配性、抽象层级和上下文兼容性。SWE-Skills-Bench为评估软件工程智能体的技能设计、选择与部署提供了测试平台。项目地址:https://github.com/GeniusHTX/SWE-Skills-Bench。
我们提出SegviGen框架,该框架通过重构原生3D生成模型实现3D部件分割。现有技术方案要么通过蒸馏或多视角掩码聚合将强2D先验提升至3D空间,但常受跨视角不一致性和边界模糊问题困扰;要么探索原生3D判别式分割方法,这类方法通常需要大规模标注3D数据及大量训练资源。相较之下,SegviGen利用预训练3D生成模型中编码的结构化先验,通过差异化部件着色机制实现分割,建立了一种新颖高效的部件分割框架。具体而言,SegviGen对3D资源进行编码,并在几何对齐重建的活跃体素上预测部件指示颜色。该框架统一支持交互式部件分割、完整分割以及带2D引导的完整分割三种模式。大量实验表明,SegviGen在交互式部件分割任务上较现有最优技术提升40%,在完整分割任务上提升15%,且仅需0.32%的标注训练数据。这证明预训练的3D生成先验可有效迁移至3D部件分割任务,在有限监督条件下实现强劲性能。项目详情请访问:https://fenghora.github.io/SegviGen-Page/。
视频超分辨率(VSR)技术旨在从低分辨率视频帧中恢复高质量画面,然而现有大多数VSR方法在推理时如同黑箱:用户无法可靠修正意外伪影,只能被动接受模型输出。本文提出名为SparkVSR的新型交互式VSR框架,将稀疏关键帧转化为简洁而富有表现力的控制信号。具体而言,用户可先使用任意现成图像超分辨率(ISR)模型处理少量关键帧,随后SparkVSR在保持原始低分辨率视频运动约束的前提下,将关键帧先验信息传播至整个视频序列。我们设计了一种关键帧条件化的潜空间-像素双阶段训练流程,通过融合低分辨率视频潜特征与稀疏编码的高分辨率关键帧潜特征,实现稳健的跨空间传播与感知细节优化。在推理阶段,SparkVSR支持灵活的关键帧选择方案(手动指定、编解码器I帧提取或随机采样),并采用无参考引导机制持续平衡关键帧遵循度与盲恢复效果,即使参考关键帧缺失或不完善也能确保稳健性能。在多组VSR基准测试中,本方法在时序一致性与复原质量方面均实现提升,CLIP-IQA、DOVER和MUSIQ指标分别较基线最高提升24.6%、21.8%和5.6%,实现了可控的关键帧驱动视频超分辨率。此外,实验表明SparkVSR作为通用交互式关键帧条件化视频处理框架,可直接应用于老胶片修复、视频风格迁移等未见任务。项目页面详见:https://sparkvsr.github.io/
我们完成了Vlasov-Maxwell-Landau(VML)系统中平衡态特征的完整Lean 4形式化,该系统描述了带电等离子体的运动。本项目展示了全流程AI辅助数学研究闭环:AI推理模型(Gemini DeepThink)根据猜想生成证明,智能编码工具(Claude Code)通过自然语言指令将其转化为Lean代码,专用证明器(Aristotle)完成了111条引理的证明,最终由Lean内核验证结果。整个流程由一名数学家耗时10天监督完成,成本200美元,且未编写任何代码。 项目开发过程完全公开:所有229条人类指令与213次git提交均存档于代码库。我们详细总结了AI的失效模式(假设蔓延、定义对齐错误、智能体规避行为)与成功经验(抽象/具体证明分离、对抗性自审、人类对关键定义与定理陈述的评审作用)。值得注意的是,形式化工作先于对应数学论文终稿的完成。
長文本處理仍是語言模型的核心挑戰:即便具備擴展的上下文窗口,模型仍難以可靠地提取、推理和利用長上下文中的信息。近期如遞歸語言模型(RLM)等研究通過智能體化方式,在推理時以程序化交互將長上下文分解為遞歸子調用,以應對這一挑戰。儘管前景可期,但RLM的成功關鍵取決於這些上下文交互程序的選擇策略,而這一問題至今尚未得到充分探索。本文針對該問題提出SRLM框架,通過引入不確定性感知的自我反思機制增強程序化上下文交互。SRLM利用三種內在信號:自我一致性、推理長度和口頭化置信度,作為模型內部不確定性的互補指標,藉此評估和比較候選上下文交互程序。在多樣化基準數據集、上下文長度和骨幹模型上的大量實驗表明,SRLM始終優於現有頂尖基準模型,在相同時間預算下較RLM實現最高22%的性能提升。我們發現遞歸本身並非RLM性能的主要驅動因素,而簡單的自我反思式程序搜索無需自查詢或顯式遞歸機制即可達到或超越RLM效果。對於模型窗口內的上下文長度,帶遞歸的RLM往往會降低基礎模型性能,而SRLM在長短上下文中均能實現穩定增益。研究還表明,在語義密集型任務中,啟發式程序搜索不足且需要更廣泛上下文理解時,RLM效果有限,而SRLM的自我反思機制能提供更優的語義信號來引導推理。
基于未标定单目视频的实时三维重建仍面临挑战,该任务需在动态环境中同时实现高精度位姿估计与计算高效的在线优化。尽管将三维基础模型与SLAM框架结合是前景广阔的范式,但核心瓶颈依然存在:多数多视图基础模型以前馈方式估计位姿,生成的像素级对应关系难以满足严格几何优化的精度要求。为此,我们提出M³模型,通过为多视图基础模型增设专用匹配头来获取细粒度稠密对应关系,并将其集成至鲁棒的单目高斯溅射SLAM系统中。M³还引入动态区域抑制与跨帧内参对齐机制以提升跟踪稳定性。在多种室内外基准测试上的大量实验表明,该方法在位姿估计与场景重建方面均达到最先进精度。值得注意的是,在ScanNet++数据集上,M³的绝对轨迹误差均方根值较VGGT-SLAM 2.0降低64.3%,峰值信噪比指标较ARTDECO提升2.11 dB。
可靠评估对于大型语言模型的开发与部署至关重要,然而实践中往往需要大量人工投入:开发者需要筛选合适的基准测试、复现异构评估代码库、配置数据集模式映射,并解读聚合指标。为应对这些挑战,我们推出One-Eval——一个能将自然语言评估请求转化为可执行、可追溯、可定制评估流程的智能评估系统。该系统集成三大核心模块:(i) NL2Bench通过意图结构化与个性化基准规划实现需求解析;(ii) BenchResolve负责基准解析、自动数据集获取及模式规范化以确保可执行性;(iii) 度量与报告模块支持任务感知的指标选择及超越标量分数的决策导向报告。系统还引入人工审核节点供复审、编辑与回滚,同时保留样本证据链以支持调试与审计。实验表明,One-Eval能以最小用户投入完成多样化自然语言请求的端到端评估,为工业场景提供更高效、可复现的评估方案。本框架已开源:https://github.com/OpenDCAI/One-Eval。
随着视觉语言模型的快速发展,越来越多研究开始探索其在SVG生成任务中的潜力。尽管现有方法通过构建大规模SVG数据集和引入SVG专用标记符来提升性能,但仍存在泛化能力有限、代码输出路径冗余以及缺乏显式推理等问题。本研究提出CTRL-S(SVG思维链强化学习框架),通过引入思维链机制在SVG生成过程中显式呈现模型的推理过程。为支撑这种结构化推理,我们构建了包含14.5万样本的高质量数据集SVG-Sophia,涵盖SVG代码优化、文本转SVG和图像转SVG三类任务。通过训练模型生成组级结构化SVG代码,CTRL-S显著提升了结构连贯性与视觉保真度。此外,我们采用GRPO算法并设计多奖励优化框架,整合DINO视觉特征、图文相似度、格式规范及代码效率等多重奖励机制。通过联合多奖励优化与多任务训练,该方法系统性地提升了整体生成能力。大量实验表明,CTRL-S在任务成功率、SVG代码质量和视觉保真度方面均优于现有方法。
從類別分佈中採樣在數學上很簡單,但在大詞彙量解碼任務中,常會引發額外的記憶體傳輸和LM頭之後的額外核心啟動。我們提出FlashSampling——一種精確採樣原語,將採樣過程融合至LM頭的矩陣乘法運算,且從不將logits張量實體化存儲於高頻寬記憶體。該方法原理簡潔:在晶片上逐塊計算logits,加入耿貝爾噪聲,僅保留每行及每個詞彙塊中的最大值索引,最後通過輕量級塊間歸約完成操作。此融合式分塊核心的精確性源於argmax運算在分區上的可分解性;針對線上學習與張量並行場景的分組變體,則通過類別分佈的層次分解保持精確性。在H100、H200、B200及B300等GPU上的測試表明,FlashSampling能加速核心級解碼工作負載;在端到端vLLM實驗中,對於測試模型可將單個輸出詞元的生成時間最高降低19%。這些結果證明,無需任何近似處理的精確採樣技術可直接整合進矩陣乘法運算,從而將頻寬受限的後處理步驟轉化為輕量級的收尾操作。項目頁面:https://github.com/FlashSampling/FlashSampling。
机器人学习领域的主流观点认为,仅靠仿真模拟是远远不够的;学界普遍认为要实现有效的仿真到现实迁移,至少需要收集部分真实世界数据或进行任务特定微调,以弥合虚拟环境与物理环境之间的差距。我们对此假设提出了挑战。通过使用足够大规模且多样化的模拟合成训练数据,我们证明了无需任何真实数据即可实现零样本现实迁移的可能性,且在静态与移动操作任务中均展现卓越效果。我们推出MolmoBot-Engine——一个完全开源的流程化数据生成管道,可在MolmoSpaces中跨机器人、任务及多样化仿真环境进行程序化数据生成。基于此,我们发布MolmoBot-Data数据集,包含180万条针对铰接物体操作和抓取放置任务的专家示教轨迹。我们训练了三类策略模型:基于Molmo2多帧视觉语言模型并配备流匹配动作头的MolmoBot;为直接对比而复现π_0架构的MolmoBot-Pi0;以及适合边缘部署且支持强化学习微调的轻量级策略MolmoBot-SPOC。我们在两个机器人平台上进行评估:用于桌面操作任务的Franka FR3,以及用于开门、抽屉操作、柜体交互和移动抓取放置的Rainbow Robotics RB-Y1移动机械臂。在未经任何真实世界微调的情况下,我们的策略实现了对未见物体和环境的零样本迁移。在桌面抓取放置任务中,MolmoBot在4种场景的真实世界评估中达到79.2%的成功率,显著优于π_{0.5}模型的39.2%。我们的结果表明,程序化环境生成与多样化铰接资源相结合,能够产生可广泛泛化至现实世界的鲁棒操作策略。技术博客:https://allenai.org/blog/molmobot-robot-manipulation
精準的流程監控仍是長時程機器人操作的關鍵挑戰。當前主要瓶頸在於,基於監督微調範式訓練的視頻多模態大語言模型僅能作為被動「觀察者」識別進行中的事件,而非根據最終任務目標評估當前狀態。本文提出PRIMO R1(流程推理誘導監控)框架,這個70億參數的系統將視頻多模態大語言模型轉化為主動「批判者」。我們採用基於結果的強化學習策略,激發模型生成明確的思維鏈進行進度評估。此外,通過在初始狀態與當前狀態圖像間建立明確錨點,我們的架構構建了結構化時序輸入。基於提出的PRIMO數據集與基準測試,在多樣化域內環境及域外真實人形機器人場景中的廣泛實驗表明,PRIMO R1實現了最先進的性能:量化數據顯示,我們的70億參數模型將專用推理基線的平均絕對誤差降低50%,相對準確度顯著優於720億參數的通用多模態大語言模型。同時,PRIMO R1在困難故障檢測任務中展現出強大的零樣本泛化能力,於RoboFail基準測試中以67.0%的準確率創下新紀錄,較OpenAI o1等閉源模型高出6.0%。
尽管原生三维生成模型在保真度与生成速度方面取得了显著进展,但其存在一个关键缺陷:无法实现精确的结构化关节控制,且在原生三维空间内进行精确结构调控的研究仍处于探索不足的状态。本文提出SK-Adapter这一简洁高效的新型框架,通过解锁骨骼操控能力实现精确控制的原生三维生成。相较于文本或图像提示在精确结构控制上的模糊性,我们将三维骨骼视为首要控制信号。该框架采用轻量化结构适配网络,将关节坐标与拓扑关系编码为可学习令牌,通过交叉注意力机制注入到冻结的三维生成主干网络中。这种巧妙设计使模型既能有效"关注"特定三维结构约束,又能保持原有的生成先验。为弥补数据空白,我们构建了包含2.4万组文本-网格-骨骼对的大规模数据集Objaverse-TMS。大量实验表明,本方法在保持基础模型几何与纹理质量的同时实现了稳健的结构控制,显著优于现有基线模型。此外,我们将该能力拓展至局部三维编辑领域,首次实现基于骨骼引导的现有资产区域化编辑,这是以往方法无法达到的。项目页面:https://sk-adapter.github.io/
尽管跨学科研究能带来更广泛、更长远的影响,但大多数研究工作仍局限于单一学科领域。近期基于人工智能的科学研究方法为跨学科研究带来了希望,但许多方法侧重于快速设计实验方案,绕过了驱动创造性跨学科突破所需的探索性协作推理过程。因此,现有研究主要优先考虑自动化科学发现,而非增强科学突破背后的推理过程。我们提出"创意催化"框架,这一新型系统能够识别跨学科见解,为人类和大型语言模型的创造性推理提供支持。该框架从抽象研究目标出发,专门用于辅助头脑风暴阶段,明确避免过早锚定具体解决方案。它体现了跨学科推理的关键元认知特征:(a)界定与评估研究目标;(b)把握领域机遇与未解挑战的认知意识;(c)基于影响潜力的跨学科理念战略探索。具体而言,该框架将抽象目标(如改进人机协作)分解为核心领域的研究问题,藉此分析该领域的进展与开放挑战。这些挑战被重新表述为领域无涉的概念性问题,从而能够从其他学科(如心理学、社会学)检索处理类似问题的方案。通过将这些领域的见解综合并重新语境化至目标领域,该框架可依据跨学科潜力对源领域进行排序。实证研究表明,这种定向整合在保持原始研究问题根基的同时,能将平均新颖度提升21%,洞察力提高16%。
尽管多模态大语言模型在自动化心电图解读方面展现出潜力,但其究竟是在执行真正的逐步推理还是仅依赖表层视觉特征仍不明确。为探究此问题,我们推出ECG-Reasoning-Benchmark——一个包含6,400余个样本的新型多轮评估框架,系统性地评估涵盖17种核心心电图诊断的逐步推理能力。通过对前沿模型的综合评估,我们发现其在执行多步骤逻辑推导方面存在严重缺陷:虽然模型具备检索诊断所需临床标准的医学知识,但在维持完整推理链方面成功率趋近于零(完成度仅6%),主要失败于将对应心电图发现与实际信号中的视觉证据相锚定。这些结果表明当前多模态大语言模型规避了真正的视觉解读,暴露出现有训练范式的关键缺陷,并凸显了构建以推理为核心能力的稳健医疗人工智能的必要性。代码与数据详见https://github.com/Jwoo5/ecg-reasoning-benchmark。
近期研究已明确表明,残差路径并非仅仅是优化管道的组成部分,它更是模型表征机制的重要一环。我们认同这一观点,但主张通过双轴视角来梳理Transformer的设计空间是更为清晰的架构方式。解码器沿着两个有序维度演进信息:序列位置和层间深度。自注意力机制已在序列轴上实现自适应混合,而残差流通常沿深度轴执行固定加法运算。若固定某个词元位置并将层索引视为有序变量,那么因果深度残差注意力读取操作与因果短滑动窗口注意力(ShortSWA)本质上是相同的局部算子,只是其作用域从序列维度转为深度维度。这正是Transformer²背后的核心残差流对偶性。这一视角也澄清了近期研究进展:ELC-BERT和DenseFormer已证明基于深度的学习式聚合能超越均匀残差累积,而垂直注意力、深度交叉注意力(DCA)、MUDDFormer及注意力残差等研究则进一步实现了对浅层特征的显式注意力路由。但关键在于,算子级对偶性并不等同于系统级对称性。对于大规模自回归模型,序列轴ShortSWA通常更具硬件友好性,因其可复用词元侧滑动窗口核函数、KV缓存布局和分块执行机制。若目标在于改变捷径连接本身,深度增量学习(DDL)是更简洁的干预方案,它直接修改残差算子而非添加独立的跨层检索路径。因此我们的建议很明确:当捷径连接是研究目标时采用DDL,当需要局部自适应混合时选用序列轴ShortSWA。
像素空间扩散模型近期再度成为潜空间扩散的重要替代方案,无需预训练自编码器即可实现高质量生成。然而,标准像素空间扩散模型获得的语义监督相对较弱,且未显式设计用于捕捉高层视觉结构。近期表征对齐方法(如REPA)表明,预训练视觉特征能显著改进扩散训练,而视觉协同去噪已成为将此类特征融入生成过程的重要方向。但现有协同去噪方法常混杂多种设计选择,难以辨明哪些设计真正关键。为此,我们提出V-Co——基于统一即时训练框架的视觉协同去噪系统性研究。这种受控设置使我们能分离出影响视觉协同去噪效果的核心要素。研究揭示出有效视觉协同去噪的四个关键要素:首先,保持特征专属计算并实现灵活跨流交互需采用完全双流架构;其次,有效的无分类器引导需结构化的无条件预测;第三,更强的语义监督最好通过感知漂移混合损失实现;第四,稳定的协同去噪还需适当的跨流校准,我们通过基于RMS的特征重缩放实现。这些发现共同构成了视觉协同去噪的简明方案。在ImageNet-256上的实验表明,在模型规模相当的情况下,V-Co不仅优于底层像素空间扩散基线及现有强像素扩散方法,且训练周期更短,为未来表征对齐生成模型提供了实用指导。
基于扩散模型的风格化技术虽已取得显著进展,但现有方法仍局限于色彩驱动的转换,未能兼顾复杂语义与材质细节。我们提出StyleExpert——一个基于专家混合模型(MoE)的语义感知框架。该框架采用经过大规模内容-风格-风格化三元组数据集训练的统一样本编码器,将多样风格嵌入到一致的潜空间。该嵌入向量随后用于驱动相似度感知的门控机制,动态地将风格分配至MoE架构中的特定专家。借助MoE架构,我们的方法能够娴熟处理从浅层纹理到深层语义的多层级风格。大量实验表明,StyleExpert在保留语义与材质细节方面优于现有方法,并能有效泛化至未见风格。代码及收集的图像已发布于项目页面:https://hh-lg.github.io/StyleExpert-Page/。
当前提升语言模型数学推理能力的主流范式依赖于可验证奖励的强化学习。然而现有方法将每个问题实例视为独立任务,未能充分利用训练过程中涌现并积累的可复用策略。为此,我们提出ARISE(基于内在技能演化的智能体推理)——一种分层强化学习框架,其共享策略既在高层管理技能(称为技能管理器),又在低层生成应答(称为工作者)。管理器通过专设的技能生成推演模块,对成功解题轨迹进行结构化总结(执行后),同时采用策略驱动的选择机制检索相关技能以指导后续推演(执行前)。分层奖励设计引导推理能力与技能库质量的协同进化。在两种基础模型和七个基准测试(涵盖竞赛数学与Omni-MATH)上的实验表明,ARISE持续优于GRPO系列算法及记忆增强基线方法,尤其在分布外任务上提升显著。消融研究证实各组件均对性能提升有所贡献,且技能库质量与推理性能在训练过程中同步增强。代码已开源:https://github.com/Skylanding/ARISE。
儘管多模態智能體的最新進展已提升計算機使用交互與工具運用能力,但現有系統多數仍停留於被動響應模式,僅針對孤立動作進行優化,缺乏對未來狀態或長期目標的推理能力。這種局限性制約了規劃連貫性,使智能體難以可靠解決高層次、多步驟任務。我們提出TraceR1——一個兩階段強化學習框架,通過在執行前預測短週期軌跡來顯式訓練預見性推理能力。第一階段採用軌跡級強化學習,其獎勵機制確保預測動作序列的全局一致性;第二階段實施實證強化微調,利用凍結工具智能體的執行反饋來提升步驟級精度與可執行性。TraceR1在七項基準測試中進行評估,涵蓋在線/離線計算機使用基準及多模態工具推理任務,結果顯示其在規劃穩定性、執行魯棒性和泛化能力方面相較被動響應與單階段基線模型實現顯著提升。這些成果證實,預見性軌跡推理是構建能夠在複雜現實環境中有效推理、規劃與行動的多模態智能體的關鍵原則。
持久记忆是智能代理的核心能力,然而记忆检索、生命周期管理与一致性的数学基础仍属空白。现有系统采用余弦相似度进行检索,基于启发式衰减管理显著性,且缺乏形式化的矛盾检测机制。 我们通过三项贡献建立了信息几何基础框架:首先提出基于对角高斯族费舍尔信息结构的检索度量,满足黎曼度量公理,在充分统计量下具有不变性,且可在O(d)时间内计算;其次将记忆生命周期建模为黎曼 Langevin 动力学,通过Fokker-Planck方程证明稳态分布的存在唯一性,以具备收敛保证的 principled 方法替代人工调参的衰减机制;第三建立胞腔层模型,其非平凡第一上同调类精确对应记忆语境间不可调和的矛盾。 在LoCoMo基准测试中,数学化架构在六组对话中较工程基线提升12.7个百分点,在最复杂对话场景下提升达19.9个百分点。四通道检索架构在无云端依赖条件下达到75%准确率,云端增强结果达87.7%。通过零大语言模型配置的架构设计满足欧盟《人工智能法案》数据主权要求。据我们所知,这是首个为智能代理记忆系统建立信息几何、层论及随机动力学基础的研究。
现实世界中的决策(从税务合规评估到医疗诊断)需要整合多个存在噪声且可能相互矛盾的证据源。现有方法要么缺乏明确的不确定性量化(神经聚合方法),要么依赖人工设计的离散谓词(概率逻辑框架),限制了在非结构化数据上的扩展性。 我们提出了潜在后验因子(LPF)框架,该框架将变分自编码器(VAE)的潜在后验转化为和积网络(SPN)推理的软似然因子,从而在对非结构化证据进行可追溯概率推理的同时保持校准后的不确定性估计。我们将LPF具体实现为LPF-SPN(基于结构化因子的推理)和LPF-Learned(端到端学习式聚合),使得在共享不确定性表征下能够对显式概率推理与学习式聚合进行原理性比较。 在八个领域(七个合成数据集和FEVER基准测试)中,LPF-SPN实现了高准确率(最高达97.8%)、低校准误差(ECE为1.4%)和强概率拟合度,在15个随机种子下显著优于证据深度学习、大语言模型及基于图结构的基线方法。 主要贡献包括:(1)搭建连接潜在不确定性表征与结构化概率推理的框架;(2)双架构设计实现推理范式的受控比较;(3)包含种子选择的可复现训练方法;(4)针对EDL、BERT、R-GCN及大语言模型基线的系统评估;(5)跨领域验证;(6)在配套论文中提供形式化保证。
我们提出对潜在后验因子(LPF)的完整理论刻画,该框架是概率预测任务中聚合多重异质证据项的原理性方法。多证据推理普遍存在于高风险领域,包括医疗诊断、金融风险评估、法律案例分析和监管合规等,然而现有方法要么缺乏形式化保证,要么在架构上无法处理多证据场景。LPF通过变分自编码器将每个证据项编码为高斯潜在后验,通过蒙特卡洛边缘化将后验转换为软因子,并借助精确的和积网络推理(LPF-SPN)或习得神经聚合器(LPF-Learned)实现因子聚合。 我们证明了涵盖可信人工智能关键需求的七项形式化保证:校准保持性(预期校准误差≤ε+C/√K_eff);蒙特卡洛误差以O(1/√M)速率衰减;在N=4200时训练-测试差距为0.0085的非平凡PAC-贝叶斯界;以信息论下界1.12倍范围内运行;在数据损坏下以O(εδ√K)速率优雅退化(半数证据被对抗替换时仍保持88%性能);以R²=0.849实现O(1/√K)校准衰减;以及误差低于0.002%的精确认知-偶然不确定性分解。所有定理均在涵盖4200个训练样本的受控数据集上得到实证验证。我们的理论框架确立了LPF作为安全关键应用中可信多证据人工智能的基础。
我们推出VAREX(多模式表单信息提取基准),该基准用于评估多模态基础模型从政府表格中提取结构化数据的性能。VAREX采用逆向标注流程,通过编程方式将合成数据填入PDF模板,生成经过三阶段质量验证的确定性标注真值。该基准包含1,777份文档,涵盖1,771种独特模式,涉及三种结构类别,每种文档提供四种输入形态:纯文本、保留版式的文本(通过空格对齐模拟栏位位置)、文档图像,以及文本与图像结合形式。与现有仅评估单一输入表示的基准不同,VAREX为每份文档提供四种受控形态,能系统化解析输入格式如何影响提取准确率——这是现有基准缺失的关键能力。我们评估了20个模型,涵盖前沿专有模型到小型开源模型,特别关注参数规模≤40亿、适合成本敏感和延迟受限场景的模型。研究结果显示:(1)参数规模低于40亿时,结构化输出合规性(而非信息提取能力)是主要瓶颈,尤其模式回声现象(模型生成符合模式结构而非真实提取值)使受影响模型的评分降低45-65个百分点;(2)对20亿参数模型进行提取任务专项微调可实现81个百分点的提升,证明指令跟随缺陷无需扩大规模即可解决;(3)保留版式的文本能带来最大准确率增益(3-18个百分点),效果超越像素级视觉线索;(4)本基准能最有效区分60%-95%准确率区间的模型。数据集与评估代码已公开发布。
在明确约束条件下通过工具使用解决问题,对大型语言模型(LLMs)而言是极具挑战性却又不可避免的场景,这需要模型具备函数调用、指令遵循及自我优化等能力。然而,由于缺乏专项评估体系,相关研究进展一直受阻。为此,我们推出CCTU基准测试,用于评估复杂约束条件下的LLM工具使用能力。该基准基于涵盖四个维度(即资源、行为、工具集和响应)的12类约束条件构建,包含200个经过精心设计的跨领域工具使用场景测试案例,每个案例平均涉及七种约束类型,提示词平均长度超过4700个词元。为实现可靠评估,我们开发了可执行的约束验证模块,能在模型与环境的多轮交互过程中进行步骤级验证并确保约束合规性。我们在思考模式与非思考模式下评估了九种前沿LLMs,结果表明:当要求严格遵守所有约束时,所有模型的任务完成率均未超过20%。进一步分析显示,模型在超过50%的案例中违反约束,尤其在资源与响应维度。此外,即使获得违反约束的详细反馈,LLMs仍表现出有限的自我优化能力,这凸显了开发鲁棒性工具使用代理的关键瓶颈。为促进后续研究,我们公开了相关数据与代码。
基于视觉Transformer(ViT)的视觉基础模型(VFM)已在多种视觉任务中取得显著性能,但其二次计算复杂度限制了长序列场景的可扩展性。现有针对ViT的线性注意力方法通常需从头训练,消耗大量计算资源,而为大型语言模型解码器设计的线性化方法又难以直接迁移至ViT。为解决这些挑战,我们提出ViT-AdaLA——一种创新框架,能够有效适配并迁移VFM的先验知识至线性注意力ViT。该框架包含三阶段:注意力对齐、特征对齐及监督微调。在注意力对齐阶段,我们逐模块对齐普通线性注意力与原始基于softmax的注意力,以逼近后者的行为模式。然而,残差近似误差会随网络层数累积,为此我们通过微调线性化ViT,使其最终层特征与冻结的softmax-VFM教师模型对齐。最后,适配后的先验知识通过监督微调迁移至下游任务。在分类与分割任务上的大量实验表明,ViT-AdaLA在不同前沿线性注意力模型中均具有卓越的有效性与泛化能力。
基于激光雷达点云的人体理解因其与行人安全的密切关联,成为自动驾驶领域最核心的任务之一。然而在复杂人-物交互和杂乱背景的干扰下,该任务仍面临严峻挑战。现有方法大多忽视了利用人-物交互构建鲁棒三维人体姿态估计框架的潜力。推动人-物交互融合的挑战主要来自两方面:首先,人-物交互会引发人体与物体点云的空间模糊性,常导致交互区域的三维人体关键点预测错误;其次,交互与非交互身体部位的点云数量存在严重类别不平衡,手、足等高频交互部位在激光雷达数据中观测稀疏。针对这些挑战,我们提出人-物交互学习框架(HOIL),用于从激光雷达点云实现鲁棒的三维人体姿态估计。为缓解空间模糊性问题,我们提出人-物交互感知对比学习(HOICL),有效增强交互区域人体与物体点云的特征区分度;针对类别不平衡问题,引入接触感知部件引导池化(CPPool),通过压缩过表征点云同时保留交互部位信息点,实现表征能力的自适应重分配。此外,我们还提出基于接触关系的时序优化模块,利用连续帧间的接触线索修正单帧关键点估计误差。实验表明,HOIL框架能有效利用人-物交互解决交互区域的空间模糊性与类别不平衡问题。代码将开源发布。
掩碼擴散模型(MDM)在採用部分掩碼方案(Prime)進行學習時,展現出卓越的泛化能力。該方法將詞元轉換為子詞元,並在子詞元層級建模擴散過程。我們發現MDM-Prime框架存在兩項侷限性:首先,缺乏指導子詞元化器中詞元粒度超參數選擇的工具;其次,當與常用的位元組對編碼(BPE)詞元化器結合使用時,子詞元化器的函數形式會顯著降低似然估計的準確性。為解決這些問題,我們研究了MDM-Prime中變分下界的緊密性,並開發出融合二進制編碼與索引重排技術的掩碼擴散語言模型MDM-Prime-v2。尺度分析表明,MDM-Prime-v2的計算效率比自回歸模型(ARM)提升21.8倍。在計算最優化對比中,MDM-Prime-v2在OpenWebText數據集上達到7.77的困惑度,優於ARM(12.99)、MDM(18.94)和MDM-Prime(13.41)。當模型規模擴展至11億參數時,我們的模型在多項常識推理任務中進一步展現出卓越的零樣本準確率。
现有基于扩散模型的3D场景生成方法主要在2D图像/视频潜空间中进行操作,这导致跨视角外观与几何一致性的维护存在固有挑战。为弥补这一缺陷,我们提出了OneWorld框架,该框架能够在连贯的3D表示空间内直接执行扩散过程。我们方法的核心是3D统一表示自编码器(3D-URAE),它利用预训练的3D基础模型,通过向统一3D潜空间注入外观特征并蒸馏语义信息,增强其以几何为中心的特性。此外,我们引入了令牌级跨视角对应(CVC)一致性损失来显式强化跨视角结构对齐,并提出流形漂移强制(MDF)方法,通过混合漂移表示与原始表示来缓解训练-推理暴露偏差,从而构建稳健的3D流形。综合实验表明,与最先进的基于2D的方法相比,OneWorld能生成具有更优跨视角一致性的高质量3D场景。我们的代码将在https://github.com/SensenGao/OneWorld 开放获取。
我们推出Polyglot-Lion系列——专为新加坡多语言场景定制的紧凑型自动语音识别模型,涵盖英语、华语、泰米尔语和马来语。该系列模型通过纯公开语音语料库对Qwen3-ASR-0.6B与Qwen3-ASR-1.7B进行微调,采用均衡采样策略确保各语言训练语句数量均等,并刻意省略语言标签条件机制,使模型能从音频中隐式识别语言。在涵盖四种目标语言的12个基准测试中,Polyglot-Lion-1.7B的平均错误率为14.85%,与体积大6倍的MERaLiON-2-10B-ASR模型(14.32%)性能相当,而训练成本仅需单张RTX PRO 6000 GPU耗费81美元,远低于128张GPU基线模型的18,862美元。其推理吞吐量达每秒0.10个样本,较MERaLiON的2.02秒/样本提升约20倍。这些结果表明,对中等规模预训练模型进行语言均衡微调,能以远低于大型专业系统的成本获得可直接部署的多语言ASR方案。
扩散模型在反射性的系统1模式下运行,受限于固定且内容无关的采样调度。这种刚性源于状态维度的诅咒——高维噪声流形中可能状态的组合爆炸使得显式轨迹规划难以实现,并导致系统性的计算资源错配。为此,我们提出轨迹链(CoTj)这一免训练框架,实现系统2的审慎规划能力。其核心是扩散DNA:一种量化各阶段去噪难度的低维特征签名,可作为高维状态空间的代理表征,使我们能够将有向无环图上的路径规划重构为采样过程。通过"预测-规划-执行"范式,CoTj将计算资源动态分配给最具挑战性的生成阶段。在多类生成模型上的实验表明,CoTj能发现上下文感知的轨迹,在提升输出质量与稳定性的同时减少冗余计算。本研究为基于资源感知与规划思维的扩散建模奠定了新基础。代码详见https://github.com/UnicomAI/CoTj。
針對複雜的多跳問題,檢索增強生成(RAG)系統面臨諸多挑戰。為解決此類複雜性,研究界提出了迭代式運作的智能體框架(如Search-R1框架,Jin等人,2025年)。然而這類方法可能引發效率問題,包括重複檢索已處理信息,以及難以在當前生成提示中有效情境化檢索結果。這些缺陷易導致不必要的檢索輪次、次優推理、答案失準及標記消耗增加。 本文研究通過測試階段改進Search-R1流程來緩解上述問題。具體而言,我們探索兩種組件及其組合的整合方案:情境化模塊(用於將檢索文檔的相關信息更有效融入推理過程)與去重模塊(用次相關文檔替換已檢索內容)。我們採用HotpotQA(Yang等人,2018年)和Natural Questions(Kwiatkowski等人,2019年)數據集進行評估,彙報精確匹配(EM)分數、基於LLM的答案正確性評判結果以及平均檢索輪次。 實驗表明,使用GPT-4.1-mini實現情境化的最佳變體相比Search-R1基準線,EM分數提升5.6%,檢索輪次減少10.5%,顯著優化了答案準確性與檢索效率。
我们推出HistoAtlas——一个泛癌计算图谱,该图谱从21种TCGA癌症类型的6745张诊断性H&E切片中提取出38个可解释的组织学特征,并系统性地将每个特征与生存率、基因表达、体细胞突变及免疫亚型相关联。所有关联均经过协变量校正、多重检验校正,并按证据强度分级。该图谱不仅重现了从免疫浸润、预后评估到细胞增殖与激酶信号传导等已知生物学机制,更揭示了具有差异预后的区域特异性免疫信号和形态学亚型。每项结果均可空间追溯至组织区域及单个细胞,经过统计校准并支持开放查询。HistoAtlas无需特殊染色或测序技术,即可从常规H&E切片实现系统性、大规模生物标志物发现。数据及交互式网络图谱可在https://histoatlas.com 免费获取。
化学语言模型(CLM)已成为分子性质预测(MPP)任务中传统经典机器学习模型的有力竞争者。然而,越来越多的研究报道CLM在不同MPP基准任务中的性能存在不一致甚至相互矛盾的结果。本研究通过数百项精密控制的实验,系统考察了数据集规模、模型体量和标准化等因素对CLM在MPP任务中预训练与微调性能的影响。针对目前仅编码器掩码语言模型缺乏成熟扩展规律的现状,我们旨在提供全面的数值证据,并深入解析影响CLM在MPP任务性能的内在机制——其中某些机制在现有文献中似乎被完全忽视。
为投机性巨型开发项目进行的大规模圈地构成一种非均衡空间过程,其演变速度、拓扑形态和不可逆性至今缺乏量化研究。我们利用2017-2024年八年间10米分辨率的哨兵二号土地利用/覆被数据,对印度尼西亚雅加达北部Pantai Indah Kapuk 2(PIK2)沿海巨型开发项目展开分析。通过马克思概率单纯形将地表像元划分为公域、农耕区和资本区三大类,基于费舍尔-拉奥几何距离测度发现2019-2020年间出现0.405弧度/年的转型脉冲,这与主要施工阶段高度吻合。吸收性马尔可夫链分析显示耕地和乔木覆被区的预期建成环境吸收时间分别为46.0年和38.1年,建成区自维持率高达96.4%。渗流分析表明当占据概率p∈[0.096, 0.162]时,包含89-95%建成像元的巨型连通组件持续存在,该阈值远低于随机渗流临界值p_c≈0.593,证实空间增长具有规划性而非随机性。城市边界的盒维数从d_f=1.316增至1.397,符合前沿扩张日趋不规则的特征。这些结果表明,信息几何与统计力学工具能以定量精度刻画资本空间积累的运动学与拓扑特征。