每日精選AI研究論文及翻譯
基於代理的大型語言模型系統已展現出強大能力。然而,其依賴語言作為通用介面的特性,從根本上限制了其在許多現實問題中的適用性,特別是在科學領域——這些領域已開發出針對特定領域的基礎模型,以處理自然語言之外的專業任務。本研究提出Eywa,一個異構代理框架,旨在將以語言為核心的系統擴展至更廣泛的科學基礎模型類別。Eywa的核心思想是為領域專用基礎模型配備基於語言模型的推理介面,使語言模型能夠引導對非語言數據模態的推斷。此設計讓通常針對專用數據和任務優化的預測性基礎模型,能夠參與代理系統中的高層次推理與決策過程。Eywa可作為單一代理流程的無縫替代方案(EywaAgent),亦可通過以專業代理取代傳統代理的方式整合至現有多代理系統中(EywaMAS)。我們進一步研究基於規劃的協調框架,其中規劃器動態協調傳統代理與Eywa代理,以解決跨異構數據模態的複雜任務(EywaOrchestra)。我們在多個科學領域(涵蓋物理、生命與社會科學)中對Eywa進行評估。實驗結果表明,Eywa在涉及結構化與領域專用數據的任務上提升了性能,同時通過與專業基礎模型的有效協作,降低了對基於語言的推理的依賴。
近期視覺生成模型在寫實感、版面編排、指令遵循及互動編輯方面取得重大進展,但其在空間推理、狀態持續性、長時序一致性與因果理解方面仍存在侷限。我們主張領域應超越表觀合成,邁向具備智能的視覺生成:即基於結構、動力學、領域知識與因果關係的合理視覺內容。為界定此轉變,我們提出五級分類架構:原子生成、條件生成、情境生成、能動生成與世界建模生成,從被動渲染器逐步演進為具互動性、能動性與世界感知的生成器。我們分析關鍵技術驅動因素,包括流匹配、統一理解生成模型、改進的視覺表徵、後訓練、獎勵建模、資料策展、合成資料蒸餾及採樣加速技術。研究進一步指出,現有評估方法因過度強調感知質量而忽略結構性、時序性與因果性謬誤,往往高估實際進展。透過結合基準評測、真實場景壓力測試與專家約束案例研究,本路線圖提供以能力為核心的視角,用以理解、評估並推進新一代智能視覺生成系統的發展。
RLVR與OPD已成為後訓練的標準範式。本文對這兩種範式在整合多專家能力至單一模型中的表現進行統一分析,發現能力損失的不同成因:混合RLVR受制於能力間發散成本,而先訓練專家再執行OPD的流程雖避免發散,卻因師生行為模式差距過大無法完全吸收教師能力。我們提出協同演化策略蒸餾法(CoPD),通過鼓勵專家並行訓練,並在每個專家的RLVR訓練過程中(而非完整訓練後)引入OPD,使專家互為教師(實現雙向OPD)以協同演化。這使得專家間行為模式更一致,同時保持充足的互補知識。實驗驗證CoPD實現了文本、圖像與視頻推理能力的全整合,顯著超越混合RLVR和MOPD等強基線,甚至優於領域專用專家。CoPD提供的模型並行訓練模式或可啟發新型訓練擴展範式。
近年來,人形機器人控制系統雖取得顯著進展,但對機器人、周邊環境及任務相關物件之間流暢且富含互動的行為建模,仍是根本性挑戰。此難題源於需要大規模聯合捕捉空間情境、時序動態、機器人動作與任務意圖,而傳統監督方法對此難以適用。我們提出ExoActor——一個創新框架,透過利用大規模影片生成模型的泛化能力來解決此問題。ExoActor的核心洞見在於將第三人稱影片生成作為建模互動動態的統一介面。在給定任務指令與場景情境後,ExoActor能合成隱含編碼機器人、環境與物件間協調互動的合理執行過程,隨後透過估計人體運動並透過通用運動控制器執行的流程,將此類影片輸出轉化為可執行的人形行為,最終生成任務條件化的行為序列。為驗證所提框架,我們實作了一套端到端系統,展示其無需額外真實世界數據收集即可泛化至新場景的能力。最後,我們討論當前實作的局限性並指出未來研究的可行方向,闡明ExoActor如何為富含互動的人形行為建模提供可擴展方案,有望為生成模型推動通用人形智慧發展開闢新途徑。
在消費級GPU上微調大型語言模型(LLMs)具有極高的性價比,但受限於有限的GPU記憶體與低速PCIe互連。管道並行結合CPU卸載技術可透過降低通訊開銷來緩解這些硬體瓶頸。然而,現有PP調度方案存在稱為權重綁定問題的固有缺陷——將不均衡的模型階段(如龐大的語言模型頭部)綁定至GPU時,管道吞吐量會受制於負載最重的GPU,導致嚴重的管道氣泡現象。 本文提出RoundPipe,一種突破消費級GPU伺服器權重綁定限制的新型管道調度方案。該方案將GPU視為無狀態執行工作節點池,以輪詢方式動態分派計算階段至各設備,實現近乎零氣泡的管道運作。為確保訓練正確性與系統效率,RoundPipe整合了三項核心技術:優先級感知傳輸調度引擎、基於分散式事件的細粒度同步協議,以及自動化分層劃分演算法。在8張RTX 4090伺服器上的評估顯示,當微調1.7B至32B參數模型時,RoundPipe相較現有頂尖基線可實現1.48至2.16倍的加速效果。值得注意的是,RoundPipe能在單台伺服器上完成Qwen3-235B模型(序列長度31K)的LoRA微調。 RoundPipe已作為開源Python函式庫公開釋出,並提供完整技術文件。
大型語言模型代理被預期能完成跨越軟體工具、商業服務和本地工作空間的端到端工作單元。然而現有的多數代理基準測試在發布時就固化了一套精選任務集,且主要評估最終回應,難以針對演進的工作流程需求來評測代理,也難以驗證任務是否被正確執行。我們推出Claw-Eval-Live——一個面向工作流程代理的動態基準測試框架,其將可刷新的信號層(根據公開工作流程需求信號跨版本更新)與可重現的時間戳版本快照相分離。每個版本均基於公開工作流程需求信號構建,採用當前版本中ClawHub Top-500技能,並具體化為具備固定裝置、服務、工作空間和評分機制的受控任務。在評分方面,Claw-Eval-Live記錄執行軌跡、審計日誌、服務狀態及運行後的工作空間產物,當證據充足時採用確定性檢查,僅對語義維度使用結構化LLM評判。該版本包含105個涵蓋受控商業服務與本地工作空間修復的任務,並依據統一的公開通過規則對13個前沿模型進行評估。實驗表明可靠的流程自動化遠未解決:領先模型僅通過66.7%的任務,且無模型達到70%通過率。失敗模式按任務族系和執行介面呈現結構化特徵,人力資源、管理及多系統商業工作流程為持續瓶頸,而本地工作空間修復相對容易但尚未飽和。僅憑排行榜排名不足為憑,因為通過率相近的模型在整體完成度上可能出現分化,且任務級區分度集中於中等難度區間。Claw-Eval-Live表明工作流程代理評估應雙重錨定於新鮮的外部需求與可驗證的代理行動。
在現代自回歸模型中,標記(token)作為計算的基本單位,其生成長度直接影響推理成本和推理效能。儘管其重要性不言而喻,現有方法仍缺乏細粒度的長度建模能力,主要停留在粗粒度的序列層面操作。我們提出長度價值模型(LenVM),這是一種標記層級的框架,專門對剩餘生成長度進行建模。通過將長度建模形式化為價值估計問題,並為每個生成的標記分配固定負回報,LenVM預測出一個有界的折現回報,該回報可作為剩餘生成時長的單調代理指標。此建模方式產生的監督信號無需標註、密度高、無偏差且具擴展性。在大型語言模型和視覺語言模型上的實驗表明,LenVM在推理階段能提供高效信號。在LIFEBench的精確長度匹配任務中,將LenVM應用於70億參數模型後,長度得分從30.9提升至64.8,顯著超越前沿閉源模型。此外,LenVM能實現效能與效率權衡的連續控制:在GSM8K數據集上設定200個標記的預算時,LenVM保持63%的準確率,而標記預算基線僅為6%。該模型還能從提示邊界準確預測總生成長度。最後,LenVM的標記層級價值提供了生成動態的可解釋視角,揭示特定標記如何將推理過程導向更短或更長的模式。實驗結果證實LenVM支持廣泛應用場景,且標記長度可有效建模為標記層級的價值信號,彰顯其作為通用長度建模框架的潛力,以及作為可支持未來強化學習訓練的專用長度價值信號。程式碼已開源於:https://github.com/eric-ai-lab/Length-Value-Model。
儘管基於人類回饋的強化學習(RLHF)已成為文字到圖像生成的關鍵範式,但其在圖像編輯領域的應用仍鮮有探索。關鍵瓶頸在於缺乏適用於所有編輯任務的穩健通用獎勵模型。現有的編輯獎勵模型通常僅給出整體評分而缺乏細部檢查,既忽略了不同指令要求,也導致獎勵偏差。為解決此問題,我們認為關鍵在於從簡單評分器轉向推理驗證器。我們提出Edit-R1框架,該框架構建基於思維鏈(CoT)驗證器的推理獎勵模型(RRM),並將其應用於下游圖像編輯任務。Edit-RRM將指令分解為獨立原則,針對每項原則評估編輯後的圖像,並將這些檢查結果匯聚成可解釋的細粒度獎勵。為構建此RRM,我們首先採用監督微調(SFT)作為「冷啟動」來生成CoT獎勵軌跡。接著引入群組對比偏好優化(GCPO)——一種利用人類成對偏好數據來強化點式RRM的強化學習算法。在建立RRM後,我們使用GRPO訓練編輯模型,儘管該獎勵模型不可微分但功能強大。大量實驗表明,我們的Edit-RRM作為編輯專用獎勵模型,超越了Seed-1.5-VL和Seed-1.6-VL等強大視覺語言模型,並觀察到明顯的規模化趨勢:從30億參數到70億參數,性能持續提升。此外,Edit-R1為FLUX.1-kontext等編輯模型帶來增益,彰顯其在增強圖像編輯能力方面的有效性。
現有的研究基礎設施本質上以文檔為中心,僅提供論文間的引用鏈接,但缺乏對方法論演進的明確表徵。尤其未能捕捉那些解釋研究方法如何及為何出現、適應並相互借鑑的結構化關係。隨著人工智慧驅動的研究代理成為科學知識的新型消費者,此類限制日益凸顯,因為這些代理無法從非結構化文本中可靠地重構方法演進的拓扑結構。我們提出Intern-Atlas——一個方法演進圖譜,能自動識別方法層級的實體、推斷方法論間的淵源關係,並捕捉驅動連續創新間轉變的關鍵瓶頸。該圖譜基於涵蓋AI會議、期刊與arXiv預印本的1,030,314篇論文構建,包含9,410,201條語義類型化的邊緣,每條邊緣均附有逐字來源證據,形成可查詢的方法發展因果網絡。為實現該結構的實用化,我們進一步提出自引導時序樹搜索算法,用於構建追溯方法隨時間演進的演化鏈。我們通過與專家策劃的真實演化鏈對比評估圖譜質量,結果顯示高度吻合。此外,我們驗證了Intern-Atlas在創意評估與自動化創意生成等下游應用中的可行性。我們將方法演進圖譜定位為新興自動化科學發現的基礎數據層。
我们正式推出Nemotron 3 Nano Omni——Nemotron多模态系列的最新成员,也是首个原生支持音频输入及文本、图像、视频的全能模型。通过架构创新、训练数据和训练方案的优化,该模型在所有模态上的准确率均较前代Nemotron Nano V2 VL实现稳定提升。尤其在现实场景的文档理解、长时音视频解析以及智能体计算机操作方面,Nemotron 3展现出领先性能。基于高效的Nemotron 3 Nano 30B-A3B主干网络,本模型进一步融入创新的多模态令牌压缩技术,相较同类规模模型显著降低推理延迟并提升吞吐量。我们将发布BF16、FP8和FP4格式的模型权重,并开放部分训练数据与代码库,以促进后续研发工作。
随着多模态大语言模型(MLLM)与代码智能体的发展,网站开发已从人工编程转向基于智能体的项目级代码生成。现有基准测试依赖于理想化假设,特别是针对结构清晰、信息丰富的输入和静态执行环境。然而实际开发过程存在关键瓶颈:非专业用户模糊低质的指令与模型理解之间的语义错位,导致我们称之为"盲执行"的失效模式。为弥补这一差距,我们推出InteractWeb-Bench——首个面向非专业低代码用户场景的多模态交互式网站生成基准。该基准引入四类用户智能体及角色驱动的指令扰动,基于需求工程缺陷分类体系,系统模拟包含模糊性、冗余性和矛盾性的多样化用户行为。我们为智能体开发了交互式执行环境,其统一动作空间包含澄清、实现、验证和提交四个模块,支持迭代式意图细化、代码生成和基于视觉反馈的验证。大量实验与分析表明,前沿的MLLM智能体仍受困于盲执行模式,暴露出意图识别与自适应交互方面的局限性。
现实场景中的长期生产力工作高度依赖于用户特定的计算机环境,其中大部分工作上下文通过目录结构和内容丰富的工件进行存储和组织。为在此类生产力场景中规模化生成合成数据,我们提出规模化合成计算机方法——一种可扩展的技术方案,用于创建具有逼真文件夹层级和丰富内容工件(如文档、电子表格和演示文稿)的虚拟环境。基于每台合成计算机,我们运行长期模拟:一个智能体生成与该计算机用户相关的生产力目标,这些目标需要交付多个专业成果并耗费约一个月的人工工时;随后另一个智能体扮演该用户角色,持续在计算机上开展工作——包括通过文件系统导航进行情境定位、与模拟协作者协调、生成专业工件等——直至完成所有目标。 在初步实验中,我们创建了1,000台合成计算机并运行长期模拟:每次模拟平均需要超过8小时的智能体运行时间,涉及2,000余次交互回合。这些模拟产生了丰富的经验学习信号,其有效性通过在领域内和跨领域生产力评估中智能体性能的显著提升得到验证。鉴于角色画像可达十亿量级,该方法论原则上可扩展至数百万甚至数十亿个合成用户世界(在充足算力支持下),从而实现对不同职业、角色、场景、环境和生产力需求的更广泛覆盖。我们认为,可扩展的合成计算机创建与规模化模拟相结合,极有潜力成为长期生产力场景中智能体自我改进与智能体强化学习的基础支撑平台。
我们证明了长期被认为不切合实际作为训练目标的弗雷歇距离(FD),实际上能在表征空间中被有效优化。我们的思路很简单:将用于FD估计的样本量(如5万)与用于梯度计算的批大小(如1024)解耦。我们将这种方法称为FD损失函数。优化FD损失函数揭示了若干惊人发现:首先,在不同表征空间中使用FD损失对基础生成器进行后训练,能持续提升视觉质量——在Inception特征空间下,单步生成器在ImageNet 256×256数据集上实现了0.72的FID值;其次,同一FD损失函数可将多步生成器直接转化为强效单步生成器,且无需教师蒸馏、对抗训练或逐样本目标;第三,FID可能误判视觉质量:现代表征方法即便在Inception FID指标较差时,仍能生成更优样本。这促使我们提出FDr^k这一多表征评估指标。本研究有望推动生成模型领域进一步探索不同表征空间中分布距离的双重作用——既作为训练目标,亦作为评估标准。
科学出版物将分支式、迭代式的研究过程压缩为线性叙事,摒弃了研究过程中发现的大部分内容。这种编纂方式带来两种结构性代价:其一是叙事税,即为适应线性叙事而舍弃失败的实验、被推翻的假设及分支探索过程;其二是工程税,即审稿人所需的描述与智能体所需的规范之间存在鸿沟,导致关键实现细节未被记录。这些代价对人类读者尚可容忍,但当AI智能体需要理解、复现并拓展已发表成果时便至关重要。我们提出智能体原生研究制品(ARA)协议,该协议用机器可执行的研究包取代叙事式论文,其结构包含四个层级:科学逻辑层、带完整规范的可执行代码层、保留失败探索路径的探索图谱层,以及将每个论断锚定于原始输出的证据层。该生态系统由三大机制支撑:在常规研发过程中捕获决策与死胡同的实时研究管理器;将传统PDF及代码库转化为ARA的编译器;以及支持客观检查自动化的ARA原生评审系统,使人类评审员能专注于意义、创新性与学术品味评估。在PaperBench和RE-Bench测试中,ARA将问答准确率从72.4%提升至93.7%,复现成功率从57.4%提高至64.4%。在RE-Bench的五项开放式拓展任务中,ARA保留的失败轨迹虽能加速进展,但根据智能体能力差异,也可能限制高能智能体突破既有研究框架。
大型语言模型(LLMs)通过预训练数据中的共享推理模式获得推理能力,并经由思维链(CoT)实践进一步激发。然而,对于基本推理模式(如归纳、演绎和溯因)能否从具体问题实例中解耦,仍是实现模型可控性和揭示推理可控机制的关键挑战。本文首次通过推理冲突的视角系统研究该问题:当强制模型采用与目标任务预期不符的逻辑图式时,会引发参数化知识与语境信息之间的显性张力。实验表明,LLMs始终将语义合理性置于指令遵从性之上,即使面对冲突指令仍倾向于采用符合任务特性的推理模式。值得注意的是,任务准确率并不完全由语义合理性决定——模型在使用冲突模式时常保持较高性能,这表明其依赖内部参数化记忆,且该现象随模型规模扩大而增强。我们进一步发现推理冲突具有内部可检测性,表现为冲突情境下置信度显著下降。探针实验证实推理类型从中后网络层开始线性编码,暗示激活层面可控性的潜力。基于这些发现,我们成功将模型导向指令遵从,使遵循率提升达29%。总体而言,本研究论证了虽然LLM推理锚定于具体实例,但通过主动的机制干预能有效实现逻辑图式与数据的解耦,为提升可控性、忠实度和泛化能力开辟了新路径。
近期基于单目视频的任意骨架运动捕捉方法普遍采用因子化流程:先通过视频到姿态网络预测关节位置,再经由解析式逆运动学阶段恢复关节旋转。该方案虽具实效性,但存在固有局限——关节位置无法完全确定旋转状态,会导致骨骼轴向扭转等自由度模糊;且不可微的逆运动学阶段使系统难以适应噪声预测或优化最终动画目标。本研究提出首个完全端到端的框架,其中视频到姿态与姿态到旋转两个阶段皆可学习并联合优化。我们发现姿态-旋转映射的模糊性源于坐标系信息的缺失:同一关节位置在不同初始姿态与局部轴约定下可能对应不同旋转。为此,我们引入目标资产的参考姿态-旋转对,结合初始姿态不仅锚定映射关系,更定义了底层旋转坐标系。这一表述将旋转预测转化为约束良好的条件问题,从而实现高效学习。此外,本模型无需依赖网格中间表示即可直接从视频预测关节位置,提升了鲁棒性与效率。两阶段共享具备骨骼感知能力的全局-局部图引导多头注意力模块,实现关节级局部推理与全局协同。在Truebones Zoo和Objaverse上的实验表明,本方法将旋转误差从约17度降至约10度,在未见骨架上进一步降至6.54度,同时推理速度比基于网格的流程提升约20倍。项目页面:https://animotionlab.github.io/MoCapAnythingV2/
现代视频扩散模型在外观合成方面表现出色,但在物理一致性方面仍存在不足:物体漂移、碰撞缺乏真实反弹、材质响应与底层属性难以匹配。我们提出PhyCo框架,通过引入连续、可解释且基于物理原理的控制机制来改进视频生成。该框架整合三大核心组件:(1)包含10万+条逼真仿真视频的大规模数据集,其中摩擦系数、恢复系数、形变程度和受力情况在不同场景中系统变化;(2)基于像素对齐物理属性映射的ControlNet条件控制,对预训练扩散模型进行物理监督微调;(3)视觉语言模型引导的奖励优化机制,通过微调后的VLM针对物理特性进行视频生成质量评估,并提供可微分反馈。这种组合使生成模型能通过调整物理属性产生物理一致且可控的输出——在推理过程中无需任何模拟器或几何重建。在Physics-IQ基准测试中,PhyCo相较于强基线模型显著提升了物理真实感;人工评估也证实其对物理属性的控制更清晰准确。我们的研究为开发具有物理一致性、可泛化至合成训练环境之外的可控生成式视频模型提供了可扩展路径。
人类视觉偏好本质上是多维度的,涵盖美学价值、细节保真度与语义对齐性。然而现有数据集仅提供单一的整体标注,导致严重的标签噪声:在某些维度表现优异但其他维度存在缺陷的图像被简单标记为胜者或败者。我们通过理论证明,将多维偏好压缩为二元标签会产生相互冲突的梯度信号,从而误导扩散直接偏好优化(DPO)。为解决此问题,我们提出半监督DPO方法,将一致性样本视作清洁标注数据,冲突性样本作为噪声未标注数据进行处理。我们的方法首先在共识过滤的清洁子集上训练初始模型,随后将该模型作为隐式分类器为噪声集生成伪标签进行迭代优化。实验结果表明,Semi-DPO实现了最先进的性能,并显著提升了对复杂人类偏好的对齐能力,且无需在训练过程中引入额外的人工标注或显式奖励模型。代码与模型将于以下地址开源:https://github.com/L-CodingSpace/semi-dpo
具身智能的实现需要高保真仿真环境来支撑感知与决策,但现有平台常受数据污染和灵活性不足的制约。为此,我们提出World2Minecraft框架,通过基于3D语义占据预测的方法将真实场景转化为结构化《我的世界》环境。在重建场景中,我们可无缝执行视觉语言导航等下游任务。然而研究发现,重建质量高度依赖精准的占据预测,而现有模型受限于数据稀缺和泛化能力不足。我们开发了一种低成本、自动化、可扩展的数据采集流程用于构建定制化占据数据集,并通过MinecraftOcc数据集验证其有效性——该大规模数据集包含来自156个高细节室内场景的100,165张图像。大量实验表明,我们的数据集对现有数据集形成关键补充,并对当前最先进方法构成显著挑战。这些发现不仅推动了占据预测技术的进步,更凸显了World2Minecraft为个性化具身AI研究提供可定制、可编辑平台的重要价值。项目页面:https://world2minecraft.github.io/。
计算机使用代理为实现通用软件自动化提供了一条前景广阔的路径,因为它们能直接与任意图形用户界面交互,而无需依赖脆弱的、特定于应用的集成方案。尽管基准测试性能近期有所突破,但强大的计算机使用代理在实际应用中仍存在成本高昂和速度缓慢的问题,这主要是因为大多数系统几乎在每个交互步骤都需要调用大型多模态模型。我们认为这种均匀分配计算资源的方式对长周期GUI任务存在根本性低效问题。此类任务轨迹具有高度异质性:多数步骤属于常规操作,可通过更小型、更经济的策略可靠处理,而错误往往集中在少数高风险节点。纵观各类计算机使用基准测试,这些故障主要表现为两种形式:进度停滞(代理陷入循环、重复无效操作或无法实现实质性进展)和隐性语义漂移(代理在偏离用户真实目标后仍持续执行局部合理的操作)。为解决这一低效问题,我们提出了一种事件驱动的阶梯式计算机使用代理架构:默认运行轻量策略,仅当轻量级学习监测器检测到风险升高时,才升级至更强模型。该框架融合了两种互补信号:通过停滞监测器检测近期推理-操作历史中的进度退化并触发恢复机制,通过里程碑监测器识别语义关键节点,在此类稀疏验证点进行有效性校验以捕捉漂移现象。这种设计将始终开启的前沿模型推理转变为随着交互进程动态调整的按需计算资源分配方案。该框架采用模块化设计并面向实际部署:可在不改变现有代理底层架构或重新训练大模型的前提下,直接叠加于现有计算机使用代理系统之上。
诗歌历来是阿拉伯语使用者的核心艺术形式,既是强有力的表达媒介,也是文化认同的重要载体。尽管现代阿拉伯语使用者依然重视诗歌,但现有关于阿拉伯诗歌的大型语言模型研究主要集中于诗歌解读或韵律模式、标题生成等元数据预测的分析任务。与此不同,我们的研究通过引入可控生成技术来解决阿拉伯语诗歌创作的实际需求,旨在辅助用户进行诗歌写作。具体而言,我们构建了一个大规模、精心标注的基于指令的数据集,涵盖现代标准阿拉伯语及各地方言变体。该数据集支持根据预定义标准(如风格与韵律)进行诗歌创作、修订与续写,同时能执行诗歌分析任务。实验表明,基于该数据集微调的大型语言模型能有效生成符合用户需求的诗歌,这一结论同时得到自动化指标和以阿拉伯语为母语者的人工评估双重验证。数据集与代码已开源:https://github.com/mbzuai-nlp/instructpoet-ar。
尽管偏好优化对提升视觉生成模型至关重要,但如何有效扩展这一范式仍属未知领域。当前开源偏好数据集存在冲突的偏好模式,优胜样本在某些维度表现卓越却在其他维度欠佳。直接在此类嘈杂数据集上进行优化难以有效学习偏好,阻碍了规模化扩展。为增强对噪声的鲁棒性,我们提出Poly-DPO方法,通过引入多项式项扩展DPO目标函数,能根据数据集特征动态调整模型置信度,从而在不同数据分布中实现有效学习。除偏差模式外,现有数据集还存在分辨率低、提示词多样性不足及分布不平衡等问题。为通过突破数据瓶颈推动大规模视觉偏好优化,我们构建了ViPO数据集——包含500个类别下100万对1024像素图像样本,以及3个类别下30万对720p以上视频样本。采用顶尖生成模型和多样化提示词确保偏好信号的可靠性及分布的均衡性。值得注意的是,当将Poly-DPO应用于高质量数据集时,最优配置会收敛至标准DPO。这一收敛现象验证了数据集质量,也体现了Poly-DPO的自适应特性:当数据质量足够时,复杂优化变得不再必要,但对不完善数据集仍具价值。我们在多种视觉生成模型上验证了该方法:在Pick-a-Pic V2等嘈杂数据集上,Poly-DPO对SD1.5和SDXL在GenEval指标上分别较Diffusion-DPO提升6.87和2.32分;使用ViPO训练的模型性能远超基于现有开源偏好数据集的模型。这些结果证实,同时解决算法适应性与数据质量问题是扩展视觉偏好优化的关键。
基础模型虽常针对特定领域进行微调应用,但安全性评估通常仅针对基座模型开展,这种做法的潜在假设是安全属性能够在下游适配过程中持续保持。我们通过分析100个模型的安全行为检验了这一假设,研究对象包括医疗和法律领域广泛部署的微调模型,以及开源基础模型与其基座模型的受控适配版本。在通用与领域专用安全基准测试中,我们发现良性微调会引发测量安全性的巨大、异质且时常矛盾的变动:模型经常在某些测试工具上表现提升,而在其他工具上出现退化,不同评估间存在显著分歧。这些结果表明安全行为在常规下游适配过程中并不稳定,这对以基座模型评估为核心的治理与部署实践提出了关键质疑。若未能在部署相关场景中对微调模型进行显式重评估,此类方法将难以有效管理下游风险,忽视实际危害来源——这种缺陷在高风险场景中影响尤为重大,并对现行问责范式构成挑战。
长上下文大语言模型(LLMs)——例如Gemini-3.1-Pro与Qwen-3.5——正被广泛应用于检索增强生成、自主智能体和AI助手等现实场景。然而,其大规模部署仍面临严重的安全隐忧,包括提示注入与知识污染等威胁。为量化LLMs在此类威胁下的安全风险,研究界已开发出基于启发式与基于优化的红队测试方法。基于优化的方法通常能产生比启发式攻击更强的对抗样本,从而为LLM安全风险提供更严苛的评估。但这类方法往往需要消耗大量计算资源与GPU显存,尤其在长上下文场景下更为显著。这种高资源消耗特性成为系统化评估长上下文LLM安全风险及大规模检验防御策略效果的主要障碍(对学术研究者尤为突出)。本研究提出FlashRT框架,首次实现了长上下文LLMs下基于优化的提示注入与知识污染攻击在计算效率和内存占用方面的双重提升。经广泛测试表明,相较于最先进的基线方法nanoGCG,FlashRT可持续实现2-7倍加速(例如将运行时间从1小时缩短至10分钟内),并降低2-4倍GPU显存消耗(针对32K词元上下文,显存占用从264.1GB降至65.7GB)。该框架可广泛应用于TAP、AutoDAN等黑盒优化方法。我们期待FlashRT能作为红队测试工具,助力长上下文LLM安全性的系统化评估。代码已开源:https://github.com/Wang-Yanting/FlashRT