每日精選AI研究論文及翻譯
我們推出Qwen3-VL——迄今為止Qwen系列中最強大的視覺語言模型,在廣泛的多模態基準測試中均展現卓越性能。該模型原生支援高達256K令牌的交錯上下文,無縫整合文字、圖像與影片。該模型系列包含稠密模型(2B/4B/8B/32B)與專家混合模型(30B-A3B/235B-A22B)兩種架構,以滿足不同延遲與品質的權衡需求。Qwen3-VL具備三大核心優勢:(一)顯著增強的純文字理解能力,在多項測試中超越同級純文字基礎模型;(二)具備原生256K令牌視窗的強大長上下文理解力,可對長文檔與影片實現精準的內容保留、檢索與交叉引用;(三)在單圖像、多圖像及影片任務中展現先進的多模態推理能力,於MMMU等綜合評估及視覺數學基準(如MathVista、MathVision)中保持領先表現。在架構層面,我們實現三大關鍵升級:(一)增強型交錯MRoPE技術,強化圖像與影片的時空建模能力;(二)整合DeepStack架構,透過多層級ViT特徵緊密對齊視覺與語言表徵;(三)基於文字的時間對齊機制,從T-RoPE演進為顯式時間戳文字對齊,提升影片時間定位精度。在可比令牌預算與延遲限制下,Qwen3-VL於稠密與MoE架構中均實現最優性能。我們期許Qwen3-VL成為現實工作流程中圖像推理、智能決策與多模態程式碼理解的基礎引擎。
基於流匹配或擴散目標訓練的視覺-語言-動作模型,能夠從大規模多模態數據集(如人類遙控操作、腳本策略)中有效學習複雜行為。然而,由於VLA在預訓練階段整合了多樣化的數據模式,而微調數據集往往包含以運動學上次優或不理想方式收集的示範數據,這使得模型存在與下游任務成功動作模式無關的冗餘動作模式。具體而言,我們在預訓練VLA經過監督微調後,觀察到不同採樣噪聲會導致關鍵的推理時脆弱性。本文將此不穩定性歸因於VLA策略與下游任務數據集的穩定成功模式所誘導策略之間的分佈偏移。為此,我們提出TACO——一種測試時縮放框架,採用輕量級偽計數估計器作為動作區塊的高保真驗證器。整合TACO的VLA模型能從所有採樣動作區塊中執行具有最大偽計數值的動作,既防止分佈偏移,又因約束僅在推理時應用而保留VLA的泛化能力。該方法類似於離線強化學習中的經典反探索原理,且作為無梯度方法,相較於RL更新(尤其是基於流或擴散的VLA因去噪過程難以執行RL更新)具有顯著計算優勢。在四個仿真基準測試平台(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)及雙臂機器人平台上的大量實驗表明,本方法能顯著提升下游任務適應中的推理穩定性與成功率。
模仿人類行為以主動從通用經驗中學習,從而實現人工通用智慧,一直是人類的夢想。近期基於強化學習的大型思維模型展現出令人印象深刻的專家級能力(如軟體開發與數學),但仍嚴重依賴特定領域中可驗證的獎勵機制,這對擴展通用推理能力的性能邊界形成了顯著瓶頸。本文提出PretrainZero——一個基於預訓練語料庫的強化主動學習框架,旨在將強化學習從領域特定的後訓練階段擴展至通用預訓練階段。PretrainZero具備以下特點:1)主動預訓練:受人類主動學習能力啟發,PretrainZero學習統一推理策略,主動從預訓練語料中識別合理且信息豐富的內容,並通過強化學習對這些內容進行預測推理;2)自監督學習:無需任何可驗證標籤、預訓練獎勵模型或監督微調,我們直接使用強化學習在通用維基百科語料庫上對3B至30B的基礎模型進行預訓練,顯著突破了通用推理的驗證數據壁壘;3)驗證規模化:通過處理難度遞增的掩碼片段,PretrainZero大幅增強了預訓練基礎模型的通用推理能力。在強化預訓練中,PretrainZero將Qwen3-4B-Base模型在MMLU-Pro、SuperGPQA和數學平均基準上的表現分別提升8.43、5.96和10.60分。在後訓練階段,經過預訓練的模型亦可作為下游RLVR任務的推理基礎模型。
理解動態場景之間的視覺差異,需要具備對構圖、空間與時間變化的比較感知能力——這種能力在現有的視覺語言系統中仍未被充分探索。儘管先前圖像差異描述(IDC)的研究已使模型能夠描述靜態圖像間的語義變化,但這些方法無法捕捉運動連續性、事件演變或隨時間變化的編輯連貫性。我們提出影片差異描述(ViDiC)任務及其對應的ViDiC-1K數據集,旨在評估多模態大語言模型(MLLMs)對影片對之間相似性與差異性進行細粒度描述的能力。ViDiC-1K包含1,000個精選影片對,標注了超過4,000項比較檢查項目,涵蓋七個類別:主體、風格、背景、攝影手法、運動、場景與播放技術。為確保可靠評估,我們基於LLM-as-a-Judge協議提出雙重檢查表框架,分別衡量相似性與差異性的描述準確度。對十九個代表性多模態模型的實驗顯示,它們在比較描述與差異感知能力上存在顯著性能差距。我們期望ViDiC-1K能成為具有挑戰性的基準,為推進多模態智能的影片理解、編輯感知與比較推理奠定堅實基礎。
強化學習(RL)近期在多模態大型語言模型(MLLMs)的視覺推理領域取得了顯著成果。然而,現有方法通常需為不同任務分別訓練模型,並將圖像與影片推理視為獨立領域,導致其難以擴展為多模態推理通用模型,不僅限制了實際應用靈活性,也阻礙了跨任務與模態的知識共享。為此,我們提出OneThinker——一個全能型推理模型,能統一處理圖像與影片理解任務,涵蓋問答、描述、時空定位、追蹤及分割等多種基礎視覺任務。為實現此目標,我們構建了涵蓋所有任務的OneThinker-600k訓練資料集,並採用商業模型進行思維鏈註解,生成用於SFT冷啟動的OneThinker-SFT-340k資料。此外,我們提出EMA-GRPO方法,通過追蹤各任務獎勵標準差的移動平均值來處理多任務RL中的獎勵異質性問題,實現均衡優化。在多個視覺基準測試上的廣泛實驗表明,OneThinker在31個基準測試中表現優異,覆蓋10項基礎視覺理解任務。該模型還展現出特定任務間的有效知識遷移能力及初步的零樣本泛化能力,為實現統一多模態推理通用模型邁出關鍵一步。所有程式碼、模型與資料均已開源。
視覺語言模型(VLMs)在定性視覺理解方面表現出色,但在具身應用所需的度量精確空間推理方面仍存在困難。代理範式表明,VLMs可利用多種工具增強這些能力,例如深度估計器、分割模型和姿態估計器。然而,如何在不僅依賴手工提示策略或強制使用固定預定義工具管線(這會限制VLM發現最優工具使用模式的能力)的情況下實現這一願景,仍是開放性挑戰。強化學習或能克服這一差距,但由於多工具推理中的巨大搜索空間,目前僅限於使用單一視覺工具進行推理。我們提出雙交互式強化學習(DIRL),這是一個兩階段訓練框架,讓VLM通過交互探索與反饋學習協調多種工具。在教學階段,我們將通過交互式RL訓練的單一工具專家的示範與使用所有工具的前沿模型軌跡相結合。在探索階段,模型通過持續RL進一步優化多工具協調能力。我們的模型SpaceTools具備工具增強空間推理能力,在空間理解基準測試(RoboSpatial-Home、BLINK、BOP-ASK)中達到最先進性能,並通過使用7自由度機器人作為工具展示了可靠的實物操作能力。DIRL相較於原始SFT(在RoboSpatial上提升12%)和RL(在RoboSpatial上提升16%)基線有顯著改進。項目頁面:https://spacetools.github.io/。
在文本到視覺生成領域,實現用戶意圖與生成視覺內容的精確對齊仍是核心挑戰,因為單次生成往往難以產出符合預期的結果。為解決此問題,現有方法主要通過擴展視覺生成流程(例如增加採樣步數或種子數量)來處理,但這種方式會迅速觸及質量瓶頸。此侷限性源於引導生成的關鍵要素——提示詞——在過程中保持固定不變。為此,我們提出「推理階段縮放的提示詞重設計」(PRIS)框架,該框架能在推理階段根據擴展視覺生成的結果自適應地修訂提示詞。PRIS的核心思想是:審查已生成的視覺內容,識別跨視覺樣本中重複出現的錯誤模式,據此重新設計提示詞,再使用修訂後的提示詞重新生成視覺內容。為提供精確的對齊反饋以指導提示詞修訂,我們引入新型驗證機制「元素級事實校正」,該機制在細粒度層面評估提示詞屬性與生成視覺內容的對齊程度,相比整體性評估方法能實現更精準且可解釋的判斷。在文本到圖像和文本到視頻基準測試上的大量實驗證明了我們方法的有效性,其中在VBench 2.0上實現了15%的性能提升。這些結果凸顯了聯合縮放提示詞與視覺內容對於在推理階段充分發揮縮放定律效能的關鍵作用。視覺化結果請參見網址:https://subin-kim-cv.github.io/PRIS。
真正的互動式世界模型需要三大關鍵要素:即時長時序串流、一致性的空間記憶,以及精確的使用者控制。然而現有方法大多僅能單獨實現其中一項,因為要同時達成三項目標極具挑戰性——例如長時記憶機制往往會犧牲即時效能。本研究提出RELIC統一框架,能整體性解決這三大難題。該模型僅需輸入單張影像與文字描述,即可實現具記憶感知能力的即時長時序場景探索。基於最新自迴歸視頻擴散蒸餾技術,我們透過KV快取中編碼相對動作與絕對相機姿態的高度壓縮歷史潛在標記,建構長時序記憶表徵。此緊湊型相機感知記憶結構支援隱式3D一致性內容檢索,並以最小計算開銷確保長期連貫性。同時,我們微調雙向教師視頻模型,使其生成超越原始5秒訓練時長的序列,並透過新型記憶高效自強制範式轉化為因果學生生成器,實現對長時序教師模型及學生自推演的全上下文蒸餾。作為參數規模達140億的模型,RELIC在經過精心策劃的Unreal Engine渲染數據集上訓練後,能以16 FPS實現即時生成,相較既有研究展現出更精準的動作跟隨、更穩定的長時序串流及更強健的空間記憶檢索能力。這些特性使RELIC成為新一代互動式世界建模的堅實基礎。
能够以图像进行思考的多模态大语言模型(MLLMs)可通过工具交互实现视觉输入推理,但现有方法通常依赖工具集狭窄,且缺乏实际必要性与可扩展性。本研究首先揭示了一个关键却长期被忽视的缺陷:即使最先进的MLLMs也表现出惊人的脆弱性,在简单方向调整或自然失真图像上会出现显著性能衰退,这凸显了增强基于工具的鲁棒推理的必要性。为此,我们提出CodeVision——一种灵活可扩展的代码即工具框架,该模型通过生成代码作为通用接口来调用任意图像操作,突破固定工具注册机制的限制。我们采用两阶段训练方法:首先在专为复杂多轮工具组合与错误恢复构建的高质量数据集上进行监督微调(SFT),随后通过强化学习(RL)结合新颖的密集过程奖励函数,激励模型实现策略性高效的工具使用。为支持本研究,我们构建了全新的SFT与RL数据集,并推出具有挑战性的基准测试套件,用于严格评估模型对方向变化的鲁棒性及多工具推理能力。在Qwen2.5-VL和Qwen3-VL系列模型上的实验表明,我们的方法显著提升了模型性能,并催生了灵活工具组合、高效链式执行、基于运行时反馈的鲁棒错误恢复等新兴能力。代码已开源:https://github.com/ByteDance-BandAI/CodeVision。
歸一流模型(Normalizing Flows, NFs)是一類具有數學可逆架構的生成模型,其前向傳播將數據轉換至潛空間以進行密度估計,而反向傳播則從該空間生成新樣本。這一特性在表徵學習與數據生成之間建立了內在的協同效應。然而,標準歸一流模型的生成質量受限於對數似然優化所得語義表徵的不足。為解決此問題,我們提出一種新穎的對齊策略,創造性地利用歸一流模型的可逆特性:不對前向傳播進行正則化,而是將生成(反向)過程的中間特徵與強大視覺基礎模型的表徵對齊,實驗證明該方法相比簡單對齊策略具有顯著優勢。我們還引入一種無需訓練、可在測試時優化的新型分類算法,為歸一流模型內嵌的語義知識提供更本質的評估。綜合實驗表明,我們的方法使歸一流模型的訓練速度提升超過3.3倍,同時在生成質量與分類精度上均實現顯著提升。在ImageNet 64×64和256×256數據集上,本方法為歸一流模型創建了新的最優性能紀錄。代碼已開源於:https://github.com/MCG-NJU/FlowBack。
传统上,使大型语言模型(LLMs)与人类偏好对齐通常依赖外部监督,但这种方法存在明显局限:人工标注稀缺且主观,奖励模型易受奖励破解影响,而自评估方法则受制于提示敏感性和偏差。本研究提出稳定秩(stable rank)——一种源自模型表征的内在、无需标注的质量信号。稳定秩通过计算总方差与主导方向方差的比值,衡量隐藏状态的有效维度,从信息在表征维度间分布的方式中捕捉质量信息。实验表明,稳定秩在RewardBench上达到84.04%的准确率,并通过最佳N采样(Best-of-N sampling)将任务准确率较贪婪解码平均提升11.3个百分点。基于此发现,我们提出稳定秩分组相对策略优化(SR-GRPO),将稳定秩作为强化学习的奖励信号。在不依赖外部监督的情况下,SR-GRPO将Qwen2.5-1.5B-Instruct模型在STEM任务上的表现提升10%,数学推理能力提升19%,效果优于基于学习奖励模型和自评估的基线方法。我们的研究表明,质量信号可从模型内部几何结构中提取,为无需外部监督的可扩展对齐提供了新路径。
尽管神经处理单元(NPU)在边缘AI领域具有较高的理论效率,但专为GPU优化的先进视觉语言模型(VLM)在此类硬件上往往表现不佳。我们将这种硬件与模型的不匹配归因于两大核心因素:视觉变换器(ViT)的量化脆弱性,以及自回归注意力机制受I/O限制的特性——这些特性使其无法充分利用NPU的高算术吞吐量。为弥补这一差距,我们提出AutoNeural:一种与NPU协同设计、专为纯整数推理而生的原生VLM架构。我们采用基于深度可分离卷积的MobileNetV5风格主干网络替代标准ViT编码器,确保激活值分布有界以实现稳定的INT4/8/16量化。与之互补的是,我们的语言主干网络将状态空间模型(SSM)原理与变换器层相结合,通过高效门控卷积实现线性时间复杂度。这种混合设计消除了生成过程中键值缓存带来的沉重内存I/O开销。实验表明,该方法显著提升效率:视觉编码器的量化误差较传统基线降低达7倍,端到端延迟减少14倍。AutoNeural还实现了3倍的解码速度提升和4倍的上下文窗口扩展。我们通过在高通SA8295P系统级芯片上的真实汽车案例研究验证这些改进,证明了其在座舱应用中可实现实时性能。研究结果凸显了针对NPU约束重新设计模型拓扑结构是实现稳健多模态边缘智能的先决条件。
烹饪是一项具有时序性和视觉基础的活动,其中切菜、搅拌、煎炒等每个步骤都蕴含着操作逻辑与视觉语义。尽管当前扩散模型在文生图领域展现出强大能力,但难以处理如食谱图解这类结构化多步骤场景。现有食谱插图方法还存在适应性缺陷——无论实际操作步骤如何变化,都只能生成固定数量的图像。为突破这些限制,我们提出CookAnything框架:这是一个基于扩散模型的灵活系统,能够根据任意长度的文本烹饪指令生成语义连贯且视觉区分度高的图像序列。该框架包含三大核心组件:(1)步骤区域控制技术,在单次去噪过程中实现文本步骤与对应图像区域的对齐;(2)柔性RoPE位置编码机制,通过步骤感知增强时序连贯性与空间多样性;(3)跨步骤一致性控制模块,确保食材细节在不同步骤间保持统一。在食谱插图基准测试中,CookAnything在训练依赖与零样本设置下均优于现有方法。该框架支持对复杂多步骤指令进行可扩展的高质量视觉合成,在教学媒体和流程化内容创作领域具有广阔应用前景。
自2019年以来,Hugging Face模型库已成为全球共享开放权重AI模型的核心平台。通过发布涵盖完整历史周期的周度模型下载数据集(2020年6月至2025年8月)及模型元数据,我们对开放模型经济中的集中度动态与演进特征展开了迄今最严谨的实证研究。本研究涵盖85.1万个模型、每模型200余项聚合属性及22亿次下载数据,揭示了经济力量的根本性重构:谷歌、Meta和OpenAI主导的美国开放权重产业优势急剧削弱,非隶属开发者、社区组织及至2025年崛起的中国产业力量(以DeepSeek和Qwen模型为代表)正引领市场格局重组。我们通过统计显著性分析发现:模型平均参数量增长17倍,多模态生成(3.4倍)、量化技术(5倍)与专家混合架构(7倍)呈爆发式增长,但数据透明度出现令人担忧的滑坡——2025年开放权重模型首次在数量上超越真正开源模型。研究还揭示出新兴开发者中介层的崛起,其专注于对基础模型进行量化优化与适应性调整以兼顾效能与艺术表达。为支持持续研究与社会监督,我们同步开放完整数据集及交互式仪表板,助力实时监测开放模型经济的集中度演变与特性演进。
我们推出Jina-VLM——一款拥有24亿参数的视觉语言模型,在开源20亿参数级VLM中实现了多语言视觉问答的顶尖性能。该模型通过注意力池化连接器将SigLIP2视觉编码器与Qwen3语言主干网络相结合,能够以令牌高效的方式处理任意分辨率的图像。在标准VQA基准测试和多语言评估中,Jina-VLM在保持竞争力文本单模态性能的同时,全面超越了同规模可比模型。
评估CLIP等图文对齐模型对于 bridging 视觉与语言表征至关重要。然而现有基准依赖基于规则的扰动或简短描述,限制了其衡量细粒度对齐的能力。我们推出AlignBench这一新型基准,通过评估多种图生文与文生图模型生成的精细图文配对,为图文对齐提供了全新衡量指标。每个句子均标注正确性,可直接评估视觉语言模型作为对齐评判器的能力。对广泛基于解码器的视觉语言模型进行基准测试后,我们获得三项关键发现:(一)基于CLIP的模型,即便是专为组合推理优化的版本,仍近乎处于"视觉盲"状态;(二)检测器系统性地高估前序句子的评分;(三)这些模型表现出强烈的自我偏好,倾向于优待自身输出从而损害检测性能。项目页面详见https://dahlian00.github.io/AlignBench/。
我们提出“双关语攻击”(Doublespeak),一种针对大语言模型(LLM)的简单上下文表示劫持攻击。该攻击通过在多轮上下文示例中,将有害关键词(如“炸弹”)系统性地替换为良性词汇(如“胡萝卜”),并在有害请求前添加前缀实现。我们证明这种替换会导致良性词汇的内部表示向有害词汇收敛,从而将有害语义隐晦地编码于委婉语之下。最终,表面无害的提示(如“如何制作胡萝卜?”)在模型内部会被解析为禁止指令(如“如何制作炸弹?”),以此绕过模型的安全对齐机制。通过可解释性工具我们发现,这种语义覆盖是逐层形成的——早期层的良性含义会在后续层中逐渐收敛为有害语义。双关语攻击无需优化即可实现,能跨模型族广泛迁移,在闭源和开源系统上均达到高成功率:仅需单句上下文覆盖就能在Llama-3.3-70B-Instruct上实现74%的攻击成功率。我们的研究揭示了LLM潜在空间中的新攻击面,表明当前对齐策略存在不足,亟需在表示层面构建防御机制。
在移动平台上部署大型语言模型面临显著挑战,主要源于设备有限的内存和共享计算资源。由于资源可用性直接受设备当前工作负载影响,这增加了模型部署的不确定性。我们提出UniQL——一个支持设备端可配置剪枝率的统一后训练量化和低秩压缩框架。该通用框架集成了针对Transformer、状态空间模型及混合模型的量化与低秩压缩技术,以支持多样化的边缘应用。在我们的联合框架中,我们引入了高效结构化权重排序方法(计算速度提升20倍)、量化感知奇异值分解(最小化量化误差)、SSM状态感知权重排序技术,以及面向剪枝模型的融合式旋转位置编码内核。该框架通过单流程在云端完成权重排序、微调与量化,同时支持设备端最高35%的可配置剪枝率。实验表明,经过量化与剪枝的模型在Transformer、SSM和混合模型上实现了4-5.7倍的内存压缩和2.7-3.4倍的令牌吞吐量提升,在15%剪枝率下精度损失控制在原模型5%以内。相关代码与量化模型已开源:https://github.com/enyac-group/UniQL。
利用长链思维进行推理的模型需要运用多种认知技能,例如答案验证、回溯、交替方法重试等。已有研究表明,当基础语言模型展现出这些技能时,通过强化学习进一步训练该模型可使其学会运用这些技能。那么如何让模型掌握基础模型尚未展现的技能呢?我们的SkillFactory方法提出了一种微调策略,旨在强化学习前的监督微调阶段让模型初步掌握这些技能。该方法不依赖于从更强模型中进行知识蒸馏,而是通过重组模型自身生成的样本,以特定技能所需的格式提供训练数据。这些"银级"SFT轨迹可能并不完美,但能有效引导模型在强化学习阶段掌握技能。评估结果表明:(1)从SkillFactory的SFT初始化开始,尽管强化学习前性能较低,但有助于模型在强化学习后泛化至任务的更复杂变体;(2)模型确实运用了认知技能;(3)经过强化学习的SkillFactory模型相比经过强化学习的基础模型,在跨领域任务上表现出更强的抗退化能力。我们的研究表明,在强化学习前获得的归纳偏置有助于模型习得稳健的认知技能运用能力。
大型多模态模型在长视频理解中的应用受限于有限的上下文长度及密集视频标记处理所需的过高计算成本。当前研究多集中于查询感知的帧选择方法,但这些方法往往伴随显著的计算开销。本文质疑了此类复杂搜索机制普遍必要的假设,首先提出并验证了区分全局查询与局部化查询的类型学框架。研究表明,均匀采样对全局查询既高效又有效,而局部化查询确实需要查询感知选择才能达到最优性能。基于此发现,我们提出DIG——一种无需训练的自适应帧选择框架,能根据查询类型动态调整策略。具体而言,DIG对全局查询采用高效均匀采样,对局部化查询则启动专用流程提取查询相关帧。在三个长视频理解基准测试上的实验表明,DIG始终优于现有基线方法,即使输入帧数扩展至256帧时仍能稳健提升多模态模型性能。
视觉语言模型(VLM)在视觉问答任务中取得了显著成功,但其对大量视觉标记的依赖带来了巨大的计算开销。虽然现有高效VLM方法通过固定比例压缩减少视觉标记,但这些方法属于被动操作,缺乏适应不同任务需求的能力。这引出了一个根本性问题:VLM能否自主确定每个样本所需的最小视觉标记数量?受人类主动视觉机制启发,我们提出了AdaptVision——一种通过由粗到精方式实现自适应视觉标记获取的高效VLM范式。该模型首先处理来自低分辨率图像的压缩视觉标记,并在必要时通过调用边界框工具裁剪关键区域来选择性获取额外视觉信息。我们采用强化学习框架训练AdaptVision,精心平衡准确性与效率。方法的核心是解耦轮次策略优化(DTPO),它将学习目标分解为两个部分:(1)工具学习——优化正确使用工具的能力;(2)精度提升——优化生成响应以提高答案正确性。基于此框架,我们进一步通过计算各目标对应标记的独立优势值来实现优势估计的解耦。与原始GRPO相比,该框架能为AdaptVision实现更有效的优化。在多组VQA基准测试中的综合实验表明,相较于现有高效VLM方法,AdaptVision在消耗显著更少视觉标记的同时实现了更优的性能。
扩散模型在动态场景去模糊领域展现出巨大潜力,但现有研究往往未能充分利用模糊过程在扩散模型中的内在特性,限制了其潜力的充分发挥。为此,我们提出模糊扩散模型(BlurDM),将模糊形成过程无缝集成到扩散框架中实现图像去模糊。基于运动模糊源于连续曝光的观察,BlurDM通过双扩散前向方案隐式建模模糊形成过程,使噪声和模糊共同作用于清晰图像。在反向生成过程中,我们推导出双重去噪与去模糊的数学表述,使得BlurDM能够以模糊图像为条件输入的高斯噪声为基础,同步执行去噪与去模糊操作以重建清晰图像。此外,为高效整合BlurDM至去模糊网络,我们在隐空间执行BlurDM运算,构建出灵活的先验生成网络用于去模糊任务。大量实验表明,BlurDM在四个基准数据集上能显著且持续地提升现有去模糊方法的性能。源代码已发布于https://github.com/Jin-Ting-He/BlurDM。
注意力机制是基础模型的核心,但其二次复杂度仍是规模扩展的关键瓶颈。这一挑战推动了高效注意力机制的发展,其中稀疏化已成为主流范式。现有方法通常通过二值掩码保留或丢弃整个键值块,在高稀疏度下会导致显著信息损失。为缓解这一问题,我们提出金字塔稀疏注意力(PSA)——一种可同时应用于视频理解与生成任务的通用模块。PSA摒弃二值掩码,引入多级池化键值表征,实现更精细的掩码粒度。具体而言,每个查询块动态分配较低池化层级给关键键值块,较高层级则分配给次要块,在完整保留与彻底剪枝之间构建信息化的插值方案。该设计借鉴计算机视觉中的定点量化和经典特征金字塔网络思路,在低计算预算下既能保持计算效率,又可有效缓解信息损失。PSA采用原生硬件友好内核,通过解耦的块-瓦片设计确保高效执行。在视频理解与生成基准测试中,PSA在保持上下文信息和视觉保真度方面表现优异,始终超越或达到现有稀疏注意力基线性能,并实现更优的效率-质量权衡。代码与模型权重已开源:http://ziplab.co/PSA
平面设计作为现代视觉传达的基石,是推广文化及商业活动的重要媒介。尽管近期研究尝试利用大型多模态模型实现设计流程自动化,但现有方法常存在几何布局失准问题,且缺乏专业工作流所需的逐层迭代编辑能力。为此,我们提出PosterCopilot框架,通过增强布局推理与可控编辑功能推动专业平面设计发展。具体而言,我们设计了渐进式三阶段训练策略:扰动监督微调、视觉现实对齐的强化学习、审美反馈强化学习,使多模态模型具备几何理解与美学推理的版式设计能力。此外,我们开发了完整工作流,将训练后的设计模型与生成模型耦合,在保持全局视觉一致性的同时,实现图层可控的迭代式编辑与精准元素优化。大量实验表明,PosterCopilot能生成几何精确且美学卓越的布局,为专业迭代设计提供前所未有的可控性。
我们提出一种针对多模态大语言模型的新型威胁——对抗性混淆攻击。与越狱攻击或定向误分类不同,该攻击旨在引发系统性混乱,使模型生成逻辑混乱或自信错误的输出。其实践应用包括将此类对抗性图像嵌入网页,以阻止基于MLLM的AI代理可靠运行。本攻击方案通过小型开源MLLM集成系统最大化下一标记的熵值。在白盒设定下,我们证明单张对抗性图像即可在完整图像和对抗性验证码两种场景下扰乱整个集成系统。尽管采用基础对抗技术(PGD),所生成的扰动仍能迁移至未见过的开源模型(如Qwen3-VL)和专有模型(如GPT-5.1)。