每日精选AI研究论文及翻译
我们推出Qwen3-VL——迄今为止Qwen系列中最强大的视觉语言模型,在广泛的多模态基准测试中实现了卓越性能。该模型原生支持高达256K令牌的交错上下文,无缝融合文本、图像与视频。模型家族包含稠密模型(2B/4B/8B/32B)和混合专家模型(30B-A3B/235B-A22B)变体,以适应不同的延迟-质量权衡需求。Qwen3-VL具备三大核心支柱:(一)显著增强的纯文本理解能力,在多项测试中超越同规模纯文本基座模型;(二)基于原生256K令牌窗口的强大长上下文理解能力,可对长文档和视频实现精准的信息保持、检索与交叉引用;(三)在单图、多图及视频任务中展现先进的多模态推理能力,在MMMU综合评估及视觉数学基准(如MathVista和MathVision)中保持领先地位。架构层面我们实现三大关键升级:(一)增强型交错MRoPE机制,强化图像与视频的时空建模能力;(二)集成DeepStack技术,通过多层级ViT特征提升视觉-语言对齐效果;(三)基于文本的视频时间对齐机制,从T-RoPE演进为显式时间戳文本对齐,实现更精准的时间定位。在可比令牌预算和延迟约束下,Qwen3-VL在稠密与混合专家架构中均展现出优越性能。我们期待Qwen3-VL成为现实场景中图像推理、智能体决策和多模态代码智能的基础引擎。
视觉-语言-动作(VLA)模型通过流匹配或扩散目标训练,擅长从大规模多模态数据集(如人类遥操作、脚本策略)中学习复杂行为。然而,由于VLA在预训练阶段融合了多样化的数据模式,而微调数据集常包含以运动学上次优或非理想方式收集的示范数据,其中存在与下游任务成功动作模式无关的冗余动作模式。具体而言,我们在预训练VLA监督微调后观察到,不同采样噪声在推理时存在显著脆弱性。本文认为这种不稳定性源于VLA策略与下游任务数据集的稳定成功模式所诱导策略之间的分布偏移。为此,我们提出TACO——一种测试时缩放(TTS)框架,采用轻量级伪计数估计器作为动作片段的高保真验证器。集成TACO的VLA模型可从所有采样动作片段中执行具有最大伪计数的动作,从而在保持VLA泛化能力的同时防止分布偏移(因约束仅应用于推理阶段)。我们的方法类似于离线强化学习(RL)中的经典反探索原理,且作为无梯度方法,相比RL更新具有显著计算优势,尤其对于因去噪过程难以进行RL更新的流或扩散型VLA模型。在四个仿真基准(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)及双机械臂平台上的大量实验表明,该方法能显著提升下游任务适应中的推理稳定性和成功率。
模仿人类行为以主动从通用经验中学习,并实现通用人工智能,一直是人类的梦想。基于强化学习的大规模思维模型近期展现出令人瞩目的专家级能力(如软件与数学领域),但仍严重依赖特定领域内可验证的奖励机制,这极大限制了通用推理能力边界的拓展。本文提出PretrainZero——一个基于预训练语料的强化主动学习框架,将强化学习从领域特定的后训练阶段扩展至通用预训练阶段。PretrainZero具备以下特性:1)主动预训练:受人类主动学习能力启发,该框架学习统一推理策略,主动从预训练语料中识别合理且信息丰富的内容,并通过强化学习进行预测推理;2)自监督学习:无需任何可验证标签、预训练奖励模型或监督微调,直接在通用维基百科语料上对3B至30B基础模型进行强化学习预训练,显著突破通用推理的验证数据壁垒;3)验证规模化:通过攻克难度递增的掩码片段,该框架大幅提升预训练基础模型的通用推理能力。在强化预训练中,PretrainZero将Qwen3-4B-Base模型在MMLU-Pro、SuperGPQA和数学综合基准上的表现分别提升8.43、5.96和10.60分。在后训练阶段,经预训练的模型还可作为下游RLVR任务的推理基础模型。
理解动态场景间的视觉差异需要具备对构图、空间与时间变化的比较感知能力——这种能力在现有视觉语言系统中仍未得到充分探索。尽管先前图像差异描述(IDC)研究已使模型能够描述静态图像间的语义变化,但这些方法无法捕捉运动连续性、事件演变或时间维度上的编辑一致性。我们提出视频差异描述(ViDiC)任务及其配套的ViDiC-1K数据集,旨在评估多模态大语言模型(MLLMs)对视频对之间相似性与差异性的细粒度描述能力。ViDiC-1K包含1,000组精心筛选的视频对,标注了超过4,000项比较清单条目,涵盖主体、风格、背景、镜头语言、运动、场景和播放技术七大类别。为确保可靠评估,我们基于LLM-as-a-Judge协议提出双清单评估框架,分别衡量相似性与差异性的识别准确率。在19个代表性多模态模型上的实验表明,它们在比较描述与差异感知能力上存在显著性能差距。我们希望ViDiC-1K能成为具有挑战性的基准测试,为推进多模态智能的视频理解、编辑感知与比较推理能力奠定坚实基础。
强化学习(RL)近期在激发多模态大语言模型(MLLMs)的视觉推理能力方面取得了显著成果。然而,现有方法通常针对不同任务分别训练模型,并将图像与视频推理视为独立领域。这导致面向多模态推理通用模型的扩展性受限,既制约了实际应用的灵活性,也阻碍了跨任务与跨模态的知识共享。为此,我们提出OneThinker——一种全功能推理模型,在涵盖问答、描述、时空定位、跟踪与分割等多样化基础视觉任务中,统一实现图像与视频理解。为实现这一目标,我们构建了覆盖所有任务的OneThinker-600k训练语料库,并采用商业模型进行思维链标注,最终得到用于SFT冷启动的OneThinker-SFT-340k数据集。此外,我们提出EMA-GRPO算法,通过追踪各任务奖励标准差的移动平均值来处理多任务强化学习中的奖励异质性问题,从而实现均衡优化。在多样化视觉基准上的大量实验表明,OneThinker在10类基础视觉理解任务、31个基准测试中均展现出强劲性能。更重要的是,该模型在特定任务间表现出有效的知识迁移能力,并具备初步的零样本泛化能力,标志着向统一多模态推理通用模型迈出了关键一步。所有代码、模型与数据均已开源。
视觉语言模型(VLMs)在定性视觉理解方面表现出色,但在具身应用所需的精确空间推理能力上仍存在不足。智能体范式表明,VLMs可通过调用多种工具(如深度估计器、分割模型和姿态估计器)来增强这些能力。然而,如何在不依赖人工预设提示策略或固定工具流水线的前提下实现这一愿景仍是开放挑战——现有方法会限制VLM发现最优工具使用模式的能力。强化学习虽能弥补这一差距,但由于多工具推理的搜索空间过大,目前仅局限于单一视觉工具的应用。我们提出双重交互式强化学习(DIRL),该训练框架通过交互探索与反馈机制,分两阶段让VLM学习协调多工具:在教学阶段,我们将单一工具专家通过交互式强化学习获得的示范数据,与前沿模型使用全工具链的轨迹相结合;在探索阶段,模型通过持续强化学习进一步优化多工具协作能力。我们的SpaceTools模型具备工具增强的空间推理能力,在空间理解基准测试(RoboSpatial-Home、BLINK、BOP-ASK)中达到最先进性能,并借助七自由度机器人作为工具实现了可靠的实际操作。DIRL相较于标准SFT(在RoboSpatial上提升12%)和强化学习基线(在RoboSpatial上提升16%)实现显著进步。项目页面:https://spacetools.github.io/。
在文本到视觉生成领域,实现用户意图与生成视觉内容之间的精准对齐始终是核心挑战,因为单次生成往往难以达到预期效果。现有方法主要通过扩展视觉生成过程(如增加采样步数或种子数量)来处理这一问题,但这会迅速导致质量瓶颈。该局限性的根源在于指导生成过程的关键要素——提示文本——始终保持固定。为此,我们提出推理时缩放提示词重构框架PRIS,该框架能在推理过程中根据扩展的视觉生成结果自适应地修订提示文本。PRIS的核心思想是通过审视已生成的视觉内容,识别跨样本的共性错误模式,进而重构提示文本,并使用修订后的提示重新生成视觉内容。为给提示修订提供精准的对齐反馈,我们引入了新型验证机制——元素级事实校正,该机制能在细粒度层面评估提示属性与生成视觉内容之间的对齐程度,相比整体性评估指标能实现更精准且可解释的判断。在文本到图像和文本到视频基准测试上的大量实验证明了我们方法的有效性,其中在VBench 2.0上实现了15%的性能提升。这些结果表明,联合优化提示文本与视觉生成是推理时充分发挥缩放定律效能的关键。可视化结果请访问:https://subin-kim-cv.github.io/PRIS。
真正实现交互式世界模型需要三个关键要素:实时长序列流式生成、一致的空间记忆和精确的用户控制。然而现有方法大多孤立地解决其中单个问题,因为同时实现三者极具挑战性——例如长时记忆机制往往会降低实时性能。本研究提出RELIC统一框架,整体性攻克这三个挑战。给定单张图像和文本描述,RELIC能够实时实现对任意场景的具备记忆感知的长时探索。基于最新自回归视频扩散蒸馏技术,我们的模型采用高度压缩的历史潜变量令牌来表示长时记忆,这些令牌通过KV缓存编码了相对动作和绝对相机位姿。这种紧凑的相机感知记忆结构支持隐式3D一致内容检索,并以最小计算开销保障长时连贯性。与此同时,我们微调双向教师视频模型以突破其原始5秒训练时长的限制,并通过新型内存高效的自强制范式将其转化为因果性学生生成器,该范式支持对长时教师序列及学生自生成序列进行全上下文蒸馏。作为140亿参数模型并在精心策划的虚幻引擎渲染数据集上训练,RELIC实现了16帧/秒的实时生成,与现有工作相比展现出更精准的动作跟随、更稳定的长序列流式生成以及更鲁棒的空间记忆检索能力。这些特性使RELIC成为新一代交互式世界建模的坚实基础。
能够通过图像进行思考的多模态大语言模型(MLLMs)可借助工具交互式地对视觉输入进行推理,但现有方法通常依赖工具集过于狭窄,既缺乏实际必要性又难以扩展。本研究首先揭示了一个关键且长期被忽视的缺陷:即使最先进的MLLMs也表现出惊人的脆弱性,在简单方向调整或自然干扰下的图像上会出现显著性能退化,这凸显了发展更鲁棒的工具推理能力的必要性。为此,我们提出CodeVision——一个灵活可扩展的代码即工具框架,通过生成代码作为调用任意图像操作的通用接口,突破固定工具注册表的限制。我们采用两阶段训练方法:首先在专为复杂多轮工具组合与错误恢复构建的高质量数据集上进行监督微调(SFT),随后通过具有新颖密集过程奖励函数的强化学习(RL)策略性提升工具使用效率。为推进相关研究,我们构建了全新的SFT与RL数据集,并推出具有挑战性的基准测试套件,用于系统评估模型对方向变化的鲁棒性及多工具推理能力。在Qwen2.5-VL和Qwen3-VL系列模型上的实验表明,我们的方法显著提升了模型性能,并催生了灵活工具组合、高效链式执行、基于运行时反馈的鲁棒错误恢复等新兴能力。代码已开源:https://github.com/ByteDance-BandAI/CodeVision。
标准化流(Normalizing Flows, NFs)是一类具有数学可逆架构的生成模型,其前向传播将数据转换至隐空间进行密度估计,反向传播则从该空间生成新样本。这一特性在表示学习与数据生成之间建立了内在协同机制。然而,标准NF的生成质量受限于对数似然优化所得的语义表示质量不足。为此,我们提出一种新颖的对齐策略,创造性利用NF的可逆性:通过将生成过程(反向传播)的中间特征与强大视觉基础模型的表示相对齐,而非传统的前向传播正则化方法,证明了该方法相较于简单对齐的卓越有效性。我们还引入了一种无需训练、可在测试时优化的分类算法,为NF内嵌的语义知识提供了更本质的评估方式。综合实验表明,我们的方法将NF训练速度提升3.3倍以上,同时在生成质量与分类精度上均实现显著提升,在ImageNet 64×64和256×256数据集上创造了NF领域的最新性能纪录。代码已开源:https://github.com/MCG-NJU/FlowBack。
当前,大语言模型(LLMs)与人类偏好的对齐通常依赖外部监督,但这种方法存在明显局限:人工标注稀缺且主观,奖励模型易受奖励攻击影响,而自评估方法则存在提示敏感性和偏差问题。本研究提出稳定秩(stable rank)——一种源自模型内部表征的、无需标注的本质质量信号。稳定秩通过计算总方差与主导方向方差的比值,衡量隐藏状态的有效维度,从信息在表征维度间的分布方式中捕捉质量信息。实验表明,稳定秩在RewardBench上达到84.04%的准确率,并通过Best-of-N采样将任务准确率较贪婪解码平均提升11.3个百分点。基于此发现,我们提出稳定秩分组相对策略优化(SR-GRPO),将稳定秩作为强化学习的奖励信号。在无外部监督的情况下,SR-GRPO将Qwen2.5-1.5B-Instruct模型在STEM任务上的表现提升10%,数学推理能力提升19%,优于基于学习奖励模型和自评估的基线方法。我们的研究证明,质量信号可从模型内部几何结构中提取,为无需外部监督的可扩展对齐提供了新路径。
尽管神经处理单元(NPU)在边缘AI领域具备高理论效率,但专为GPU优化的先进视觉语言模型(VLMs)在此类硬件上往往表现不佳。我们将这种硬件与模型的不匹配归因于两大核心因素:视觉变换器(ViT)的量敏感脆弱性,以及自回归注意力机制受I/O限制的特性,后者无法充分利用NPU的高算术吞吐量。为弥补这一差距,我们提出AutoNeural——一种专为纯整数推理协同设计的NPU原生VLM架构。我们采用基于深度可分离卷积的MobileNetV5风格主干网络替代标准ViT编码器,确保激活值分布有界以实现稳定的INT4/8/16量化。与之互补的是,我们的语言主干网络将状态空间模型(SSM)原理与变换器层相结合,通过高效门控卷积实现线性时间复杂度。这种混合设计消除了生成过程中键值缓存带来的沉重内存I/O开销。实验表明,相较于传统基线方法,我们的方案将视觉编码器量化误差降低高达7倍,端到端延迟减少14倍,解码速度提升3倍,上下文窗口延长4倍。基于高通SA8295P系统级芯片的真实车载案例验证了这些改进,证明了该方案在座舱应用中可实现实时性能。我们的研究结果强调,针对NPU约束重新设计模型拓扑是实现稳健多模态边缘智能的先决条件。
烹饪是一项具有时序性和视觉基础的活动,其中切菜、搅拌、煎炒等每个步骤既包含程序逻辑又蕴含视觉语义。尽管当前扩散模型在文本到图像生成方面展现出强大能力,却难以处理如食谱图解这类结构化多步骤场景。此外,现有食谱插图方法无法适配食谱长度的自然变化,无论实际指令结构如何都生成固定数量的图像。为突破这些局限,我们提出CookAnything框架——一个基于扩散模型的灵活且连贯的系统,能够根据任意长度的文本烹饪指令生成语义分明、逻辑连贯的图像序列。该框架包含三大核心组件:(1)步骤区域控制技术,通过单次去噪过程实现文本步骤与对应图像区域的对齐;(2)柔性旋转位置编码机制,利用步骤感知的位置编码同时增强时序连贯性与空间多样性;(3)跨步骤一致性控制模块,在多个步骤间保持食材细节的一致性。在食谱插图基准测试上的实验表明,CookAnything在有训练和无训练场景下均优于现有方法。该框架支持对复杂多步骤指令进行可扩展的高质量视觉合成,在教学媒体和流程化内容创作领域具有广阔的应用前景。
自2019年起,Hugging Face模型库已成为全球共享开源权重AI模型的核心平台。通过发布涵盖完整历史周期的周度模型下载数据集(2020年6月至2025年8月)及模型元数据,本研究对开放模型经济中的集中度动态与演进特征展开了迄今最严谨的实证分析。研究覆盖85.1万个模型、单模型超200项聚合属性及22亿次下载数据。我们记录了经济力量的根本性重构:谷歌、Meta和OpenAI主导的美国开源权重产业霸权显著削弱,独立开发者、社区组织及至2025年崛起的中国产业力量(以DeepSeek和Qwen模型为代表)正成为新主导者,可能预示市场权力的重新整合。研究发现模型属性出现统计显著性变迁:平均模型规模增长17倍,多模态生成(3.4倍)、量化技术(5倍)与专家混合架构(7倍)快速普及,但数据透明度呈现令人担忧的下滑——2025年开源权重模型首次超越真正开源模型。我们还揭示出新兴开发者中间层正专注于基座模型的量化调优与艺术化适配。为持续推进研究与社会监督,我们同步开放完整数据集及交互式仪表板,助力实时监测开放模型经济的集中度动态与演进特征。
我们推出Jina-VLM——一个24亿参数的视觉语言模型,在20亿参数规模的开源多语言视觉问答模型中达到顶尖水平。该模型通过注意力池化连接器将SigLIP2视觉编码器与Qwen3语言主干网络相结合,能够以令牌高效的方式处理任意分辨率的图像。在标准视觉问答基准和多语言评估中,Jina-VLM在保持竞争力单文本性能的同时,综合表现优于同类模型。
评估CLIP等图文对齐模型对于 bridging 视觉与语言表征至关重要。然而现有基准依赖基于规则的扰动或简短描述,限制了其衡量细粒度对齐的能力。我们推出AlignBench基准,通过评估多种图生文与文生图模型生成的精细图文配对,为图文对齐提供了全新衡量指标。每个句子均标注正确性,可直接评估视觉语言模型作为对齐评判器的能力。对大量基于解码器的视觉语言模型进行基准测试后,我们获得三项关键发现:(i) 基于CLIP的模型(即便是专为组合推理优化的版本)仍近乎"失明";(ii) 检测器系统性地高估前序句子的得分;(iii) 它们表现出强烈的自我偏好,倾向于给自身输出更高评分,从而损害检测性能。项目页面详见https://dahlian00.github.io/AlignBench/。
我们提出“双关语攻击”(Doublespeak)——一种针对大语言模型(LLM)的简单上下文表示劫持攻击。该攻击通过在多个上下文示例中,将有害关键词(如“炸弹”)系统性地替换为良性词汇(如“胡萝卜”),并配合有害请求的前缀来实现。研究表明,这种替换会导致良性词汇的内部表示向有害词汇收敛,从而在委婉语表层下嵌入有害语义。最终,表面无害的提示(如“如何制作胡萝卜?”)在模型内部会被解读为被禁止的指令(如“如何制作炸弹?”),以此绕过模型的安全对齐机制。通过可解释性工具我们发现,这种语义覆盖是逐层形成的:早期层中的良性含义在深层逐渐收敛为有害语义。双关语攻击无需优化即可实现,能跨模型族广泛迁移,在闭源和开源系统上均取得较高成功率——仅通过单句上下文覆盖就在Llama-3.3-70B-Instruct上达到74%的攻击成功率。我们的发现揭示了LLM潜在空间中的新型攻击面,表明当前对齐策略存在不足,亟需在表示层面进行强化。
在移动平台上部署大型语言模型(LLM)面临重大挑战,主要受限于设备有限的内存和共享计算资源。由于资源可用性直接受当前设备负载影响,模型部署的不确定性进一步加剧。我们提出UniQL——一个支持设备端可配置剪枝率的统一后训练量化与低秩压缩框架,专为边缘LLM设计。该通用框架集成了针对Transformer、状态空间模型(SSM)及混合模型的量化与低秩压缩技术,以支持多样化的边缘应用。在我们的联合框架中,我们引入了高效结构化权重排序方法(计算速度提升20倍)、量化感知奇异值分解(SVD)以最小化量化误差、针对SSM的状态感知权重排序技术,以及面向剪枝模型的融合式旋转位置编码(RoPE)内核。我们的框架在云端单次工作流中完成权重排序、微调与量化,同时支持设备端最高达35%的可配置剪枝率。实验表明,经过量化与剪枝的模型在Transformer(Llama3、Qwen2.5)、SSM(Mamba2)和混合模型(Nemotron-H、Bamba-v2)上,内存占用减少4-5.7倍,令牌吞吐量提升2.7-3.4倍,且在15%剪枝率下精度损失控制在原模型5%以内。代码与量化模型已开源:https://github.com/enyac-group/UniQL。
利用长思维链的推理模型需要运用多种认知技能,如答案验证、回溯、交替方法重试等。已有研究表明,当基础语言模型展现出这些技能时,通过强化学习进一步训练可使其学会运用这些技能。但如何让模型掌握基础模型尚未展现的技能?我们的SkillFactory方法通过在强化学习前的监督微调阶段进行模型精调,使其初步掌握这些技能。该方法不依赖于从更强模型的蒸馏,而是对模型自身生成的样本进行重构,以技能所需的格式提供训练数据。这些"银级"SFT轨迹可能不够完美,但能有效引导模型在强化学习阶段掌握技能。评估表明:(1)从SkillFactory的SFT初始化出发,尽管强化学习前性能较低,但有助于模型泛化至任务的高难度变体;(2)模型确实运用了认知技能;(3)经强化学习的SkillFactory模型相比基础模型在领域外任务上表现出更强的抗退化能力。我们的研究表明,强化学习前获得的归纳偏置有助于模型掌握稳健的认知技能运用。
大规模多模态模型在长视频理解中的应用受限于有限的上下文长度及密集视频帧处理的高计算成本。当前研究多集中于查询感知的帧选择方法,但这些方法常伴随显著的计算开销。本文质疑了此类复杂搜索机制普遍必要的假设,首先提出并验证了区分全局查询与局部化查询的类型学框架。研究表明,均匀采样对全局查询既高效又有效,而局部化查询确实需要查询感知选择才能达到最优性能。基于此发现,我们提出无需训练的帧选择框架DIG,该框架能根据查询类型自适应调整策略:对全局查询采用高效均匀采样,对局部化查询则启动专用流程提取查询相关帧。在三个长视频理解基准测试上的实验表明,DIG始终优于现有基线方法,即使将输入帧数扩展至256帧时,仍能稳健提升大规模多模态模型的性能。
视觉语言模型(VLM)在视觉问答任务中取得了显著成功,但其对大量视觉标记的依赖带来了显著的计算开销。现有高效VLM方法虽能通过固定比例压缩减少视觉标记,但这类被动操作缺乏适应不同任务需求的能力。这引出一个根本性问题:VLM能否自主确定每个样本所需的最小视觉标记数量?受人类主动视觉机制启发,我们提出AdaptVision——一种通过由粗到精方式实现自适应视觉标记获取的高效VLM范式。该模型首先处理来自低分辨率图像的压缩视觉标记,并在必要时通过调用边界框工具裁剪关键区域来选择性获取额外视觉信息。我们采用强化学习框架训练AdaptVision,精心平衡准确性与效率。其核心是解耦轮次策略优化(DTPO),该算法将学习目标解耦为两个组件:(1)工具学习——优化正确工具使用能力;(2)精度提升——优化生成响应以提高答案正确性。基于此框架,我们通过计算各目标对应标记的独立优势值进一步解耦优势估计。相较于原始GRPO,该设计能为AdaptVision实现更有效的优化。在多组VQA基准上的综合实验表明,AdaptVision在消耗视觉标记数量显著少于现有高效VLM方法的同时,实现了更优越的性能。
扩散模型在动态场景去模糊领域展现出潜力,但现有研究往往未能充分利用模糊过程的内在特性,限制了其性能的充分发挥。为解决这一问题,我们提出模糊扩散模型(BlurDM),将模糊形成过程无缝集成到扩散框架中实现图像去模糊。通过观察发现运动模糊源于连续曝光过程,BlurDM通过双扩散前向机制隐式建模模糊形成过程,使噪声与模糊共同作用于清晰图像。在反向生成过程中,我们推导出双重去噪与去模糊的数学表述,使得BlurDM能够以模糊图像为条件输入的高斯噪声为基础,同步执行去噪与去模糊操作以重建清晰图像。此外,为高效整合BlurDM至去模糊网络,我们在隐空间执行BlurDM运算,构建出灵活的先验生成网络用于去模糊任务。大量实验表明,BlurDM在四个基准数据集上显著且持续地提升了现有去模糊方法的性能。源代码已发布于https://github.com/Jin-Ting-He/BlurDM。
注意力机制是基础模型的核心,但其二次复杂度仍是制约模型扩展的关键瓶颈。这一挑战推动了高效注意力机制的发展,其中稀疏化已成为主流范式。现有方法通常通过二值掩码保留或丢弃完整的键值块,在高稀疏度下会导致显著信息损失。为缓解这一问题,我们提出金字塔稀疏注意力(PSA)——一种可同时适用于视频理解与生成任务的通用模块。PSA摒弃二值掩码,引入多级池化键值表征,实现更精细的掩码粒度。具体而言,每个查询块动态分配较低池化层级给关键键值块,较高层级分配给次要块,在完整保留与彻底剪枝之间构建信息化的插值方案。该设计借鉴了计算机视觉中的定点量化思想和经典特征金字塔网络,在低计算预算下既能保持计算效率,又可有效缓解信息损失。PSA采用原生硬件友好内核,通过解耦的块-瓦片设计确保高效执行。在视频理解与生成基准测试中,PSA在保持上下文信息和视觉保真度的同时,始终优于或达到现有稀疏注意力基线性能,并展现出更优的效率-质量平衡。代码与模型权重已开源:http://ziplab.co/PSA
平面设计作为现代视觉传达的基石,是推广文化商业活动的重要媒介。尽管当前研究已尝试利用大型多模态模型实现设计流程自动化,但现有方法常存在几何布局失准问题,且缺乏专业工作流所需的逐层迭代编辑能力。为此,我们提出PosterCopilot框架,通过增强布局推理与可控编辑功能推动专业平面设计智能化发展。具体而言,我们设计了渐进式三阶段训练策略:扰动监督微调、视觉现实对齐的强化学习、以及美学反馈强化学习,使大型多模态模型掌握几何感知与美学推理的布局设计能力。进一步构建完整工作流,将训练完成的设计模型与生成模型耦合,在保持全局视觉一致性的同时,实现图层可控的迭代式精细编辑。大量实验表明,PosterCopilot能生成几何精确且美学突出的布局,为专业迭代设计提供前所未有的可控性。
我们提出一种针对多模态大语言模型的新型威胁——对抗性混淆攻击。与越狱或定向误分类不同,该攻击旨在引发系统性混乱,使模型生成语义混乱或自信但错误的输出。其实践应用包括将对抗性图像植入网页,以阻止基于MLLM的AI代理可靠运行。本攻击通过小型开源MLLM集成系统最大化下一标记的熵值。在白盒设定下,我们证实单张对抗图像即可在完整图像和对抗性验证码两种场景下扰乱整个集成系统。尽管采用基础对抗技术,该攻击生成的扰动能够有效迁移至未见过的开源模型和闭源模型。