每日精选AI研究论文及翻译
在本报告中,我们介绍了Ovis-U1,这是一个拥有30亿参数的统一模型,集成了多模态理解、文本到图像生成以及图像编辑功能。基于Ovis系列的基础,Ovis-U1结合了扩散式视觉解码器与双向令牌精炼器,使其在图像生成任务上表现媲美GPT-4o等领先模型。与以往某些使用冻结多模态大语言模型(MLLM)进行生成任务的模型不同,Ovis-U1采用了一种全新的统一训练方法,从语言模型出发进行训练。相较于仅在理解或生成任务上单独训练,统一训练带来了更优的性能,展现了整合这两类任务所带来的提升。Ovis-U1在OpenCompass多模态学术基准测试中取得了69.6分,超越了近期表现优异的Ristretto-3B和SAIL-VL-1.5-2B等模型。在文本到图像生成方面,它在DPG-Bench和GenEval基准测试中分别以83.72和0.89的分数脱颖而出。至于图像编辑,它在ImgEdit-Bench和GEdit-Bench-EN上分别获得了4.00和6.42的评分。作为Ovis统一模型系列的首个版本,Ovis-U1在多模态理解、生成与编辑领域突破了现有界限。
全注意力机制的二次复杂度对旨在生成长时长、高分辨率视频的视频扩散模型(VDMs)构成了显著瓶颈。尽管已提出多种稀疏注意力方法,但许多方法仅作为无需训练的推理加速器设计,或在原生训练时未能最优地捕捉视频数据中固有的独特时空特征。本文介绍了视频块混合注意力(VMoBA),这是一种专为VDMs设计的新型稀疏注意力机制。通过对预训练视频变换器中注意力模式的深入分析,揭示了强烈的时空局部性、查询重要性变化及头部特定集中度,VMoBA在原有MoBA框架基础上进行了三项关键改进:(1)采用层级递归块划分方案(1D-2D-3D),动态适应多样化的时空注意力模式并提升效率;(2)全局块选择,优先考虑整个注意力头中最显著的查询-键块交互;(3)基于阈值的块选择,根据累积相似度动态确定参与注意力的块数。大量实验表明,VMoBA显著加速了VDMs在长序列上的训练,实现了2.92倍的浮点运算(FLOPs)和1.48倍的延迟加速,同时生成质量与全注意力相当甚至更优。此外,VMoBA在无需训练的推理中展现出竞争力,为高分辨率视频生成提供了2.40倍的FLOPs和1.35倍的延迟加速。
我们推出Calligrapher,一个创新的基于扩散模型的框架,它将先进的文本定制技术与艺术字体设计巧妙融合,专为数字书法与设计应用而打造。针对字体定制中精确风格控制与数据依赖性的挑战,我们的框架提出了三项核心技术贡献。首先,我们开发了一种自蒸馏机制,利用预训练的文本到图像生成模型结合大型语言模型,自动构建以风格为中心的字体基准。其次,我们引入了一个通过可训练风格编码器实现的局部风格注入框架,该编码器包含Qformer和线性层,用于从参考图像中提取稳健的风格特征。此外,还采用了上下文生成机制,直接将参考图像嵌入去噪过程,进一步强化目标风格的精细对齐。跨多种字体与设计场景的广泛定量与定性评估证实,Calligrapher能够准确再现复杂的风格细节并精确定位字形。通过自动化生成高质量、视觉一致的字体,Calligrapher超越了传统模型,为数字艺术、品牌塑造及情境字体设计领域的创意实践者提供了强大支持。
训练出稳健且可泛化的人类视觉偏好奖励模型,对于使文本到图像及文本到视频生成模型与人类意图对齐至关重要。然而,现有奖励模型往往难以泛化,且监督微调易导致记忆效应,需要复杂的标注流程。尽管强化学习(RL),特别是群体相对策略优化(GRPO),提升了泛化能力,但我们发现了一个关键缺陷:当模型的推理轨迹与独立、冻结的视觉语言模型(“倾听者”)对同一输出的评估相矛盾时,推理准确性会显著下降。为解决此问题,我们引入了倾听者增强的GRPO框架。在此框架中,倾听者重新评估推理者的思维链,提供密集且校准的置信度评分,以此塑造RL的奖励信号。这不仅激励推理者给出正确答案,还促使其生成能说服独立模型的解释。我们的倾听者引导奖励方案在ImageReward基准上达到了最佳准确率(67.4%),在大规模人类偏好数据集(120万次投票)上显著提升了分布外(OOD)性能(相比单纯推理者提升高达6%),并减少了与强GRPO及SFT基线相比的推理矛盾。这些结果表明,基于倾听者的奖励为视觉语言模型与细腻人类偏好的对齐提供了一条可扩展且数据高效的路径。我们将在此发布我们的推理模型:https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner。
近期强化学习领域的进展表明,语言模型通过在可验证奖励的任务上进行训练,能够发展出复杂的推理能力。然而,这些方法依赖于人工整理的问题-答案对以及特定领域的奖励工程。我们引入了SPIRAL,一个自我对弈框架,在该框架中,模型通过与不断自我提升的版本进行多轮零和博弈来学习,从而消除了对人类监督的依赖。通过自我对弈,SPIRAL生成了一个无限渐进式挑战的问题课程,因为模型必须不断适应更强的对手。为了实现大规模自我对弈训练,我们实现了一个完全在线、多轮、多智能体的强化学习系统,并提出了角色条件优势估计(RAE)以稳定多智能体训练。利用SPIRAL,零和博弈中的自我对弈产生了广泛迁移的推理能力。仅在Kuhn Poker上训练Qwen3-4B-Base,在数学和一般推理上分别实现了8.6%和8.4%的提升,优于在25,000条专家游戏轨迹上的监督微调(SFT)。分析揭示,这种迁移通过三种认知模式实现:系统分解、期望值计算和逐案分析。多游戏训练(井字棋、Kuhn Poker、简单谈判)进一步提升了性能,因为每种游戏都培养了独特的推理优势。将SPIRAL应用于一个强大的推理模型(DeepSeek-R1-Distill-Qwen-7B)仍能带来2.0%的平均提升。这些结果表明,零和博弈自然发展出可迁移的推理能力,为自主推理发展指明了一个有前景的方向。
我们提出了一种新颖的提示设计范式,挑战了大型语言模型(LLM)提示中的传统观念。尽管传统智慧强调精心设计的指令和示例对于上下文学习(ICL)的重要性,但我们发现,将随机示例修剪成看似不连贯的“胡言乱语”反而能显著提升多种任务的表现。值得注意的是,这种“胡言乱语”始终匹配或超越了最先进的自动提示优化技术,无论LLM是否经过对齐,都能实现显著增益。然而,发现一种有效的修剪策略并非易事,现有的归因方法和提示压缩算法均未能提供稳健的结果,更不用说依赖人类直觉了。针对这一点,我们提出了一个自我发现的提示优化框架——PromptQuine,这是一个进化搜索框架,仅利用少量数据自动搜索修剪策略。正如自然界中因资源限制而涌现的复杂性——如共生与自组织——我们的框架通过仅利用上下文中的标记,进化并提炼出非传统但极为有效的提示。我们展示了该框架在分类、多选问答、生成及数学推理任务中的有效性,同时保持了良好的运行时效率。我们希望我们的发现能引导对上下文学习的机制研究,并呼吁采取行动,为开发更开放式的搜索算法铺平道路,以实现更有效的LLM提示。
由飞行时间(ToF)传感器捕获的深度图像易受噪声影响,需进行去噪处理以确保下游应用的可靠性。先前的研究要么专注于单帧处理,要么在多帧处理时未考虑帧间对应像素的深度变化,导致不理想的时间不一致性和空间模糊性。本文提出了一种新颖的ToF深度去噪网络,利用运动不变图融合技术,同时提升时间稳定性和空间清晰度。具体而言,尽管帧间存在深度偏移,图结构展现出时间自相似性,使得跨帧几何注意力机制得以应用于图融合。随后,通过在融合图上引入图像平滑先验,并结合源自ToF噪声分布的数据保真项,我们构建了一个最大后验问题用于ToF去噪。最终,该问题的解被展开为迭代滤波器,其权重通过图引导的几何注意力自适应学习,从而形成一个高性能且可解释的网络。实验结果表明,所提方案在合成DVToF数据集上实现了精度与一致性上的最先进性能,并在真实Kinectv2数据集上展现出良好的泛化能力。源代码将发布于https://github.com/davidweidawang/GIGA-ToF。
近期大型语言模型(LLMs)的进展表明,推理时计算技术,如解码时缩放和自我优化,无需依赖外部知识即可显著提升推理能力。这一成功的关键驱动力在于自我校正和自我验证行为的涌现,这些行为通常通过强化学习(RL)激发。本文探讨了这些推理时技术是否同样能有效应用于视觉语言模型(VLMs),特别是那些经过RL训练的模型。我们发现,尽管多数投票和带自我验证的最佳N选择等解码策略均能提升VLM的推理性能,但依赖生成的方法(如前者)相较于依赖验证的方法(如后者)能带来更为显著的增益。此外,常与RL调优模型相关联的自我校正行为,如“顿悟时刻”,并未带来可衡量的提升。通过广泛的实验,我们在推理时缩放框架内揭示了一个关键根源:经过RL训练的VLMs在视觉和文本模态上仍缺乏稳健的自我验证能力。
近期光流估计领域的进展在追求精度的同时,导致了GPU内存消耗的显著增加,尤其是在处理高分辨率(FullHD)输入时。我们提出了MEMFOF,一种内存高效的多帧光流估计方法,它在多帧估计与GPU内存使用之间找到了一个理想的平衡点。值得注意的是,MEMFOF在处理1080p输入时仅需2.09 GB的运行时GPU内存,训练时也仅需28.5 GB,这使得我们的方法能够在不进行裁剪或下采样的条件下,直接在原生1080p分辨率下进行训练。我们系统地重新审视了类似RAFT架构的设计选择,通过整合缩减的相关性体积和高分辨率训练协议,结合多帧估计,在多个基准测试中实现了最先进的性能,同时大幅降低了内存开销。我们的方法在准确性和运行效率上均优于资源消耗更大的替代方案,验证了其在高分辨率光流估计中的鲁棒性。截至提交时,我们的方法在Spring基准测试中以3.289的1像素(1px)异常率位居榜首,在Sintel(clean)上以0.963的端点误差(EPE)领先,并在KITTI-2015上实现了2.94%的最佳Fl-all误差。代码已发布于https://github.com/msu-video-group/memfof。
微调大型语言模型(LLMs)在计算和内存上均耗费巨大。尽管参数高效微调方法,如QLoRA和DoRA,减少了可训练参数的数量并降低了内存使用,它们并未降低计算成本。在某些情况下,这些方法甚至可能减缓微调速度。本文中,我们提出了SparseLoRA,一种通过上下文稀疏性加速LLM微调的方法。我们设计了一种轻量级、无需训练的SVD稀疏性估计器,能够动态选择权重的一个稀疏子集用于损失和梯度计算。同时,我们系统性地分析并解决了跨层、跨标记及训练步骤的敏感性问题。实验结果表明,SparseLoRA在保持各类下游任务(包括常识与算术推理、代码生成及指令遵循)准确性的同时,将计算成本最高降低了2.2倍,实测速度提升最高达1.6倍。
处理多模态信息并逐步推理的能力,仍是推动人工智能发展的关键挑战。然而,现有的推理基准主要集中于纯文本推理,或采用那些通过直接检索非文本模态信息即可回答的多模态问题。因此,复杂推理在多模态领域仍鲜为人知。在此,我们推出MARBLE,一个旨在严格检验多模态语言模型(MLLMs)在复杂多模态问题与环境中逐步推理能力的挑战性多模态推理基准。MARBLE包含两项极具挑战性的任务——M-Portal与M-Cube,它们要求在多步规划中融入空间、视觉及物理约束的理解与构建。我们发现,当前MLLMs在MARBLE上表现欠佳——所有12个先进模型在M-Portal上接近随机水平,而在M-Cube上准确率为0%。仅在简化子任务中,部分模型表现优于随机基线,这表明复杂推理对现有MLLMs而言仍是一大难题。此外,我们揭示感知仍是瓶颈,MLLMs有时无法从视觉输入中有效提取信息。通过揭示MLLMs的局限,我们希望MARBLE能激励新一代模型的研发,使其具备跨越多模态推理步骤进行推理与规划的能力。
通过函数调用来实现外部工具集成,对于实际的语言模型应用至关重要,然而大多数多语言模型在非英语语言中缺乏可靠的工具使用能力。即便是最先进的多语言模型,在决定何时使用工具以及生成函数调用所需的结构化输出时也面临挑战,尤其是在低资源语言提示下常出现语言混淆现象。本研究提出了一种方法,旨在调整现有语言模型,使其能够在任何目标语言中实现稳健的工具使用,并以保加利亚语为例进行案例研究。该方法包括对BgGPT系列模型(2.6B、9B、27B参数)进行持续训练,使用一个包含10,035个函数调用示例的双语新数据集,该数据集设计用于支持如MCP(模型上下文协议)等标准化协议。研究引入了TUCAN(工具使用能力助手导航器),其在函数调用准确率上相比基础模型提升了高达28.75%,同时保持了核心语言理解能力,这一点在已建立的保加利亚语基准测试中得到了验证。除了准确率的提升,TUCAN模型还展示了生产就绪的响应格式化能力,能够生成简洁、可解析的函数调用,与基础模型冗长且不一致的输出形成鲜明对比。模型、评估框架及数据集均已公开发布,以便于其他语言的复现。本研究表明了一种将工具增强能力扩展至以英语为中心系统之外的实用途径。
城市研究涉及广泛场景与任务,这些任务要求对多模态数据进行深入理解。现有方法往往局限于特定数据类型,缺乏一个统一框架来全面处理城市领域的数据。近期,多模态大语言模型(MLLMs)的成功为解决这一局限提供了契机。本文中,我们介绍了UrbanLLaVA,这是一款专为同时处理四类数据而设计的多模态大语言模型,相较于通用MLLMs,在多样化的城市任务中展现出卓越性能。在UrbanLLaVA中,我们首先构建了一个涵盖单模态与跨模态城市数据的多样化城市指令数据集,范围从局部视角延伸至城市环境的全局视角。此外,我们提出了一种多阶段训练框架,将空间推理增强与领域知识学习解耦,从而提升了UrbanLLaVA在各类城市任务中的兼容性与下游表现。最后,我们还扩展了现有的城市研究基准,以评估MLLMs在广泛城市任务中的表现。来自三个城市的实验结果表明,UrbanLLaVA在单模态任务及复杂的跨模态任务上均优于开源与专有MLLMs,并展现出跨城市的强大泛化能力。源代码与数据已通过https://github.com/tsinghua-fib-lab/UrbanLLaVA向研究社区公开。
本文提出了一种无需训练的简单技术,旨在提升基于草稿模型的推测解码(SpD)方法的性能,该技术在草稿生成过程中整合了语言模型头(LM头)。基于草稿模型的推测解码利用一个或多个较小的语言模型(即草稿模型或草稿生成器)来采样由多个令牌组成的草稿序列或树,随后由基础大语言模型(目标模型)进行验证,接受其中一部分作为有效生成。通常认为,推测解码要求目标模型与草稿模型的词汇表之间存在一一映射关系,因此自然地在两者之间共享词汇表,甚至如EAGLE或Medusa那样共享LM头。我们首先指出,这种草稿令牌采样方案在草稿生成过程中固有地包含了不必要的推理开销,尤其对于某些拥有极大词汇表的目标大语言模型而言。接着,我们提出了一种名为VocabTrim的简单技术,以减少草稿生成的开销,从而在内存受限的环境中提升生成速度。VocabTrim通过重构草稿模型的LM头,使其仅包含从目标模型词汇表中选取的最频繁采样的有限令牌集。尽管在草稿生成中限制词汇表会略微降低接受率,但它显著减少了在内存受限进程中的草稿生成延迟,这在边缘设备上尤为常见,从而实现了更高的内存受限加速比(MBSU)。我们展示了该方法能够在Spec-Bench基准上为Llama-3模型带来内存受限加速,特别是对于Llama-3.2-3B-Instruct模型,加速效果提升了16%。
世界模型已成为具身智能不可或缺的工具,作为强大的模拟器,能够生成逼真的机器人视频,同时应对关键的数据稀缺挑战。然而,当前的具身世界模型在物理感知方面表现有限,特别是在建模三维几何和运动动力学时,导致在接触密集的机器人场景中生成不真实的视频。本文提出RoboScape,一个统一的物理信息世界模型,在集成框架内联合学习RGB视频生成与物理知识。我们引入了两项关键的物理信息联合训练任务:时间深度预测,增强视频渲染中的三维几何一致性;关键点动力学学习,在提升复杂运动建模的同时,隐式编码物理属性(如物体形状和材料特性)。大量实验表明,RoboScape在多样化的机器人场景中生成的视频具有卓越的视觉保真度和物理合理性。我们进一步通过下游应用验证了其实用性,包括利用生成数据进行机器人策略训练和策略评估。我们的工作为构建高效的物理信息世界模型以推进具身智能研究提供了新的见解。代码已发布于:https://github.com/tsinghua-fib-lab/RoboScape。
超透镜在超紧凑计算成像领域展现出巨大潜力,但面临着复杂光学退化和计算复原难度的挑战。现有方法通常依赖于精确的光学校准或大规模配对数据集,这对实际成像系统而言并非易事。此外,缺乏对推理过程的控制往往导致不理想的幻觉伪影。我们提出了基于退化建模的多路径扩散方法,用于可调谐超透镜摄影,利用预训练模型中的强大自然图像先验,而非依赖大规模数据集。我们的框架采用正向、中性和负向提示路径,以平衡高频细节生成、结构保真度以及超透镜特有退化的抑制,同时结合伪数据增强技术。可调谐解码器实现了保真度与感知质量之间的可控权衡。此外,空间变化退化感知注意力(SVDA)模块自适应地建模复杂的光学和传感器引起的退化。最后,我们设计并构建了毫米级MetaCamera进行实际验证。大量实验结果表明,我们的方法超越了现有最先进技术,实现了高保真度和锐利的图像重建。更多资料请访问:https://dmdiff.github.io/。
尽管端到端的视频到音频生成技术已取得显著进步,但要生成高保真音频,真实捕捉视觉内容的细微差别仍具挑战。如同创意产业中的专业人士,此类生成需要对视觉动态、声学环境及时间关系等要素进行复杂推理。我们提出了ThinkSound,一个创新框架,它利用思维链(CoT)推理实现视频音频的逐步交互式生成与编辑。我们的方法将过程分解为三个互补阶段:基础拟音生成,创建语义连贯的声景;通过精确用户交互进行的以对象为中心的交互式精炼;以及由自然语言指令引导的定向编辑。每一阶段,多模态大语言模型生成上下文对齐的CoT推理,指导统一的音频基础模型。此外,我们引入了AudioCoT,一个包含结构化推理注释的综合数据集,建立了视觉内容、文本描述与声音合成之间的联系。实验表明,ThinkSound在视频到音频生成方面,无论是音频指标还是CoT指标,均达到了业界领先水平,并在分布外电影音频基准测试中表现卓越。演示页面请访问https://ThinkSound-Project.github.io。
微调预训练的大型语言模型(LLMs)已被证明是实现特定任务(如机器翻译)最先进性能的有效策略。然而,这种适应过程往往意味着牺牲通用能力,如对话推理和指令遵循,从而限制了系统在需要多种技能的现实应用中的实用性。本文介绍了Tower+,一套旨在在翻译和多语言通用文本能力上均表现出色的模型。我们通过引入一种新颖的训练方案,在翻译专业化和多语言通用能力之间实现了帕累托前沿,该方案基于Tower(Alves等,2024),包括持续预训练、监督微调、偏好优化以及带有可验证奖励的强化学习。在训练的每个阶段,我们精心生成和筛选数据,以增强翻译任务以及涉及代码生成、数学问题解决和通用指令遵循的通用任务的表现。我们开发了多种规模的模型:2B、9B和72B。我们的较小模型通常优于更大的通用开放权重和专有LLMs(例如,Llama 3.3 70B、GPT-4o)。我们最大的模型在高资源语言的翻译性能上达到了业界最佳,并在多语言Arena Hard评估和我们引入的IF-MT基准测试中取得了顶尖成绩,该基准用于评估翻译和指令遵循能力。我们的研究结果表明,在优化特定业务领域(如翻译和本地化)的同时,有可能在通用能力上与前沿模型相媲美。