每日精选AI研究论文及翻译
近期,大型多模态生成模型的突破性进展在多模态生成领域(包括图像与视频生成)展现出卓越能力。这类模型通常基于扩散模型与流匹配等多步生成框架构建,其固有机制导致推理效率受限(需40-100次函数评估)。尽管现有多种少步生成方法致力于加速推理,但均存在明显局限:主流的基于蒸馏的方法(如渐进式蒸馏与一致性蒸馏)要么需要迭代蒸馏流程,要么在极少数步骤(<4步)下出现显著性能衰退;而将对抗训练融入蒸馏过程的方法(如DMD/DMD2和SANA-Sprint)虽能提升效果,却因引入辅助训练模型导致训练不稳定、复杂度增加及GPU内存开销激增。为此,我们提出TwinFlow——一种简洁高效的单步生成模型训练框架,该方案无需依赖固定预训练教师模型,且避免使用标准对抗网络,特别适合构建大规模高效模型。在文生图任务中,本方法仅用1步推理即获得0.83的GenEval分数,超越SANA-Sprint(基于GAN损失的框架)与RCGM(基于一致性的框架)等强基线。值得注意的是,我们通过对Qwen-Image-200亿参数模型进行全参数训练,验证了TwinFlow的可扩展性,将其转化为高效少步生成器。在仅需1步推理的情况下,该方法在GenEval和DPG-Bench基准测试中与原始100步模型性能相当,以可忽略的质量损失实现100倍计算成本压缩。项目页面详见https://zhenglin-cheng.com/twinflow。
基于指令的图像编辑已成为一个重要的研究领域,该领域受益于图像生成基础模型,已实现较高的美学质量,使得指令跟随能力成为当前的核心挑战。现有方法通过监督学习或强化学习提升指令遵循度,但由于内在随机性和缺乏深思熟虑,单轮编辑的成功率仍受限。本研究提出一种具备思考能力的编辑框架,通过模拟人类认知循环,迭代执行"边编辑边思考"的流程:批判生成结果并优化指令,随后重复生成直至满意。具体而言,我们训练了单一多模态大语言模型EditThinker作为该框架的推理引擎,联合生成评分、推理过程和优化后的指令。我们采用强化学习将EditThinker的思考过程与编辑行为对齐,从而产生更具针对性的指令改进。在四个基准测试上的大量实验表明,我们的方法能够显著提升任意图像编辑模型的指令跟随能力。我们将公开数据构建框架、数据集和模型,以促进社区发展。
强化学习已成为大型语言模型后训练的一种范式,显著提升了其推理能力。此类方法通过计算每个样本的优势值,反映其表现优于或劣于预期的程度,从而为训练提供正负双向信号。然而,现有方法从早期阶段就 indiscriminately 将两种信号混合使用,可能导致训练指引模糊且收益有限。为解决这一问题,我们提出**CAPO**(课程优势策略优化),一种基于优势信号的自适应课程机制。该机制首先通过仅含正向优势的样本启动模仿学习以夯实基础,随后引入负向信号以培养判别能力,从而提升模型在复杂场景中的泛化性能。本方法与GRPO、PPO、RLOO、Reinforce++等多种优化方法兼容,在数学推理任务中持续取得稳定且显著的性能提升,并能有效泛化至多模态图形用户界面推理场景,展现出其作为通用鲁棒优化框架的潜力。
一致性图像生成要求在多张图像中忠实保持身份特征、风格元素与逻辑连贯性,这对于故事叙述、角色设计等应用至关重要。由于缺乏捕捉视觉一致性的大规模数据集,且建模人类感知偏好的复杂性较高,监督式训练方法在此任务上面临挑战。本文提出强化学习(RL)作为一种前景广阔的替代方案,它能使模型以无需外部数据的方式学习复杂且主观的视觉标准。为实现这一目标,我们推出了PaCo-RL框架——一个将专用一致性奖励模型与高效RL算法相结合的完整解决方案。其核心组件PaCo-Reward是基于自动化子图配对构建的大规模数据集训练而成的成对一致性评估器,通过生成式自回归评分机制并辅以任务感知指令与思维链推理进行一致性评判。另一组件PaCo-GRPO采用创新的分辨率解耦优化策略显著降低RL成本,同时结合对数调制的多奖励聚合机制确保优化过程的平衡与稳定。在两项代表性子任务上的大量实验表明:PaCo-Reward显著提升了视觉一致性评估与人类感知的对齐度;PaCo-GRPO则以更高的训练效率和稳定性实现了最先进的一致性生成性能。这些成果共同证明了PaCo-RL作为实用可扩展的一致性图像生成解决方案的潜力。项目页面详见:https://x-gengroup.github.io/HomePage_PaCo-RL/。
我们提出EMMA——一种高效统一的多模态理解、生成与编辑架构。具体而言,EMMA主要包含四大核心设计:1)采用具有32倍压缩率的高效自编码器,显著减少生成任务所需的token数量,同时通过图像同等压缩比确保理解与生成任务的训练平衡;2)在视觉理解与生成token间采用通道级拼接而非token级拼接,进一步减少统一架构中的视觉token数量;3)共享解耦网络在满足任务特定建模需求的同时,实现跨任务的相互促进;4)视觉理解编码器引入专家混合机制,以少量参数提升显著增强感知能力。大量实验表明,EMMA-4B在效率与性能上显著超越当前最先进统一多模态方法(如BAGEL-7B),同时与前沿多模态理解生成专家模型(如Qwen3-VL和Qwen-Image)相比也具备竞争力。我们相信EMMA为未来统一多模态架构的发展奠定了坚实基础。
尽管近期取得进展,实现符合影视级制作标准的角色动画仍具挑战。现有方法可将驱动视频中的动作迁移至参考图像,但在涉及复杂运动和跨身份动画的开放场景中,往往难以保持结构保真度与时间一致性。本研究提出SCAIL(基于情境学习的影视级角色动画框架),通过两项关键创新应对这些挑战:首先,我们提出一种新型3D姿态表示法,提供更鲁棒灵活的运动信号;其次,在扩散-变换器架构中引入全上下文姿态注入机制,实现对完整运动序列的有效时空推理。为契合影视级要求,我们开发了兼顾多样性与质量的精选数据流水线,并建立了系统性评估的综合基准。实验表明,SCAIL实现了最先进的性能,将角色动画向影视级可靠性与真实感推进。
大规模语言模型的后训练过程依赖强化学习来提升模型能力与对齐质量。然而,离策略的训练范式会引发分布偏移,往往使策略超出置信区域,导致训练不稳定性,具体表现为策略熵值的波动与梯度不稳定。尽管PPO-Clip通过重要性剪裁缓解了这一问题,但仍未考虑动作的全局分布偏移。为解决这些挑战,我们提出使用当前策略与历史策略的熵比作为新型全局指标,该指标能有效量化策略探索在更新过程中的相对变化。基于此指标,我们引入了熵比剪裁(ERC)机制,对熵比施加双向约束。这种方法在全局分布层面稳定策略更新,并弥补了PPO-Clip无法调节未采样动作概率偏移的缺陷。我们将ERC机制集成至DAPO和GPPO强化学习算法中,在多基准测试中的实验表明,ERC能持续提升算法性能。
从单张静态图像生成交互式动态四维场景仍是核心挑战。现有"生成后重建"与"重建后生成"方法大多将几何与运动解耦,导致时空不一致和泛化能力差。为此,我们扩展重建后生成框架,提出运动生成与几何重建联合的4D合成方法MoRe4D。我们首先构建包含6万段密集点轨迹视频的大规模数据集TrajScene-60K,以解决高质量四维场景数据稀缺问题。基于此,我们提出基于扩散模型的四维场景轨迹生成器(4D-STraG),联合生成几何一致且运动合理的四维点轨迹。为利用单视图先验,我们设计了深度引导的运动归一化策略和运动感知模块,实现几何与动态特征的有效融合。随后提出四维视角合成模块(4D-ViSM),可从四维点轨迹表示中渲染任意相机轨迹的视频。实验表明,MoRe4D能够从单张图像生成具有多视角一致性和丰富动态细节的高质量四维场景。代码地址:https://github.com/Zhangyr2022/MoRe4D。
随着图像生成技术的持续进步,GPT-Image-1与Qwen-Image等先进模型已在文本-图像一致性和世界知识表现上取得显著成果,但在生成逼真图像方面仍存在不足。即便在简单的文生图任务中,这些模型也易产生带有明显AI痕迹的"虚假"图像,常表现为"过度光滑的皮肤"和"油光发亮的面部"。为重新实现"以假乱真"的生成目标,我们提出RealGen——一个逼真文生图框架。该框架集成大语言模型组件用于提示词优化,并结合扩散模型实现真实感图像生成。受对抗生成思想启发,RealGen引入"检测器奖励"机制,通过语义级与特征级合成图像检测器量化伪影并评估真实感。我们采用GRPO算法利用该奖励信号优化整个生成流程,显著提升图像真实感与细节表现。此外,我们提出RealBench自动化评估基准,通过检测器评分与竞技场评分实现无需人工介入的逼真度评估,其评估结果更精准且符合真实用户体验。实验表明,RealGen在真实感、细节度和美学质量上显著优于GPT-Image-1、Qwen-Image等通用模型,以及FLUX-Krea等专业级逼真生成模型。代码已开源:https://github.com/yejy53/RealGen。
视觉-语言模型(VLM)的有效评判器对模型发展至关重要。当前训练VLM评判器的方法主要依赖大规模人工偏好标注,但这种方式成本高昂,且随着模型快速迭代标注数据极易过时。本研究提出无需人工偏好标注、仅使用自合成数据的VLM评判器自训练框架。该方法采用迭代式三阶段流程:(1)生成不同质量级别的多样化多模态指令-响应对;(2)为每对数据生成推理轨迹与判断结果,剔除不符合预期质量级别的数据;(3)基于正确评判答案及其推理轨迹进行训练。我们在Multimodal RewardBench和VL-RewardBench的多个维度(准确性、偏好性、推理能力、安全性及视觉问答)上评估所得评判器。实验表明,该方法将Llama-3.2-11B多模态评判器在VL-RewardBench上的总体准确率从0.38提升至0.51,在通用性、幻象识别和推理维度表现尤为突出,甚至经常优于Llama-3.2-90B、GPT-4o和Claude 3.5 Sonnet等更大规模模型。这种无需人工标注的方法所展现的整体效能,预示着未来评判器有望伴随VLM能力的快速进化而实现自主迭代。
三维资产的生成方法近期取得显著进展,但如何实现直观精确的几何控制仍是核心挑战。现有方法主要依赖文本或图像提示,但这些方式在几何精度上存在局限:语言描述易产生歧义,而图像编辑又较为繁琐。本研究提出SpaceControl,一种无需训练即可在测试阶段实现三维生成显式空间控制的创新方法。该方法支持从粗糙几何基元到精细网格的多样化几何输入,并能与预训练的现代生成模型无缝集成,无需任何额外训练。通过可控参数,用户可在几何保真度与输出真实感之间灵活权衡。大量定量评估与用户研究表明,SpaceControl在保持高视觉质量的同时,其几何忠实度优于基于训练和优化的基线方法。最后,我们开发了交互式用户界面,支持在线编辑超二次曲面并直接转换为带纹理的三维资产,为创意工作流提供实用化部署方案。项目页面详见:https://spacecontrol3d.github.io/
视觉空间推理对于多模态大语言模型理解物体属性与空间关系至关重要,但现有模型仍难以实现三维感知推理。当前方法通常通过两种孤立路径进行增强:或在感知层面为RGB输入添加深度、分割等辅助模态,或在推理层面基于空间视觉问答数据集进行训练并应用强化学习。本研究探索统一式多模态大语言模型能否通过自适应交错推理机制,发展出增强空间感知的内在能力,从而实现更强的空间智能。我们提出COOPER模型,该统一框架利用深度与分割作为辅助模态,通过两阶段训练获得辅助模态生成与自适应交错推理能力。COOPER在保持通用性能的同时,将空间推理能力平均提升6.91%。值得注意的是,仅进行辅助模态生成训练的变体模型在距离与尺寸估计任务上亦获得7.92%的性能增益,这表明学习生成辅助模态有助于模型内化空间知识并强化空间理解能力。
以推理为核心的视频目标分割本质上是一项复杂任务:查询往往涉及动态变化、因果关系和时间交互,而非静态外观。然而现有解决方案通常将这些因素简化为潜在嵌入的推理过程,导致推理链不透明且难以追溯。为此,我们采用显式分解视角提出ReVSeg框架,该框架在预训练视觉语言模型的原生接口中通过序列化决策执行推理。与将全部推理压缩为单步预测不同,ReVSeg依次执行语义解析、时序证据筛选和空间定位三项显式操作,实现对预训练能力的对齐运用。我们进一步采用强化学习优化多步推理链,使模型能够根据结果导向信号自主优化决策质量。实验结果表明,ReVSeg在标准视频目标分割基准测试中达到最先进性能,并生成可解释的推理轨迹。项目页面详见https://clementine24.github.io/ReVSeg/。
近期生成式视频模型的突破性进展,在高保真视频合成领域取得了重大成果,特别是在基于文本与动作输入的可控视频生成方面——例如指令引导的视频编辑和机器人学中的世界建模。尽管具备卓越的生成能力,可控视频模型常出现"幻觉"现象:生成的未来视频帧与物理现实存在偏差,这在机器人策略评估与规划等任务中引发严重关切。然而当前最先进的视频模型缺乏评估和表达自身置信度的能力,阻碍了幻觉缓解。为系统解决这一挑战,我们提出C3方法——一种不确定性量化训练框架,可训练连续尺度校准的可控视频模型,实现亚区块级别的稠密置信度估计,精准定位每帧生成视频中的不确定区域。我们的不确定性量化方法通过三大核心创新赋能视频模型:首先,开发了基于严格恰当评分规则的训练框架,使视频模型同时具备正确性与校准性;其次,在潜在空间估计视频模型的不确定性,规避像素空间方法存在的训练不稳定与过高计算成本;第三,将稠密的潜在空间不确定性映射至可解释的像素级RGB空间,通过高分辨率不确定性热力图直观标识不可信区域。基于大规模机器人学习数据集(Bridge与DROID)的广泛实验及现实场景验证表明,我们的方法不仅能提供训练分布内的校准不确定性估计,还可实现有效的分布外检测。
当前,自我进化虽已成为人工智能领域令人振奋的目标,但其发展道路充满风险且需长期探索。我们认为,对人类而言更具可行性的优化方向应是最大化"协同进化"——即人类研究者与人工智能通力合作,共同迈向超级智能。具体而言,应着力提升AI系统与人类研究者的协同科研能力,从创意构思到实验验证全程配合,既加速AI研究进程,又通过人机共生实现更安全的超级智能。将人类研究能力的提升纳入进化闭环,不仅能更快实现目标,更能确保发展路径的安全可控。
多模态文档检索系统在视觉与文本内容的语义对齐方面已取得显著进展。然而现有方法大多以英语为中心,限制了其在多语言场景中的有效性。本研究提出M3DR(多语言多模态文档检索)框架,旨在跨越语言障碍构建通用解决方案,使其适应不同语言文化背景。M3DR通过合成多语言文档数据,兼容不同视觉-语言架构与模型规模,实现鲁棒的跨语言跨模态对齐。基于对比学习的训练机制使模型能习取文本与文档图像的通用表征,并有效迁移至不同语言。我们在22种类型各异的语言上验证了该能力,证明其在不同语言特征及文字体系下均保持稳定性能。此外,我们构建了涵盖真实多语言场景的综合基准,在单语、多语及混合语言设置下评估模型表现。M3DR可同时适用于单稠密向量与ColBERT风格的令牌级多向量检索范式。我们的NetraEmbed与ColNetraEmbed模型实现了最先进性能,在跨语言检索任务上相对提升约150%。
长视频理解(LVU)面临的核心挑战在于:解答现实世界查询往往依赖于散落在数小时冗余无关内容中的稀疏时空线索。虽然智能体流程能提升视频推理能力,但现有框架普遍依赖与查询无关的视频描述器来感知信息,这既浪费了计算资源在无关内容上,又模糊了细粒度的时空信息。受主动感知理论启发,我们认为LVU智能体应主动决策观察内容、时机和位置,并持续评估当前观察是否足以回答问题。我们提出主动视频感知(AVP)框架,将视频视为交互环境,直接从像素中获取紧凑的查询相关证据。具体而言,AVP通过多模态大语言模型智能体运行"规划-观察-反思"的迭代流程:规划器每轮提出针对性视频交互方案,观察器执行操作并提取带时间戳的证据,反思器评估证据充分性——或终止流程输出答案,或触发新一轮观察。在五个LVU基准测试中,AVP以显著优势达到最高性能:平均准确率超越最佳智能体方法5.7%,同时仅需18.4%的推理时间和12.4%的输入令牌量。
自动驾驶中的时序理解能力仍是重大挑战,即使对当前最先进的视觉语言模型也不例外。现有研究虽推出了旨在提升时序推理的数据集与基准测试,但主要聚焦于体育、烹饪、电影等视频内容,尚未出现专门针对自动驾驶第一视角视频时序理解特性的评测基准。为填补这一空白,本文提出自动驾驶时序理解基准测试TAD,用于评估VLM捕捉自动驾驶场景中动作间动态关系的能力。TAD包含近6000组问答对,涵盖7项人工设计的任务。此外,我们对9个开源/闭源通用模型以及SOTA自动驾驶专用模型进行了系统评估。实验表明,当前SOTA模型在TAD上的准确率表现欠佳,主要源于其对细粒度运动理解存在不足。为提升运动理解能力及TAD整体表现,我们提出两种无需训练的创新方案:采用思维链技术的Scene-CoT框架,以及融合第一视角时序认知图的TCogMap方法。这些方案与现有VLM集成后,将TAD平均准确率最高提升17.72%。通过建立TAD基准、评测多类SOTA模型并提出有效增强方法,本研究旨在推动自动驾驶时序理解领域的后续探索。基准数据与评测代码已分别发布于https://huggingface.co/datasets/vbdai/TAD 和 https://github.com/vbdi/tad_bench。
本研究推出Colon-X开放计划,旨在推动结肠镜多模态智能发展。我们首先构建了ColonVQA——迄今最全面的结肠镜多模态数据集,涵盖76种临床发现和18项多模态任务,包含超过110万条视觉问答条目。除作为社区级数据基础外,我们进一步探索结肠镜领域关键但尚未充分研究的范式转变:从多模态理解向临床推理演进。(a)为评估当前多模态理解能力现状,我们系统测试了22个多模态大语言模型的泛化能力,并考察其在人为干扰下的可靠性。结果表明领先MLLMs的临床输出仍远未达到稳健可信的水平。(b)为缩小这一差距,我们深入探索面向结肠镜的推理核心智能:通过多专家辩论流程构建临床推理数据集ColonReason,并开发首个体现R1范式的新型模型ColonR1,该模型融合任务自适应奖励与梯度稳定优化技术。在数据稀缺条件下,ColonR1以56.61%的综合准确度超越监督微调25.22%,为多模态结肠镜分析建立了推理赋能的新基准。所有数据与模型资源已公开于https://github.com/ai4colonoscopy/Colon-X。
近期视频生成技术的突破性进展为构建世界模拟器展现出巨大潜力。然而现有模型在处理大规模或复杂动态场景时仍难以保证物理一致性,这主要源于当前方法对物理提示采取各向同性响应机制,且忽视了生成内容与局部物理线索间的细粒度对齐。为解决这些问题,我们提出ProPhy——一种渐进式物理对齐框架,通过显式物理感知条件化机制实现各向异性生成。该框架采用两阶段物理专家混合模型进行判别式物理先验提取:语义专家从文本描述中推断语义级物理规律,优化专家则捕捉标记级物理动态。这种机制使模型能够学习更符合基础物理定律的细粒度物理感知视频表征。此外,我们引入物理对齐策略,将视觉语言模型的物理推理能力迁移至优化专家模块,从而更精确地呈现动态物理现象。在物理感知视频生成基准测试上的大量实验表明,ProPhy相比现有先进方法能生成更具真实感、动态性和物理连贯性的结果。
后训练量化(PTQ)在大语言模型(LLM)的普惠化进程中具有关键作用。然而,由于硬件支持有限,现有的低位量化和稀疏化技术难以平衡精度与效率。例如,W4A8配置仅能实现与W8A8相当的峰值TOPS,而GPU支持的稀疏数据格式(2:4半结构化稀疏)因精度损失问题鲜被采用。为弥合这一差距,本文提出稀疏量化格式(SQ格式)——一种适用于量化和稀疏化的统一数据格式,其具备新硬件与现有GPU的潜在易支持性。SQ格式基于以下原理:稀疏矩阵可采用高精度加速计算,而低精度矩阵乘法亦可相应加速。因此,SQ格式旨在实现性能与吞吐量的帕累托改进。该格式特别适用于具有异常值非均衡分布的激活张量,并使其静态压缩成为可能。我们展示了采用SQ格式的尖端PTQ性能,提出了支持该格式的硬件需求,并进一步为下一代AI加速器提供设计探索与洞见。
有效的地震风险防控依赖于精准的场地特异性评估,这需要能够表征局部场地条件对地震动特征影响的模型。在此背景下,从记录的地震动中学习场地控制特征的数据驱动方法提供了可行路径。本文基于时域加速度计记录研究强地震动生成问题,提出TimesNet-Gen——一种时域条件生成器。该方法采用站点特定的潜在瓶颈结构,通过对比各台站真实与生成记录的HVSR曲线及场地基频f_0分布进行评估,并基于f_0分布混淆矩阵构建评分体系以量化台站特异性。实验表明,TimesNet-Gen在台站级数据对齐方面表现优异,相较于基于频谱图的条件VAE基线模型,在场地特异性强震动合成方面更具优势。相关代码已开源:https://github.com/brsylmz23/TimesNet-Gen。
随着计算需求持续攀升,评估人工智能的环境影响需超越能源与水资源消耗范畴,涵盖专用硬件的材料需求。本研究通过关联计算工作量与物理硬件需求,量化了AI训练的材料足迹。采用电感耦合等离子体光学发射光谱法分析英伟达A100 SXM 40GB图形处理器(GPU)的元素组成,共检测出32种元素。结果表明AI硬件约90%由重金属构成,贵金属仅含微量。以质量计,铜、铁、锡、硅和镍是GPU的主要组成元素。通过多步骤研究方法,我们将这些测量数据与不同使用寿命下单个GPU的计算吞吐量相结合,并计入不同训练效率模式下训练特定AI模型所需的计算量。基于情景的分析显示:根据模型浮点运算利用率(MFU)和硬件使用寿命,训练GPT-4需要1,174至8,800个A100 GPU,对应最高达7吨有毒元素的开采与最终处置。软硬件协同优化策略可降低材料需求:将MFU从20%提升至60%可使GPU需求减少67%,而将使用寿命从1年延长至3年可实现同等降幅;同时实施这两项措施最高可减少93%的GPU需求。我们的研究结果揭示,诸如GPT-3.5到GPT-4之间的渐进式性能提升,是以不成比例的高材料成本为代价的。本研究强调必须将材料资源考量纳入AI可扩展性讨论,指出未来AI发展必须符合资源效率与环境责任原则。
大型语言模型通常在训练后阶段进行安全对齐,但仍可能生成不当输出,对用户构成潜在风险。这一挑战凸显了在模型输入与输出两端建立强健防护机制的必要性。本研究推出Roblox Guard 1.0——一种基于指令微调的先进大语言模型,通过构建多级LLM管道实现全流程输入输出审核,以提升LLM系统的安全性。该模型以Llama-3.1-8B-Instruct为基座,经过指令微调后能够泛化至未见过的安全分类体系,并在跨领域安全基准测试中表现出色。微调过程融合了合成与开源安全数据集,通过思维链推理和输入反转技术增强上下文理解与决策能力。为支持系统化评估,我们同步发布RobloxGuard-Eval基准测试平台,其具备可扩展的安全分类法,专门用于评估LLM防护栏与内容审核框架的有效性。