每日精选AI研究论文及翻译
我们推出Pangu Ultra,这是一款拥有1350亿参数的大型语言模型(LLM),其密集的Transformer模块在昇腾神经网络处理器(NPU)上完成训练。尽管近年来LLM领域在模型规模与能力拓展上取得了前所未有的进展,但训练如此大规模模型仍面临显著的优化与系统挑战。为确保训练过程稳定,我们提出了深度缩放三明治归一化方法,有效消除了深度模型训练过程中的损失尖峰。我们的模型在13.2万亿个多样且高质量的token上进行了预训练,并在后续训练中进一步增强了其推理能力。为高效执行如此大规模的训练,我们采用了8192个昇腾NPU,并实施了一系列系统优化。在多个多样化基准测试中的评估表明,Pangu Ultra显著推进了如Llama 405B和Mistral Large 2等密集LLM的最新技术水平,甚至与参数规模更大的稀疏模型结构DeepSeek-R1相比,也取得了具有竞争力的成果。我们的探索证明,昇腾NPU能够高效且有效地训练超过1000亿参数的密集模型。我们的模型与系统将面向商业客户开放。
我们推出Kimi-VL,这是一款高效的开源专家混合(MoE)视觉语言模型(VLM),具备先进的多模态推理、长上下文理解及强大的代理能力,而其语言解码器仅激活2.8B参数(Kimi-VL-A3B)。Kimi-VL在多个挑战性领域展现出卓越性能:作为通用VLM,它在多轮代理任务(如OSWorld)中表现优异,与旗舰模型相媲美。此外,该模型在多样化的视觉语言任务中展现了非凡能力,包括大学级别的图像与视频理解、OCR、数学推理及多图像理解。在对比评估中,它有效竞争于前沿高效VLM如GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT,并在多个关键领域超越GPT-4o。Kimi-VL在长上下文处理与清晰感知方面也取得进展,凭借128K扩展上下文窗口,能够处理多样化的长输入,在LongVideoBench和MMLongBench-Doc上分别获得64.5和35.1的优异成绩。其原生分辨率视觉编码器MoonViT,使其能够观察并理解超高分辨率视觉输入,在InfoVQA和ScreenSpot-Pro上分别达到83.2和34.5,同时保持较低的计算成本。基于Kimi-VL,我们进一步推出了高级长思维变体:Kimi-VL-Thinking。通过长链思维(CoT)监督微调(SFT)和强化学习(RL)开发,该模型展现出强大的长程推理能力,在MMMU、MathVision和MathVista上分别获得61.7、36.8和71.3的分数,同时维持紧凑的2.8B激活LLM参数,为高效多模态思维模型树立了新标杆。代码与模型已公开于https://github.com/MoonshotAI/Kimi-VL。
DeepSeek-R1等大型推理模型标志着大语言模型(LLM)处理复杂问题方式的根本转变。与直接为给定输入生成答案不同,DeepSeek-R1构建了详细的多步推理链,仿佛在“思考”问题后才给出答案。这一推理过程对用户公开,为研究模型的推理行为提供了无限可能,并开启了“思维学”这一新领域。从DeepSeek-R1推理基本构建模块的分类出发,我们的分析探讨了思维长度的影响及其可控性、长或混乱上下文的管理、文化与安全问题,以及DeepSeek-R1在类人语言处理和世界建模等认知现象中的表现。研究发现描绘了一幅细致入微的图景。特别地,我们揭示了DeepSeek-R1存在一个推理的“最佳点”,额外的推理时间反而可能损害模型性能。此外,我们发现DeepSeek-R1倾向于持续反思先前探索过的问题表述,阻碍了进一步探索。我们还注意到,与非推理模型相比,DeepSeek-R1存在显著的安全漏洞,这也可能危及安全对齐的大语言模型。
混合专家(Mixture-of-Experts, MoE)大型语言模型(LLMs)在专家路径选择上存在显著不足——我们的研究表明,预训练阶段习得的简单专家选择策略留下了令人惊讶的10-20%的准确率提升空间。基于这一观察,我们开发了一类新颖的测试时优化方法,旨在针对每个测试样本,联合重新加权或“重新混合”不同层中的专家。由于测试样本的真实标签未知,我们提出优化一个由参考样本集中“成功邻居”定义的替代目标。我们引入了三种基于模式发现、核回归以及相似参考样本/任务平均损失的替代目标和相应算法。为了降低优化整个路径的成本,我们仅将这些算法应用于关键层中核心专家的混合权重,这样既保持了相似的性能,又显著节省了计算资源。这一方法被命名为“关键层、核心专家、协作路径优化(Critical-Layer, Core-Expert, Collaborative Pathway Optimization, C3PO)”。我们将C3PO应用于两个最新的MoE LLMs,并在六个广泛使用的基准测试上进行了验证。它持续将基础模型的准确率提升了7-15%,并大幅超越了广泛使用的测试时学习基线方法,如上下文学习、提示/前缀调优等。此外,C3PO使得仅激活1-3B参数的MoE LLMs能够超越7-9B参数的LLMs,从而进一步凸显了MoE在效率上的优势。我们全面的消融研究还揭示了在MoE上实现测试时改进的新见解。
近期,扩散模型在各类图像生成任务中取得了显著进展。然而,当前的主流方法仍集中于构建任务专用模型,这在满足多样化需求时效率有限。尽管通用模型试图解决这一局限,但它们面临着可推广的任务指令、恰当的任务分布以及统一架构设计等关键挑战。为应对这些挑战,我们提出了VisualCloze,一个通用的图像生成框架,它支持广泛的领域内任务、对未见任务的泛化、多任务的统一处理以及逆向生成。与现有依赖语言任务指令导致任务模糊和泛化能力弱的方法不同,我们融入了视觉上下文学习,使模型能够通过视觉演示识别任务。同时,视觉任务分布固有的稀疏性阻碍了跨任务可迁移知识的学习。为此,我们引入了Graph200K,一个图结构数据集,它建立了多种相互关联的任务,提升了任务密度和可迁移知识。此外,我们发现我们的统一图像生成公式与图像修复共享一致的目标,这使得我们能够在不修改架构的情况下,利用预训练修复模型的强大生成先验。
思维链(CoT)推理的进步显著提升了大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力。然而,针对视频CoT推理的严格评估框架仍然缺失。当前的视频基准测试未能充分评估推理过程,也无法揭示失败是源于感知能力还是推理能力的不足。因此,我们引入了VCR-Bench,这是一个旨在全面评估LVLMs视频思维链推理能力的新基准。VCR-Bench包含859个涵盖多种视频内容和时长的视频,以及1,034对高质量的问题-答案对。每对问题-答案都手动标注了逐步的CoT推理过程,其中每一步都标记了其与感知或推理能力的关联。此外,我们设计了七个不同的任务维度,并提出了CoT评分,以基于逐步标记的CoT推理过程来评估整个CoT过程。在VCR-Bench上的大量实验揭示了当前LVLMs的显著局限性。即使是表现最好的模型o1,也仅获得了62.8%的CoT评分和56.7%的准确率,而大多数模型的得分低于40%。实验表明,大多数模型在感知步骤上的得分低于推理步骤,揭示了LVLMs在处理复杂视频推理任务时时空信息处理的关键瓶颈。CoT评分与准确率之间的强正相关性证实了我们评估框架的有效性,并强调了CoT推理在解决复杂视频推理任务中的关键作用。我们希望VCR-Bench能作为一个标准化的评估框架,揭示复杂视频推理任务中的实际缺陷。
指令跟随(Instruction Following, IF)能力衡量了多模态大语言模型(Multi-modal Large Language Models, MLLMs)在准确理解用户指令并正确执行方面的表现。现有的多模态指令跟随训练数据稀缺,基准测试仅包含简单的原子指令,且对于要求精确输出约束的任务,评估策略不够精确。为解决这一问题,我们提出了MM-IFEngine,一个高效生成高质量图像-指令对的流程。我们的MM-IFEngine流程生成了大规模、多样化且高质量的MM-IFInstruct-23k训练数据,适用于监督微调(Supervised Fine-Tuning, SFT),并扩展为MM-IFDPO-23k用于直接偏好优化(Direct Preference Optimization, DPO)。我们进一步引入了MM-IFEval,一个具有挑战性和多样性的多模态指令跟随基准测试,包括(1)针对输出响应的组合级约束和与输入图像相关的感知级约束,以及(2)结合基于规则的评估和评判模型的综合评估流程。我们进行了SFT和DPO实验,结果表明,在MM-IFInstruct-23k和MM-IFDPO-23k上微调MLLMs,在多个IF基准测试上取得了显著提升,如MM-IFEval(+10.2%)、MIA(+7.6%)和IFEval(+12.3%)。完整数据和评估代码将发布于https://github.com/SYuan03/MM-IFEngine。
构建能够通过多模态信号有效感知世界的通用模型,一直是长期追求的目标。当前的方法主要涉及整合分别预训练的组件,例如将视觉编码器与大型语言模型(LLMs)连接,并继续进行多模态训练。尽管这些方法展现出显著的样本效率,但此类后期融合架构是否本质上更为优越仍是一个开放性问题。在本研究中,我们重新审视了原生多模态模型(NMMs)——即从零开始在所有模态上训练的模型——的架构设计,并开展了一项广泛的缩放定律研究,涵盖了457个不同架构和训练组合的模型。我们的调查发现,后期融合架构相较于早期融合架构并无固有优势,后者并不依赖图像编码器。相反,早期融合在较低参数规模下表现出更强的性能,训练效率更高,且更易于部署。受早期融合架构优异表现的启发,我们展示了引入专家混合(MoEs)机制,使模型能够学习模态特定的权重,从而显著提升性能。
三维部件全模态分割——将三维形状分解为完整且语义明确的部分,即使在被遮挡的情况下——对于三维内容的创建与理解而言,是一项极具挑战性但至关重要的任务。现有的三维部件分割方法仅能识别可见的表面片段,限制了其应用范围。受二维全模态分割的启发,我们将这一新颖任务引入三维领域,并提出了一种实用的两阶段方法,以应对推断被遮挡三维几何、保持全局形状一致性以及处理有限训练数据下多样化形状的关键挑战。首先,我们利用现有的三维部件分割技术获取初始的不完整部件片段。其次,我们引入了HoloPart,一种基于扩散模型的新颖方法,用于将这些片段补全为完整的三维部件。HoloPart采用了一种特殊架构,结合局部注意力机制以捕捉细粒度的部件几何特征,以及全局形状上下文注意力机制以确保整体形状的一致性。我们基于ABO和PartObjaverse-Tiny数据集引入了新的基准测试,并证明HoloPart显著优于当前最先进的形状补全方法。通过将HoloPart与现有分割技术相结合,我们在三维部件全模态分割上取得了令人鼓舞的成果,为几何编辑、动画制作及材质分配等应用开辟了新的途径。
本文提出了一种有效方法,在显著减少训练样本的情况下,仅依靠自我提升而无需知识蒸馏,即可增强视觉推理能力。我们的核心洞见在于,强化微调(RFT)过程中训练数据的难度至关重要。适当挑战性的样本即使在小数据集上也能大幅提升推理能力。尽管这一观点直观,但主要挑战仍在于如何准确量化样本难度以实现有效的数据筛选。为此,我们提出了一种新颖的方法,重新利用蒙特卡洛树搜索(MCTS)来实现这一目标。从我们精心挑选的70k开源训练样本出发,我们引入了一种基于MCTS的选择方法,该方法通过视觉语言模型(VLMs)解决每个问题所需的迭代次数来量化样本难度。MCTS中这种显式的逐步推理迫使模型进行更长时间的思考,从而更好地识别真正具有挑战性的样本。我们筛选并保留了11k样本,对Qwen2.5-VL-7B-Instruct进行RFT,最终得到我们的模型ThinkLite-VL。在八个基准测试上的评估结果显示,ThinkLite-VL仅使用11k训练样本且无需知识蒸馏,就将Qwen2.5-VL-7B-Instruct的平均性能提升了7%。这一表现显著优于所有现有的7B级推理VLMs,以及我们使用经典选择方法(如基于准确率的筛选)的相当可比基线。值得注意的是,在MathVista上,ThinkLite-VL-7B达到了75.1的SoTA准确率,超越了Qwen2.5-VL-72B、GPT-4o和O1。我们的代码、数据和模型可在https://github.com/si0wang/ThinkLite-VL获取。
我们推出了一种新颖的开源社交网络模拟框架——MOSAIC,其中生成式语言代理能够预测用户行为,如点赞、分享和标记内容。该模拟将大型语言模型(LLM)代理与有向社交图相结合,以分析涌现的欺骗行为,并深入理解用户如何判定在线社交内容的真实性。通过构建基于多样化细粒度人物角色的用户表征,我们的系统支持多代理模拟,大规模地建模内容传播与互动动态。在此框架内,我们评估了三种不同的内容审核策略在模拟虚假信息传播中的效果,发现这些策略不仅有效遏制了非事实性内容的扩散,还提升了用户参与度。此外,我们分析了模拟中热门内容的传播轨迹,并探讨了模拟代理对其社交互动所陈述的推理是否真实反映了其集体参与模式。我们开源了模拟软件,以促进人工智能与社会科学领域的进一步研究。
尽管多模态大语言模型(MLLMs)已取得显著进展,其在视觉文本定位,尤其是富含文本的文档图像上仍存在不容忽视的局限。诸如扫描表单和信息图表等文档图像,因其复杂的布局和丰富的文本内容,凸显了关键挑战。然而,现有基准测试未能全面应对这些挑战,主要集中于自然图像的视觉定位,而非富含文本的文档图像。为此,我们引入TRIG这一新任务,并设计了一套全新的指令数据集,旨在评估并提升MLLMs在文档问答中的文本丰富图像定位能力。具体而言,我们提出了一种OCR-LLM-人工交互流程,创建了800个手动标注的问答对作为基准,以及基于四个多样化数据集的90,000条合成数据作为大规模训练集。通过对多种MLLMs在我们提出的基准上进行全面评估,揭示了它们在处理富含文本图像时定位能力的显著不足。此外,我们提出了两种简单而有效的TRIG方法,分别基于通用指令微调和即插即用的高效嵌入技术。通过在合成数据集上微调MLLMs,它们在空间推理和定位能力上展现出令人期待的提升。
现有的文本到图像扩散模型控制方法虽然强大,却无法实现显式的三维物体中心控制,例如对物体朝向的精确调控。本研究致力于解决文本到图像扩散模型中的多物体朝向控制问题,从而能够生成具有每个物体精确朝向控制的多样化多物体场景。核心思想在于,通过一组朝向感知的指南针标记(每个物体对应一个)与文本标记共同条件化扩散模型。一个轻量级编码器网络以物体朝向为输入预测这些指南针标记。模型在一个由程序化生成场景构成的合成数据集上进行训练,每个场景包含一个或两个位于纯色背景上的三维资产。然而,直接训练该框架会导致朝向控制不佳以及物体间的相互干扰。为缓解此问题,我们在生成过程中进行干预,限制每个指南针标记的交叉注意力图仅作用于其对应的物体区域。训练后的模型能够实现对以下情况的精确朝向控制:a) 训练期间未见过的复杂物体;b) 包含两个以上物体的多物体场景,展现了强大的泛化能力。此外,当与个性化方法结合时,我们的方法能在多样化的上下文中精确控制新物体的朝向。通过广泛的评估和用户研究,我们的方法在朝向控制与文本对齐方面达到了业界领先水平。
我们提出了Geo4D,一种将视频扩散模型重新应用于动态场景单目三维重建的方法。通过利用此类视频模型所捕捉的强大动态先验,Geo4D仅需使用合成数据进行训练,便能以零样本方式良好地泛化至真实数据。Geo4D预测了多种互补的几何模态,即点云、深度图和射线图。在推理阶段,它采用了一种新颖的多模态对齐算法来对齐并融合这些模态,以及多个滑动窗口,从而实现对长视频的鲁棒且精确的四维重建。跨多个基准的大量实验表明,Geo4D显著超越了包括专为处理动态场景设计的MonST3R在内的最新视频深度估计方法。
当前的单目3D检测器受限于现实世界数据集的多样性和规模不足。虽然数据增强确实有所帮助,但在户外场景中生成具有真实场景感知的增强数据尤为困难。目前大多数合成数据生成方法通过改进渲染技术来关注物体的真实外观。然而,我们证明,在训练有效的单目3D检测器时,物体的位置和摆放方式同样至关重要。关键挑战在于自动确定真实物体放置参数——包括位置、尺寸和方向对齐——当将合成物体引入实际场景时。为此,我们提出了MonoPlace3D,一个考虑3D场景内容以创建真实增强的新颖系统。具体而言,给定一个背景场景,MonoPlace3D学习一个关于合理3D边界框的分布。随后,我们渲染真实物体,并根据从学习到的分布中采样的位置进行放置。我们在KITTI和NuScenes两个标准数据集上的全面评估表明,MonoPlace3D显著提高了多种现有单目3D检测器的准确性,同时具有极高的数据效率。
视频中的任意点追踪(TAP)是一项具有挑战性的计算机视觉任务,在机器人技术、视频编辑和三维重建等领域展现了广泛的应用前景。现有的TAP方法严重依赖于复杂的追踪特定归纳偏置和启发式规则,这限制了其通用性和扩展潜力。为应对这些挑战,我们提出了TAPNext,一种将TAP视为序列掩码令牌解码的新方法。我们的模型具有因果性,采用纯在线方式进行追踪,并消除了追踪特定的归纳偏置。这使得TAPNext能够以极低的延迟运行,并省去了许多现有顶尖追踪器所需的时间窗口限制。尽管设计简洁,TAPNext在在线与离线追踪器中均实现了新的追踪性能标杆。最后,我们提供的证据表明,许多广泛使用的追踪启发式规则通过端到端训练在TAPNext中自然涌现。