每日精选AI研究论文及翻译
在本报告中,我们推出UltraShape 1.0——一个可扩展的高保真三维几何生成扩散框架。该方案采用两阶段生成流程:首先生成粗略的全局结构,随后进行细化以产生细节丰富的高质量几何体。为支撑可靠的三维生成,我们开发了包含新型水密处理方法和高质量数据过滤的综合数据处理流程。该流程通过剔除低质量样本、填补孔洞及增稠薄壁结构,在保留细粒度几何细节的同时,显著提升了公开三维数据集的几何质量。为实现细粒度几何优化,我们在扩散过程中将空间定位与几何细节合成解耦:通过基于体素的固定空间位置细化,利用粗粒度几何体导出的体素查询提供经RoPE编码的显式位置锚点,使扩散模型能够聚焦于在缩小的结构化解空间内合成局部几何细节。我们的模型仅使用公开三维数据集进行训练,在有限训练资源下仍实现了卓越的几何质量。大量评估表明,UltraShape 1.0在数据处理质量和几何生成能力上均与现有开源方法具有竞争优势。所有代码与训练模型将全面开源以支持后续研究。
近期,生成与编辑统一模型凭借其卓越性能取得了显著成功。这类模型主要依赖文本提示进行基于指令的编辑与生成,但语言往往难以准确传达用户期望的编辑区域和细粒度视觉细节。为此,我们提出两项新任务:基于涂鸦的编辑与生成,通过结合用户文本、图像和手绘草图在图形界面实现更灵活的创作。我们推出DreamOmni3框架,重点解决数据构建与框架设计两大挑战。 我们的数据合成流程包含涂鸦编辑与涂鸦生成两部分。针对涂鸦编辑,我们定义了四项任务:基于涂鸦与指令的编辑、基于涂鸦与多模态指令的编辑、图像融合以及涂鸦修改。基于DreamOmni2数据集,我们提取可编辑区域并叠加手绘方框、圆形、涂鸦或裁剪图像来构建训练数据。对于涂鸦生成任务,我们定义了基于涂鸦与指令的生成、基于涂鸦与多模态指令的生成及涂鸦生成三项任务,并采用类似的数据构建流程。 在框架设计上,针对传统二值掩码难以处理多涂鸦、多图像与复杂指令联合编辑的局限,我们提出联合输入方案:将原始图像与涂鸦标记图像同时输入模型,通过不同颜色区分区域以简化处理。通过对两幅图像施加相同的索引与位置编码,模型能精确定位涂鸦区域并保持编辑准确性。最后,我们为这些任务建立了完整基准测试体系以推动后续研究。实验结果表明DreamOmni3性能优异,模型与代码将公开释放。
我们将长上下文语言建模构建为持续学习问题而非架构设计问题。在此框架下,我们仅采用标准架构——具有滑动窗口注意力的Transformer模型。但我们的模型在测试时通过给定上下文的下一个词预测持续学习,将其读取的上下文信息压缩至权重中。此外,我们通过训练时的元学习优化模型在测试时学习的初始化状态。总体而言,我们的方法作为测试时训练(TTT)的一种形式,在测试时(通过下一个词预测)和训练时(通过元学习)均实现端到端(E2E)处理,与此前方法形成鲜明对比。我们开展了大量实验,重点关注缩放特性。具体而言,对于使用1640亿词元训练的30亿参数模型,我们的方法(TTT-E2E)随上下文长度扩展的方式与全注意力Transformer保持一致,而其他方法(如Mamba 2和Gated DeltaNet)则无法实现。但类似于RNN,TTT-E2E无论上下文长度如何均保持恒定推理延迟,在128K上下文场景下比全注意力机制快2.7倍。我们的代码已公开。
我们系统性地评估了可验证奖励强化学习(RLVR)范式下的参数高效微调(PEFT)方法。RLVR通过可验证反馈激励语言模型增强推理能力;然而尽管LoRA等方法被广泛使用,适用于RLVR的最佳PEFT架构仍未明确。本研究首次在DeepSeek-R1-Distill系列模型上对12种PEFT方法进行数学推理基准的全面评估。实证结果对默认采用标准LoRA的做法提出挑战,主要发现有三:首先,我们证明DoRA、AdaLoRA和MiSS等结构变体持续优于LoRA;其次,我们发现SVD初始化策略(如PiSSA、MiLoRA)存在谱崩溃现象,其失效根源在于主成分更新与RL优化的根本性错配;此外,消融实验表明极端参数压缩(如VeRA、Rank-1)会严重制约推理能力。我们通过消融研究与规模扩展实验进一步验证了这些发现。本研究为倡导参数高效RL方法的深入探索提供了权威指导。
问题定位任务旨在根据自然语言问题描述,识别软件仓库中需要修改的代码位置。这一任务在自动化软件工程中具有基础性但极具挑战性,主要源于问题描述与源代码实现之间的语义鸿沟。该鸿沟具体表现为两种不匹配现象:(1) 症状与原因不匹配,即问题描述未能明确揭示潜在根本原因;(2) 一对多不匹配,即单个问题对应多个相互依赖的代码实体。为应对这两种不匹配,我们提出GraphLocator方法,通过因果结构发现缓解症状与原因不匹配,并借助动态问题解耦解决一对多不匹配。其核心成果是因果问题图(CIG),图中顶点表示已发现的子问题及其关联代码实体,边则编码它们之间的因果依赖关系。GraphLocator的工作流程包含两个阶段:症状顶点定位与动态CIG发现——首先在仓库图中定位症状位置,随后通过迭代推理相邻顶点动态扩展CIG。在三个真实数据集上的实验证明了GraphLocator的有效性:(1) 相较于基线方法,GraphLocator实现了更精准的定位,函数级召回率平均提升+19.49%,精确度平均提升+11.89%;(2) 在症状与原因不匹配和一对多不匹配场景下,GraphLocator分别实现召回率提升+16.44%和+19.18%,精确度提升+7.78%和+13.23%;(3) GraphLocator生成的CIG带来最高相对改进,使下游解决任务的性能提升28.74%。
混合专家(MoE)架构通过仅激活每个输入的稀疏参数子集,推动了大语言模型(LLM)的规模化发展,在降低计算成本的同时实现了顶尖性能。随着此类模型在关键领域的广泛应用,理解并强化其对齐机制对于防止有害输出至关重要。然而现有的大模型安全研究几乎全部集中于稠密架构,致使MoE模型独特的安全特性尚未得到系统审视。MoE的模块化稀疏激活设计表明,其安全机制可能以不同于稠密模型的方式运作,这引发了关于其鲁棒性的新思考。 本文提出GateBreaker——首个无需训练、轻量化且架构无关的攻击框架,可在推理阶段破坏现代MoE大模型的安全对齐机制。该框架通过三阶段实现攻击:(i) 门控级分析,识别对有害输入存在异常路由偏好的安全专家;(ii) 专家级定位,在安全专家内部定位安全结构;(iii) 定向安全消除,通过禁用已识别的安全结构破坏模型对齐。研究表明,MoE的安全能力集中于由稀疏路由协调的少量神经元中。在目标专家层中选择性禁用约3%的神经元,即可使八大最新对齐MoE大模型的平均攻击成功率(ASR)从7.4%显著提升至64.9%,且效用衰减有限。这些安全神经元在同类模型间具备可迁移性,通过单样本迁移攻击可将ASR从17.9%提升至67.7%。此外,GateBreaker可泛化至五个MoE视觉语言模型(VLM),对不安全图像输入的ASR达到60.9%。