每日精选AI研究论文及翻译
低秩适应(LoRA)在大型预训练模型的参数高效微调方面取得了显著进展。LoRA通过添加两个较小矩阵的乘积来增强模型的预训练权重,这两个矩阵共同构成一个低秩矩阵更新。近期研究表明,这两个矩阵之间的尺度差异常常导致训练动态不稳定,从而影响性能优化。本文提出SingLoRA,它通过将权重更新重新表述为单个低秩矩阵与其转置的分解来改进低秩适应。这一简洁设计从根本上消除了矩阵间的尺度冲突,确保了优化的稳定性,并大致将参数数量减半。我们在无限宽度神经网络框架下分析了SingLoRA,证明其通过构造保证了稳定的特征学习。多项任务的广泛实验验证了这些优势。在常识推理任务中,使用SingLoRA微调LLama 7B模型在MNLI数据集上达到了91.3%的准确率,超越了LoRA(89.1%)和LoRA+(90.2%),同时仅使用了它们60%的参数预算。在图像生成任务中,采用SingLoRA微调Stable Diffusion显著提升了DreamBooth上的图像保真度,获得了0.151的DINO相似度评分,相比之下,DoRA和LoRA分别获得了0.148和0.143的评分。
大型语言模型(LLMs)已展现出卓越的推理能力,尤其是在显式思维链(CoT)推理的引导下,通过语言化中间步骤来增强理解。尽管CoT提升了模型的可解释性与准确性,其对自然语言推理的依赖却限制了模型的表达带宽。潜在推理通过完全在模型的连续隐藏状态中进行多步推理,解决了这一瓶颈,无需依赖词元级别的监督。为了推动潜在推理研究的发展,本综述全面概述了这一新兴领域。我们首先探讨了神经网络层作为推理计算基础的核心作用,强调层次化表示如何支持复杂的转换过程。接着,我们深入研究了多种潜在推理方法,包括基于激活的递归、隐藏状态传播,以及通过压缩或内化显式推理轨迹的微调策略。最后,我们讨论了诸如通过掩码扩散模型实现的无限深度潜在推理等高级范式,这些范式支持全局一致且可逆的推理过程。通过整合这些视角,我们旨在厘清潜在推理的概念框架,并为LLM认知前沿研究指明未来方向。相关GitHub仓库汇集了最新论文与资源,访问地址为:https://github.com/multimodal-art-projection/LatentCoT-Horizon/。
创建具有明确、可编辑部件结构的3D资产对于推动交互应用至关重要,然而大多数生成方法仅能产生整体形状,限制了其实用性。我们提出了OmniPart,一种新颖的部件感知3D对象生成框架,旨在实现组件间的高度语义解耦,同时保持坚固的结构一致性。OmniPart独特地将这一复杂任务分解为两个协同阶段:(1) 自回归结构规划模块生成可控、可变长度的3D部件边界框序列,关键性地由灵活的2D部件掩码引导,这些掩码允许直观地控制部件分解,而无需直接对应关系或语义标签;(2) 空间条件修正流模型,从预训练的整体3D生成器高效适配,在规划布局内同时且一致地合成所有3D部件。我们的方法支持用户定义的部件粒度、精确定位,并实现多样化的下游应用。大量实验表明,OmniPart达到了最先进的性能,为更可解释、可编辑和多功能3D内容铺平了道路。
基于大语言模型(LLM)的网络代理近期取得了显著进展,但大部分成果集中在闭源系统中,进一步拉大了与开源替代方案之间的差距。这一进展主要受限于两大挑战:其一,过度聚焦于单步任务,忽视了多步网络交互的复杂性;其二,LLM网络代理的后训练所需的高昂计算成本。为此,我们首次提出了针对LLM网络代理后训练计算资源分配的统计基础研究。我们的方法采用两阶段流程,首先通过监督微调(SFT)训练一个Llama 3.1 8B学生模型模仿Llama 3.3 70B教师模型,随后进行策略内强化学习。我们发现这一过程对超参数选择极为敏感,使得全面搜索变得不切实际。为避免他人重复昂贵的试错过程,我们采样了1,370种配置,并利用自举法估算有效超参数。结果显示,在WorkArena和MiniWob++上,结合SFT与策略内RL的方法始终优于单独使用任一方法。此外,该策略仅需55%的计算资源即可在MiniWob++上达到纯SFT的峰值性能,有效推进了计算-性能的帕累托前沿,并且是唯一能够缩小与闭源模型差距的策略。
在现实世界场景中,视觉与语言导航(VLN)要求智能体能够处理连续的视觉流,并基于语言指令以低延迟生成动作。尽管基于视频的大型语言模型(Video-LLMs)推动了该领域的最新进展,但当前基于Video-LLM的VLN方法往往在细粒度视觉理解、长期上下文建模与计算效率之间面临权衡。我们提出了StreamVLN,一种流式VLN框架,采用慢-快混合上下文建模策略,支持对交织的视觉、语言及动作输入进行多模态推理。快速流式对话上下文通过活动对话的滑动窗口促进响应式动作生成,而慢速更新的记忆上下文则利用三维感知的令牌剪枝策略压缩历史视觉状态。凭借这一慢-快设计,StreamVLN通过高效的键值缓存重用实现了连贯的多轮对话,支持长视频流的同时保持上下文大小与推理成本的有界性。在VLN-CE基准测试上的实验展示了其顶尖性能与稳定的低延迟,确保了实际部署中的鲁棒性与效率。项目页面为:https://streamvln.github.io/{https://streamvln.github.io/}。
将自然语言数学陈述转化为正式、可执行的代码是自动定理证明中的一个基本挑战。尽管先前的研究主要集中在生成和编译的成功率上,但很少关注批评阶段——即评估生成的形式化是否真正捕捉到原问题的语义意图。本文中,我们引入了CriticLean,一种新颖的批评引导强化学习框架,将批评的角色从被动验证者提升为主动学习组件。具体而言,首先,我们提出了CriticLeanGPT,通过监督微调和强化学习进行训练,以严格评估Lean 4形式化的语义保真度。接着,我们引入了CriticLeanBench,一个旨在衡量模型区分语义正确与错误形式化能力的基准,并展示了我们训练的CriticLeanGPT模型能够显著超越强大的开源和闭源基线。基于CriticLean框架,我们构建了FineLeanCorpus,一个包含超过285K问题的数据集,该数据集展现了丰富的领域多样性、广泛的难度覆盖范围以及基于人类评估的高正确性。总体而言,我们的研究结果表明,优化批评阶段对于生成可靠的形式化至关重要,我们希望CriticLean能为未来形式数学推理的进展提供有价值的见解。
大型语言模型(LLMs)在逻辑与算法推理方面表现出色,但其情感智能(EQ)仍远不及认知能力。尽管基于可验证奖励的强化学习(RLVR)在其他领域取得了进展,但在对话中的应用——尤其是针对情感智能——仍未被充分探索。本研究提出了RLVER,首个端到端的强化学习框架,利用模拟用户提供的可验证情感奖励,培养LLMs的高阶共情能力。在此框架下,情感一致的模拟用户参与对话展开,并在对话过程中生成确定性的情感评分,作为指导LLM学习的奖励信号。通过PPO算法对公开可用的Qwen2.5-7B-Instruct模型进行微调,其Sentient-Benchmark得分从13.3提升至79.2,同时基本保留了数学与编程能力。大量实验表明:(i) RLVER持续提升多项对话能力;(ii) 思维型与非思维型模型呈现不同趋势——思维型模型在共情与洞察力上表现更佳,非思维型模型则更倾向于行动;(iii) GRPO通常带来稳定的增益,而PPO能将某些能力推向更高水平;(iv) 更具挑战性的环境并非总是更优,适中的环境可能产生更强的效果。我们的结果表明,RLVER是实现情感智能且具备广泛能力的语言代理的一条实用路径。
近期,视频生成技术在开放领域取得了显著进展,然而医学视频生成仍处于探索不足的状态。医学视频在临床培训、教育和模拟等应用中至关重要,不仅要求高视觉保真度,还需严格的医学准确性。然而,现有模型在处理医学提示时,常生成不真实或错误的内容,这主要归因于缺乏针对医学领域的大规模、高质量数据集。为填补这一空白,我们推出了MedVideoCap-55K,这是首个大规模、多样化且富含字幕的医学视频生成数据集。该数据集包含超过55,000条精选片段,覆盖真实世界的医疗场景,为训练通用医学视频生成模型奠定了坚实基础。基于此数据集,我们开发了MedGen,其在开源模型中表现领先,并在多个基准测试中与商业系统在视觉质量和医学准确性上不相上下。我们期望我们的数据集和模型能成为宝贵资源,推动医学视频生成领域的进一步研究。我们的代码和数据可在https://github.com/FreedomIntelligence/MedGen获取。
图形用户界面(GUI)代理能够跨平台(如Linux)自主操作,通过视觉元素交互完成任务。具体而言,用户指令被分解为一系列动作提案,每个提案对应一次与GUI的交互。每次动作后,代理观察更新后的GUI环境以规划下一步。然而,面临两大挑战:一是在任务规划(即动作提案序列)中消除歧义,选择合适方案并非易事,因可能存在多个有效选项;二是在复杂高分辨率界面中精准定位动作,即精确与视觉目标交互。 本文针对上述挑战,提出了我们的GUI测试时缩放代理,简称GTA1。首先,为选取最合适的动作提案,我们引入了一种测试时缩放方法。每一步中,我们采样多个候选动作提案,并利用评判模型评估并选择最适宜者。该方法通过并行采样在计算与决策质量间取得平衡,缩短任务执行步骤,提升整体性能。其次,我们提出了一种模型,在将选定动作提案与其对应视觉元素精准对接时,实现了更高的准确率。我们的核心洞见在于,强化学习(RL)通过内在目标对齐促进视觉定位,奖励成功点击界面元素。 实验表明,我们的方法在多种基准测试中确立了领先性能。例如,GTA1-7B在Screenspot-Pro、Screenspot-V2和OSWorld-G上的准确率分别达到50.1%、92.4%和67.7%。当结合采用我们测试时缩放策略的规划器时,它展现了顶尖的代理性能(如在OSWorld上达到45.2%的任务成功率)。我们在此开源了代码与模型。
世界模型,作为生物体所体验并与之互动的真实环境的算法替代物,近年来因开发具备人工(通用)智能的虚拟代理的需求日益增长而成为一个新兴话题。关于世界模型究竟是什么、如何构建、如何使用以及如何评估,学界存在诸多争论。本文从科幻经典《沙丘》中的想象出发,汲取心理学文献中“假设性思维”概念的灵感,对世界建模的几种主要流派进行了批判性分析,并主张世界模型的核心目标在于模拟现实世界中所有可行动的可能性,以支持有目的的推理与行动。基于这些批判,我们提出了一种新型通用世界模型架构,该架构依托于层次化、多层级及混合连续/离散表示,以及生成式与自监督学习框架,并展望了由这一模型驱动的物理性、代理性及嵌套性(PAN)AGI系统。
我们推出了Nile-Chat-4B、3x4B-A6B和12B,这是一系列专为埃及方言设计的大型语言模型(LLMs),独特之处在于其能够理解并生成同时使用阿拉伯字母和拉丁字母书写的文本。特别是,通过Nile-Chat-3x4B-A6B,我们引入了一种新颖的语言适应方法,采用分支-训练-混合(Branch-Train-MiX)策略,将专精于不同书写体系的专家模型融合为一个混合专家(MoE)模型。我们的Nile-Chat模型在新推出的埃及评估基准上,显著超越了LLaMa、Jais和ALLaM等领先的多语言及阿拉伯语LLMs,这些基准涵盖了理解和生成任务。值得注意的是,我们的12B模型在拉丁字母基准测试中,相比Qwen2.5-14B-Instruct实现了14.4%的性能提升。所有资源均已公开。我们相信,这项工作为适应双书写体系语言的LLMs提供了一套全面的方法论,填补了现代LLM开发中常被忽视的一个方面。
数据规模扩展在自然语言处理(NLP)和计算机视觉(CV)的基础模型中取得了显著成功,然而,在机器人操作领域,有效数据扩展的原则仍未被充分理解。本研究通过考察三个关键维度——任务(做什么)、实体(使用哪种机器人)和专家(由谁演示),深入探讨了数据多样性在机器人学习中的微妙作用,挑战了“多样性越多越好”的传统直觉。通过在各种机器人平台上进行的大量实验,我们发现:(1)任务多样性比每个任务的演示数量更为关键,有助于从多样化的预训练任务向新颖的下游场景迁移;(2)多实体预训练数据对于跨实体迁移并非必需——基于高质量单实体数据训练的模型能够高效迁移到不同平台,在微调过程中展现出比多实体预训练模型更理想的扩展特性;(3)专家多样性,源于个体操作偏好和人类演示中的随机变化,可能会对策略学习造成混淆,其中速度多模态性成为关键影响因素。基于这一洞察,我们提出了一种分布去偏方法以缓解速度模糊性,由此产生的GO-1-Pro模型实现了15%的性能提升,相当于使用了2.5倍的预训练数据。这些发现共同为如何有效扩展机器人操作数据集提供了新的视角和实用指导。
大型语言模型(LLMs)在代码生成领域取得了显著进展,但其真实的编程能力仍待深入探究。我们提出了代码三角框架,系统地评估LLMs在三个基本维度上的表现:编辑分析、代码实现与测试用例生成。通过在竞争性编程基准上的大量实验,我们发现尽管LLMs能在这三个维度上形成一个自洽的系统,但其解决方案往往缺乏人类程序员的多样性与鲁棒性。我们识别出模型认知与人类专业知识之间存在显著的分布偏移,模型错误往往因训练数据偏差和有限的推理迁移而聚集。研究表明,融入人类编写的编辑说明、解决方案及多样化测试用例,以及利用模型混合策略,能显著提升LLMs的性能与鲁棒性。此外,我们揭示了LLMs认知中的一致性与不一致性,这或许能促进自我反思与改进,为开发更强大的编码模型指明潜在方向。
诸如Transformer和RNN等序列模型常常过度关注无关上下文,导致中间表示充满噪声。这种现象会降低大语言模型(LLM)的能力,助长幻觉生成,削弱长距离依赖和检索能力,并降低模型的鲁棒性。近期研究表明,通过差异化的设计可以在Transformer中缓解这一问题,从而提升其在多种应用中的有效性。本文探讨了这些最初为Transformer开发的技术是否能够应用于Mamba——一种基于选择性状态空间层的新架构,该架构以更高的效率实现了与Transformer相当的性能。我们发现,直接将差异化设计简单迁移到Mamba上是不够的,需要细致的架构调整。为此,我们为Mamba引入了一种新颖的差异化机制,并在语言建模基准上进行了实证验证,展示了其相较于原始Mamba在检索能力上的提升和更优的整体表现。最后,我们进行了广泛的消融研究和实证分析,以论证我们的设计选择,并提供证据表明我们的方法有效缓解了基于Mamba模型中的过度关注问题。我们的代码已公开。
大型语言模型(LLMs)近期被应用于信息检索中的重排序任务,并展现出强劲性能。然而,其高计算需求往往阻碍了实际部署。现有研究通过代理指标如延迟、前向传播次数、输入标记数和输出标记数来评估基于LLM的重排序器效率。然而,这些指标依赖于硬件及运行时选择(例如是否并行、批量大小等),且常未能考虑模型规模,导致难以解读并模糊了效率与效果权衡的评估。为解决此问题,我们提出了针对基于LLM重排序器的E2R-FLOPs指标:每PetaFLOP的排序指标(RPP)用于衡量计算效率与相关性,以及每PetaFLOP的查询数(QPP)用于硬件无关的吞吐量评估。伴随新指标,我们还构建了一个可解释的FLOPs估算器,即便不进行任何实验也能估算基于LLM重排序器的FLOPs。基于所提出的指标,我们开展了全面实验,评估了多种不同架构的基于LLM的重排序器,研究了效率与效果的权衡,并将此问题提请研究界关注。
当前领先的大型多模态模型(LMMs)在处理高分辨率图像时面临挑战,因为这些输入被转化为大量视觉标记,其中许多与下游任务无关。本文提出了一种基于多轮对话框架的多轮定位策略优化(MGPO)方法,这是一个端到端的强化学习(RL)框架,使LMMs能够通过自动裁剪子图像,基于模型预测的定位坐标,在多轮对话中迭代聚焦于关键视觉区域。与需要昂贵额外定位标注的监督微调(SFT)相比,我们的方法表明,LMMs在RL训练过程中可以涌现出强大的定位能力,仅利用从最终答案正确性得出的二元奖励函数。此外,我们观察到LMMs在展开过程中难以自主触发视觉定位。为解决这一冷启动问题,我们设计了一个多轮对话模板,并将策略损失计算限制在跨多轮对话生成的模型输出上,从而促进稳定优化。大量实验证明,当在无定位标注的标准视觉问答短答数据上训练时,MGPO相比GRPO能有效激发更强的定位能力,在分布内MME-Realworld上提升5.4%,在具有挑战性的分布外(OOD)V* Bench上提升5.2%。值得注意的是,MGPO在Qwen2.5-VL-7B上使用21K样本进行后训练后,在OOD V* Bench上超越了OpenAI的o1和GPT-4o模型。代码可在https://github.com/EvolvingLMMs-Lab/MGPO获取。
基于深度学习的计算方法在预测蛋白质-蛋白质相互作用(PPIs)方面已取得显著成果。然而,现有基准测试主要集中于孤立的成对评估,忽视了模型重建具有生物学意义的PPI网络的能力,而这对于生物学研究至关重要。为填补这一空白,我们推出了PRING,这是首个从图层面全面评估蛋白质-蛋白质相互作用预测的基准测试。PRING精心构建了一个高质量、多物种的PPI网络数据集,包含21,484个蛋白质和186,818个相互作用,并设计了有效策略以应对数据冗余和泄露问题。基于这一黄金标准数据集,我们建立了两种互补的评估范式:(1)面向拓扑的任务,评估种内及跨物种PPI网络的构建;(2)面向功能的任务,包括蛋白质复合物通路预测、GO模块分析及必需蛋白验证。这些评估不仅反映了模型理解网络拓扑的能力,还促进了蛋白质功能注释、生物模块检测乃至疾病机制分析。对基于序列相似性、朴素序列、蛋白质语言模型及结构方法的四大代表性模型类别的广泛实验表明,当前PPI模型在恢复PPI网络的结构与功能属性上存在潜在局限,凸显了支持实际生物应用方面的差距。我们相信,PRING为社区提供了一个可靠的平台,以指导开发更有效的PPI预测模型。PRING的数据集与源代码已公开于https://github.com/SophieSarceau/PRING。
人工智能(AI)在医疗应用领域展现出巨大潜力,但其训练与部署面临诸多挑战,主要源于医疗数据的多样性、任务的复杂性以及对隐私保护的需求。基础模型在医疗任务中表现优异且所需任务特定调优数据较少,这对加速医疗AI应用的发展至关重要。我们推出了MedGemma,这是一系列基于Gemma 3 4B和27B的医疗视觉-语言基础模型。MedGemma在图像与文本的医疗理解与推理方面展现出卓越能力,显著超越同规模生成模型的表现,并接近任务特定模型的性能,同时保留了Gemma 3基础模型的通用能力。在分布外任务上,MedGemma在医疗多模态问答上实现了2.6%-10%的提升,在胸部X光发现分类上提升了15.5%-18.1%,在代理评估上提升了10.8%,相较于基础模型。进一步微调MedGemma可提升其在子领域的性能,电子健康记录信息检索的错误率降低了50%,并在气胸分类和组织病理学切片分类上达到了与现有最先进专门方法相当的水平。此外,我们还推出了MedSigLIP,这是一个基于SigLIP进行医疗调优的视觉编码器。MedSigLIP为MedGemma的视觉理解能力提供支持,作为编码器,其性能与专门的医疗图像编码器相当甚至更优。综上所述,MedGemma系列为医疗图像与文本处理提供了强大的基础能力,有望显著加速医学研究及下游应用的开发。MedGemma系列,包括教程与模型权重,可访问https://goo.gle/medgemma获取。
近期“分割一切”的研究通过大规模数据学习展现出潜力,但直接将此类模型应用于医学影像仍面临挑战,原因在于医学数据的复杂性、标注噪声以及跨多种模态和解剖结构的持续学习需求。在本研究中,我们提出了SAMed-2,一种基于SAM-2架构的新型医学图像分割基础模型。具体而言,我们在图像编码器中引入了一个时序适配器以捕捉图像间的关联,并采用置信度驱动的记忆机制存储高确定性特征以供后续检索。这一基于记忆的策略有效应对了大规模医学数据集中普遍存在的噪声问题,并在面对新任务或新模态时缓解了灾难性遗忘现象。为了训练和评估SAMed-2,我们构建了MedBank-100k,一个涵盖七种成像模态和21项医学分割任务的综合数据集。我们在内部基准测试及10个外部数据集上的实验表明,SAMed-2在多任务场景下相较于现有最先进基线模型表现出更优的性能。代码已公开于:https://github.com/ZhilingYan/Medical-SAM-Bench。
近期,基于扩散变换器的运动引导视频生成模型(如Tora)取得了显著进展。本文介绍了Tora的增强版本——Tora2,该版本通过多项设计改进,进一步提升了其在外观与运动定制方面的能力。具体而言,我们引入了一种解耦的个性化提取器,能够为多个开放集实体生成全面的个性化嵌入,相较于以往方法,更好地保留了细粒度的视觉细节。在此基础上,我们设计了一种门控自注意力机制,用于整合每个实体的轨迹、文本描述及视觉信息。这一创新显著减少了训练过程中多模态条件对齐的偏差。此外,我们提出了一种对比损失函数,通过运动与个性化嵌入之间的显式映射,联合优化轨迹动态与实体一致性。据我们所知,Tora2是首个实现视频生成中多实体外观与运动同步定制的方法。实验结果表明,Tora2在保持与最先进定制方法竞争性能的同时,提供了更高级的运动控制能力,这标志着多条件视频生成领域的关键进步。项目页面:https://github.com/alibaba/Tora。
长文本处理已成为大型语言模型(LLMs)的一项基本能力。为评估模型的长文本性能,众多长文本评估基准相继提出。然而,这些基准在评估设置上的差异导致了结果的不一致,使得进行可靠的比较变得困难。此外,长文本评估的高计算成本为社区全面评估长文本模型设置了重大障碍。本文中,我们提出了LOOM-Scope,一个全面且高效的长文本评估框架。LOOM-Scope统一了不同基准的评估设置,支持高效长文本推理加速方法的部署,并引入了一套全面而轻量级的基准测试集,以全方位评估模型。访问主页:https://loomscope.github.io
我们推出了any4,一种针对大型语言模型(LLMs)的4位权重量化解决方案,它能够提供任意的数值表示,而无需对权重或激活进行预处理。与int4、fp4和nf4等其他相关的4位数值表示类型相比,any4在多种模型规模、代际和系列(如Llama 2、Llama 3、Mistral和Mixtral)上的评估中展现出更高的准确性。尽管any4无需权重或激活的预处理,但它同样能够与需要此类预处理的垂直技术(例如AWQ和GPTQ)相媲美。我们还对any3和any2进行了实验,证明了在更低位数下的竞争力。此外,我们展示了一种仅需单个精选多样化样本而非大多数量化方法中使用的数百个数据集样本的校准方法。同时,我们开源了tinygemm,一个为LLMs优化的低延迟GPU矩阵乘法库,它采用GPU高效的查找表策略实现了any4,并支持其他常见的量化方法。我们的代码已在https://github.com/facebookresearch/any4 开源。
大型语言模型(LLMs)在广泛任务中展现了卓越的能力,但也表现出对其训练数据的记忆现象。这一现象引发了关于模型行为、隐私风险以及学习与记忆之间界限的关键问题。针对这些担忧,本文综合了近期研究,探讨了记忆现象的现状、影响因素及其检测与缓解方法。我们深入分析了训练数据重复、训练动态和微调程序等关键驱动因素如何影响数据记忆。此外,我们评估了基于前缀的提取、成员推断和对抗性提示等方法在检测和量化记忆内容方面的有效性。除了技术分析,我们还探讨了记忆现象的广泛影响,包括法律和伦理层面的考量。最后,我们讨论了缓解策略,如数据清洗、差分隐私和训练后遗忘,同时强调了在减少有害记忆与保持模型效用之间平衡的开放挑战。本文从技术、隐私和性能三个维度,全面概述了当前关于LLM记忆的研究现状,并指出了未来研究的关键方向。
语义场景补全(SSC)旨在从单张图像中推断场景的三维几何结构及其语义信息。与以往依赖昂贵真实标注的SSC研究不同,我们探索了无监督环境下的SSC任务。我们提出的新方法——SceneDINO,借鉴了自监督表示学习与二维无监督场景理解的技术,将其应用于SSC。我们的训练过程仅利用多视角一致性自监督,无需任何形式的语义或几何真实标注。给定单张输入图像,SceneDINO以前馈方式推断出三维几何结构及富有表现力的三维DINO特征。通过一种新颖的三维特征蒸馏方法,我们获得了无监督的三维语义信息。在三维与二维无监督场景理解任务中,SceneDINO均达到了最先进的分割精度。对三维特征进行线性探测,其分割精度可与当前有监督的SSC方法相媲美。此外,我们还展示了SceneDINO在领域泛化与多视角一致性方面的优势,为单图像三维场景理解奠定了初步的坚实基础。
组合理解对于人类智能至关重要,然而目前尚不清楚现代视觉模型是否具备这一能力。主流的机器学习范式建立在这样一个前提之上:扩大数据规模和模型尺寸将提升分布外性能,包括组合泛化能力。我们通过控制实验系统地改变数据规模、概念多样性和组合覆盖范围,对这一前提进行了验证。研究发现,组合泛化能力由数据多样性驱动,而非单纯的数据规模。增加组合覆盖范围迫使模型发现一种线性分解的表征结构,其中概念被分解为可加性组件。我们证明这种结构是效率的关键,使得模型能够从少量观察到的组合中实现完美泛化。在评估预训练模型(DINO、CLIP)时,我们发现其表现虽高于随机水平但仍不完美,表明这种结构仅部分存在。我们的工作强调了构建多样化数据集以促进组合泛化的重要性,并指出了支持高效组合学习的表征结构的关键作用。代码可在https://github.com/oshapio/visual-compositional-generalization获取。
文本到图像生成技术的进步长期以来以英语为中心,为非英语使用者设置了障碍,并加剧了数字不平等。尽管现有系统依赖于翻译管道,但这些方法引入了语义漂移、计算开销和文化错位。我们推出了NeoBabel,一种创新的多语言图像生成框架,在性能、效率和包容性方面树立了新的帕累托前沿,支持六种语言:英语、中文、荷兰语、法语、印地语和波斯语。该模型通过大规模多语言预训练和高分辨率指令微调相结合的方式进行训练。为了评估其能力,我们将两个仅限英语的基准扩展为多语言等效版本:m-GenEval和m-DPG。NeoBabel在保持强大英语能力的同时,实现了最先进的多语言性能,在m-GenEval上得分为0.75,在m-DPG上得分为0.68。值得注意的是,它在英语任务上与领先模型表现相当,而在多语言基准上分别超出它们+0.11和+0.09,尽管这些模型基于多语言基础LLM构建。这证明了我们针对对齐训练的有效性,以保持和扩展跨语言泛化能力。我们进一步引入了两个新指标,以严格评估多语言对齐和对混合代码提示的鲁棒性。值得注意的是,NeoBabel在体积缩小2-4倍的同时,与仅限英语的模型相当或更优。我们发布了一个开源工具包,包括所有代码、模型检查点、精选的1.24亿多语言文本-图像对数据集,以及标准化的多语言评估协议,以推动包容性AI研究。我们的工作表明,多语言能力不是一种权衡,而是提升生成式AI鲁棒性、效率和文化保真度的催化剂。
我们设计并实现了AXLearn,一个面向生产的深度学习系统,旨在促进大规模深度学习模型的可扩展性和高性能训练。与其它顶尖深度学习系统相比,AXLearn在模块化及对异构硬件基础设施的支持上独具特色。AXLearn内部软件组件间的接口遵循严格的封装原则,使得不同组件能够灵活组合,从而在异构计算基础设施上加速模型开发与实验进程。我们引入了一种通过代码行数(LoC)复杂度量化模块化的新方法,展示了AXLearn在系统组件扩展时如何保持恒定的复杂度,而其他系统则呈现线性或二次方增长。这一特性使得在AXLearn中集成如旋转位置编码(RoPE)等功能,仅需10行代码即可跨越数百个模块,而其他系统则需数百行。同时,AXLearn在性能上保持了与最先进训练系统相当的水平。最后,我们分享了AXLearn在开发与运维过程中的实践经验。
近期图扩散模型(GDMs)的进展已能合成逼真的网络结构,但确保生成数据的公平性仍是一项关键挑战。现有解决方案试图通过重新训练GDMs并加入临时公平性约束来缓解偏差。与此不同,本研究提出了FAROS,一种新颖的公平图生成框架,它利用属性切换机制,直接在预训练GDMs的生成过程中运行。从技术上讲,我们的方法通过在生成过程中改变节点的敏感属性来实现这一目标。为此,FAROS计算了最优的节点切换比例,并通过设定定制的多准则约束来选择执行切换的扩散步骤,以保持原始分布中的节点拓扑特征(作为准确性的代理),同时确保生成图中边对敏感属性的独立性(作为公平性的代理)。我们在链接预测基准数据集上的实验表明,所提出的方法有效减少了公平性差异,同时保持了与其他类似基线相当(甚至更高)的准确性表现。值得注意的是,在帕累托最优概念下,FAROS在某些测试场景中能够实现比其他竞争者更好的准确性-公平性权衡,这证明了所施加的多准则约束的有效性。