每日精选AI研究论文及翻译
长上下文能力对于多模态基础模型至关重要。我们介绍了LongVILA,这是一个针对长上下文视觉-语言模型的全栈解决方案,包括系统、模型训练和数据集开发。在系统方面,我们引入了第一个支持长上下文训练和推断的多模态序列并行(MM-SP)系统,可以在256个GPU上进行2M上下文长度的训练。MM-SP还具有高效性,比环形式序列并行快2.1倍至5.7倍,比Megatron-LM在仅文本设置下快1.1倍至1.4倍。此外,它与Hugging Face Transformers完美集成。对于模型训练,我们提出了一个包括对齐、预训练、上下文扩展和长短联合监督微调的五阶段流水线。关于数据集,我们精心构建了大规模视觉语言预训练数据集和长视频指令跟随数据集,以支持我们的多阶段训练过程。这一全栈解决方案将VILA的可行帧数扩展了128倍(从8帧到1024帧),将长视频字幕评分从2.00提高到3.26(1.6倍),在1400帧视频(274k上下文长度)的“大海捞针”任务中实现了99.5%的准确率。LongVILA-8B还在VideoMME基准测试中表现出对长视频性能的持续改进,随着视频帧数的增加。
最近,开放式世界的3D重建模型引起了广泛关注。然而,缺乏足够的3D归纳偏差,现有方法通常需要昂贵的训练成本,并且难以提取高质量的3D网格。在这项工作中,我们介绍了MeshFormer,一种稀疏视图重建模型,明确利用3D本地结构、输入指导和训练监督。具体而言,我们不使用三平面表示,而是将特征存储在3D稀疏体素中,并结合变换器和3D卷积,利用显式3D结构和投影偏差。除了稀疏视图的RGB输入,我们要求网络接收输入并生成相应的法线图。输入法线图可以由2D扩散模型预测,显著有助于几何学习的指导和细化。此外,通过将有符号距离函数(SDF)监督与表面渲染相结合,我们直接学习生成高质量网格,无需复杂的多阶段训练过程。通过结合这些显式的3D偏差,MeshFormer能够高效训练并生成具有细粒度几何细节的高质量纹理网格。它还可以与2D扩散模型集成,实现快速的单图像到3D和文本到3D任务。项目页面:https://meshformer3d.github.io
在各种视觉识别和导航任务中,场景的鲁棒准确分割已成为一项核心功能。这激发了最近对“Segment Anything Model”(SAM)的开发,SAM是一种通用掩模分割的基础模型。然而,SAM主要针对单模态RGB图像进行了定制,从而限制了其适用性,无法处理使用广泛采用的传感器套件(如LiDAR加RGB、深度加RGB、热像加RGB等)捕获的多模态数据。我们开发了MM-SAM,这是SAM的扩展和拓展,支持跨模态和多模态处理,实现了对不同传感器套件的鲁棒增强分割。MM-SAM具有两个关键设计,即无监督跨模态转移和弱监督多模态融合,实现了对各种传感器模态的标签高效和参数高效适应。它解决了三个主要挑战:1)针对多样化的非RGB传感器进行单模态处理的适应,2)通过传感器融合协同处理多模态数据,3)为不同下游任务进行无掩模训练。大量实验证明,MM-SAM在各种传感器和数据模态下始终大幅优于SAM,展示了其在各种传感器和数据模态下的有效性和鲁棒性。
文本到视频(T2V)生成因其在视频生成、编辑、增强和翻译等领域的广泛应用而受到重视。然而,高质量(HQ)视频合成极具挑战性,因为现实世界中存在多样且复杂的运动。大多数现有作品难以解决这一问题,因为它们需要收集大规模的HQ视频,而这些视频对社区来说是无法获取的。在这项工作中,我们展示了公开可用的有限和低质量(LQ)数据足以训练一个HQ视频生成器,无需重新标注或微调。我们将整个T2V生成过程分解为两个步骤:生成一个受高度描述性字幕条件的图像,以及根据生成的图像和简明的运动细节字幕合成视频。具体来说,我们提出了Factorized-Dreamer,这是一个分解的时空框架,具有几个关键设计用于T2V生成,包括一个适配器用于结合文本和图像嵌入、一个像素感知的交叉注意力模块用于捕获像素级图像信息、一个T5文本编码器用于更好地理解运动描述,以及一个PredictNet用于监督光流。我们进一步提出了一个噪声调度,它在确保视频生成的质量和稳定性方面发挥关键作用。我们的模型降低了对详细字幕和HQ视频的要求,可以直接在有限的LQ数据集上进行训练,这些数据集具有嘈杂且简短的字幕,如WebVid-10M,大大减轻了收集大规模HQ视频文本对的成本。在各种T2V和图像到视频生成任务中进行了大量实验,证明了我们提出的Factorized-Dreamer的有效性。我们的源代码可在https://github.com/yangxy/Factorized-Dreamer/ 上获取。
芯片设计在很大程度上依赖于从功能描述(如真值表)生成布尔电路,例如与反相器图(AIGs)。虽然近年来深度学习方面取得了进展,旨在加速电路设计,但这些努力大多集中在综合之外的任务上,传统的启发式方法已经达到瓶颈。在本文中,我们介绍了ShortCircuit,这是一种新颖的基于Transformer的架构,利用AIGs的结构特性进行高效的空间探索。与先前尝试使用深度网络端到端生成逻辑电路的方法相反,ShortCircuit采用了一个两阶段过程,结合监督学习和强化学习,以增强对未见真值表的泛化能力。我们还提出了AlphaZero的变体,以处理双指数级别的状态空间和奖励的稀疏性,从而发现接近最优设计。为了评估我们训练模型的生成性能,我们从一个包含20个真实电路的基准集中提取了500个真值表。ShortCircuit成功为8输入测试真值表中的84.6%生成了AIGs,并在电路规模方面比当今最先进的逻辑综合工具ABC提高了14.61%。
实时高精度光流估计对于各种实际应用至关重要。尽管最近基于学习的光流方法取得了很高的精度,但往往伴随着显著的计算成本。本文提出了一种高效的光流方法,平衡了高精度和降低计算需求。在NeuFlow v1的基础上,我们引入了新组件,包括更轻量级的主干网络和快速的细化模块。这两个模块有助于保持计算需求的轻量化,同时提供接近最先进精度。与其他最先进方法相比,我们的模型在合成和实际数据上实现了10倍至70倍的加速,同时保持可比的性能。在Jetson Orin Nano上,我们的模型能够以超过20 FPS的速度运行在512x384分辨率图像上。完整的训练和评估代码可在https://github.com/neufieldrobotics/NeuFlow_v2找到。
近来,开放式三维生成引起了广泛关注。虽然许多单图像到三维的方法产生了视觉上令人满意的结果,但它们通常缺乏足够的可控性,往往会产生与用户期望不符的虚构区域。本文探讨了一个重要场景,即输入由一个或几个未摆姿的单个物体的二维图像组成,几乎没有重叠。我们提出了一种新颖的方法,即SpaRP,用于重建三维纹理网格并估计这些稀疏视图图像的相对摄像机姿势。SpaRP从二维扩散模型中提炼知识,并对其进行微调,以隐式推断稀疏视图之间的三维空间关系。扩散模型经过训练,共同预测摄像机姿势的替代表示以及在已知姿势下物体的多视图图像,整合了来自输入稀疏视图的所有信息。然后利用这些预测来完成三维重建和姿势估计,重建的三维模型可用于进一步优化输入视图的摄像机姿势。通过对三个数据集进行大量实验,我们证明了我们的方法不仅在三维重建质量和姿势预测准确性方面明显优于基线方法,而且表现出很强的效率。它仅需要约20秒即可为输入视图生成纹理网格和摄像机姿势。项目页面:https://chaoxu.xyz/sparp。
准确的作者归属对于维护数字内容的完整性、改善取证调查,并减轻误导和抄袭的风险至关重要。解决正确作者归属的迫切需求对于维护真实作者的可信度和责任是至关重要的。大型语言模型(LLMs)的快速发展已经模糊了人类和机器作者之间的界限,给传统方法带来了重大挑战。我们提出了一项全面的文献综述,审视了LLMs时代作者归属研究的最新进展。该调查通过对这一领域的四个代表性问题进行分类,系统地探索了这一领域的现状:(1)人类撰写文本归属;(2)LLM生成文本检测;(3)LLM生成文本归属;以及(4)人类-LLM共同撰写文本归属。我们还讨论了与确保作者归属方法的泛化性和可解释性相关的挑战。泛化性要求能够跨越各种领域进行泛化,而可解释性强调提供透明且可理解的洞察力,解释这些模型所做决策的原因。通过评估现有方法和基准的优势和局限性,我们确定了该领域的关键开放问题和未来研究方向。这项文献综述为对这一快速发展领域的现状感兴趣的研究人员和从业者提供了一份路线图。其他资源和精选论文列表可在https://llm-authorship.github.io 上找到并定期更新。
在真实场景图像中正确插入虚拟对象需要对场景的光照、几何和材质以及图像形成过程有深入的理解。尽管最近的大规模扩散模型展现出强大的生成和修复能力,但我们发现当前模型并不足以在单张图片中足够地"理解"场景,以生成一致的光照效果(阴影、明亮反射等),同时保留合成对象的身份和细节。我们提出使用个性化的大规模扩散模型作为物理反渲染过程的指导。我们的方法恢复场景光照和色调映射参数,从而实现在室内或室外场景的单帧图像或视频中逼真地合成任意虚拟对象。我们基于物理的流程进一步实现了自动材质和色调映射的细化。
在这项工作中,我们提出了一种无需训练、基于轨迹可控的T2I方法,称为TraDiffusion。这种新颖的方法允许用户通过鼠标轨迹轻松引导图像生成。为了实现精确控制,我们设计了一个距离感知能量函数,有效地引导潜在变量,确保生成的焦点位于轨迹定义的区域内。能量函数包括一个控制函数,将生成物靠近指定轨迹,以及一个移动函数,减少远离轨迹的区域的活动。通过在COCO数据集上进行大量实验和定性评估,结果显示TraDiffusion有助于更简单、更自然的图像控制。此外,它展示了在生成的图像中操纵显著区域、属性和关系的能力,以及基于任意或增强轨迹的视觉输入。
具备自主识别漏洞并执行利用的网络安全语言模型(LM)代理可能会造成现实世界的影响。AI和网络安全社区的决策者、模型提供者以及其他研究人员对量化这些代理的能力感兴趣,以帮助减轻网络风险并探索渗透测试的机会。为此,我们引入了Cybench,一个用于指定网络安全任务并评估代理在这些任务上表现的框架。我们包含了来自4个不同CTF竞赛的40个专业级Capture the Flag(CTF)任务,这些任务被选择为最近的、有意义的,并覆盖了广泛的难度范围。每个任务都包括自己的描述、初始文件,并在代理可以执行bash命令并观察输出的环境中初始化。由于许多任务超出了现有LM代理的能力范围,我们引入了子任务,将任务分解为更多层次的评估中间步骤;我们为这40个任务中的17个添加了子任务。为了评估代理的能力,我们构建了一个网络安全代理,并评估了7个模型:GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat和Llama 3.1 405B Instruct。我们发现,在没有指导的情况下,代理只能解决最简单的完整任务,这些任务人类团队需要最多11分钟才能解决,其中Claude 3.5 Sonnet和GPT-4o的成功率最高。最后,与未经指导的运行相比,子任务提供了更多衡量性能的信号,通过子任务指导,模型在完成任务时的成功率比没有子任务指导时高出3.2\%。所有代码和数据都可以在https://cybench.github.io 上公开获取。