每日精选AI研究论文及翻译
图像扩散模型已经被调整用于实际视频超分辨率,以解决基于GAN方法的过度平滑问题。然而,这些模型在保持时间一致性方面存在困难,因为它们是在静态图像上训练的,限制了其有效捕捉时间动态的能力。将文本到视频(T2V)模型整合到视频超分辨率中以改善时间建模是直接的。然而,仍然存在两个关键挑战:在实际场景中引入的复杂退化引入的伪影,以及由于强大的T2V模型(例如CogVideoX-5B)的强大生成能力而导致的保真度受损。为了增强恢复视频的时空质量,我们介绍了\name(用于实际视频超分辨率的T2V模型的时空增强),这是一种利用T2V模型进行实际视频超分辨率的新方法,实现了逼真的空间细节和稳健的时间一致性。具体而言,我们在全局注意力块之前引入了局部信息增强模块(LIEM),以丰富局部细节并减轻退化伪影。此外,我们提出了动态频率(DF)损失来加强保真度,引导模型在扩散步骤中专注于不同频率成分。大量实验证明\name 在合成和实际数据集上均优于最先进的方法。
o1模型在复杂推理中表现出色,表明测试时间计算的扩展可以进一步释放模型的潜力,实现强大的系统二思维。然而,目前仍然缺乏针对测试时间计算扩展的综合调查。我们追溯测试时间计算的概念到系统一模型。在系统一模型中,测试时间计算通过参数更新、输入修改、表示编辑和输出校准来解决分布转移问题,提高鲁棒性和泛化能力。在系统二模型中,它通过重复采样、自我校正和树搜索来增强模型的推理能力,解决复杂问题。我们根据从系统一到系统二思维的趋势组织这项调查,突出测试时间计算在从系统一模型向弱系统二模型,再到强系统二模型的过渡中的关键作用。我们还指出了一些可能的未来方向。
最前沿的大型语言模型(LLMs)展示了在解决复杂数学问题方面的有希望表现,采用分而治之的流程和上下文学习(ICL)示例的辅助。然而,它们在ICL示例中的潜力受到两个关键问题的限制:粒度不匹配和随之而来的负面影响噪声问题。具体来说,LLMs能够进行划分过程,但在征服步骤中的不准确推理导致失败,而有时在问题粒度中检索到的ICL示例缺乏特定具有挑战性的推理步骤所需的相关步骤。此外,这种不连贯可能由于其不相关性而阻碍正确推理。因此,我们专注于改进每个步骤内的推理质量,并提出BoostStep。BoostStep在检索和推理之间的步骤粒度上进行对齐,并为每个推理步骤提供与之高度相关的ICL示例,采用一种新颖的“首次尝试”策略。BoostStep提供比粗糙问题粒度策略更相关的示例,稳步增强模型在每个步骤内的推理质量。BoostStep是一种通用且强大的推理增强方法,不仅提高独立推理性能,还与蒙特卡洛树搜索方法(MCTS)无缝集成,以改进候选生成和决策制定。定量上,它将GPT-4o和Qwen2.5-Math-72B分别在各种数学基准上提高了3.6\%和2.0\%,与MCTS相结合可获得7.5\%的增益。
视频LLM的实时互动引入了一种新的人机交互范式,模型不仅理解用户意图,而且在持续处理实时流视频的同时做出响应。与离线视频LLM不同,后者在回答问题之前会分析整个视频,实时互动则需要三种能力:1)感知:实时视频监控和交互捕捉。2)决策:在适当情况下提出主动交互。3)反应:与用户持续交互。然而,所需能力之间存在固有冲突。决策和反应需要相反的感知尺度和粒度,自回归解码在反应期间会阻碍实时感知和决策。为了在一个和谐系统中统一冲突的能力,我们提出了Dispider,一个系统,它解开了感知、决策和反应。Dispider具有轻量级的主动流视频处理模块,可跟踪视频流并确定最佳交互时机。一旦交互被触发,异步交互模块提供详细响应,同时处理模块继续监视视频。我们的解开和异步设计确保及时、情境准确和计算高效的响应,使Dispider成为处理长时间视频流的理想实时互动工具。实验证明Dispider不仅在传统视频问答任务中表现出色,而且在流媒体场景响应方面显著超越以往的在线模型,从而验证了我们架构的有效性。代码和模型已发布在https://github.com/Mark12Ding/Dispider。
随着大型语言模型(LLMs)的发展,它们提供个性化和上下文感知响应的能力,为改善用户体验带来了变革性潜力。然而,现有的个性化方法通常仅依赖用户历史来增强提示,从而限制了它们在生成定制输出方面的有效性,尤其是在数据稀疏的冷启动场景中。为了解决这些局限性,我们提出了基于个性化图检索增强生成(PGraphRAG)的框架,利用以用户为中心的知识图来丰富个性化。通过直接将结构化用户知识整合到检索过程中,并用用户相关上下文增强提示,PGraphRAG增强了上下文理解和输出质量。我们还介绍了基于个性化图的文本生成基准,旨在评估在用户历史稀疏或不可用的实际环境中的个性化文本生成任务。实验结果表明,PGraphRAG在各种任务中明显优于最先进的个性化方法,展示了基于图检索的个性化的独特优势。
文本到视频生成模型已经取得了重大进展,使得在娱乐、广告和教育等领域有了多样化的应用。然而,生成包含透明度通道的RGBA视频仍然是一个挑战,这是由于数据集有限以及现有模型的调整困难所致。透明度通道对于视觉效果(VFX)至关重要,它允许像烟雾和反射这样的透明元素无缝融入场景中。我们引入了TransPixar,这是一种用于扩展预训练视频模型以生成RGBA的方法,同时保留原始的RGB功能。TransPixar利用扩散变压器(DiT)架构,结合了特定于透明度的令牌,并使用基于LoRA的微调来共同生成具有高一致性的RGB和透明度通道。通过优化注意力机制,TransPixar保留了原始RGB模型的优势,并在训练数据有限的情况下实现了RGB和透明度通道之间的强对齐。我们的方法有效地生成多样且一致的RGBA视频,推动了VFX和交互内容创作的可能性。
低精度训练被认为是降低训练和下游推理成本的有效策略。先前关于精度的缩放定律主要集中在整数量化上,较少关注浮点量化中的组成部分,因此不能很好地适应在这种情况下的LLM损失。相比之下,虽然浮点量化训练在生产中更常见,但对其研究相对表面。本文全面探讨了浮点量化目标、指数位、尾数位以及浮点量化训练中缩放因子的计算粒度对LLM模型性能的影响。在提出准确的浮点量化统一缩放定律的同时,我们还为社区提供了宝贵建议:(1) 指数位对模型性能的贡献略高于尾数位。我们为不同位数提供了最佳指数-尾数位比,可供硬件制造商未来参考;(2) 我们发现在低精度LLM训练中形成了关键数据大小。过多的训练数据超过关键数据大小将逆向带来LLM性能的降级;(3) 最佳浮点量化精度与计算能力成正比,但在广泛的计算能力范围内,我们估计最佳成本性能精度位于4-8位之间。
我们考虑图像到视频(I2V)生成的任务,这涉及根据文本描述将静态图像转换为逼真的视频序列。尽管最近的进展产生了逼真的输出,但它们经常难以创建具有准确和一致对象运动的视频,特别是在多对象场景中。为了解决这些限制,我们提出了一个两阶段的组合框架,将I2V生成分解为:(i)明确的中间表示生成阶段,然后是(ii)在此表示条件下的视频生成阶段。我们的关键创新是引入基于掩模的运动轨迹作为中间表示,捕捉语义对象信息和运动,实现了运动和语义的表达丰富而紧凑的表示。为了在第二阶段中整合学习到的表示,我们利用对象级别的注意力目标。具体来说,我们考虑了一个空间、每个对象的掩模交叉注意力目标,将对象特定提示集成到相应的潜在空间区域中,以及一个掩模空间-时间自注意力目标,确保每个对象在帧与帧之间的一致性。我们在具有多对象和高运动场景的具有挑战性的基准测试上评估了我们的方法,并在实证上证明了所提方法在时间连贯性、运动逼真度和文本提示忠实度方面取得了最先进的结果。此外,我们引入了一个新的具有挑战性的基准测试\benchmark,用于单对象和多对象I2V生成,并展示了我们的方法在这一基准测试上的优越性。项目页面位于https://guyyariv.github.io/TTM/。
我们对METAGENE-1进行预训练,这是一个70亿参数的自回归变压器模型,我们将其称为宏基因组基础模型,使用一个包含超过1.5万亿碱基对的多样化宏基因组DNA和RNA序列的新领域语料库进行训练。这个数据集来源于大量人类废水样本,使用深度宏基因组(下一代)测序方法进行处理和测序。与侧重于单个基因组或特定物种的策划集的基因组模型不同,METAGENE-1的目标是捕获存在于这种废水中的基因组信息的完整分布,以协助与疫情监测和病原体检测相关的任务。我们对数据集进行字节对编码(BPE)标记化,针对宏基因组序列进行定制,然后对我们的模型进行预训练。在本文中,我们首先详细介绍了预训练数据集、标记化策略和模型架构,突出考虑因素和设计选择,以实现对宏基因组数据的有效建模。然后,我们展示了在我们的宏基因组数据集上对该模型进行预训练的结果,提供了关于我们的损失、系统指标以及预训练过程中的训练稳定性的详细信息。最后,我们展示了METAGENE-1的性能,该模型在一组基因组基准测试和专注于人类病原体检测和基因组序列嵌入的新评估中取得了最先进的结果,展示了其在疫情监测、生物监测和早期发现新兴健康威胁方面的潜力。
自动化红队技术已成为发现大型语言模型(LLMs)中漏洞的关键方法。然而,大多数现有方法侧重于孤立的安全缺陷,限制了其适应动态防御并高效发现复杂漏洞的能力。为了解决这一挑战,我们提出了Auto-RT,这是一个强化学习框架,能够自动探索和优化复杂的攻击策略,通过恶意查询有效地发现安全漏洞。具体来说,我们引入了两个关键机制来减少探索复杂性并改善策略优化:1)提前终止探索,通过专注于高潜攻击策略来加速探索;2)具有中间降级模型的渐进式奖励跟踪算法,动态地优化搜索轨迹以实现成功利用漏洞。在各种LLMs上进行的大量实验表明,通过显著提高探索效率和自动优化攻击策略,Auto-RT能够检测到更广泛的漏洞,实现更快的检测速度,并比现有方法成功率高出16.63%。
在视频生成中,4D视频控制至关重要,因为它使得可以利用复杂的镜头技术,如多摄像头拍摄和徐缩变焦,这些技术目前尚不受现有方法支持。直接训练视频扩散变换器(DiT)以控制4D内容需要昂贵的多视角视频。受单目动态新视图合成(MDVS)的启发,该方法优化4D表示并根据不同的4D元素(如摄像机姿态和物体运动编辑)渲染视频,我们引入了伪4D高斯场到视频生成中。具体来说,我们提出了一个新颖的框架,通过密集的3D点跟踪构建伪4D高斯场,并为所有视频帧渲染高斯场。然后,我们微调预训练的DiT,以生成遵循渲染视频指导的视频,被称为GS-DiT。为了提升GS-DiT的训练,我们还提出了一种高效的密集3D点跟踪(D3D-PT)方法,用于伪4D高斯场的构建。我们的D3D-PT在准确性上优于现有技术的稀疏3D点跟踪方法SpatialTracker,并将推理速度提升了两个数量级。在推理阶段,GS-DiT可以生成具有相同动态内容的视频,同时遵循不同的摄像机参数,解决了当前视频生成模型的一个重要限制。GS-DiT展示了强大的泛化能力,并将高斯飞溅的4D可控性扩展到视频生成,不仅仅局限于摄像机姿态。通过操纵高斯场和摄像机内参,它支持高级的电影效果,使其成为创意视频制作的强大工具。演示可在https://wkbian.github.io/Projects/GS-DiT/找到。
扩散去噪范式内的单目深度估计展示了令人印象深刻的泛化能力,但受限于低推理速度。最近的方法采用单步确定性范式以提高推理效率,同时保持可比较的性能。然而,它们忽视了生成和判别特征之间的差距,导致结果不够理想。在这项工作中,我们提出了DepthMaster,这是一个单步扩散模型,旨在为判别深度估计任务调整生成特征。首先,为了减轻生成特征引入的纹理细节过拟合问题,我们提出了一个特征对齐模块,该模块整合了高质量的语义特征,以增强去噪网络的表示能力。其次,为了解决单步确定性框架中细粒度细节的缺失,我们提出了一个傅立叶增强模块,以自适应地平衡低频结构和高频细节。我们采用两阶段训练策略,充分发挥这两个模块的潜力。在第一阶段,我们专注于通过特征对齐模块学习全局场景结构,而在第二阶段,我们利用傅立叶增强模块来提高视觉质量。通过这些努力,我们的模型在泛化和细节保留方面实现了最先进的性能,在各种数据集上优于其他基于扩散的方法。我们的项目页面位于https://indu1ge.github.io/DepthMaster_page。
过程级奖励模型(PRMs)对于复杂推理和决策任务至关重要,在这些任务中,每个中间步骤在推理过程中起着重要作用。由于语言模型在推理过程中容易出现各种类型的错误,因此需要PRMs具备对真实场景中各种隐式错误类型进行检测的微妙能力。然而,当前的基准主要关注步骤的正确性,未能系统评估PRMs的性能。为了弥补这一差距,我们引入了PRMBench,这是一个专门设计用于评估PRMs微观错误检测能力的过程级基准。PRMBench包括6,216个精心设计的问题和83,456个步骤级标签,评估模型在多个维度上的表现,包括简单性、合理性和敏感性。在我们对15个模型进行的实验中,涵盖了开源PRMs和作为评论模型的封闭源大型语言模型,我们揭示了当前PRMs存在的显著弱点。这些发现突显了过程级评估中固有的挑战,并强调了未来研究的关键方向。我们希望PRMBench能成为推动PRM评估和发展研究的强大基准。
对多跳工具使用的有效评估对于分析大型语言模型(LLMs)的理解、推理和函数调用能力至关重要。然而,由于缺乏可靠的评估数据集,进展受阻。为解决这一问题,我们提出了ToolHop,这是一个包含995个用户查询和3,912个相关工具的数据集,专门设计用于严格评估多跳工具使用。ToolHop通过一种新颖的基于查询驱动的数据构建方法,包括工具创建、文档细化和代码生成,确保了多样化的查询、有意义的相互依赖、可在本地执行的工具、详细反馈以及可验证的答案。我们评估了14个LLMs,涵盖了五个模型系列(即LLaMA3.1、Qwen2.5、Gemini1.5、Claude3.5和GPT),揭示了处理多跳工具使用场景中的重大挑战。领先的模型GPT-4o实现了49.04%的准确率,突显了改进空间的重要性。进一步分析揭示了不同系列的工具使用策略的差异,为指导开发更有效方法提供了可操作的见解。代码和数据可在https://huggingface.co/bytedance-research/ToolHop找到。
我们提出了Samba ASR,这是第一个利用全新的Mamba架构作为编码器和解码器的最先进的自动语音识别(ASR)模型,建立在状态空间模型(SSMs)的基础上。与基于Transformer的ASR模型不同,后者依赖于自注意力机制来捕捉依赖关系,Samba ASR通过高效的状态空间动态有效地建模本地和全局时间依赖关系,实现了显著的性能提升。通过解决Transformer的限制,例如随输入长度二次扩展和难以处理长距离依赖关系等问题,Samba ASR实现了卓越的准确性和效率。 实验结果表明,Samba ASR在各种标准基准测试中均超越了现有的开源基于Transformer的ASR模型,将其确立为ASR领域的新的最先进技术。对基准数据集的广泛评估显示,在词错误率(WER)方面取得了显著的改进,在资源稀缺情况下甚至表现出竞争力。此外,Mamba架构的计算效率和参数优化使Samba ASR成为各种ASR任务的可扩展和强大解决方案。 我们的贡献包括: - 展示了SSMs相对于基于Transformer的模型在语音序列处理中的优越性的新Samba ASR架构。 - 对公共基准测试进行了全面评估,展示了最先进的性能。 - 对计算效率、对噪声的稳健性和序列泛化能力进行了分析。这项工作突出了Mamba SSMs作为高效准确ASR的无Transformer替代方案的可行性。通过利用状态空间建模的进展,Samba ASR为ASR性能和未来研究设立了新的基准。
本文提出了一个强大的框架,通过将多个特定身份(ID)照片与视频扩散Transformer相结合,用于定制视频创作,被称为Ingredients。总体上,我们的方法包括三个主要模块:(i)一个面部提取器,从全局和局部角度捕获每个人的ID的多功能和精确的面部特征;(ii)一个多尺度投影器,将面部嵌入映射到视频扩散Transformer中图像查询的上下文空间;(iii)一个ID路由器,动态地将多个ID嵌入组合并分配到相应的时空区域。通过精心策划的文本-视频数据集和多阶段训练协议,Ingredients展示了将自定义照片转化为动态和个性化视频内容的卓越性能。定性评估突显了所提出方法的优势,将其定位为在基于Transformer的架构中,相较于现有方法,更有效的生成视频控制工具的重大进展。数据、代码和模型权重可在以下网址公开获取:https://github.com/feizc/Ingredients。
设计结构化的视觉元素,如演示幻灯片,对于沟通需求至关重要,需要具备内容创作和视觉规划技能。在这项工作中,我们解决了自动生成幻灯片的挑战,模型从自然语言(NL)指令生成幻灯片演示。我们首先介绍了SlidesBench基准测试,这是第一个幻灯片生成基准测试,包括来自10个领域的310个幻灯片组合的7k个训练和585个测试示例。SlidesBench支持评估,既可以基于参考度量与目标幻灯片的相似性,也可以无参考度量仅测量生成幻灯片的设计质量。我们使用各种模型对端到端图像生成和程序生成方法进行基准测试,发现编程方法生成的幻灯片质量更高,且具有用户可交互的格式。基于程序生成的成功,我们创建了AutoPresent,这是一个基于8B Llama的模型,训练于7k对指令和用于幻灯片生成的代码,取得了与封闭源模型GPT-4o可比的结果。我们进一步探讨了迭代设计优化,让模型自我完善其输出,发现这一过程提高了幻灯片的质量。我们希望我们的工作能为未来生成结构化视觉元素的研究奠定基础。
视觉语言模型(VLMs)的快速发展要求严格和可靠的评估。然而,当前的视觉问答(VQA)基准往往依赖于开放式问题,由于自然语言回答的差异性,精确评估变得困难。为了解决这个问题,我们引入了AutoConverter,这是一个主动框架,可以自动将这些开放式问题转换为多项选择题格式,从而实现客观评估,同时减少了昂贵的问题创建过程。我们的实验表明,AutoConverter能够生成正确且具有挑战性的多项选择题,VLMs在这些问题上的准确率通常与人类创建的问题相似或更低。利用AutoConverter,我们构建了VMCBench,这是一个基准,通过将20个现有的VQA数据集转换为统一的多项选择题格式,共计9,018个问题。我们在VMCBench上全面评估了33种最先进的VLMs,为可伸缩、一致和可重现的VLM评估设立了新标准。
本文提出了一种名为ProTracker的新型框架,用于在视频中对任意点进行稳健准确的长期密集跟踪。我们方法的关键思想是将概率积分纳入其中,以改进光流和语义特征的多重预测,从而实现稳健的短期和长期跟踪。具体而言,我们以概率方式整合光流估计,通过最大化每个预测的可能性,生成平滑准确的轨迹。为了有效地重新定位由于遮挡而消失和重新出现的具有挑战性的点,我们进一步将长期特征对应性纳入我们的光流预测中,以实现连续轨迹生成。大量实验证明,ProTracker在无监督和自监督方法中实现了最先进的性能,并且在几个基准测试中甚至优于监督方法。我们的代码和模型将在发表后公开发布。