每日精选AI研究论文及翻译
最近视频自编码器(Video AEs)的发展显著提高了视频生成的质量和效率。在本文中,我们提出了一种新颖且紧凑的视频自编码器,VidTwin,将视频解耦为两个不同的潜在空间:结构潜在向量,捕捉整体内容和全局运动,以及动态潜在向量,代表细节和快速运动。具体而言,我们的方法利用了一个编码器-解码器骨干,增加了两个子模块来分别提取这些潜在空间。第一个子模块采用Q-Former来提取低频运动趋势,然后通过下采样块去除冗余内容细节。第二个子模块沿空间维度对潜在向量进行平均以捕捉快速运动。大量实验证明,VidTwin实现了高压缩率(0.20%)和高重建质量(在MCL-JCV数据集上的PSNR为28.14),在下游生成任务中表现高效且有效。此外,我们的模型具有可解释性和可扩展性,为未来视频潜在表示和生成研究铺平了道路。我们的代码已发布在https://github.com/microsoft/VidTok/tree/main/vidtwin。
由于巨大的资源需求和涉及的技术过程的复杂性,大型语言模型(LLMs)的有效预训练一直是具有挑战性的。本文提供了关于YuLan-Mini的详细技术报告,这是一个具有242亿参数的高性能基础模型,在类似参数规模的模型中实现了顶尖性能。我们的预训练方法侧重于通过三个关键技术贡献提高训练效果:一个精心设计的数据管道结合了数据清洗和数据调度策略,一个强大的优化方法来减轻训练不稳定性,以及一个有效的退火方法,其中包括有针对性的数据选择和长上下文训练。值得注意的是,YuLan-Mini在训练了1.08T个标记的情况下,实现了与行业领先模型相媲美的性能,而这些模型需要更多的数据。为了便于复现,我们发布了每个训练阶段数据组成的完整细节。项目详细信息可在以下链接获取:https://github.com/RUC-GSAI/YuLan-Mini。
在这项工作中,我们对基于主旨的上下文压缩方法进行了彻底的研究,以改善大型语言模型中的长上下文处理。我们关注两个关键问题:(1)这些方法能否很好地取代完整注意力模型?以及(2)由于压缩而出现的潜在失败模式是什么?通过大量实验,我们表明,虽然基于主旨的压缩在诸如检索增强生成和长文档问答等任务中可以实现接近无损性能,但在合成召回等任务中面临挑战。此外,我们确定了三种关键的失败模式:边界丢失、惊喜丢失和途中丢失。为了减轻这些问题,我们提出了两种有效策略:细粒度自动编码,增强原始标记信息的重建,以及分段式标记重要性估计,根据标记依赖性调整优化。我们的工作为理解基于主旨标记的上下文压缩提供了宝贵的见解,并提供了改进压缩能力的实用策略。
随着基础和视觉-语言模型的进步,以及有效的微调技术,已经开发了大量通用和专用模型,用于各种视觉任务。尽管这些模型具有灵活性和易用性,但没有单一模型能够处理所有可能由潜在用户设想的任务和/或应用。最近的方法,如视觉编程和带有集成工具的多模态LLMs,旨在通过程序合成来解决复杂的视觉任务。然而,这些方法忽视了用户约束(例如性能/计算需求),产生了难以部署的测试时样本特定解决方案,并且有时需要超出普通用户能力的低级指令。为了解决这些限制,我们引入了MMFactory,这是一个通用框架,包括模型和度量路由组件,类似于跨各种可用模型的解决方案搜索引擎。基于任务描述和少量样本输入-输出对以及(可选)资源和/或性能约束,MMFactory可以通过实例化和组合其模型库中的视觉-语言工具,提供多样的程序化解决方案。除了合成这些解决方案,MMFactory还提出度量标准和基准性能/资源特征,使用户能够选择符合其独特设计约束的解决方案。从技术角度来看,我们还引入了基于委员会的解决方案提议者,利用多代理LLM对话来为用户生成可执行、多样化、通用和稳健的解决方案。实验结果表明,MMFactory通过提供符合用户问题规范的最新解决方案,优于现有方法。项目页面位于https://davidhalladay.github.io/mmfactory_demo。
在过去的十年里,顺序推荐(SR)系统已经有了显著的发展,从传统的协同过滤转向深度学习方法,最近又发展到大型语言模型(LLMs)。虽然LLMs的采用推动了重大进展,但这些模型固有地缺乏协同过滤信息,主要依赖于文本内容数据,忽视了其他形式,因此未能实现最佳的推荐性能。为了解决这一局限性,我们提出了Molar,一种多模态大型语言顺序推荐框架,将多种内容形式与ID信息相结合,有效捕捉协同信号。Molar采用MLLM从文本和非文本数据生成统一的物品表示,促进全面的多模态建模,丰富物品嵌入。此外,它通过后对齐机制整合协同过滤信号,对齐基于内容和基于ID的模型的用户表示,确保精准的个性化和稳健的性能。通过无缝结合多模态内容和协同过滤见解,Molar捕捉了用户兴趣和上下文语义,从而提高了推荐准确性。大量实验证实,Molar明显优于传统和基于LLM的基准线,突显了其在利用多模态数据和协同信号进行顺序推荐任务中的优势。源代码可在https://anonymous.4open.science/r/Molar-8B06/找到。