每日精选AI研究论文及翻译
在大规模文本数据语料库上对大型语言模型(LLMs)进行预训练现已成为一种标准范式。在将这些LLMs用于许多下游应用时,通常会通过RAG-based-prompting或微调将新知识(例如,时效性新闻或私有领域知识)额外融入预训练模型中。然而,模型获取此类新知识的最佳方法仍然是一个悬而未决的问题。在本文中,我们提出了检索增强微调(RAFT),这是一种训练方法,可提高模型在“开放书籍”领域设置中回答问题的能力。在RAFT中,给定一个问题和一组检索文档,我们训练模型忽略那些对回答问题没有帮助的文档,我们称之为干扰文档。RAFT通过引用相关文档中能够帮助回答问题的正确序列来实现这一点。这与RAFT的思维链式响应相结合,有助于提高模型的推理能力。在特定领域的RAG中,RAFT在PubMed、HotpotQA和Gorilla数据集上持续改善模型的性能,提供了一个用于改进预训练LLMs到领域内RAG的后训练方法。RAFT的代码和演示可在github.com/ShishirPatil/gorilla上获得。
在科学研究及其应用中,科学文献分析至关重要,因为它使研究人员能够借鉴他人的工作。然而,科学知识的快速增长导致学术文章数量大幅增加,使深入文献分析变得越来越具有挑战性和耗时。大型语言模型(LLMs)的出现为解决这一挑战提供了新途径。LLMs以其强大的文本摘要能力而闻名,被视为改进科学文献分析的潜在工具。然而,现有的LLMs也存在局限性。科学文献通常包含各种多模态元素,如分子结构、表格和图表,这些元素对以文本为重点的LLMs来说很难理解和分析。这一问题迫切需要新的解决方案,能够充分理解和分析科学文献中的多模态内容。为了满足这一需求,我们提出了Uni-SMART(Universal Science Multimodal Analysis and Research Transformer),这是一种专为深入理解多模态科学文献而设计的创新模型。通过在多个领域进行严格的定量评估,Uni-SMART展示了比领先的以文本为重点的LLMs更优越的性能。此外,我们的探索还延伸到实际应用,包括专利侵权检测和图表的细致分析。这些应用不仅突显了Uni-SMART的适应性,也展示了它革新我们与科学文献互动方式的潜力。
长篇视频理解在计算机视觉中是一个重大挑战,需要一种能够推理长时间多模态序列的模型。受人类认知过程对长篇视频理解的启发,我们强调互动推理和规划,而不是处理长篇视觉输入的能力。我们引入了一种新颖的基于代理的系统,VideoAgent,它采用一个大型语言模型作为中央代理,迭代地识别和整理关键信息以回答问题,同时利用视觉-语言基础模型作为工具来翻译和检索视觉信息。在具有挑战性的EgoSchema和NExT-QA基准测试中,VideoAgent 在零样本准确率上分别达到了54.1%和71.3%,平均仅使用了8.4和8.2帧。这些结果表明我们的方法在效果和效率上优于当前最先进的方法,突显了基于代理的方法在推进长篇视频理解方面的潜力。
通常,大型语言模型的对齐是由模型提供者执行的,以增加或控制跨用例和上下文中普遍理解的行为。相比之下,在本文中,我们提出了一种方法和架构,赋予应用开发者调整模型以符合其特定价值观、社会规范、法律和其他法规,并在上下文中协调潜在冲突要求的能力。我们阐明了这种对齐工作室架构的三个主要组成部分:框架构建者、教练和审计员,它们协同工作以控制语言模型的行为。我们通过一个实例来说明这种方法,即将公司内部企业聊天机器人与其业务行为准则对齐。
本文介绍了一种改进的推测解码方法,旨在提高为大型语言模型提供服务的效率。我们的方法充分利用了两种已建立的技术的优势:经典的双模型推测解码方法和较新的单模型方法Medusa。受Medusa启发,我们的方法采用了单模型策略进行推测解码。然而,我们的方法通过采用一种单一、轻量级的草稿头部,具有循环依赖设计,本质上类似于经典推测解码中使用的小型草稿模型,但没有完整Transformer架构的复杂性。由于循环依赖,我们可以使用束搜索快速过滤掉草稿头中的不需要的候选项。结果是一种结合了单模型设计简单性的方法,避免了在Medusa中仅用于推断的数据相关树注意力结构的需求。我们通过实证方法在几种流行的开源语言模型上展示了所提方法的有效性,并对采用这种方法涉及的权衡进行了全面分析。
基于扩散的音频和音乐生成模型通常通过构建音频的图像表示(例如mel-频谱图)来生成音乐,然后使用相位重建模型或声码器将其转换为音频。然而,典型的声码器会以较低分辨率(例如16-24 kHz)生成单声道音频,从而限制了其效果。我们提出了MusicHiFi——一种高保真立体声声码器。我们的方法采用三个生成对抗网络(GANs)级联,将低分辨率mel-频谱图转换为音频,通过带宽扩展上采样到高分辨率音频,并将其升级为立体声音频。与先前的工作相比,我们提出了以下改进:1)统一的基于GAN的生成器和鉴别器架构以及训练程序,用于我们级联的每个阶段;2)一种新的快速、接近降采样兼容的带宽扩展模块;3)一种新的快速降低混音兼容的单声道到立体声的混音器,确保输出中单声道内容的保留。我们使用客观和主观听测试评估了我们的方法,并发现与过去的工作相比,我们的方法在音频质量、空间定位控制和推理速度方面具有可比或更好的表现。音频示例位于https://MusicHiFi.github.io/web/。
从单视图图像中重建详细的3D对象仍然是一项具有挑战性的任务,因为可用信息有限。在本文中,我们介绍了一种名为FDGaussian的新颖的单图像3D重建的两阶段框架。最近的方法通常利用预训练的2D扩散模型从输入图像生成可能的新视图,但它们在多视图不一致或几何保真度不足方面遇到问题。为了克服这些挑战,我们提出了一种正交平面分解机制,从2D输入中提取3D几何特征,实现了一致的多视图图像生成。此外,我们进一步加速了最先进的高斯光斑技术,结合了极线注意力来融合来自不同视角的图像。我们展示了FDGaussian能够生成在不同视角下具有高一致性的图像,并在定性和定量上重建高质量的3D对象。更多示例请访问我们的网站https://qjfeng.net/FDGaussian/。
在轻量级模型开发方面的先前工作主要集中在卷积神经网络(CNN)和基于Transformer的设计,但面临持久挑战。CNN擅长局部特征提取,但会牺牲分辨率,而Transformer提供全局范围,但会增加计算需求(O(N^2))。准确性和效率之间的这种持续权衡仍然是一个重要障碍。最近,状态空间模型(SSMs),如Mamba,在语言建模和计算机视觉等各种任务中表现出色,并将全局信息提取的时间复杂度降低到O(N)。受此启发,本文提出探索在轻量级模型设计中视觉状态空间模型的潜力,并引入一种名为EfficientVMamba的新型高效模型变体。具体而言,我们的EfficientVMamba通过高效的跳跃采样集成了一种基于孔径的选择性扫描方法,构成了旨在利用全局和局部表征特征的构建模块。此外,我们研究了SSM块和卷积之间的集成,并引入了一个高效的视觉状态空间块,结合了额外的卷积分支,进一步提升了模型性能。实验结果表明,EfficientVMamba降低了计算复杂性,同时在各种视觉任务中取得了有竞争力的结果。例如,我们的EfficientVMamba-S在1.3G FLOPs的情况下,在ImageNet上将Vim-Ti在1.5G FLOPs的情况下的准确率大幅提高了5.6%。代码可在以下链接找到:https://github.com/TerryPei/EfficientVMamba。
受到预训练的2D扩散模型日益增加的可用性的鼓舞,通过利用得分蒸馏采样(SDS)进行图像到3D生成正在取得显著进展。大多数现有方法将来自2D扩散模型的新视角提升与通常将参考图像作为条件并在参考视角应用硬L2图像监督相结合。然而,过度依赖图像容易破坏2D扩散模型的归纳知识,导致频繁出现平坦或扭曲的3D生成。在这项工作中,我们从新的角度重新审视图像到3D,并提出Isotropic3D,这是一个仅以图像CLIP嵌入作为输入的图像到3D生成流程。Isotropic3D允许优化相对于方位角是各向同性的,仅依靠SDS损失。我们框架的核心在于两阶段扩散模型微调。首先,我们通过用图像编码器替换其文本编码器来微调文本到3D扩散模型,通过这种方式,模型初步获得图像到图像的能力。其次,我们使用我们的显式多视图注意力(EMA)进行微调,将多视图图像与无噪声的参考图像作为显式条件结合。CLIP嵌入在整个过程中发送到扩散模型,而参考图像在微调后被丢弃。因此,仅使用单个图像CLIP嵌入,Isotropic3D能够生成多视图相互一致的图像,以及一个具有更对称整洁内容、比例匀称的几何、丰富彩色纹理和较少失真的3D模型,与现有的图像到3D方法相比,仍然在很大程度上保持与参考图像的相似性。项目页面可在https://isotropic3d.github.io/找到。代码和模型可在https://github.com/pkunliu/Isotropic3D获取。
尽管文本到3D和图像到3D生成任务受到了相当多的关注,但它们之间一个重要但未被充分探索的领域是可控文本到3D生成,这是我们在这项工作中主要关注的。为了解决这个任务,1) 我们引入了多视角控制网络(MVControl),这是一种新颖的神经网络架构,旨在通过整合额外的输入条件(如边缘、深度、法线和涂鸦地图)来增强现有的预训练多视角扩散模型。我们的创新在于引入了一个调节模块,利用从输入条件图像和摄像机姿态计算得出的局部和全局嵌入,来控制基础扩散模型。一旦训练完成,MVControl能够为基于优化的3D生成提供3D扩散指导。2) 我们提出了一种高效的多阶段3D生成流程,利用最近大型重建模型和得分蒸馏算法的优势。在我们的MVControl架构基础上,我们采用了一种独特的混合扩散指导方法来引导优化过程。为了追求效率,我们采用3D高斯函数作为我们的表示,而不是常用的隐式表示。我们还首创了SuGaR的使用,这是一种将高斯函数绑定到网格三角形面的混合表示。这种方法缓解了3D高斯函数中几何形状不佳的问题,并实现了对网格上细粒度几何形状的直接雕塑。大量实验证明,我们的方法实现了稳健的泛化,并实现了高质量3D内容的可控生成。
实时高精度光流估计是各种应用中的关键组成部分,包括机器人定位和建图、目标跟踪以及计算机视觉中的活动识别。尽管最近基于学习的光流方法取得了高精度,但通常伴随着沉重的计算成本。本文提出了一种名为NeuFlow的高效光流架构,旨在解决高精度和计算成本问题。该架构采用了全局到局部的方案。通过提取不同空间分辨率下输入图像的特征,我们首先使用全局匹配在1/16分辨率上估计初始光流,捕捉大位移,然后在1/8分辨率上通过轻量级CNN层进行优化以获得更好的精度。我们在Jetson Orin Nano和RTX 2080上评估了我们的方法,展示了在不同计算平台上的效率改进。与几种最先进的方法相比,我们实现了显著的10倍至80倍加速,同时保持可比较的精度。我们的方法在边缘计算平台上实现约30帧每秒的性能,这在部署诸如无人机等小型机器人上的复杂计算机视觉任务方面具有重大突破。完整的训练和评估代码可在https://github.com/neufieldrobotics/NeuFlow获取。