每日精选AI研究论文及翻译
我们探讨了一种用于扩展大型语言模型推理时间计算的进化搜索策略。所提出的方法名为“心智进化”,利用语言模型生成、重组和完善候选响应。该方法避免了在解决评估器可用时需要形式化基础推理问题的必要性。在控制推理成本的情况下,我们发现“心智进化”在自然语言规划任务中明显优于其他推理策略,如最佳-N和顺序修订。在TravelPlanner和Natural Plan基准测试中,“心智进化”使用Gemini 1.5 Pro解决了超过98%的问题实例,而无需使用正式求解器。
我们介绍了PaSa,这是一款由大型语言模型驱动的先进论文搜索代理。PaSa能够自主做出一系列决策,包括调用搜索工具、阅读论文和选择相关参考文献,最终为复杂的学术查询获取全面准确的结果。我们使用强化学习和一个合成数据集AutoScholarQuery对PaSa进行优化,该数据集包含来自顶级人工智能会议出版物的3.5万个细粒度学术查询及相应论文。此外,我们开发了RealScholarQuery,一个收集真实学术查询以评估PaSa在更现实场景下性能的基准。尽管在合成数据上训练,PaSa在RealScholarQuery上明显优于现有基准,包括Google、Google Scholar、用于释义查询的Google with GPT-4、chatGPT(启用搜索的GPT-4o)、GPT-o1和PaSa-GPT-4o(通过提示GPT-4o实现的PaSa)。值得注意的是,PaSa-7B在recall@20上比最佳基于Google的基准Google with GPT-4o高出37.78%,在recall@50上高出39.90%。它还在召回率和精确率上分别比PaSa-GPT-4o高出30.36%和4.25%。模型、数据集和代码可在https://github.com/bytedance/pasa获得。
评估LLM的最常用方法之一是多项选择题(MCQ)测试。MCQ基准允许在几乎任何规模的主题上对LLM知识进行测试,因为结果可以被自动处理。为了帮助LLM回答,可以在提示中包含称为少量样本的几个示例。此外,LLM可以被要求直接选择选项回答问题,或者先提供推理然后再选择答案,这被称为思维链。除了检查所选答案是否正确外,评估还可以查看LLM对其回答的估计概率,作为LLM对回答的信心的指示。在本文中,我们研究了LLM对其答案的信心如何取决于模型是被要求直接回答还是在回答之前提供推理。对七种不同模型中各种主题的问题进行评估的结果表明,当LLM在回答之前提供推理时,它们对自己的答案更有信心。这种情况发生在所选答案是否正确的情况下。我们的假设是,这种行为是由于推理改变了所选答案的概率,因为LLM根据输入问题和支持所做选择的推理来预测答案。因此,LLM估计的概率似乎具有固有的局限性,应该理解这些局限性以便在评估程序中使用它们。有趣的是,在人类中也观察到了相同的行为,即解释答案会增加对其正确性的信心。
2D卡通风格是数字角色创建中一种突出的艺术形式,尤其受到年轻观众的喜爱。虽然数字人类技术的进步推动了对逼真数字人和3D角色的广泛研究,交互式2D卡通角色却受到相对较少的关注。与需要复杂构建和资源密集渲染的3D对应物不同,Live2D作为广泛使用的2D卡通角色格式,提供了一种更高效的选择,能够以模拟3D运动的方式为2D角色添加动画,而无需构建完整的3D模型。此外,Live2D采用轻量级的HTML5(H5)渲染,提高了可访问性和效率。在这份技术报告中,我们介绍了Textoon,这是一种基于文本描述生成多样化2D卡通角色的创新方法,采用Live2D格式。Textoon利用尖端的语言和视觉模型来理解文本意图并生成2D外观,能够在一分钟内创造各种惊艳且交互式的2D角色。该项目主页为https://human3daigc.github.io/Textoon_webpage/。
利用实时API增强大型语言模型(LLMs)可以帮助生成更准确和最新的响应。然而,在真实场景中评估LLMs的函数调用能力仍未得到充分探讨,这是由于数据收集和评估的复杂性。在这项工作中,我们介绍了ComplexFuncBench,这是一个针对五种真实场景的复杂函数调用基准测试。与现有基准测试相比,ComplexFuncBench包括多步骤和受限函数调用,需要长参数填充、参数值推理和128k长上下文。此外,我们提出了一个自动框架ComplexEval,用于定量评估复杂函数调用任务。通过全面实验,我们展示了现有LLMs在函数调用方面的不足,并提出了优化这些能力的未来方向。数据和代码可在https://github.com/THUDM/ComplexFuncBench 上获得。
我们介绍了一种名为X-Dyna的新型零样本、基于扩散的管道,用于通过来自驱动视频的面部表情和身体动作来为单个人类图像添加动画效果,生成逼真、具有上下文感知的主体和周围环境的动态。在以人体姿势控制为中心的先前方法基础上,X-Dyna解决了导致动态细节丢失的关键缺陷,增强了人类视频动画的逼真特性。我们方法的核心是动态适配器(Dynamics-Adapter),这是一个轻量级模块,能够有效地将参考外观背景整合到扩散骨干的空间注意力中,同时保留运动模块在合成流畅且复杂动态细节方面的能力。除了身体姿势控制,我们还将一个局部控制模块与我们的模型连接起来,以捕捉与身份解耦的面部表情,促进准确的表情转移,增强动画场景的逼真感。这些组件共同构成了一个统一框架,能够从各种人类和场景视频中学习人类运动和自然场景动态。全面的定性和定量评估表明,X-Dyna优于现有技术方法,创建了高度逼真和富有表现力的动画。代码可在https://github.com/bytedance/X-Dyna 上获得。
本文探讨了开发大型语言模型(LLMs)以精通多语言理解和医学知识所面临的挑战。我们证明,简单地将医学数据翻译并不保证在目标语言的临床任务中表现出色。我们的实验揭示了在不同医学任务中,训练数据中最佳语言组合存在显著差异。我们发现,具有精心校准语言比例的更大模型在母语临床任务上表现出色。此外,我们的结果表明,仅依赖微调可能不是将新语言知识纳入LLMs的最有效方法。相反,数据和计算密集型的预训练方法仍然可能是在多语言医学环境中实现最佳性能所必需的。这些发现为构建面向不同语言社区的有效和包容性医学人工智能系统提供了宝贵的指导。
最近,生成对抗网络(GANs)在基于中间表示(如梅尔频谱图)的语音超分辨率(SR)方面取得了进展。然而,现有的SR方法通常依赖于独立训练和串联网络,可能导致不一致的表示和较差的语音质量,特别是在域外情况下。在这项工作中,我们提出了HiFi-SR,这是一个统一的网络,利用端到端的对抗训练来实现高保真度的语音超分辨率。我们的模型采用了一个统一的变压器-卷积生成器,旨在无缝处理潜在表示的预测及其转换为时域波形。变压器网络作为强大的编码器,将低分辨率的梅尔频谱图转换为潜在空间表示,而卷积网络则将这些表示升级为高分辨率波形。为了增强高频保真度,我们在对抗训练过程中结合了一个多频段、多尺度时频鉴别器,以及一个多尺度梅尔重构损失。HiFi-SR具有通用性,能够将4 kHz至32 kHz之间的任何输入语音信号提升到48 kHz的采样率。实验结果表明,HiFi-SR在客观指标和ABX偏好测试中明显优于现有的语音SR方法,无论是在域内还是域外情况下(https://github.com/modelscope/ClearerVoice-Studio)。
我们介绍了GaussianAvatar-Editor,这是一个创新的框架,用于基于文本驱动的可编辑高斯头像化身,可以完全控制表情、姿势和视角。与静态3D高斯编辑不同,编辑可动画的4D高斯化身面临与动作遮挡和空间-时间不一致性相关的挑战。为了解决这些问题,我们提出了加权Alpha混合方程(WABE)。该函数增强了可见高斯的混合权重,同时抑制了对不可见高斯的影响,有效处理了编辑过程中的动作遮挡。此外,为了提高编辑质量并确保4D一致性,我们将条件对抗学习融入编辑过程中。这一策略有助于优化编辑结果并在整个动画过程中保持一致性。通过整合这些方法,我们的GaussianAvatar-Editor在可动画的4D高斯编辑中实现了逼真和一致的结果。我们在各种主题上进行了全面实验,验证了我们提出的技术的有效性,证明了我们方法的优越性。更多结果和代码请访问:[项目链接](https://xiangyueliu.github.io/GaussianAvatar-Editor/)。