每日精选AI研究论文及翻译
随着大型语言模型(LLMs)的出现,医学诊断领域发生了重大变革,然而这些模型内部的可解释性挑战仍然未得到很好的解决。本研究引入了诊断链(CoD)来增强基于LLM的医学诊断的可解释性。CoD将诊断过程转化为一种诊断链,模拟了医生的思维过程,提供了透明的推理路径。此外,CoD输出疾病置信度分布,以确保决策过程的透明性。这种可解释性使模型诊断可控,并有助于通过减少置信度的熵来识别需要进一步调查的关键症状。借助CoD,我们开发了DiagnosisGPT,能够诊断9604种疾病。实验结果表明,DiagnosisGPT在诊断基准上优于其他LLMs。此外,DiagnosisGPT提供了可解释性,同时确保了诊断严谨性的可控性。
本文并未介绍新颖的方法。相反,它提供了对KAN和MLP模型在各种任务中的更公平、更全面的比较,包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示。具体而言,我们控制参数数量和FLOPs来比较KAN和MLP的性能。我们的主要观察是,除了符号公式表示任务外,MLP通常优于KAN。我们还对KAN进行消融研究,发现其在符号公式表示中的优势主要来自其B样条激活函数。当B样条应用于MLP时,在符号公式表示中的性能显著提高,超过或与KAN相匹敌。然而,在MLP已经优于KAN的其他任务中,B样条并不能显著提升MLP的性能。此外,我们发现在标准的类增量连续学习环境中,KAN的遗忘问题比MLP更严重,这与KAN论文中报道的结果不同。我们希望这些结果能为未来对KAN和其他MLP替代方案的研究提供启示。项目链接:https://github.com/yu-rp/KANbeFair
最近视频生成方面的进展主要利用扩散模型来生成短时内容。然而,这些方法通常在建模复杂叙事和在长时间内保持角色一致性方面表现不佳,而这对于电影等长篇视频制作至关重要。我们提出了MovieDreamer,这是一个新颖的分层框架,将自回归模型的优势与基于扩散的渲染相结合,开创了具有复杂情节发展和高视觉保真度的长时间视频生成。我们的方法利用自回归模型实现全局叙事连贯性,预测一系列视觉令牌,随后通过扩散渲染转换为高质量视频帧。这种方法类似于传统电影制作过程,其中复杂故事被分解为可管理的场景捕捉。此外,我们采用多模态脚本,丰富场景描述,详细角色信息和视觉风格,增强了场景之间的连续性和角色身份。我们展示了跨多种电影类型的广泛实验,表明我们的方法不仅实现了优越的视觉和叙事质量,而且有效地将生成内容的持续时间显著延长到目前能力之外。主页:https://aim-uofa.github.io/MovieDreamer/。
虚拟试穿(VTON)已成为一项变革性技术,赋予用户在无需实际试穿服装的情况下尝试时尚的能力。然而,现有方法常常难以生成高保真度和细节一致的结果。扩散模型,如稳定扩散系列,展示了它们在创建高质量和逼真图像方面的能力,但在诸如VTON之类的条件生成场景中遇到了巨大挑战。具体而言,这些模型在为虚拟试穿生成图像时往往难以在控制和一致性之间保持平衡。OutfitAnyone通过利用双流条件扩散模型来解决这些限制,使其能够熟练处理服装变形,从而获得更逼真的结果。它通过姿势、体型等可扩展调节因素以及广泛适用性区分自己,适用范围从动漫到野外图像。OutfitAnyone在多样化场景中的表现凸显了其实用性和可部署性。有关更多详细信息和动画结果,请访问https://humanaigc.github.io/outfit-anyone/。
文本到视频(T2V)生成模型取得了显著进展,但它们将不同对象、属性、动作和运动组合成视频的能力仍未被探索。先前的文本到视频基准测试也忽略了这一重要能力的评估。在这项工作中,我们进行了第一次系统研究关于组合式文本到视频生成。我们提出了T2V-CompBench,这是专为组合式文本到视频生成量身定制的第一个基准测试。T2V-CompBench包含了组合性的多个方面,包括一致的属性绑定、动态属性绑定、空间关系、运动绑定、动作绑定、对象交互和生成数值。我们进一步精心设计了基于MLLM的度量、基于检测的度量和基于跟踪的度量,这些度量可以更好地反映出七个提出的类别中700个文本提示的组合式文本到视频生成质量。所提出的度量的有效性通过与人类评估的相关性得到验证。我们还对各种文本到视频生成模型进行基准测试,并在不同模型和不同组合式类别之间进行深入分析。我们发现,对于当前模型来说,组合式文本到视频生成是非常具有挑战性的,希望我们的尝试能为未来在这个方向上的研究提供启示。
现有的3D人体物体交互(HOI)数据集和模型仅仅将全局描述与长HOI序列对齐,缺乏对中间状态和状态之间转换的详细理解。在本文中,我们认为细粒度语义对齐,利用状态级描述,为学习语义丰富的HOI表示提供了一种有前途的范式。为了实现这一目标,我们引入了Semantic-HOI,这是一个新数据集,包括超过20K个配对的HOI状态,每个HOI状态都有细致的描述,以及发生在两个连续状态之间的身体动作。利用提出的数据集,我们设计了三个状态级HOI任务,以实现HOI序列内的细粒度语义对齐。此外,我们提出了一个名为F-HOI的统一模型,旨在利用多模态指令,并赋予多模态大语言模型有效处理各种HOI任务的能力。F-HOI具有多重优势:(1)它采用支持多样多模态输入的统一任务制定。 (2)它在2D、3D和语言空间中保持HOI的一致性。 (3)它利用细粒度文本监督进行直接优化,避免对HOI状态进行复杂建模。大量实验证明,F-HOI有效地将HOI状态与细粒度语义描述对齐,熟练地处理理解、推理、生成和重建任务。
随着数据可用性和计算资源的进步,多模态大型语言模型(MLLMs)展示了在各个领域的能力。然而,在MLLMs中视觉编码器的二次复杂度限制了输入图像的分辨率。目前大多数方法通过将高分辨率图像裁剪成较小的子图像来缓解这个问题,然后由视觉编码器独立处理这些子图像。尽管捕捉了足够的局部细节,但这些子图像缺乏全局上下文,并且无法相互交互。为了解决这一局限性,我们提出了一种新颖的MLLM,INF-LLaVA,旨在有效地感知高分辨率图像。INF-LLaVA包含两个创新组件。首先,我们引入了双视角裁剪模块(DCM),确保每个子图像既包含来自局部视角的连续细节,又包含来自全局视角的综合信息。其次,我们引入了双视角增强模块(DEM),以实现全局和局部特征的相互增强,使INF-LLaVA能够通过同时捕获详细的局部信息和全面的全局上下文来有效处理高分辨率图像。广泛的消融研究验证了这些组件的有效性,并在各种基准测试上的实验表明,INF-LLaVA优于现有的MLLMs。代码和预训练模型可在https://github.com/WeihuangLin/INF-LLaVA找到。
尽管国际奖金竞赛、按比例缩小的车辆和模拟环境等资源已经可用,但关于自主赛车和控制运行接近极限的运动汽车的研究受到车辆采购和管理成本高昂,以及开源模拟器物理精度有限的限制。本文提出了基于模拟器Assetto Corsa的赛车模拟平台,用于测试、验证和基准自主驾驶算法,包括强化学习(RL)和经典模型预测控制(MPC),在现实和具有挑战性的场景中。我们的贡献包括开发这一模拟平台、几种适用于赛车环境的最新算法,以及从人类驾驶员收集的全面数据集。此外,我们在离线RL设置中评估算法。所有必要的代码(包括环境和基准)、工作示例、数据集和视频均已公开发布,可在以下网址找到:https://assetto-corsa-gym.github.io。
基于视频的预训练为在前所未有的规模上学习强大的视觉表示提供了巨大潜力。最近,遮罩视频建模方法显示出可扩展性的潜力,但由于重建预定义的低级目标(如像素),在捕捉更高级语义方面存在不足。为了解决这个问题,我们提出了Sinkhorn引导的遮罩视频建模(SIGMA),这是一种新颖的视频预训练方法,它通过投影网络共同学习视频模型以及目标特征空间。然而,这种简单修改意味着常规的L2重建损失会导致微不足道的解决方案,因为两个网络都是联合优化的。为了解决这个问题,我们将时空管道的特征均匀分布在有限数量的可学习聚类中。通过将其视为最优传输问题,我们在批处理中强制生成特征的高熵,将语义和时间含义融入特征空间。由此产生的聚类分配被用作对称预测任务的目标,其中视频模型预测投影网络的聚类分配,反之亦然。在三个基准测试中跨十个数据集的实验结果验证了SIGMA在学习更高性能、具有时间意识和稳健的视频表示方面的有效性,超越了最先进的方法。我们的项目网站和代码可在以下网址找到:https://quva-lab.github.io/SIGMA。
部署语言模型(LMs)需要输出既具有高质量,又符合安全准则。尽管推理时间防护(ITG)提供了将模型输出分布转向符合性的解决方案,但我们发现当前方法在平衡安全性和实用性方面存在困难。安全地处理不符合规范的查询的ITG方法表现出较低的实用性,而优先考虑实用性的方法则会牺牲安全性。我们将这种权衡称为防护栏税,类似于对齐税。为了解决这个问题,我们提出了PrimeGuard,一种利用结构化控制流的新型ITG方法。 PrimeGuard将请求路由到LM的不同自实例,具有不同的指令,利用其固有的遵循指令能力和上下文学习。我们的无调整方法动态编译每个查询的系统设计准则。我们构建并发布了safe-eval,一个多样化的红队安全基准。广泛的评估表明,PrimeGuard在无需微调的情况下,通过(1)显著增加对迭代越狱攻击的抵抗力,(2)在安全防护方面取得了最先进的结果,同时(3)匹配了对齐调整模型的实用性评分。广泛的评估表明,PrimeGuard在无需微调的情况下,优于所有竞争基线,并通过将安全响应的比例从61%提高到97%,将最大模型的平均实用性评分从4.17提高到4.29,同时将攻击成功率从100%降低到8%。 PrimeGuard的实现可在https://github.com/dynamofl/PrimeGuard找到,safe-eval数据集可在https://huggingface.co/datasets/dynamoai/safe_eval找到。
视觉语言模型(VLMs)的应用在各种机器人任务中取得了令人瞩目的成功,但在四足机器人导航中使用基础模型的探索较少。我们介绍了Cross Anything System(CAS),这是一个创新系统,由高级推理模块和低级控制策略组成,使机器人能够穿越复杂的3D地形并到达目标位置。对于高级推理和运动规划,我们提出了一种利用VLM的新颖算法系统,设计了任务分解和闭环子任务执行机制。对于低级运动控制,我们利用概率退火选择(PAS)方法通过强化学习训练控制策略。大量实验证明,我们的整个系统能够准确而稳健地穿越复杂的3D地形,其强大的泛化能力确保了在各种室内和室外场景以及地形中的应用。项目页面:https://cross-anything.github.io/