每日精选AI研究论文及翻译
人体动作生成在数字人和人形机器人控制等应用中起着至关重要的作用。然而,大多数现有方法忽略了物理约束,导致频繁产生具有明显缺陷的物理不合理动作,如漂浮和脚滑动。在本文中,我们提出了Morph,一个无运动物理的优化框架,包括一个运动生成器和一个运动物理细化模块,用于增强物理合理性,而不依赖昂贵的现实世界运动数据。具体而言,运动生成器负责提供大规模的合成运动数据,而运动物理细化模块利用这些合成数据在物理模拟器内训练一个运动模仿器,强制执行物理约束将嘈杂的动作投影到一个物理合理的空间。这些经过物理细化的动作进一步用于微调运动生成器,从而增强其能力。在文本到动作和音乐到舞蹈生成任务上的实验表明,我们的框架在改善物理合理性的同时实现了最先进的动作生成质量。
视觉语言模型(VLMs)在多模态推理任务中展示了显著的进展。然而,由于存在诸如虚构的图像理解或未经完善的推理路径等问题,它们仍然经常生成不准确或无关的响应。为了解决这些挑战,我们引入了Critic-V,这是一个受Actor-Critic范式启发的新颖框架,旨在提升VLMs的推理能力。该框架通过集成两个独立组件来解耦推理过程和评论过程:Reasoner生成基于视觉和文本输入的推理路径,而Critic提供建设性的批评以完善这些路径。在这种方法中,Reasoner根据文本提示生成推理响应,这些响应可以根据来自Critic的反馈作为策略进行迭代演变。这种交互过程在理论上受强化学习框架驱动,其中Critic提供自然语言批评而非标量奖励,从而提供更加细致的反馈以增强Reasoner在复杂推理任务上的能力。Critic模型使用直接偏好优化(DPO)进行训练,利用一个由基于规则奖励(RBR)排名的评论组成的偏好数据集来增强其评论能力。评估结果显示,Critic-V框架在8个基准测试中的5个中明显优于现有方法,尤其是在推理准确性和效率方面。Reasoner的动态基于文本的策略与经过偏好优化的Critic提供的建设性反馈相结合,使得多模态推理过程更加可靠和上下文敏感。我们的方法为增强VLMs的可靠性提供了一个有前途的解决方案,提高了它们在现实世界推理密集型多模态应用中的性能,如自动驾驶和具身智能。
本文介绍了虚拟试穿(VTOFF),这是一项新颖的任务,专注于从穿着衣物的个人的单张照片中生成标准化的服装图像。与传统的虚拟试衣(VTON)不同,后者是为模特穿上数字服装,VTOFF旨在提取一个规范的服装图像,面临着捕捉服装形状、质地和复杂图案的独特挑战。这一明确定义的目标使VTOFF特别适用于评估生成模型中的重建保真度。我们提出了TryOffDiff模型,该模型采用基于SigLIP的视觉调节来适应稳定扩散,以确保高保真度和细节保留。在修改后的VITON-HD数据集上进行的实验表明,我们的方法在基于姿势转移和虚拟试穿的基准方法中表现更好,且需要更少的预处理和后处理步骤。我们的分析揭示了传统图像生成度量不足以评估重建质量,促使我们依赖于DISTS进行更准确的评估。我们的结果突显了VTOFF在增强电子商务应用中的产品图像、推进生成模型评估,并激发未来高保真重建工作的潜力。演示、代码和模型可在以下网址找到:https://rizavelioglu.github.io/tryoffdiff/
尽管文本到图像(T2I)生成模型取得了显著进展,用户在实际场景中经常面临试错挑战。这一挑战源自于繁琐步骤的复杂性和不确定性,如制作合适的提示、选择适当的模型和配置特定参数,使用户不得不进行劳动密集型尝试以获得期望的图像。本文提出了自动T2I生成,旨在自动化这些繁琐步骤,使用户可以用自由聊天的方式简单描述他们的需求。为了系统研究这一问题,我们首先介绍了ChatGenBench,这是一个专为自动T2I设计的新型基准。它具有高质量的配对数据和多样的自由输入,可以全面评估自动T2I模型在所有步骤上的表现。此外,我们将自动T2I视为一个复杂的多步推理任务,提出了ChatGen-Evo,这是一种多阶段演化策略,逐步赋予模型必要的自动化技能。通过对步骤准确性和图像质量的广泛评估,ChatGen-Evo显著提升了各种基准的性能。我们的评估还揭示了推进自动T2I的宝贵见解。我们所有的数据、代码和模型将在https://chengyou-jia.github.io/ChatGen-Home 上提供。
我们提出了SelfSplat,这是一种新颖的3D高斯点喷模型,旨在从未定位的多视图图像中进行无姿态和无3D先验的通用3D重建。由于缺乏地面真实数据、学习的几何信息以及需要在没有微调的情况下实现准确的3D重建,这些设置本质上是不适定的,因此传统方法很难实现高质量的结果。我们的模型通过有效地将显式3D表示与自监督深度和姿态估计技术相结合,从而在姿态准确性和3D重建质量之间实现相互改进来解决这些挑战。此外,我们还结合了一个具有匹配感知的姿态估计网络和一个深度细化模块,以增强视图间的几何一致性,确保更准确和稳定的3D重建。为了展示我们方法的性能,我们在包括RealEstate10K、ACID和DL3DV在内的大规模真实世界数据集上进行了评估。SelfSplat在外观和几何质量方面均优于先前的最新方法,还展示了强大的跨数据集泛化能力。广泛的消融研究和分析也验证了我们提出方法的有效性。代码和预训练模型可在https://gynjn.github.io/selfsplat/获取。
扩散模型在生成任务中取得了令人瞩目的成果,如文本到图像(T2I)和文本到视频(T2V)合成。然而,在T2V生成中实现准确的文本对齐仍然具有挑战性,因为帧间存在复杂的时间依赖关系。现有基于强化学习(RL)的方法用于增强文本对齐,通常需要可微分奖励函数或受限于有限提示,这限制了它们的可扩展性和适用性。本文提出了Free^2Guide,一种新颖的无梯度框架,用于将生成的视频与文本提示进行对齐,而无需额外的模型训练。利用路径积分控制原理,Free^2Guide使用不可微分奖励函数来近似扩散模型的引导,从而实现了将强大的黑盒大规模视觉语言模型(LVLMs)作为奖励模型的集成。此外,我们的框架支持灵活地集成多个奖励模型,包括大规模基于图像的模型,以协同增强对齐而不会带来重大的计算开销。我们展示了Free^2Guide显著改善了各个维度上的文本对齐,并提升了生成视频的整体质量。
在信息过载的时代,手动注释庞大且不断增长的文档和学术论文变得越来越不切实际。自动关键词提取通过识别文本中的代表性术语来解决这一挑战。然而,大多数现有方法专注于短文档(最多512个标记),导致在处理长文本文档时存在空白。本文介绍了一种名为LongKey的新型框架,用于从长文档中提取关键词,该框架使用基于编码器的语言模型来捕捉扩展文本的复杂性。LongKey使用最大池化嵌入器来增强关键词候选表示。通过在全面的LDKP数据集和六个不同的未见数据集上进行验证,LongKey始终优于现有的无监督和基于语言模型的关键词提取方法。我们的研究结果表明LongKey具有多样性和卓越性能,标志着在处理各种文本长度和领域的关键词提取方面取得了进展。
最近大型语言模型(LLM)在医学多项选择题(MCQ)基准上的表现有所提升,引起了全球医疗服务提供者和患者的兴趣。特别是在面临急需医生和缺乏专家的低收入和中等收入国家(LMICs)中,LLMs提供了一种潜在可扩展的途径,以增强医疗保健的可及性并降低成本。然而,它们在全球南方地区,尤其是整个非洲大陆的有效性尚待建立。在这项工作中,我们介绍了AfriMed-QA,第一个大规模的泛非洲英语多专业医学问答(QA)数据集,包括来自16个国家的60多所医学院的15,000个问题(开放式和封闭式),涵盖32个医学专业。我们进一步评估了30个LLM在多个方面的表现,包括正确性和人口统计偏见。我们的研究结果显示,在不同专业和地理位置之间存在显著的表现差异,MCQ的表现明显落后于USMLE(MedQA)。我们发现生物医学LLMs的表现不及一般模型,并且较小的适合边缘的LLMs难以达到及格分数。有趣的是,人类评估显示,与临床医生的答案相比,消费者普遍更喜欢LLM的答案和解释。