每日精选AI研究论文及翻译
最近几个月出现了一个强大的新趋势,即将大型语言模型(LLMs)增强为自主语言代理,能够独立执行面向目标的多步任务,而不仅仅是回应人类用户的查询。然而,大多数现有的语言代理并未使用特定于环境的奖励进行优化。虽然一些代理允许通过口头反馈进行迭代改进,但它们并未以与基于梯度学习奖励兼容的方式进行推理和规划。本文介绍了一个有原则的框架,通过学习一个回顾模型来加强大型语言代理,该模型通过策略梯度自动调整语言代理提示以适应环境反馈。具体来说,我们提出的代理架构从多个环境和任务中学习奖励,用于微调预训练的语言模型,通过总结先前失败尝试的根本原因并提出行动计划来完善语言代理提示。各种任务的实验结果表明,语言代理随时间改善,我们的方法明显优于未充分利用环境梯度的基准线。这表明使用策略梯度优化改进语言代理是有前景的,我们相信我们的工作是首批之一,并且可以应用于优化代理架构中的其他模型,以随时间提升代理性能。
我们提出了MM-Vet,这是一个评估基准,用于检验大型多模态模型(LMMs)在复杂多模态任务上的表现。最近的LMMs展示了各种有趣的能力,比如解决写在黑板上的数学问题、推理新闻图片中的事件和名人,以及解释视觉笑话等。快速的模型进展给评估基准的发展带来了挑战。问题包括:(1)如何系统地构建和评估复杂的多模态任务;(2)如何设计能够适用于各种问题和答案类型的评估指标;以及(3)如何为模型提供超越简单性能排名的洞察力。为此,我们提出了MM-Vet,它基于这样一个观点设计,即解决复杂任务的有趣能力通常是由通用模型能够整合不同核心视觉-语言(VL)能力而实现的。MM-Vet定义了6种核心VL能力,并检查了从这些能力组合中得出的16种感兴趣的集成。对于评估指标,我们提出了一种基于LLM的评估器,用于开放式输出。该评估器能够跨不同问题类型和答案风格进行评估,从而产生统一的评分指标。我们在MM-Vet上评估了代表性的LMMs,为不同LMM系统范式和模型的能力提供了洞察。代码和数据可在https://github.com/yuweihao/MM-Vet获得。
开放词汇分割是一项具有挑战性的任务,需要从一个开放类别集中对对象进行分割和识别。解决这一挑战的一种方法是利用多模态模型,如CLIP,提供共享嵌入空间中的图像和文本特征,从而弥合封闭词汇和开放词汇识别之间的差距。因此,现有方法通常采用两阶段框架来解决问题,其中输入首先经过一个蒙版生成器,然后通过CLIP模型以及预测的蒙版。这个过程涉及多次从图像中提取特征,可能是低效且低效率的。相比之下,我们提出将所有内容构建成一个单阶段框架,使用共享的冻结卷积CLIP骨干网络,不仅显著简化了当前的两阶段流程,而且在准确性和成本之间取得了更好的平衡。所提出的FC-CLIP,受益于以下观察结果:冻结的CLIP骨干网络保持了开放词汇分类的能力,也可以作为强大的蒙版生成器,卷积CLIP在比对比图像文本预训练中使用的输入分辨率更大的情况下具有很好的泛化能力。当仅在COCO panoptic数据上进行训练并以零样本方式进行测试时,FC-CLIP在ADE20K上实现了26.8 PQ,16.8 AP和34.1 mIoU,在Mapillary Vistas上实现了18.2 PQ,27.9 mIoU,在Cityscapes上实现了44.0 PQ,26.8 AP和56.2 mIoU,分别比先前技术提高了+4.2 PQ,+2.4 AP,+4.2 mIoU在ADE20K上,+4.0 PQ在Mapillary Vistas上,+20.1 PQ在Cityscapes上。此外,FC-CLIP的训练和测试时间分别比相同的先前技术快了7.5倍和6.6倍,同时使用的参数少了5.9倍。FC-CLIP还在各种开放词汇语义分割数据集上树立了新的最先进性能水平。代码位于https://github.com/bytedance/fc-clip
临床试验匹配是卫生交付和发现中的关键过程。在实践中,它受到庞大的非结构化数据和不可扩展的手动处理的困扰。本文通过使用大型语言模型(LLMs)对临床试验匹配进行规模化研究,以肿瘤学作为重点领域。我们的研究基于目前正在美国一家大型医疗网络进行测试部署的临床试验匹配系统。初步发现是令人鼓舞的:像GPT-4这样的最新LLMs可以已经结构化临床试验的复杂资格标准,并提取复杂的匹配逻辑(例如,嵌套的AND/OR/NOT)。虽然仍然远非完美,LLMs明显优于先前的强基线,并可能作为帮助在人类参与的情况下筛选患者-试验候选者的初步解决方案。我们的研究还揭示了将LLMs应用于端到端临床试验匹配的一些重要增长领域,例如上下文限制和准确性,特别是在从纵向医疗记录中构建患者信息方面。
仿生、灵巧的机器人手有潜力复制人类能够完成的许多任务,并实现成为通用操作平台的地位。最近在强化学习(RL)框架方面取得了显著进展,已在四足动物的运动和灵巧操作任务中取得了卓越表现。结合基于GPU的高度并行化仿真技术,能够同时模拟成千上万个机器人,基于RL的控制器变得更具可伸缩性和易接近性。然而,为了将经RL训练的策略应用于现实世界,我们需要训练框架,输出可以与物理执行器和传感器配合工作的策略,以及一个可以用易得材料制造但足够强大以运行交互策略的硬件平台。本文介绍了仿生腱驱动的Faive Hand及其系统架构,该系统利用腱驱动的滚动接触关节实现了一个可三维打印、稳健的高自由度手部设计。我们对手部的每个元素进行建模,并将其整合到GPU仿真环境中,通过RL训练一个策略,并实现了将手部内灵巧的球体旋转技能零次迁移到物理机器人手。
我们介绍了分区扩散模型(CDM),这是一种在不同数据源上训练不同扩散模型(或提示)并在推断时任意组合它们的方法。各个模型可以在隔离环境中训练,不同时间、不同分布和领域上进行训练,然后可以组合以达到与同时在所有数据上训练的模型相媲美的性能。此外,每个模型仅包含在训练期间接触到的数据子集的信息,从而实现多种形式的训练数据保护。特别地,CDM 是第一种能够为大规模扩散模型实现选择性遗忘和持续学习的方法,同时也允许根据用户的访问权限提供定制模型。CDM 还允许确定生成特定样本时数据子集的重要性。