每日精选AI研究论文及翻译
针对机器人操作中缺乏自我恢复机制和简单语言指令限制的挑战,开发稳健且可校正的视觉运动策略具有一定难度。为解决这些问题,我们提出了一种可扩展的数据生成流程,通过自动将专家演示与故障恢复轨迹和细粒度语言注释相结合进行训练。随后,我们引入了富语言引导的故障恢复(RACER)框架,该框架结合了故障恢复数据和丰富的语言描述以增强机器人控制。RACER具有一个视觉语言模型(VLM),作为在线监督者,提供详细的语言指导进行错误校正和任务执行,以及一个以语言为条件的视觉运动策略作为执行者,用于预测下一步动作。我们的实验结果表明,在RLbench上,RACER在各种评估设置下均优于最先进的Robotic View Transformer(RVT),包括标准的长视程任务、动态目标更改任务和零样本未见任务,在模拟和真实环境中均实现了卓越的性能。视频和代码可在以下网址获取:https://rich-language-failure-recovery.github.io。
大型语言模型(LLMs)在各个领域和任务中展现出卓越的能力,推动了我们在学习和认知方面知识的边界。最新的模型,OpenAI的o1,作为第一个内部化思维链技术并使用强化学习策略的LLM而脱颖而出。虽然它在各种通用语言任务上展示出惊人的能力,但在医学等专业领域的表现尚不明确。因此,本报告全面探讨了o1在不同医学场景下的表现,重点考察了理解、推理和多语言能力这三个关键方面。具体而言,我们的评估涵盖了6个任务,使用了来自37个医学数据集的数据,其中包括两个基于《新英格兰医学杂志》(NEJM)和《柳叶刀》的专业医学测验构建的更具挑战性的问答(QA)任务。这些数据集相较于MedQA等标准医学QA基准具有更大的临床相关性,更有效地转化为真实世界的临床实用性。我们对o1的分析表明,LLMs的增强推理能力可能(显著地)有助于它们理解各种医学指示并推理复杂的临床场景。值得注意的是,o1在准确性方面超过了之前的GPT-4,平均分别提高了6.2%和6.6%,涵盖了19个数据集和两个新创建的复杂QA场景。但与此同时,我们发现了模型能力和现有评估协议中的一些弱点,包括幻觉、多语言能力不一致以及评估指标的差异。我们将原始数据和模型输出发布在https://ucsc-vlaa.github.io/o1_medicine/以供未来研究使用。
视觉指导调整的成功加速了大型语言和视觉模型(LLVMs)的发展。遵循调整后的大型语言模型(LLMs)的扩展规律,LLVMs进一步增加了规模,达到了26B、34B,甚至80B参数。虽然模型规模的增加带来了显著的性能提升,但同时也需要更多的硬件资源进行训练和推断。因此,迫切需要高效的LLVMs,既能实现较大模型的性能,又能保持较小的规模。为了满足这一需求,我们提出了一系列新的高效LLVM家族,模型规模分别为0.5B、1.8B、3.8B和7B参数,名为Phantom,显著增强了在有限结构内的学习能力。通过在多头自注意力(MHSA)期间暂时增加潜在隐藏维度,我们使LLVMs能够在潜在状态下查看和理解更多的视觉-语言知识,而无需显著增加物理模型大小。为了最大化其优势,我们引入了幻影优化(PO),结合自回归监督微调(SFT)和直接偏好优化(DPO)-类似概念,有效地跟随正确答案,同时消除不正确和模糊的答案。Phantom在许多更大规模的开源和闭源LLVMs中表现出色,将自己定位为高效LLVM领域的领先解决方案。
本文介绍了一款多功能的图像到图像视觉助手 PixWizard,旨在基于自由形式语言指令进行图像生成、操作和翻译。为此,我们将各种视觉任务融合到统一的图像-文本-图像生成框架中,并策划了一个全像素指令调整数据集。通过构建自然语言中的详细指令模板,我们全面涵盖了大量多样化的视觉任务,如文本到图像生成、图像恢复、图像定位、密集图像预测、图像编辑、可控生成、修补/补全等。此外,我们采用扩散Transformer(DiT)作为基础模型,并通过灵活的任意分辨率机制扩展了其能力,使模型能够根据输入的纵横比动态处理图像,与人类感知过程密切对齐。该模型还融合了结构感知和语义感知指导,促进了从输入图像中有效融合信息。我们的实验表明,PixWizard 不仅展现了对具有不同分辨率的图像具有令人印象深刻的生成和理解能力,还展示了在未见任务和人类指令下具有良好的泛化能力。代码和相关资源可在 https://github.com/AFeng-x/PixWizard 获取。
大型语言模型(LLMs)已经展示了在转变临床应用中的重要潜力。在这项研究中,我们调查了四种技术在调整LLMs以适应临床用例方面的效力:连续预训练、指导微调、NEFTune和提示工程。我们在Mistral 7B和Mixtral 8x7B模型上应用这些方法,利用了一个包含500亿标记的大规模临床预训练数据集和一个包含5亿标记的指导微调数据集。我们在各种临床任务上的评估揭示了每种技术的影响。虽然超过2500亿标记的连续预训练本身带来了边际改进,但它为指导微调奠定了坚实基础。值得注意的是,NEFTune主要设计用于提高生成质量,但在我们的基准上意外地展现了额外的收益。复杂的提示工程方法进一步提升了性能。这些发现显示了定制微调策略的重要性,以及探索创新技术来优化LLMs在临床领域性能的重要性。
我们解决了使用基于扩散的生成模型生成高度逼真和可信的镜像反射的问题。我们将这个问题表述为图像修复任务,允许用户在生成过程中更好地控制镜子的放置。为了实现这一点,我们创建了SynMirror,这是一个大规模数据集,包含了各种合成场景,场景中的物体放置在镜子前面。SynMirror包含了大约198K个样本,从66K个独特的3D物体渲染而成,还包括它们的深度图、法线图和实例分割掩模,以捕捉场景的相关几何属性。利用这个数据集,我们提出了一种新颖的深度条件修复方法,名为MirrorFusion,它可以在给定输入图像和描绘镜子区域的掩模的情况下生成高质量、几何一致和照片逼真的镜像反射。通过广泛的定量和定性分析,MirrorFusion在SynMirror上表现优于最先进的方法。据我们所知,我们是第一个成功解决使用基于扩散的模型生成场景中对象的受控和忠实的镜像反射这一具有挑战性的问题的团队。SynMirror和MirrorFusion为从业者和研究人员开辟了图像编辑和增强现实应用的新途径。
最近的反渲染研究表明利用物体的多视图图像恢复形状、反照率和材质具有潜力。然而,由于从输入图像中解开反照率和材质属性的固有挑战,恢复的组件通常无法在新的光照条件下准确渲染。为了解决这一挑战,我们引入了MaterialFusion,这是一个增强的传统3D反渲染流程,融合了对纹理和材质属性的2D先验。我们提出了StableMaterial,这是一个2D扩散模型先验,用于优化多光照数据,从给定的输入外观中估计最可能的反照率和材质。该模型是在一个由约12K个艺术家设计的合成Blender对象组成的策划数据集BlenderVault中,通过反照率、材质和重照图像数据进行训练的。我们将这种扩散先验与反渲染框架相结合,其中我们使用得分蒸馏采样(SDS)来引导反照率和材质的优化,从而提高了与先前工作相比的重照性能。我们在4个合成和真实物体的数据集上验证了MaterialFusion在不同照明条件下的重照性能,显示我们的扩散辅助方法显著改善了在新的光照条件下重建物体的外观。我们打算公开发布我们的BlenderVault数据集,以支持这一领域的进一步研究。
2022年11月发布的ChatGPT引发了对后训练的极大兴趣,也带来了大量新的偏好优化(PO)方法。这些方法声称通过与人类成对偏好更好地对应来实现更优越的对齐,通常由LLM评委来衡量。在这项工作中,我们试图回答以下问题--LLM评委的偏好是否能转化为对其他更具体的对齐指标的进展,如果不能,原因是什么?我们为对齐定义了一个具体的指标,并介绍了迄今为止最大的标准化、可重现的LLM元基准SOS-Bench。我们发现:(1)LLM评判与安全性、世界知识和指令遵循等具体度量指标不相关;(2)LLM评委具有强大的隐性偏见,优先考虑风格而非事实和安全性;(3)后训练的监督微调(SFT)阶段,而非PO阶段,对对齐具有最大影响,数据扩展和提示多样性是推动因素。我们的代码库和完整结果可在https://github.com/penfever/sos-bench找到。
本文介绍了一种零样本语音转换(VT)模块,可无缝集成到多语言文本转语音(TTS)系统中,实现跨语言转换个人的语音。我们提出的VT模块包括一个处理参考语音的说话人编码器、一个瓶颈层和残差适配器,连接到现有的TTS层。我们比较了这些组件的各种配置的性能,并报告了跨语言的平均意见分数(MOS)和说话人相似度。使用每位说话人的单个英语参考语音,我们在九种目标语言中实现了平均语音转换相似度得分达到73%。声音特征对于构建和感知个体身份具有重要影响。由于生理或神经状况导致声音丧失可能会引发对核心身份的深刻失落感。作为一个案例研究,我们演示了我们的方法不仅可以转换典型语音,还可以恢复患有运动障碍的个体的声音,即使只有非典型语音样本可用-对于那些从未有过典型语音或存储过自己声音的人来说,这是一种宝贵的工具。提供跨语言典型音频样本以及演示为运动障碍说话者恢复声音的视频,网址为(google.github.io/tacotron/publications/zero_shot_voice_transfer)。
打造一个单一、多用途的基于物理的控制器,能够为交互式角色赋予生命,涵盖广泛的场景,代表了角色动画领域的一个激动人心的前沿。理想的控制器应该支持多样的控制模式,比如稀疏目标关键帧、文本指令和场景信息。虽然先前的研究提出了基于物理模拟、场景感知的控制模型,但这些系统主要集中在开发专门针对狭窄任务和控制模式的控制器上。本文提出了MaskedMimic,这是一种新颖的方法,将基于物理的角色控制问题形式化为一般的运动修复问题。我们的关键洞察是训练一个统一的模型,从部分(遮罩)运动描述中合成动作,比如遮罩关键帧、物体、文本描述或二者的任意组合。通过利用运动跟踪数据并设计可扩展的训练方法,有效地利用多样的运动描述生成连贯的动画。通过这一过程,我们的方法学习到一个基于物理的控制器,提供直观的控制界面,无需为所有感兴趣的行为繁琐地设计奖励机制。所得到的控制器支持广泛的控制模式,并实现了不同任务之间的无缝过渡。通过运动修复统一角色控制,MaskedMimic创造了多才多艺的虚拟角色。这些角色可以动态适应复杂场景,并根据需要组合各种动作,实现更具交互性和沉浸感的体验。
糖尿病是一种慢性疾病,对全球健康构成重大负担,优化糖尿病管理需要多利益相关者的合作。大型语言模型(LLMs)在各种医疗场景中显示出潜力,但它们在各种糖尿病任务中的有效性尚未得到证实。在这项研究中,我们引入了一个框架来训练和验证糖尿病特定的LLMs。我们首先开发了一个全面的数据处理流程,包括数据收集、过滤、增强和精炼。这种方法有助于创建一个高质量的糖尿病特定数据集,并从头开始建立了几个评估基准。利用收集的训练数据集,我们对糖尿病特定的LLM系列进行了微调,相比其他LLMs,在理解和处理各种糖尿病任务方面展示了最先进的能力。此外,临床研究显示了我们模型在糖尿病护理中的潜在应用,包括提供个性化医疗、协助医学教育和简化临床任务。总之,我们的研究介绍了一个框架来开发和评估糖尿病特定的LLM系列,并强调了它在增强临床实践和为不同最终用户提供个性化、数据驱动的糖尿病支持方面的潜力。代码可通过GitHub获取:https://github.com/waltonfuture/Diabetica。
目前越来越多的人对使用生成式人工智能来为虚拟现实(VR)应用程序创建3D空间表现出兴趣。然而,如今的模型生成人工环境,无法支持那些需要融入用户物理环境背景的协作任务。为了生成支持VR远程存在的环境,我们引入了SpaceBlender,这是一个新颖的流程,利用生成式人工智能技术将用户的物理环境融合到统一的虚拟空间中。该流程通过深度估计、网格对齐和基于扩散的空间补全的迭代过程,利用几何先验和自适应文本提示,将用户提供的2D图像转换为富有上下文的3D环境。在一项初步的被试研究中,20名参与者成对执行了协作的VR亲和图表任务,我们将SpaceBlender与通用虚拟环境和最先进的场景生成框架进行了比较,评估其创建适合协作的虚拟空间的能力。参与者赞赏SpaceBlender提供的增强熟悉感和上下文,但也指出生成环境中的复杂性可能会分散任务焦点。根据参与者的反馈,我们提出了改进流程的方向,并讨论了融合空间在不同场景中的价值和设计。
本文通过对OpenAI最新推理模型o1-preview和o1-mini在编码任务上的案例研究,与其他前沿模型进行比较。o1模型在单任务基准WebApp1K上取得了SOTA结果。为此,我们引入了WebApp1K-Duo,一个更难的基准,将任务数量和测试用例数量翻倍。新基准导致o1模型的性能显著下降,落后于Claude 3.5。此外,当面对非典型但正确的测试用例时,它们经常失败,而非推理模型偶尔可以避免这种陷阱。我们假设性能变化是由于指令理解能力造成的。具体而言,当所有期望都被捕捉到时,推理机制会提升性能,而当关键期望被忽略时,错误会加剧,这可能受输入长度的影响。因此,我们认为推理模型的编码成功取决于一流的基础模型和SFT,以确保对指令的细致遵循。
语音声音传达了大量关于场景的信息,导致了从混响到额外环境声音等各种效果。在本文中,我们通过操作输入语音,使其听起来好像是在不同场景中录制的,给定了从该场景录制的音视频条件示例。我们的模型通过自监督学习,利用自然视频包含重复出现的声音事件和纹理的事实。我们从视频中提取音频片段并应用语音增强。然后,我们训练一个潜在扩散模型来恢复原始语音,使用另一个从视频中的其他地方获取的音视频片段作为条件提示。通过这个过程,模型学会了将条件示例的声音特性转移到输入语音中。我们展示了我们的模型可以成功地使用未标记的野外视频进行训练,并且额外的视觉信号可以提高其声音预测能力。请查看我们项目的网页以获取视频结果:https://tinglok.netlify.app/files/avsoundscape/