每日精选AI研究论文及翻译
最近对大型语言模型(LLMs)的评估主要集中在测试它们在基本自然语言任务中的零/少样本能力,以及将指令翻译成工具API的能力。然而,尚未对利用复杂工具完成复杂多轮、多模态环境中的指令进行LLMs评估。为填补这一空白,我们引入了PowerPoint任务完成(PPTC)基准,以评估LLMs根据用户指令创建和编辑PPT文件的能力。它包含279个涵盖不同主题的多轮会话和涉及多模态操作的数百条指令。我们还提出了PPTX-Match评估系统,评估LLMs是否根据预测文件完成指令,而不是根据标签API序列,因此支持各种LLM生成的API序列。我们评估了3个封闭式LLMs和6个开源LLMs。结果显示,GPT-4在单轮对话测试中的准确率为75.1\%,但在完成整个会话方面面临挑战,仅实现了6\%的会话准确率。我们在我们的基准测试中发现了三个主要错误原因:多轮会话中的错误累积、长PPT模板处理和多模态感知。这给未来的LLM和代理系统带来了巨大挑战。我们在https://github.com/gydpku/PPTC 上发布了PPTC的数据、代码和评估系统。
我们提出了快速语音-文本预训练(FLAP)方法,这是一种自监督方法,通过遮盖、对比学习和重构有效地学习对齐的音频和文本表示。为了提高效率,FLAP随机丢弃音频频谱令牌,仅专注于剩余的令牌进行自我监督。通过跨模态对比学习,FLAP学习将配对的音频和文本表示对齐到共享的潜在空间中。值得注意的是,FLAP通过遮盖实现了多个增强视图以进行跨模态对比学习,并学习重构音频令牌的遮盖部分。此外,FLAP利用大型语言模型(LLMs)来增强文本输入,有助于提高性能。这些方法导致更加稳健和信息丰富的音频-文本表示,使FLAP在AudioCaps(达到53.0% R@1)和Clotho(达到25.5% R@1)的音频-文本检索任务中取得了最先进的性能。
我们提出了EmerNeRF,这是一种简单而强大的方法,用于学习动态驾驶场景的时空表示。EmerNeRF基于神经场,通过自举方法同时捕捉场景几何、外观、运动和语义。EmerNeRF依赖于两个核心组件:首先,它将场景分为静态场和动态场。这种分解纯粹是通过自我监督得出的,使我们的模型能够从一般的野外数据源中学习。其次,EmerNeRF从动态场参数化出一个诱导流场,并利用这个流场进一步聚合多帧特征,提高动态物体的渲染精度。将这三个场(静态、动态和流)耦合在一起使EmerNeRF能够自给自足地表示高度动态的场景,而无需依赖地面真实物体注释或预训练模型进行动态物体分割或光流估计。我们的方法在传感器模拟中取得了最先进的性能,在重建静态(+2.93 PSNR)和动态(+3.70 PSNR)场景时明显优于先前的方法。此外,为了增强EmerNeRF的语义泛化能力,我们将2D视觉基础模型特征提升到4D时空,并解决了现代Transformer中的一般位置偏差问题,显著提升了3D感知性能(例如,平均占用预测准确度相对提高了37.50%)。最后,我们构建了一个多样且具有挑战性的120序列数据集,用于在极端和高度动态的环境下对神经场进行基准测试。