每日精选AI研究论文及翻译
网络自动化是一项重要技术,通过自动化常见的网络操作,完成复杂的网络任务,提高运行效率,减少手动干预的需求。传统方法,如包装器,在面对新网站时存在适应性和可扩展性有限的问题。另一方面,由大型语言模型(LLMs)赋能的生成式代理在开放世界场景中表现出性能和可重用性较差。在这项工作中,我们引入了用于垂直信息网页的爬虫生成任务以及将LLMs与爬虫相结合的范式,帮助爬虫更有效地处理多样化和不断变化的网络环境。我们提出了AutoCrawler,这是一个利用HTML的分层结构进行渐进式理解的两阶段框架。通过自顶向下和回退操作,AutoCrawler能够从错误操作中学习,并不断修剪HTML以获得更好的操作生成。我们进行了多个LLMs的全面实验,并展示了我们框架的有效性。本文资源可在https://github.com/EZ-hwh/AutoCrawler找到。
我们介绍了Groma,这是一个具有基于视觉感知的多模态大型语言模型(MLLM)。除了对整体图像的理解,Groma擅长区域级任务,如区域描述和视觉对齐。这些能力是建立在一种局部化的视觉标记机制之上的,其中图像输入被分解为感兴趣的区域,随后被编码为区域标记。通过将区域标记整合到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出与图像对齐。此外,为了增强Groma的基于视觉对齐的聊天能力,我们通过利用强大的GPT-4V和视觉提示技术,策划了一个视觉对齐的指令数据集。与依赖语言模型或外部模块进行定位的MLLM相比,Groma在标准指代和对齐基准测试中始终展现出卓越的性能,突显了将定位嵌入图像标记化的优势。项目页面:https://groma-mllm.github.io/。
基于文本的视觉问答(VQA)随着多模态大型语言模型(MLLMs)的发展取得了巨大进展,然而开源模型仍然无法与GPT4V和Gemini等领先模型媲美,部分原因是缺乏广泛且高质量的指导微调数据。为此,我们提出了一种新方法来创建一个庞大、高质量的指导微调数据集Square-10M,该数据集是使用闭源MLLMs生成的。数据构建过程被称为Square,包括四个步骤:自我提问、回答、推理和评估。我们对Square-10M的实验得出了三个关键发现:1)我们的模型TextSquare明显超越了开源先前的文本中心MLLMs的最新水平,并在OCRBench(62.2%)上树立了新标准。它甚至在10个文本中心基准中的6个中胜过了GPT4V和Gemini等顶尖模型。2)此外,我们展示了VQA推理数据在为特定问题提供全面上下文洞察方面的关键作用。这不仅提高了准确性,还显著减轻了幻觉。具体而言,TextSquare在四个常规VQA和幻觉评估数据集上平均得分为75.1%,超过了先前的最先进模型。3)值得注意的是,在扩展文本中心VQA数据集中观察到的现象揭示了一个生动的模式:指导微调数据量的指数增长与模型性能的提升成正比,从而验证了数据集规模和Square-10M的高质量的必要性。
创造沉浸式虚拟体验时,逼真的物体互动至关重要,然而合成对新颖互动做出逼真3D物体动态响应仍然是一个重大挑战。与无条件或文本条件动态生成不同,动作条件动态需要感知物体的物理材料属性,并将3D运动预测基于这些属性,如物体的刚度。然而,由于缺乏物质的真实数据,估计物理材料属性是一个未解之谜,因为为真实物体测量这些属性非常困难。我们提出了PhysDreamer,这是一种基于物理的方法,通过利用视频生成模型学习的物体动态先验,赋予静态3D物体交互动态。通过提炼这些先验,PhysDreamer能够合成对新颖互动的逼真物体响应,如外部力或代理操纵。我们在弹性物体的多个示例上展示了我们的方法,并通过用户研究评估了合成互动的逼真程度。PhysDreamer通过使静态3D物体以物理上合理的方式动态响应互动刺激,迈出了实现更具吸引力和逼真的虚拟体验的一步。请访问我们的项目页面:https://physdreamer.github.io/。
查询重写旨在通过改变SQL查询的结构而不改变查询结果来生成更有效的查询,这一直是一个重要的研究问题。为了在重写过程中保持重写后的查询与原始查询的等价性,传统的查询重写方法总是遵循特定的重写规则来重写查询。然而,仍然存在一些问题。首先,现有的寻找最佳重写规则选择或顺序的方法仍然有限,而且这一过程通常耗费大量资源。涉及发现新重写规则的方法通常需要复杂的结构逻辑证明或大量用户交互。其次,当前的查询重写方法通常高度依赖于数据库管理系统的成本估算器,这些估算器通常不准确。在本文中,我们通过提出一种名为LLM-R2的查询重写新方法来解决这些问题,采用大型语言模型(LLM)为数据库重写系统提出可能的重写规则。为了进一步提高LLM在推荐重写规则方面的推理能力,我们通过课程训练对比模型来学习查询表示,并为LLM选择有效的查询演示。实验结果表明,我们的方法可以显著提高查询执行效率,并胜过基准方法。此外,我们的方法在不同数据集上表现出高鲁棒性。
最近,3D 高斯点云喷洒被广泛应用于场景重建和新视角合成,因为它能够产生高质量的结果,并且与硬件光栅化兼容。尽管具有诸多优点,但高斯点云喷洒对由运动结构(SFM)算法进行高质量点云初始化的依赖是一个需要克服的重要限制。为此,我们研究了用于高斯点云喷洒的各种初始化策略,并探讨了如何利用神经辐射场(NeRF)的体积重建来规避对 SFM 数据的依赖性。我们的研究结果表明,如果精心设计,随机初始化可以表现得更好,并且通过采用改进的初始化策略和从低成本 NeRF 模型中提取结构,可以实现与由 SFM 初始化获得的等效结果,甚至有时更优越的效果。
最近,基于大型语言模型(LLMs)的多种自动程序修复(APR)技术被提出以增强修复性能。虽然这些技术主要集中在单行或代码块级别的修复上,但由于修复任务范围有限和昂贵的语句级故障定位,它们在实际应用中面临重大挑战。然而,更实用的基于函数级别的APR,将修复任务范围扩展到修复整个有缺陷的函数,只需要经济高效的函数级别故障定位,却鲜为人知。本文首次对基于LLM的函数级别APR进行了全面研究,包括探讨少样本学习机制和辅助修复相关信息的影响。具体来说,我们采用了六种广泛研究的LLMs,并在Defects4J 1.2和2.0数据集中构建了一个基准。我们的研究表明,具有零样本学习的LLMs已经是功能级别APR技术的强大工具,而应用少样本学习机制会导致不同的修复性能。此外,我们发现直接将辅助修复相关信息应用于LLMs显著提高了函数级别的修复性能。受到我们研究结果的启发,我们提出了一种基于LLM的函数级别APR技术,名为SRepair,它采用双LLM框架,利用辅助修复相关信息的力量来提升修复性能。评估结果表明,SRepair可以在Defects4J数据集中正确修复300个单函数缺陷,至少比所有先前的APR技术高出85%,而无需昂贵的语句级故障定位信息。此外,SRepair成功修复了Defects4J数据集中的32个多函数缺陷,这是我们所知道的任何APR技术首次实现。