每日精选AI研究论文及翻译
由视觉-语言模型(VLMs)驱动的图形用户界面(GUI)代理展示了类似人类的计算机控制能力。尽管它们在推动数字自动化方面很有用,但一个关键瓶颈仍然存在:为训练收集高质量轨迹数据。通常用于收集此类数据的常见做法依赖于人工监督或通过执行预定义任务生成合成数据,这两种方法要么资源密集,要么无法保证数据质量。此外,这些方法受限于数据多样性有限以及合成数据与真实环境之间存在显著差距。为了解决这些挑战,我们提出了OS-Genesis,这是一个新颖的GUI数据合成流程,它颠覆了传统的轨迹收集过程。OS-Genesis不依赖于预定义任务,而是使代理能够首先感知环境并执行逐步交互,然后回顾性地推导出高质量任务,以实现轨迹级别的探索。然后采用轨迹奖励模型来确保生成轨迹的质量。我们证明,使用OS-Genesis训练GUI代理显著提高了它们在高度具有挑战性的在线基准测试中的性能。深入分析进一步验证了OS-Genesis的效率,以及与现有合成方法相比,其数据质量和多样性更优。我们的代码、数据和检查点可在https://qiushisun.github.io/OS-Genesis-Home/ {OS-Genesis主页} 上获得。
Xmodel-2是一个拥有12亿参数的大型语言模型,专为推理任务而设计。其架构使不同模型规模能共享一组统一的超参数,从而允许对较小模型进行广泛实验,并将最佳配置无缝转移到较大模型。为了最大化训练效率和稳定性,Xmodel-2采用了MiniCPM的WSD学习率调度器。在来自多个来源的1.5万亿令牌上进行预训练,Xmodel-2在复杂推理和基于代理的任务中实现了最先进的性能,同时保持低训练成本。这些结果突显了高效模型设计和训练策略在推进推理能力方面的潜力。模型检查点和代码可在GitHub上公开获取:https://github.com/XiaoduoAILab/Xmodel-2
大规模视觉语言模型(VLMs)通过将视觉输入与文本对齐,显著提高了计算机视觉任务的性能。此外,为了有效地在现实世界应用中利用VLMs,对多样化的多视觉传感器数据(如热像、深度和X射线信息)的理解至关重要。然而,我们发现当前的VLMs处理多视觉传感器图像时缺乏对传感器信息的深入理解,忽视了每个传感器的独特物理特性。这一局限限制了它们解释和回答需要多视觉传感器推理的复杂问题的能力。为了解决这一问题,我们提出了一种新颖的多视觉传感器感知和推理(MS-PR)基准,评估VLMs在传感器特定推理能力方面的表现。此外,我们引入了多样化负面属性(DNA)优化,使VLMs能够在多视觉传感器任务上进行深入推理,有助于弥合图像和传感器数据之间的核心信息差距。广泛的实验结果验证了所提出的DNA方法可以显著提高VLMs的多视觉传感器推理能力。
我们介绍HunyuanProver,这是从Hunyuan 7B微调而来的语言模型,用于与LEAN4一起进行交互式自动定理证明。为了缓解数据稀疏问题,我们设计了一个可扩展的框架来迭代合成数据,成本较低。此外,我们设计了引导树搜索算法,以实现证明者有效的“系统2思维”。HunyuanProver在主要基准测试中实现了最先进的性能。具体来说,在miniF2F-test中,它的通过率为68.4%,而当前最先进的结果为65.9%。它证明了4个IMO命题(imo_1960_p2,imo_1962_p2,imo_1964_p2和imo_1983_p6)。为了造福社区,我们将开源一个包含3万个合成实例的数据集,每个实例包含自然语言中的原始问题、自动形式化转换的陈述,以及HunyuanProver的证明。
尽管扩散模型在文本到图像生成方面表现出非凡的才能,但它们仍可能无法生成高度美学的图像。更具体地说,生成的图像与现实世界美学图像之间仍存在差距,尤其是在颜色、光照、构图等更精细的维度上。本文提出了交叉注意力值混合控制(VMix)适配器,这是一个即插即用的美学适配器,旨在通过(1)将输入文本提示分解为内容描述和美学描述,通过美学嵌入的初始化,以及(2)通过值混合的交叉注意力将美学条件整合到去噪过程中,通过由零初始化的线性层连接的网络,提升生成图像的质量,同时在视觉概念上保持通用性。我们的关键见解是通过设计出色的条件控制方法来增强现有扩散模型的美学呈现,同时保持图像文本对齐。通过我们精心设计的VMix,可以灵活地应用于社区模型,以提高视觉性能,无需重新训练。为了验证我们方法的有效性,我们进行了大量实验,结果显示VMix优于其他最先进的方法,并与其他社区模块(例如LoRA、ControlNet和IPAdapter)兼容,用于图像生成。项目页面链接为https://vmix-diffusion.github.io/VMix/。