每日精选AI研究论文及翻译
大型语言模型已经展示出在推理能力方面取得了显著进展,特别是通过推理时间的扩展,正如OpenAI的o1等模型所示。然而,当前的视觉语言模型(VLMs)在处理复杂的视觉问答任务时,通常很难进行系统化和结构化推理。在这项工作中,我们介绍了LLaVA-o1,这是一种新型的VLM,旨在进行自主的多阶段推理。与思维链提示不同,LLaVA-o1独立进行摘要、视觉解释、逻辑推理和结论生成的顺序阶段。这种结构化方法使LLaVA-o1在推理密集型任务上取得了显著的精度改进。为实现这一目标,我们编制了LLaVA-o1-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化推理注释。此外,我们提出了一种推理时间阶段级别的波束搜索方法,实现了有效的推理时间扩展。值得注意的是,仅使用100k个训练样本和一种简单而有效的推理时间扩展方法,LLaVA-o1不仅在各种多模态推理基准上比其基础模型提高了8.9%,而且超过了更大甚至是闭源模型的性能,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。
尽管3D内容生成已经取得了显著进展,但现有方法仍然面临着输入格式、潜在空间设计和输出表示方面的挑战。本文介绍了一种新颖的3D生成框架,解决了这些挑战,提供可扩展、高质量的3D生成,采用交互式点云结构的潜在空间。我们的框架采用了一种变分自动编码器(VAE),以多视角姿态的RGB-D(深度)-N(法线)渲染作为输入,使用了一种独特的潜在空间设计,保留了3D形状信息,并结合了级联潜在扩散模型,以改善形状-纹理的解耦。所提出的方法,高斯任意性,支持多模态条件的3D生成,允许点云、标题和单/多视角图像输入。值得注意的是,新提出的潜在空间自然地实现了几何-纹理的解耦,从而实现了3D感知编辑。实验结果表明,我们的方法在多个数据集上的有效性,无论是在文本条件还是图像条件下的3D生成,均优于现有方法。
本文介绍了RAG,一种基于区域感知的文本到图像生成方法,其以区域描述为条件,实现精确的布局组合。区域提示或组合生成使得细粒度空间控制成为可能,在实际应用中备受关注。然而,先前的方法要么引入额外的可训练模块,因此仅适用于特定模型,要么在交叉注意力层中使用注意力掩码对得分图进行操作,导致在区域数量增加时控制强度有限。为了解决这些限制,我们将多区域生成分解为两个子任务,即构建单个区域(区域硬绑定),以确保区域提示得到正确执行,以及对区域进行整体细化(区域软细化),消除视觉边界并增强相邻交互。此外,RAG创新地实现了重绘功能,用户可以在上一次生成的基础上修改特定不满意的区域,同时保持所有其他区域不变,而无需依赖额外的修补模型。我们的方法无需调整即可适用于其他框架,作为对随后属性的增强。定量和定性实验证明,与先前无需调整的方法相比,RAG在属性绑定和对象关系方面表现出优越性能。
最近发布的模型,Claude 3.5 Computer Use,作为首个前沿人工智能模型,在公共测试版中提供计算机使用的图形用户界面(GUI)代理。作为早期测试版,其在现实复杂环境中的能力尚不明确。在这个探索Claude 3.5 Computer Use的案例研究中,我们策划并组织了一系列精心设计的任务,涵盖各种领域和软件。这些案例的观察表明,Claude 3.5 Computer Use在端到端的语言到桌面操作方面具有前所未有的能力。除了这项研究,我们还提供了一个开箱即用的代理框架,用于部署基于API的GUI自动化模型,实现简单。我们的案例研究旨在展示Claude 3.5 Computer Use的能力和局限性,并通过详细分析提出关于规划、行动和评论的问题,这些问题必须考虑以供未来改进。我们希望这项初步探索能激发对GUI代理社区的未来研究。本文中的所有测试案例都可以通过该项目尝试:https://github.com/showlab/computer_use_ootb。
视频大型语言模型(Vid-LLMs)在理解视频内容以进行问答对话方面取得了显著进展。然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上(即视频时间定位,VTG)时遇到了困难。为了解决这一问题,我们引入了Number-Prompt(NumPro),这是一种新颖的方法,通过为每个视频帧添加独特的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。将视频视为一系列带有编号的帧图像,NumPro将VTG转化为一种直观的过程:按顺序翻阅漫画面板。这使得Vid-LLMs能够“阅读”事件时间线,准确地将视觉内容与相应的时间信息联系起来。我们的实验证明,NumPro显著提升了顶尖Vid-LLMs的VTG性能,而无需额外的计算成本。此外,在NumPro增强的数据集上进行微调,为VTG定义了一个新的最先进水平,mIoU在时刻检索方面超过以往表现最好的方法高达6.9%,在突出部分检测方面高达8.5%。代码将在https://github.com/yongliang-wu/NumPro 上提供。
我们介绍了Xmodel-1.5,这是一个新颖的10亿参数的多语言大型模型,预训练了大约2万亿个标记。该模型在多种语言中表现出色,尤其在泰语、阿拉伯语和法语方面表现突出,同时在中文和英文中也表现有效。此外,我们通过发布一个泰语评估数据集,为研究社区做出了贡献,该数据集包括由占集大学综合创新学院学生注释的数百个问题。尽管结果令人鼓舞,我们承认仍有改进的空间。我们希望这项工作推动多语言人工智能研究的持续努力,并促进各种自然语言处理任务中更好的跨语言理解。我们的模型和代码已公开在GitHub上发布,网址为https://github.com/XiaoduoAILab/XmodelLM。
训练深度神经网络——以及最近的大型模型——需要高效且可扩展的优化器。像Adam、AdamW及其变种这样的自适应梯度算法一直是这一任务的核心。尽管过去十年中开发了许多旨在加速凸和非凸设置下随机优化的方差减少算法,但方差减少在训练深度神经网络或大型语言模型中并未取得广泛成功。因此,在现代人工智能中,它仍然是一种不太受青睐的方法。在本文中,为了释放方差减少的力量以实现大型模型的高效训练,我们提出了一个统一的优化框架,MARS(Make vAriance Reduction Shine),它通过一种缩放的随机递归动量技术将预条件梯度方法与方差减少相结合。在我们的框架中,我们介绍了三个MARS的实例,分别利用基于AdamW、Lion和Shampoo的预条件梯度更新。我们还将我们的算法与现有的优化器进行了联系。对训练GPT-2模型的实验结果表明,MARS始终以较大的优势胜过AdamW。