每日精选AI研究论文及翻译
我们提出了Chameleon,这是一系列早期融合基于标记的混合模态模型,能够理解和生成图像和文本,而且可以按任意顺序进行。我们概述了一个稳定的训练方法,一个对齐配方,以及专为早期融合、基于标记、混合模态设置量身定制的架构参数化。这些模型在一系列任务上进行了评估,包括视觉问答、图像字幕、文本生成、图像生成和长篇混合模态生成。Chameleon展示了广泛且通用的能力,包括在图像字幕任务中表现出色,优于Llama-2在仅文本任务中,同时与Mixtral 8x7B和Gemini-Pro等模型相竞争,并且在单一模型中执行了非平凡的图像生成。根据人类对新的长篇混合模态生成评估的判断,其中提示或输出包含图像和文本混合序列,它也与Gemini Pro和GPT-4V等更大模型的性能相匹敌或超越。Chameleon标志着在统一建模完整多模态文档方面迈出了重要一步。
低秩适应(Low-Rank Adaptation,LoRA)是一种广泛使用的大型语言模型参数高效微调方法。LoRA通过仅训练对选定权重矩阵进行低秩扰动来节省内存。在这项工作中,我们比较了LoRA和完全微调在两个目标领域(编程和数学)上的性能。我们考虑了指令微调(约100K个提示-响应对)和继续预训练(约10B个非结构化标记)数据制度。我们的结果显示,在大多数情况下,LoRA的性能明显低于完全微调。然而,LoRA表现出一种理想的正则化形式:它更好地保持了基础模型在目标领域之外任务上的性能。我们展示了LoRA相比于常见技术如权重衰减和丢弃提供了更强的正则化;它还有助于保持更多样化的生成。我们展示了完全微调学习的扰动的秩比典型LoRA配置高10-100倍,这可能解释了一些报道的差距。最后,我们提出了使用LoRA进行微调的最佳实践。
3D重建的进展实现了高质量的3D捕捉,但需要用户收集数百到数千张图像来创建一个3D场景。我们提出了CAT3D,一种通过模拟这个真实世界捕捉过程的多视角扩散模型来创建任何3D物体的方法。给定任意数量的输入图像和一组目标新视点,我们的模型生成高度一致的场景新视图。这些生成的视图可用作强大的3D重建技术的输入,以生成可以实时从任何视点渲染的3D表示。CAT3D可以在一分钟内创建完整的3D场景,并且在单图像和少视角3D场景创建方面优于现有方法。请访问我们的项目页面以查看结果和交互式演示:https://cat3d.github.io。
大型语言模型以其在少样本情境学习(ICL)中的有效性而闻名。最近多模态基础模型的进展使得窗口上下文长度空前延长,为探索其在执行更多演示示例的ICL能力提供了机会。在这项工作中,我们评估了从少样本扩展到多样本ICL的多模态基础模型的性能。我们在跨多个领域(自然图像、医学图像、遥感和分子图像)和任务(多类别、多标签和细粒度分类)的10个数据集上对GPT-4o和Gemini 1.5 Pro进行了基准测试。我们观察到,包括近2,000个多模态演示示例在内的多样本ICL相对于少样本(<100个示例)ICL在所有数据集上都带来了显著改进。此外,Gemini 1.5 Pro的性能在许多数据集上继续以对数线性方式提高,直至测试示例的最大数量。鉴于执行多样本ICL所需的长提示所带来的高推理成本,我们还探讨了在单个API调用中批处理多个查询的影响。我们展示,批处理多达50个查询可以在零样本和多样本ICL下带来性能改进,在多个数据集上零样本设置中获得实质性收益,同时大幅降低每个查询的成本和延迟。最后,我们衡量模型的ICL数据效率,即模型从更多演示示例中学习的速率。我们发现,虽然GPT-4o和Gemini 1.5 Pro在数据集上实现了类似的零样本性能,但Gemini 1.5 Pro在大多数数据集上的ICL数据效率更高。我们的结果表明,多样本ICL可以使用户有效地将多模态基础模型调整到新的应用程序和领域。我们的代码库可以在以下网址公开获取:https://github.com/stanfordmlgroup/ManyICL。
本文介绍了由IDEA Research开发的一套先进的开放式目标检测模型Grounding DINO 1.5,旨在推动开放式目标检测的“边缘”。该套件包括两个模型:Grounding DINO 1.5 Pro,一个设计用于更广泛场景下更强泛化能力的高性能模型,以及Grounding DINO 1.5 Edge,一个针对需要边缘部署的许多应用程序中所需更快速度进行优化的高效模型。Grounding DINO 1.5 Pro模型通过扩展模型架构、集成增强的视觉骨干,并将训练数据集扩展到超过2000万张带有定位注释的图像,从而实现了更丰富的语义理解。Grounding DINO 1.5 Edge模型虽然设计为具有减小特征尺度的高效性,但通过在相同的全面数据集上进行训练,保持了强大的检测能力。实证结果表明Grounding DINO 1.5的有效性,Grounding DINO 1.5 Pro模型在COCO检测基准上达到了54.3 AP,在LVIS-minival零样本迁移基准上达到了55.7 AP,创造了开放式目标检测的新纪录。此外,Grounding DINO 1.5 Edge模型在优化使用TensorRT后,在LVIS-minival基准上达到了75.2 FPS的速度,同时实现了36.2 AP的零样本性能,使其更适用于边缘计算场景。模型示例和API演示将在https://github.com/IDEA-Research/Grounding-DINO-1.5-API发布。
在这项工作中,我们恢复了非几何一致场景的底层3D结构。我们的分析重点放在来自卡通和动漫的手绘图像上。许多卡通是由艺术家创作的,没有使用3D渲染引擎,这意味着场景的任何新图像都是手绘的。手绘图像通常是对世界的忠实表现,但只是在定性上,因为人类很难连续绘制一个物体或场景的多个视角的3D。尽管如此,人们可以轻松地从不一致的输入中感知3D场景!在这项工作中,我们校正了2D绘图不一致性,恢复了一个合理的3D结构,使新变形的绘图彼此一致。我们的流程包括一个用户友好的注释工具、相机姿态估计和图像变形,以恢复密集结构。我们的方法将图像扭曲以遵守透视相机模型,使我们对齐的结果能够被插入新视角合成重建方法,以体验以前未绘制过的卡通视角。我们的项目页面是https://toon3d.studio/。
我们提出了Dual3D,这是一个新颖的文本到3D生成框架,可以在仅1分钟内从文本中生成高质量的3D资产。关键组件是双模式多视角潜扩散模型。给定嘈杂的多视角潜变量,2D模式可以通过单个潜变量去噪网络有效地对其进行去噪,而3D模式可以生成三平面神经表面以进行一致的基于渲染的去噪。两种模式的大多数模块都是从预训练的文本到图像潜扩散模型微调而来,以避免从头开始训练的昂贵成本。为了克服推断过程中的高渲染成本,我们提出了双模式切换推断策略,只需使用3D模式的1/10去噪步骤,就可以成功在仅10秒内生成一个3D资产,而不会牺牲质量。3D资产的纹理可以通过我们高效的纹理细化过程在短时间内进一步增强。大量实验证明,我们的方法在显著减少生成时间的同时提供了最先进的性能。我们的项目页面位于https://dual3d.github.io。
在模拟环境中学习并将学到的策略转移到现实世界,有潜力实现通用型机器人。这种方法的关键挑战是解决模拟到现实(sim-to-real)之间的差距。先前的方法通常需要先验的领域特定知识。我们认为获得这种知识的一种直接方式是请人类观察和协助机器人在现实世界执行策略。然后机器人可以从人类那里学习,以消除各种模拟到现实的差距。我们提出了TRANSIC,这是一种基于人在回路中的数据驱动方法,以实现成功的模拟到现实转移。TRANSIC允许人类通过干预和在线纠正来增强模拟策略,从而全面地克服各种未建模的模拟到现实差距。残余策略可以从人类的纠正中学习,并与模拟策略集成以进行自主执行。我们展示了我们的方法可以在复杂和接触丰富的操纵任务(如家具组装)中实现成功的模拟到现实转移。通过在模拟中学习的策略与人类的策略的协同集成,TRANSIC作为一种全面解决各种常常共存的模拟到现实差距的方法是有效的。它展现出随着人类努力而扩展的吸引人的特性。视频和代码可在https://transic-robot.github.io/获得。