每日精选AI研究论文及翻译
最近关于大型多模态模型(LMMs)的发展,特别是GPT-4V(ision)和Gemini,迅速拓展了多模态模型的能力边界,超越了传统任务,如图像描述和视觉问答。在这项工作中,我们探讨了像GPT-4V这样的LMMs作为通用网络代理的潜力,它可以遵循自然语言指令在任何给定的网站上完成任务。我们提出了SEEACT,一个利用LMMs的力量进行综合视觉理解和在网络上执行操作的通用网络代理。我们在最近的MIND2WEB基准上进行评估。除了对缓存网站进行标准离线评估外,我们通过开发一个工具,使得能够在实时网站上运行网络代理,实现了新的在线评估设置。我们展示了GPT-4V对于网络代理具有巨大潜力 - 如果我们手动将其文本计划与网站上的操作相匹配,它可以成功完成50%的实时网站任务。这大大优于专门为网络代理进行微调的仅文本的LMMs,如GPT-4或较小的模型(FLAN-T5和BLIP-2)。然而,匹配仍然是一个主要挑战。现有的LMM匹配策略,如集合标记提示,对于网络代理并不有效,而我们在本文中开发的最佳匹配策略利用了HTML文本和视觉。然而,与理想匹配仍然存在实质差距,为进一步改进留下了充足的空间。
大多数现有的视频扩散模型(VDMs)仅限于纯文本条件。因此,它们通常缺乏对生成视频的视觉外观和几何结构的控制。本文介绍了Moonshot,一种新的视频生成模型,同时基于图像和文本的多模态输入进行条件设置。该模型建立在一个核心模块上,称为多模态视频块(MVB),它由用于表示视频特征的传统时空层和用于处理外观条件的图像和文本输入的解耦交叉注意力层组成。此外,我们精心设计了模型架构,使其可以选择性地与预训练的图像控制网络模块集成,用于几何视觉条件,而无需额外的训练开销,与先前的方法相比。实验证明,借助多功能多模态条件机制,Moonshot在视觉质量和时间一致性方面相比现有模型取得了显著改进。此外,该模型可以轻松重新应用于各种生成应用,如个性化视频生成、图像动画和视频编辑,揭示了其作为可控视频生成基础架构的潜力。模型将在https://github.com/salesforce/LAVIS 上公开。
我们提出了一种可微分模型,明确地建模边界,包括轮廓、角点和交界,使用我们称之为边界注意力的新机制。我们展示了即使边界信号非常微弱或被噪声淹没,我们的模型也能提供准确的结果。与以往用于发现微弱边界的经典方法相比,我们的模型具有以下优势:可微分性;可扩展到更大的图像;并且能够自动适应图像各部分的适当几何细节水平。与以往通过端到端训练来发现边界的深度方法相比,它具有提供亚像素精度、更具噪声韧性,并且能够以其原生分辨率和纵横比处理任何图像的优势。
我们提出了En3D,这是一种增强的生成方案,用于塑造高质量的3D人类化身。与先前依赖稀缺3D数据集或具有不平衡视角和不精确姿势先验的有限2D集合的作品不同,我们的方法旨在开发一种零样本3D生成方案,能够生成外观逼真、几何精确且内容多样的3D人类,而无需依赖现有的3D或2D资产。为了解决这一挑战,我们引入了一个精心设计的工作流程,通过实现精确的物理建模来从合成的2D数据中学习增强的3D生成模型。在推断过程中,我们集成了优化模块,以弥合逼真外观和粗糙3D形状之间的差距。具体而言,En3D包括三个模块:一个3D生成器,能够准确地建模出具有逼真外观的通用3D人类,从合成的平衡、多样化和结构化人类图像中获得;一个几何雕刻器,利用多视角法线约束增强形状质量,适用于复杂的人体解剖结构;以及一个纹理模块,通过语义UV分区和可微分光栅化器,将显式纹理映射解耦为具有保真度和可编辑性的纹理,实现了纹理的分离。实验结果表明,我们的方法在图像质量、几何精度和内容多样性方面明显优于先前的作品。我们还展示了我们生成的化身在动画和编辑方面的适用性,以及我们的方法在内容风格自由适应方面的可扩展性。
学习对字符串之间关系建模会教会大型语言模型(LLMs)有关视觉世界的知识吗?我们系统评估了LLMs生成和识别一系列逐渐复杂的视觉概念的能力,然后展示了如何使用文本模型训练初步的视觉表示学习系统。由于语言模型缺乏处理或输出像素形式的视觉信息的能力,我们在研究中使用代码来表示图像。尽管LLM生成的图像看起来不像自然图像,但在图像生成和模型纠正这些生成图像的能力方面的结果表明,对字符串的精确建模可以教会语言模型有关视觉世界的许多方面。此外,利用文本模型生成的图像进行自监督视觉表示学习的实验突显了使用仅LLMs就能训练出能够对自然图像进行语义评估的视觉模型的潜力。
随着调整后的大型语言模型(LLMs)在全球范围内得到广泛应用,其在多种语言中遵循指令的能力变得日益关键。一种有前途的方法是跨语言迁移,即模型通过在另一种语言上微调来获得某种语言上的特定功能。在这项工作中,我们研究了多语言LLM在指令调整过程中如何影响跨语言指令遵循。我们首先展示了许多语言从单语调整中甚至可以将一些指令遵循能力转移到其他语言。此外,我们发现在英语调整集中仅有40个多语言示例就能显著提高跨语言指令遵循,无论是在调整过程中见过的还是未见过的语言中。总的来说,我们观察到在多语言混合调整的模型在多种语言中表现出与单语调整模型相当或更优越的性能,尽管在这些语言中的训练示例要少10倍。最后,我们发现将指令调整集中的语言数量从1增加到2、3或4会增加跨语言泛化能力。我们的结果表明,只需一个非常小的多语言指令-响应集合,就可以构建大规模多语言指令调整模型。
尽管得分蒸馏在文本到3D生成中表现出色,但这些技术因存在视角不一致问题而臭名昭著,也被称为“雅努斯”伪影现象,即生成的物体在多个视角上都具有多个正面。尽管经验有效的方法已经通过得分去偏倚或提示工程来解决这一问题,但对于解释和解决这一问题的更严格视角仍然难以捉摸。在本文中,我们揭示现有基于得分蒸馏的文本到3D生成框架在每个视角上都退化为最大似然寻求,因此在实践中出现了模式坍塌问题,表现为雅努斯伪影现象。为了遏制模式坍塌,我们通过在相应变分目标中重新引入熵项来改进得分蒸馏,该熵项应用于渲染图像的分布。最大化熵鼓励在生成的3D资产的不同视角之间保持多样性,从而缓解雅努斯问题。基于这一新目标,我们推导出一种新的3D得分蒸馏更新规则,称为熵得分蒸馏(ESD)。我们在理论上揭示,ESD可以通过仅采用基于分类器的自由引导技巧来简化和实现变分得分蒸馏。尽管这一方法非常直接,但我们的大量实验成功地证明ESD可以有效地处理得分蒸馏中的雅努斯伪影现象。
本文介绍了WordArt Designer API,这是一个利用大型语言模型(LLMs)在ModelScope上进行用户驱动艺术排版合成的新型框架。我们通过提供一种动态、自适应且计算效率高的替代方案,解决了简化非专业人士艺术排版的挑战,摆脱了传统刚性模板的限制。我们的方法利用LLMs的强大能力来理解和解释用户输入,促进更直观的设计过程。我们通过各种案例研究展示了用户如何表达其审美偏好和功能要求,系统随后将其转化为独特且创意的排版设计。我们的评估表明,与现有系统相比,用户满意度、设计灵活性和创意表达方面均有显著改善。WordArt Designer API不仅使排版艺术民主化,还为个性化数字沟通和设计开辟了新的可能性。