AI研究论文每日精选

每日精选AI研究论文及翻译

ViTAR：具有任意分辨率的视觉Transformer
ViTAR: Vision Transformer with Any Resolution

Mar 27

ByQihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang

本文解决了视觉Transformer（ViTs）面临的一个重要挑战：它们在不同图像分辨率下的受限可扩展性问题。通常，ViTs在处理与训练过程中看到的分辨率不同的图像时会出现性能下降。我们的工作引入了两个关键创新来解决这个问题。首先，我们提出了一个用单个Transformer块设计的用于动态分辨率调整的新型模块，旨在实现高效的增量式标记集成。其次，我们在视觉Transformer中引入了模糊位置编码，以实现跨多个分辨率的一致位置感知，从而防止过度拟合到任何单一训练分辨率。我们的最终模型ViTAR（任意分辨率视觉Transformer）展现出令人印象深刻的适应性，在1120x1120分辨率下实现83.3\%的top-1准确率，在4032x4032分辨率下实现80.4\%的准确率，同时降低了计算成本。ViTAR在实例分割、语义分割等下游任务中表现出色，并且可以轻松地与自监督学习技术（如Masked AutoEncoder）结合使用。我们的工作为增强ViTs的分辨率可扩展性提供了一种经济高效的解决方案，为更多多功能且高效的高分辨率图像处理铺平了道路。

Mini-Gemini：挖掘多模态视觉语言模型的潜力
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mar 27

ByYanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia

在这项工作中，我们介绍了Mini-Gemini，这是一个简单而有效的框架，用于增强多模态视觉语言模型（VLMs）。尽管VLMs方面取得了进展，促进了基本的视觉对话和推理，但与GPT-4和Gemini等先进模型相比仍存在性能差距。我们试图通过挖掘VLMs的潜力，从三个方面缩小这一差距，即高分辨率视觉标记、高质量数据和VLM引导生成的任意-任意工作流。为了增强视觉标记，我们提出利用额外的视觉编码器进行高分辨率细化，而不增加视觉标记数量。我们进一步构建了一个高质量数据集，促进精确的图像理解和基于推理的生成，扩大了当前VLMs的操作范围。总的来说，Mini-Gemini进一步挖掘了VLMs的潜力，并同时赋予当前框架图像理解、推理和生成的能力。Mini-Gemini支持一系列从2B到34B的密集和MoE大型语言模型（LLMs）。已经证明在几个零样本基准测试中取得了领先的性能，甚至超过了已开发的私有模型。代码和模型可在https://github.com/dvlab-research/MiniGemini获取。

ObjectDrop：为逼真物体移除和插入引导式反事实生成对抗训练
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion

Mar 27

ByDaniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen

扩散模型已经彻底改变了图像编辑，但通常会生成违反物理定律的图像，特别是对象对场景的影响，比如遮挡、阴影和反射效应。通过分析自监督方法的局限性，我们提出了一个围绕反事实数据集的实用解决方案。我们的方法涉及在移除单个对象之前和之后捕获场景，同时最小化其他变化。通过在该数据集上微调扩散模型，我们不仅能够移除对象，还能消除它们对场景的影响。然而，我们发现将这种方法应用于逼真的对象插入需要一个不切实际大的数据集。为了应对这一挑战，我们提出了引导监督；利用我们在小规模反事实数据集上训练的对象移除模型，我们大幅度地扩展了这个数据集。我们的方法在逼真的对象移除和插入方面明显优于先前的方法，特别是在建模对象对场景的影响方面。

大型语言模型中的长篇事实性
Long-form factuality in large language models

Mar 27

ByJerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le

大型语言模型（LLMs）在回答开放性主题的事实查询提示时，往往会生成包含事实错误的内容。为了在开放领域中对模型的长篇事实性进行基准测试，我们首先使用 GPT-4 生成了 LongFact，这是一个包含数千个问题涵盖 38 个主题的提示集。然后，我们提出LLM代理可以通过一种名为搜索增强事实性评估器（SAFE）的方法作为长篇事实性的自动评估器。SAFE利用LLM将长篇回复分解为一组单独的事实，并通过一个多步推理过程来评估每个事实的准确性，其中包括向谷歌搜索发送搜索查询并确定一个事实是否得到搜索结果的支持。此外，我们提议将F1分数扩展为长篇事实性的聚合度量。为此，我们平衡了回复中受支持事实的百分比（精确度）与提供的事实百分比相对于代表用户首选回复长度的超参数（召回率）。在经验上，我们证明LLM代理可以实现超人类的评级表现 - 在约16k个单独事实集中，SAFE与众包人工标注者达成一致的时间为72％，在100个不一致案例的随机子集中，SAFE的胜率为76％。同时，SAFE比人工标注者便宜超过20倍。我们还在LongFact上对十三个语言模型进行了基准测试，涵盖了四个模型系列（Gemini，GPT，Claude和PaLM-2），发现更大型的语言模型通常实现更好的长篇事实性。LongFact，SAFE以及所有实验代码均可在 https://github.com/google-deepmind/long-form-factuality 上找到。

Garment3DGen：三维服装风格化与纹理生成
Garment3DGen: 3D Garment Stylization and Texture Generation

Mar 27

ByNikolaos Sarafianos, Tuur Stuyck, Xiaoyu Xiang, Yilei Li, Jovan Popovic, Rakesh Ranjan

我们介绍了Garment3DGen，这是一种新方法，可以根据单个输入图像生成3D服装模型。我们提出的方法允许用户基于真实和合成图像（例如通过文本提示生成的图像）生成3D纹理服装。生成的模型可以直接覆盖在人体上并进行模拟。首先，我们利用最近的图像到3D扩散方法的进展来生成3D服装几何结构。然而，由于这些几何结构不能直接用于下游任务，我们建议将它们作为伪地面真实值，并设置一个网格变形优化过程，将基础模板网格变形以匹配生成的3D目标。其次，我们引入了精心设计的损失函数，允许输入的基础网格自由变形到期望的目标，同时保持网格质量和拓扑结构，以便进行模拟。最后，一个纹理估计模块生成高保真度的纹理贴图，这些贴图在全局和局部上保持一致，并忠实地捕捉输入的指导，从而使我们能够渲染生成的3D模型。使用Garment3DGen，用户可以生成所需的带纹理的3D服装，无需艺术家干预。用户可以提供描述他们想要生成的服装的文本提示，以生成一个可用于模拟的3D模型。我们展示了对各种真实和生成的模型进行的大量定量和定性比较，并提供了如何生成可用于模拟的3D服装的用例。

BioMedLM：一种在生物医学文本上训练的包含 27 亿参数的语言模型
BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text

Mar 27

ByElliot Bolton, Abhinav Venigalla, Michihiro Yasunaga, David Hall, Betty Xiong, Tony Lee, Roxana Daneshjou, Jonathan Frankle, Percy Liang, Michael Carbin, Christopher D. Manning

GPT-4和Med-PaLM 2等模型在各种生物医学自然语言处理任务上展现出令人印象深刻的性能。然而，这些模型拥有数千亿的参数，运行计算成本高昂，需要用户通过互联网发送其输入数据，并且是在未知数据源上训练的。更小、更有针对性的模型能否竞争呢？为了解决这个问题，我们构建并发布了BioMedLM，这是一个基于PubMed摘要和全文训练的、拥有27亿参数的GPT风格自回归模型。在微调后，BioMedLM能够产生强大的多项选择生物医学问答结果，与规模更大的模型竞争，比如在MedMCQA（开发）上取得了57.3%的得分，在MMLU医学遗传学考试上取得了69.0%的得分。BioMedLM还可以被微调以对医学话题上患者问题产生有用的回答。这表明更小的模型有可能作为特定自然语言处理应用的透明、保护隐私、经济和环保友好的基础，比如在生物医学领域。该模型可在Hugging Face Hub上获取：https://huggingface.co/stanford-crfm/BioMedLM。

Gamba：将高斯点光栅与Mamba相结合，用于单视角3D重建。
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

Mar 27

ByQiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang

我们面临着从单个图像高效重建3D资产的挑战，这是自动化3D内容创建流程需求不断增长的问题。先前的方法主要依赖于得分蒸馏采样（SDS）和神经辐射场（NeRF）。尽管这些方法取得了显著成功，但由于优化时间长和内存使用量大等实际限制，这些方法遇到了困难。在本报告中，我们介绍了Gamba，这是一个端到端摊销的3D重建模型，从单视图图像中重建，强调两个主要见解：（1）3D表示：利用大量3D高斯函数进行高效的3D高斯飞溅过程；（2）骨干设计：引入基于Mamba的顺序网络，促进依赖上下文的推理和与序列（令牌）长度的线性可伸缩性，适应大量高斯函数。Gamba整合了数据预处理、正则化设计和训练方法方面的重大进展。我们使用真实世界扫描的OmniObject3D数据集对Gamba进行了评估，与现有的基于优化和前馈的3D生成方法进行了比较。在这里，Gamba展示了竞争性的生成能力，无论是在质量上还是在数量上，同时在单个NVIDIA A100 GPU上实现了显著的速度，大约为0.6秒。

EgoLifter：针对以自我为中心的感知的开放世界3D分割
EgoLifter: Open-world 3D Segmentation for Egocentric Perception

Mar 26

ByQiao Gu, Zhaoyang Lv, Duncan Frost, Simon Green, Julian Straub, Chris Sweeney

本文介绍了EgoLifter，这是一个新颖的系统，可以自动将从主体传感器捕获的场景分割成单个3D对象的完整分解。该系统专为包含数百个从自然（非扫描）运动捕获的对象的主体数据而设计。EgoLifter采用3D高斯作为3D场景和对象的基本表示，并利用来自“Segment Anything Model”（SAM）的分割掩模作为弱监督，以学习灵活且可提示的对象实例定义，不受任何特定对象分类的限制。为了处理主体视频中的动态对象挑战，我们设计了一个瞬态预测模块，学习如何过滤出3D重建中的动态对象。结果是一个完全自动化的流水线，能够将3D对象实例重建为由3D高斯组成的集合，共同构成整个场景。我们在Aria Digital Twin数据集上创建了一个新的基准，定量展示了其在从自然主体输入进行开放世界3D分割方面的最新性能。我们在各种主体活动数据集上运行了EgoLifter，显示了该方法在规模上用于3D主体感知的潜力。

FlexEdit：灵活可控的基于扩散的以对象为中心的图像编辑
FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing

Mar 27

ByTrong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham

我们的工作解决了以往针对以物体为中心的编辑问题所存在的局限性，例如由于形状差异导致的不真实结果以及在物体替换或插入中受限的控制。为此，我们引入了FlexEdit，这是一个灵活且可控的物体编辑框架，我们在每个去噪步骤中使用我们的FlexEdit块迭代调整潜变量。最初，我们在测试时间优化潜变量以与指定的物体约束对齐。然后，我们的框架采用自适应蒙版，在去噪过程中自动提取，以保护背景并将新内容无缝融合到目标图像中。我们展示了FlexEdit在各种物体编辑任务中的多功能性，并策划了一个包含真实和合成图像样本的评估测试套件，以及专为以物体为中心的编辑设计的新型评估指标。我们在不同编辑场景上进行了大量实验，展示了我们的编辑框架相对于最新的文本引导图像编辑方法的优越性。我们的项目页面发布在https://flex-edit.github.io/。

实现面向设备的虚拟助手的全球英语语言模型
Towards a World-English Language Model for On-Device Virtual Assistants

Mar 27

ByRricha Jalota, Lyan Verwimp, Markus Nussbaum-Thom, Amr Mousa, Arturo Argueta, Youssef Oualil

神经网络语言模型（NNLMs）用于虚拟助手（VAs）通常是依赖于语言、地区，有时还依赖于设备，这增加了扩展和维护的工作量。将NNLMs结合用于一个或多个类别是提高可扩展性的一种方法。在这项工作中，我们结合了英语的地区变体，构建了一个用于设备上的VAs的“世界英语”NNLM。具体来说，我们研究了适配器瓶颈的应用，以模拟我们现有生产NNLMs中的方言特征，并增强多方言基线。我们发现适配器模块在模拟方言方面比专门化整个子网络更有效。基于这一观点，并利用我们生产模型的设计，我们引入了一种新的架构，用于世界英语NNLM，满足我们单一方言模型的准确性、延迟和内存约束。

AI研究论文每日精选

每日精选AI研究论文及翻译

ViTAR：具有任意分辨率的视觉Transformer
ViTAR: Vision Transformer with Any Resolution

Mar 27

ByQihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang

Mini-Gemini：挖掘多模态视觉语言模型的潜力
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mar 27

ByYanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia

ObjectDrop：为逼真物体移除和插入引导式反事实生成对抗训练
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion

Mar 27

ByDaniel Winter, Matan Cohen, Shlomi Fruchter, Yael Pritch, Alex Rav-Acha, Yedid Hoshen