AI研究论文每日精选

每日精选AI研究论文及翻译

X-Prompt：走向自回归视觉语言基础模型中的通用上下文图像生成
X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

Dec 2

ByZeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

上下文生成是大型语言模型（LLMs）开放任务泛化能力的关键组成部分。通过利用少量示例作为上下文，LLMs可以执行领域内和领域外的任务。建立在LLMs基础上的自回归视觉语言模型（VLMs）的最新进展展示了在文本到图像生成方面的出色性能。然而，利用上下文学习进行一般图像生成任务的潜力仍然大部分未被探索。为了解决这个问题，我们引入了X-Prompt，一个纯自回归的大型视觉语言模型，旨在在统一的上下文学习框架内，在各种已见和未见的图像生成任务中提供竞争性能力。X-Prompt采用了一种专门设计，可以高效地压缩来自上下文示例的有价值特征，支持更长的上下文标记序列，并提高其泛化到未见任务的能力。用于文本和图像预测的统一训练任务使X-Prompt能够通过上下文示例增强任务意识来处理一般图像生成。广泛的实验证实了该模型在各种已见图像生成任务中的性能以及其泛化到以前未见任务的能力。

浮动：用于音频驱动的说话肖像的生成式运动潜流匹配
FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

Dec 2

ByTaekyung Ki, Dongchan Min, Gyoungsu Chae

随着基于扩散的生成模型的快速发展，肖像图像动画取得了显著成果。然而，由于其迭代采样的特性，它仍然面临着在时间上保持一致的视频生成和快速采样方面的挑战。本文提出了一种名为FLOAT的音频驱动的说话肖像视频生成方法，基于流匹配生成模型。我们将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间，实现了有效设计时间上一致的运动。为了实现这一点，我们引入了基于Transformer的矢量场预测器，具有简单而有效的逐帧调节机制。此外，我们的方法支持由语音驱动的情感增强，实现了表现力运动的自然融合。大量实验证明，我们的方法在视觉质量、运动保真度和效率方面优于最先进的音频驱动说话肖像方法。

o1-Coder：用于编码的o1复制
o1-Coder: an o1 Replication for Coding

Nov 29

ByYuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong, Jitao Sang

这份技术报告介绍了 O1-CODER，这是一个尝试复制 OpenAI 的 o1 模型，专注于编码任务的项目。它整合了强化学习（RL）和蒙特卡洛树搜索（MCTS）来增强模型的第二系统思维能力。该框架包括训练一个测试用例生成器（TCG）用于标准化代码测试，利用 MCTS 生成带有推理过程的代码数据，并通过迭代微调策略模型，最初生成伪代码，然后生成完整代码。报告还讨论了在实际应用中部署类似 o1 模型的机会和挑战，建议过渡到第二系统范式，并强调环境状态更新的必要性。更新后的模型进展和实验结果将在随后的版本中报告。所有源代码、筛选的数据集以及衍生模型将在 https://github.com/ADaM-BJTU/O1-CODER 上公开。

Switti：为文本到图像合成设计分层Transformer
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

Dec 2

ByAnton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk

本文介绍了Switti，一种用于文本到图像生成的分尺度Transformer。从现有的下一尺度预测自回归（AR）模型出发，我们首先探索了它们在T2I生成中的应用，并提出了架构修改以提高其收敛性和整体性能。然后我们观察到，我们预训练的分尺度AR模型的自注意力图对前尺度的依赖较弱。基于这一观察，我们提出了一个非AR对应物，促进了约11%更快的采样速度和更低的内存使用，同时也实现了略微更好的生成质量。此外，我们发现在高分辨率尺度上无需分类器指导往往是不必要的，甚至可能降低性能。通过在这些尺度上禁用指导，我们实现了额外约20%的采样加速，并改善了细粒度细节的生成。广泛的人类偏好研究和自动化评估显示，Switti优于现有的T2I AR模型，并与最先进的T2I扩散模型竞争，同时速度快多达7倍。

Open-Sora计划：开源大型视频生成模型
Open-Sora Plan: Open-Source Large Video Generation Model

Nov 28

ByBin Lin, Yunyang Ge, Xinhua Cheng, Zongjian Li, Bin Zhu, Shaodong Wang, Xianyi He, Yang Ye, Shenghai Yuan, Liuhan Chen, Tanghui Jia, Junwu Zhang, Zhenyu Tang, Yatian Pang, Bin She, Cen Yan, Zhiheng Hu, Xiaoyi Dong, Lin Chen, Zhang Pan, Xing Zhou, Shaoling Dong, Yonghong Tian, Li Yuan

我们介绍了Open-Sora计划，这是一个旨在为生成所需高分辨率视频提供大型生成模型的开源项目，其基于各种用户输入。我们的项目包括用于整个视频生成过程的多个组件，包括Wavelet-Flow变分自动编码器、联合图像视频Skiparse去噪器和各种条件控制器。此外，我们设计了许多用于高效训练和推断的辅助策略，并提出了用于获取所需高质量数据的多维数据整理流程。由于高效的思路，我们的Open-Sora计划在定性和定量评估中均取得了令人印象深刻的视频生成结果。我们希望我们的精心设计和实践经验能激发视频生成研究社区。我们所有的代码和模型权重都可以在https://github.com/PKU-YuanGroup/Open-Sora-Plan 上公开获取。

VISTA：通过视频时空增强来增强长时间和高分辨率视频理解
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

Dec 1

ByWeiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen

当前的大型多模态模型（LMMs）在处理和理解长时间或高分辨率视频时面临重大挑战，主要原因是缺乏高质量的数据集。为了从数据中心的角度解决这一问题，我们提出了VISTA，这是一个简单而有效的视频时空增强框架，可以从现有的视频字幕数据集中合成长时间和高分辨率的视频指令-跟随对。VISTA在空间和时间上结合视频，创建新的合成视频，具有延长的持续时间和增强的分辨率，随后生成与这些新合成视频相关的问题-答案对。基于这一范式，我们开发了七种视频增强方法，并策划了VISTA-400K，这是一个旨在增强长时间和高分辨率视频理解的视频指令-跟随数据集。在我们的数据上微调各种视频LMMs导致在长视频理解的四个具有挑战性的基准测试中平均提高了3.3%。此外，我们引入了第一个全面的高分辨率视频理解基准测试HRVideoBench，在这一基准测试上，我们微调的模型实现了6.5%的性能提升。这些结果突显了我们框架的有效性。

《The Well：用于机器学习的大规模多样化物理模拟数据集》
The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning

Nov 30

ByRuben Ohana, Michael McCabe, Lucas Meyer, Rudy Morel, Fruzsina J. Agocs, Miguel Beneitez, Marsha Berger, Blakesley Burkhart, Stuart B. Dalziel, Drummond B. Fielding, Daniel Fortunato, Jared A. Goldberg, Keiya Hirashima, Yan-Fei Jiang, Rich R. Kerswell, Suryanarayana Maddu, Jonah Miller, Payel Mukhopadhyay, Stefan S. Nixon, Jeff Shen, Romain Watteaux, Bruno Régaldo-Saint Blancard, François Rozet, Liam H. Parker, Miles Cranmer, Shirley Ho

基于机器学习的代理模型为加速基于模拟的工作流程提供了强大的工具。然而，由于该领域的标准数据集通常涵盖物理行为的小类别，因此评估新方法的有效性可能会很困难。为了弥补这一差距，我们引入了Well：一个大规模数据集合，包含了各种时空物理系统的数值模拟。Well汇集了领域专家和数值软件开发人员的力量，提供了来自16个数据集的总计15TB数据，涵盖生物系统、流体动力学、声学散射以及超银河流体或超新星爆炸等多样领域。这些数据集可以单独使用，也可作为更广泛基准套件的一部分。为了便于使用Well，我们提供了一个统一的PyTorch接口，用于训练和评估模型。我们通过引入突出Well复杂动态所带来的新挑战的示例基线，展示了该库的功能。代码和数据可在https://github.com/PolymathicAI/the_well 获取。

SOLAMI：用于与3D自主角色进行沉浸式互动的社交视觉-语言-行为建模
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

Nov 29

ByJianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu

人类是社会动物。如何为3D自主角色配备类似社会智能，使其能感知、理解和与人类互动，仍然是一个尚未解决但基础的问题。在本文中，我们介绍了SOLAMI，这是第一个端到端的用于与3D自主角色进行沉浸式互动的社会视觉-语言-行为（VLA）建模框架。具体而言，SOLAMI从三个方面构建3D自主角色：（1）社会VLA架构：我们提出了一个统一的社会VLA框架，根据用户的多模态输入生成多模态响应（语音和动作），驱动角色进行社交互动。（2）交互式多模态数据：我们提出了SynMSI，这是一个通过自动流程仅使用现有动作数据集生成的合成多模态社交互动数据集，以解决数据稀缺问题。（3）沉浸式虚拟现实界面：我们开发了一个虚拟现实界面，使用户能够沉浸式地与这些角色进行互动，这些角色由各种架构驱动。大量定量实验和用户研究表明，我们的框架导致更精确和自然的角色响应（包括语音和动作），符合用户期望，并具有更低的延迟。

TAPTRv3：空间和时间背景促进长视频中任意点的稳健跟踪
TAPTRv3: Spatial and Temporal Context Foster Robust Tracking of Any Point in Long Video

Nov 27

ByJinyuan Qu, Hongyang Li, Shilong Liu, Tianhe Ren, Zhaoyang Zeng, Lei Zhang

本文介绍了TAPTRv3，它是在TAPTRv2的基础上构建的，旨在提高长视频中的点跟踪稳健性。TAPTRv2是一个类似DETR的简单框架，可以准确地在现实世界的视频中跟踪任何点，而无需成本体积。TAPTRv3通过解决TAPTRv2在从长视频中查询高质量特征方面的不足来改进TAPTRv2，在这种视频中，目标跟踪点通常随时间变化而增加。在TAPTRv3中，我们提出利用空间和时间上下文，沿着空间和时间维度进行更强大的特征查询，以实现在长视频中更稳健的跟踪。为了更好地进行空间特征查询，我们提出了上下文感知交叉注意力（CCA），它利用周围的空间上下文来增强在查询图像特征时的注意力分数质量。为了更好地进行时间特征查询，我们引入了可见性感知长时注意力（VLTA），它在考虑其对应可见性的同时，对所有过去帧进行时间注意力，有效地解决了TAPTRv2中由其类似RNN的长时建模带来的特征漂移问题。TAPTRv3在大多数具有挑战性的数据集上远远超过了TAPTRv2，并获得了最先进的性能。即使与使用大规模额外内部数据训练的方法相比，TAPTRv3仍然具有竞争力。

GATE开放：一个全面的基准，用于评判开放式交织的图像文本生成
GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Nov 27

ByPengfei Zhou, Xiaopeng Peng, Jiajun Song, Chuanhao Li, Zhaopan Xu, Yue Yang, Ziyao Guo, Hao Zhang, Yuqi Lin, Yefei He, Lirui Zhao, Shuo Liu, Tianhua Li, Yuxuan Xie, Xiaojun Chang, Yu Qiao, Wenqi Shao, Kaipeng Zhang

多模态大型语言模型（MLLMs）在视觉理解和生成任务中取得了重大进展。然而，生成交错的图像-文本内容仍然是一个挑战，这需要综合的多模态理解和生成能力。虽然统一模型的进展提供了新的解决方案，但由于数据规模和多样性的限制，现有的基准测试不足以评估这些方法。为了弥合这一差距，我们引入了GATE OpenING（OpenING），这是一个包含5,400个高质量人工注释实例的全面基准，涵盖了56个现实世界任务。OpenING涵盖了旅行指南、设计和头脑风暴等多样化的日常场景，为具有挑战性的交错生成方法提供了一个强大的平台。此外，我们提出了IntJudge，一个用于评估开放式多模态生成方法的评判模型。通过采用新颖的数据管道进行训练，我们的IntJudge与人类判断达成82.42%的一致率，优于基于GPT的评估者11.34%。对OpenING的大量实验显示，当前的交错生成方法仍有很大的改进空间。关于交错的图像-文本生成的关键发现进一步呈现，以指导下一代模型的发展。OpenING在https://opening.github.io 上开源。

高效追踪任何事物
Efficient Track Anything

Nov 28

ByYunyang Xiong, Chong Zhou, Xiaoyu Xiang, Lemeng Wu, Chenchen Zhu, Zechun Liu, Saksham Suri, Balakrishnan Varadarajan, Ramya Akula, Forrest Iandola, Raghuraman Krishnamoorthi, Bilge Soran, Vikas Chandra

Segment Anything Model 2（SAM 2）已经成为视频对象分割和跟踪任何物体的强大工具。SAM 2 的关键组件包括用于帧特征提取的大型多阶段图像编码器和存储过去帧内存上下文以帮助当前帧分割的记忆机制。多阶段图像编码器和内存模块的高计算复杂性限制了其在现实世界任务中的应用，例如移动设备上的视频对象分割。为了解决这一局限性，我们提出了EfficientTAMs，轻量级跟踪任何物体模型，能够以低延迟和模型大小产生高质量结果。我们的想法是重新审视普通的、非层次化的Vision Transformer（ViT）作为视频对象分割的图像编码器，并引入一个高效的内存模块，既降低了帧特征提取的复杂性，又减少了当前帧分割的内存计算复杂性。我们采用普通轻量级ViTs和高效内存模块构建EfficientTAMs，并在SA-1B和SA-V数据集上对视频对象分割和跟踪任何任务进行训练。我们在多个视频分割基准上进行评估，包括半监督VOS和可提示的视频分割，发现我们提出的EfficientTAM与普通ViT相比，性能与SAM 2模型（HieraB+SAM 2）相当，在A100上速度提升约2倍，参数减少约2.4倍。在分割任何图像任务上，我们的EfficientTAMs也表现优于原始SAM，在A100上速度提升约20倍，参数减少约20倍。在iPhone 15 Pro Max等移动设备上，我们的EfficientTAMs可以以约10 FPS的速度运行，执行具有合理质量的视频对象分割，突显小型模型在设备端视频对象分割应用中的能力。

在矢量场中引导修正流模型以控制图像生成
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation

Nov 27

ByMaitreya Patel, Song Wen, Dimitris N. Metaxas, Yezhou Yang

扩散模型（DMs）在逼真度、图像编辑和解决反问题方面表现出色，得益于无分类器指导和图像反演技术。然而，矫正流模型（RFMs）在这些任务中仍未得到充分探索。现有基于DM的方法通常需要额外训练，缺乏对预训练潜在模型的泛化能力，性能不佳，并且由于通过ODE求解器和反演过程的广泛反向传播而需要大量计算资源。在这项工作中，我们首先对RFMs的矢量场动力学进行理论和实证研究，以有效引导去噪轨迹。我们的研究结果显示，我们可以以确定性和无梯度的方式导航矢量场。利用这一特性，我们提出了FlowChef，利用矢量场引导去噪轨迹进行受控图像生成任务，通过跳过梯度实现，FlowChef是一个统一的框架，首次同时解决分类器指导、线性反问题和图像编辑，无需额外训练、反演或密集反向传播。最后，我们进行了广泛评估，并展示FlowChef在性能、内存和时间需求方面明显优于基线方法，取得了新的最先进结果。项目页面：https://flowchef.github.io。

利用区域知识评估多语言语言理解
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge

Nov 29

ByAngelika Romanou, Negar Foroutan, Anna Sotnikova, Zeming Chen, Sree Harsha Nelaturu, Shivalika Singh, Rishabh Maheshwary, Micol Altomare, Mohamed A. Haggag, Snegha A, Alfonso Amayuelas, Azril Hafizi Amirudin, Viraat Aryabumi, Danylo Boiko, Michael Chang, Jenny Chim, Gal Cohen, Aditya Kumar Dalmia, Abraham Diress, Sharad Duwal, Daniil Dzenhaliou, Daniel Fernando Erazo Florez, Fabian Farestam, Joseph Marvin Imperial, Shayekh Bin Islam, Perttu Isotalo, Maral Jabbarishiviari, Börje F. Karlsson, Eldar Khalilov, Christopher Klamm, Fajri Koto, Dominik Krzemiński, Gabriel Adriano de Melo, Syrielle Montariol, Yiyang Nan, Joel Niklaus, Jekaterina Novikova, Johan Samir Obando Ceron, Debjit Paul, Esther Ploeger, Jebish Purbey, Swati Rajwal, Selvan Sunitha Ravi, Sara Rydell, Roshan Santhosh, Drishti Sharma, Marjana Prifti Skenduli, Arshia Soltani Moakhar, Bardia Soltani Moakhar, Ran Tamir, Ayush Kumar Tarun, Azmine Toushik Wasi, Thenuka Ovin Weerasinghe, Serhan Yilmaz, Mike Zhang, Imanol Schlag, Marzieh Fadaee, Sara Hooker, Antoine Bosselut

大型语言模型（LLM）在不同语言之间的性能差异阻碍了它们在许多地区的有效部署，抑制了生成式人工智能工具在许多社区中的潜在经济和社会价值。然而，在许多语言中开发功能性LLM（即多语言LLM）受制于除英语以外其他语言缺乏高质量评估资源。此外，当前的多语言基准构建实践通常是将英语资源翻译，忽略了多语言系统将被使用的环境中的区域和文化知识。在这项工作中，我们构建了一个由本地考试来源的197,243个问答对组成的评估套件，以衡量多语言LLM在各种区域背景下的能力。我们的新资源，名为INCLUDE，是一个跨44种书面语言的综合知识和推理中心基准，评估多语言LLM在实际语言环境中的表现。

VLsI：从大到小的视觉语言模型中的层级交互 verbalized layers-to-interactions.
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models

Dec 2

ByByung-Kwan Lee, Ryo Hachiuma, Yu-Chiang Frank Wang, Yong Man Ro, Yueh-Hua Wu

最近，来自闭源视觉语言模型（VLMs）如GPT-4V的高质量视觉指导调整样本激发了各种模型规模的开源VLMs的发布。然而，通过扩展VLMs以提高性能所带来的计算挑战是巨大的，特别是对于在资源受限设备上部署，比如移动平台和机器人。为了解决这个问题，我们提出了VLsI：Verbalized Layers-to-Interactions，这是一个新的VLM家族，包括2B和7B模型规模，它在不损害准确性的前提下优先考虑效率。VLsI利用一种独特的逐层蒸馏过程，引入了中间的“语言化器”，将每一层的特征映射到自然语言空间，使较小的VLMs能够灵活地与较大的VLMs的推理过程对齐。这种方法通过将小型VLMs的逐层进展与大型VLMs的进展对齐，缓解了通常在输出模仿中遇到的训练不稳定性，并超越了典型的最终层调整。我们在十个具有挑战性的视觉语言基准测试中验证了VLsI，实现了显著的性能提升（2B为11.0%，7B为17.4%），而无需进行模型扩展、合并或架构更改。

微融合：学习浅层扩散变压器
TinyFusion: Diffusion Transformers Learned Shallow

Dec 2

ByGongfan Fang, Kunjun Li, Xinyin Ma, Xinchao Wang

扩散变压器在图像生成方面展示出卓越的能力，但往往伴随着过多的参数化，导致在实际应用中存在相当大的推理开销。在这项工作中，我们提出了TinyFusion，一种深度修剪方法，旨在通过端到端学习从扩散变压器中去除多余的层。我们方法的核心原则是创建一个具有高可恢复性的修剪模型，使其在微调后能够恢复强大的性能。为实现这一目标，我们引入了一种可微分采样技术，使修剪可学习化，并配以一个协同优化的参数来模拟未来的微调。虽然先前的研究侧重于在修剪后最小化损失或错误，但我们的方法明确地对修剪模型在微调后的性能进行建模和优化。实验结果表明，这种可学习的范式为扩散变压器的层修剪提供了实质性的好处，超越了现有的基于重要性和错误的方法。此外，TinyFusion在各种架构上都表现出强大的泛化能力，如DiTs、MARs和SiTs。对DiT-XL的实验表明，TinyFusion可以以不到预训练成本的7%构建一个浅层扩散变压器，在FID得分为2.86的情况下实现2倍加速，胜过具有可比效率的竞争对手。代码可在https://github.com/VainF/TinyFusion找到。

WF-VAE：通过小波驱动的能量流增强视频变分自动编码器，用于潜在视频扩散模型。
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model

Nov 26

ByZongjian Li, Bin Lin, Yang Ye, Liuhan Chen, Xinhua Cheng, Shenghai Yuan, Li Yuan

视频变分自动编码器（VAE）将视频编码为低维潜在空间，成为大多数潜在视频扩散模型（LVDMs）的关键组成部分，以降低模型训练成本。然而，随着生成视频的分辨率和持续时间增加，视频VAE的编码成本成为训练LVDMs的限制瓶颈。此外，大多数LVDMs采用的分块推断方法在处理持续时间较长的视频时可能导致潜在空间的不连续性。解决计算瓶颈的关键在于将视频分解为不同的组件，并高效地编码关键信息。小波变换可以将视频分解为多个频域组件并显著提高效率，因此我们提出了小波流变分自动编码器（WF-VAE），这是一种利用多级小波变换促进低频能量流入潜在表示的自动编码器。此外，我们引入了一种称为因果缓存的方法，它在分块推断过程中保持潜在空间的完整性。与最先进的视频VAE相比，WF-VAE在PSNR和LPIPS指标上表现出优越性能，实现了2倍的吞吐量提高和4倍的内存消耗降低，同时保持竞争性的重建质量。我们的代码和模型可在https://github.com/PKU-YuanGroup/WF-VAE 上找到。

使用分段交叉注意力和内容丰富的视频数据整理生成长视频传播
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Dec 2

ByXin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang

我们介绍了Presto，这是一种新颖的视频扩散模型，旨在生成具有长程连贯性和丰富内容的15秒视频。将视频生成方法扩展到长时间段以保持情景多样性带来了重大挑战。为了解决这个问题，我们提出了分段交叉注意（SCA）策略，它将隐藏状态沿时间维度分割为段，使每个段可以与相应的子标题进行交叉注意。SCA不需要额外的参数，可以无缝地融入当前基于DiT的架构中。为了促进高质量的长视频生成，我们构建了LongTake-HD数据集，包括261k个内容丰富的视频，具有情景连贯性，并附带整体视频标题和五个渐进式子标题。实验表明，我们的Presto在VBench语义得分上达到了78.5%，在动态度上达到了100%，优于现有最先进的视频生成方法。这表明我们提出的Presto显著增强了内容丰富性，保持了长程连贯性，并捕捉了复杂的文本细节。更多详细信息请查看我们的项目页面：https://presto-video.github.io/。

VLSBench：揭示多模态安全中的视觉泄漏
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Nov 29

ByXuhao Hu, Dongrui Liu, Hao Li, Xuanjing Huang, Jing Shao

在各种应用中，多模态大型语言模型（MLLMs）的安全性问题逐渐成为一个重要问题。令人惊讶的是，先前的研究表明了一个反直觉的现象，即使用文本去对齐MLLMs可以达到与使用图像文本对训练的MLLMs相当的安全性能。为了解释这种反直觉的现象，我们发现了现有多模态安全基准中的一种视觉安全信息泄漏（VSIL）问题，即图像中的潜在风险和敏感内容已经在文本查询中被揭示。这样，MLLMs可以根据文本查询轻松拒绝这些敏感的文本-图像查询。然而，在现实场景中，没有VSIL的图像文本对是常见的，但被现有多模态安全基准所忽视。因此，我们构建了多模态视觉无泄漏安全基准（VLSBench），防止图像到文本查询的视觉安全泄漏，其中包括2.4k个图像文本对。实验结果表明，VLSBench对于包括LLaVA、Qwen2-VL、Llama3.2-Vision和GPT-4o在内的开源和闭源MLLMs都构成了重大挑战。本研究表明，对于存在VSIL的多模态安全场景，文本对齐已经足够，而对于不存在VSIL的多模态安全场景，多模态对齐是一个更有前景的解决方案。请访问我们的代码和数据：http://hxhcreate.github.io/VLSBench

无艺术背景生成模型：无需图形艺术知识的艺术创作
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge

Nov 29

ByHui Ren, Joanna Materzynska, Rohit Gandikota, David Bau, Antonio Torralba

我们探讨一个问题：“创作艺术需要多少先前的艺术知识？”为了研究这个问题，我们提出了一个文本到图像生成模型，该模型在没有访问艺术相关内容的情况下进行训练。然后，我们引入了一种简单而有效的方法，仅使用少量选定艺术风格的示例来学习艺术适配器。我们的实验表明，使用我们的方法生成的艺术作品被用户认为与在大型、艺术丰富的数据集上训练的模型生成的艺术作品相媲美。最后，通过数据归因技术，我们阐明了来自艺术和非艺术数据集的示例如何促成了新艺术风格的创作。

VisOnlyQA：大型视觉语言模型仍然在感知几何信息方面存在困难
VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information

Dec 1

ByRyo Kamoi, Yusen Zhang, Sarkar Snigdha Sarathi Das, Ranran Haoran Zhang, Rui Zhang

在图像中对视觉信息的理解错误（即视觉感知错误）仍然是大型视觉语言模型（LVLMs）中错误的主要来源。虽然进一步分析至关重要，但目前缺乏用于评估LVLMs视觉感知的数据集。在这项工作中，我们介绍了VisOnlyQA，这是一个新数据集，旨在直接评估LVLMs对科学图表中几何和数值信息的视觉感知能力。我们的数据集使我们能够分析LVLMs对细粒度视觉信息的感知，独立于推理等其他能力。VisOnlyQA的评估集包括1,200个涉及四类图表的12个任务的多项选择问题。我们还提供了包含70,000个实例的合成训练数据。我们在VisOnlyQA上的实验突出了以下发现：（i）我们评估的20个LVLMs，包括GPT-4o和Gemini 1.5 Pro，在VisOnlyQA的视觉感知任务上表现不佳，而人类表现几乎完美。（ii）在合成训练数据上微调显示了增强LVLMs视觉感知的潜力，但观察到的改进仅限于特定任务和特定模型。（iii）更强大的语言模型可以提高LVLMs的视觉感知。总之，我们的实验表明，应该改进训练数据和模型架构以增强LVLMs的视觉感知能力。数据集、代码和模型响应可在https://github.com/psunlpgroup/VisOnlyQA获取。

PhysGame：揭示游戏视频中的物理常识违规
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

Dec 2

ByMeng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang

最近在基于视频的大型语言模型（Video LLMs）方面取得的进展，见证了对推理和解释动态视觉内容的多样能力的出现。其中，游戏视频以其独特的数据来源而脱颖而出，通常包含违反物理常识的故障。这一特征使它们成为评估视频LLMs中未充分探索的物理常识理解能力的有效基准。在本文中，我们提出PhysGame作为一个开创性的基准，用于评估游戏视频中的物理常识违规行为。PhysGame包括880个视频，涵盖了四个基本领域（即力学、运动学、光学和材料属性）以及12个不同的物理常识。通过广泛评估各种最先进的视频LLMs，我们的研究结果显示，当前开源视频LLMs的性能明显落后于专有对手。为了弥补这一差距，我们整理了一个指导调整数据集PhysInstruct，包含14万零57个问答对，以促进物理常识学习。此外，我们还提出了一个偏好优化数据集PhysDPO，包含34,358个训练对，其中生成了不受欢迎的响应，条件是误导性标题（即元信息篡改）、较少帧（即时间篡改）和较低空间分辨率（即空间篡改）。基于这一系列数据集，我们提出了PhysVLM作为一种物理知识增强的视频LLM。对物理导向基准PhysGame和一般视频理解基准的广泛实验表明了PhysVLM的最先进性能。

大型语言模型测试时间计算的简单且可证明的扩展定律
A Simple and Provable Scaling Law for the Test-Time Compute of Large Language Models

Nov 29

ByYanxi Chen, Xuchen Pan, Yaliang Li, Bolin Ding, Jingren Zhou

我们提出了一种通用的两阶段算法，该算法在大型语言模型（LLMs）的测试时间计算中具有可证明的可伸缩规律。给定一个输入问题，所提出的算法首先生成N个候选解，然后通过多轮淘汰赛选择最佳解，其中每对候选解会进行K次比较，只有胜者才能晋级到下一轮。在一种极简实现中，两个阶段均可仅通过黑盒LLM执行，无需其他任何东西（例如，无需外部验证器或奖励模型），解决一个输入问题需要总共N次（K + 1）高度可并行化的LLM调用。假设生成的候选解正确的概率为p_{gen} > 0，且一对正确和错误解之间的比较以概率p_{comp} > 0.5（即高于随机猜测）确定正确的胜者，我们在理论上证明了所提出算法的失败概率会随着N和K指数级地衰减至零：$P(最终输出不正确) ≤ (1 - p_{gen})^N + ⌈log_2 N⌉e^{-2 K (p_{comp} - 0.5)^2}.$ 我们在具有挑战性的MMLU-Pro基准测试中的实证结果验证了技术假设，以及所提出算法的有效性和通过增加测试时间计算规模带来的收益。

协作实例导航：利用代理自我对话最小化用户输入
Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input

Dec 2

ByFrancesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

现有的基于具体实例目标导航任务，是由自然语言驱动的，假设人类用户在导航之前提供完整而细致的实例描述，然而在现实世界中，人类指令可能简短且含糊不清，这在实践中可能并不可行。为了弥合这一差距，我们提出了一项新任务，即协作式实例导航（CoIN），在导航过程中动态地进行智能体与人类的交互，以积极解决关于目标实例的不确定性，采用自然、无模板、开放式对话。为了解决CoIN问题，我们提出了一种新颖的方法，即具有不确定性感知的智能体-用户交互（AIUTA），利用视觉语言模型（VLMs）的感知能力和大型语言模型（LLMs）的能力。首先，在目标检测后，一个自我提问者模型启动自我对话，以获得完整准确的观察描述，同时一种新颖的不确定性估计技术减轻了VLM感知的不准确性。然后，一个交互触发模块确定是否向用户提问、继续或停止导航，从而最大程度地减少用户输入。为了评估，我们引入了CoIN-Bench，一个支持真实和模拟人类的基准测试。AIUTA在实例导航中取得了与最先进方法竞争力相当的表现，展示了处理用户输入时的极大灵活性。

AMO采样器：通过过冲增强文本渲染
AMO Sampler: Enhancing Text Rendering with Overshooting

Nov 28

ByXixi Hu, Keyang Xu, Bo Liu, Qiang Liu, Hongliang Fei

在文本到图像生成中，确保文本指令与生成的图像精确对齐是一个重要挑战，特别是在图像中呈现书面文本。像Stable Diffusion 3（SD3）、Flux和AuraFlow这样的最先进模型仍然在准确呈现文本方面存在困难，导致拼写错误或文本不一致。我们引入了一种无需训练的方法，计算开销极小，可以显著提高文本呈现质量。具体而言，我们为预训练的矫正流（RF）模型引入了一种过冲采样器，通过在学习的常微分方程（ODE）之间交替进行过度模拟和重新引入噪声。与Euler采样器相比，过冲采样器有效地引入了额外的朗之万动力学项，有助于纠正连续Euler步骤中的复合误差，从而改善文本呈现。然而，当过冲强度较高时，我们观察到生成的图像上出现了过度平滑的伪影。为了解决这个问题，我们提出了一种自适应控制每个图像块的过冲强度的注意力调节过冲采样器（AMO），根据它们与文本内容的注意力得分。AMO在不影响整体图像质量或增加推理成本的情况下，在SD3和Flux上展示了32.3%和35.9%的文本呈现准确性改进。

通过知识增强提示探索大型语言模型解决比例类比的能力
Exploring the Abilities of Large Language Models to Solve Proportional Analogies via Knowledge-Enhanced Prompting

Dec 1

ByThilini Wijesiriwardene, Ruwan Wickramarachchi, Sreeram Vennam, Vinija Jain, Aman Chadha, Amitava Das, Ponnurangam Kumaraguru, Amit Sheth

制作类比是认知的基础。比例类比由四个术语组成，通常用于评估语言和认知能力。例如，完成类比如“氧气对应气体，<空白>对应<空白>”需要识别第一对术语（“氧气”和“气体”）之间的语义关系（例如，“类型为”），并找到共享相同关系的第二对术语（例如，“铝”和“金属”）。在这项工作中，我们介绍了一个包含15K个多项选择问题答案（MCQA）的数据集，用于比例类比完成，并评估当代大型语言模型（LLMs）在各种知识增强提示设置下的表现。具体而言，我们使用三种类型的知识来增强提示：示例、结构化和有针对性的。我们的结果显示，尽管有大量训练数据，但对于当前的LLMs来说，解决比例类比仍然具有挑战性，最佳模型的准确率为55%。值得注意的是，我们发现提供有针对性的知识可以更好地帮助模型完成比例类比，而不是提供示例或结构化知识集合。

具有显式三维建模的全局一致视频扩散
World-consistent Video Diffusion with Explicit 3D Modeling

Dec 2

ByQihang Zhang, Shuangfei Zhai, Miguel Angel Bautista, Kevin Miao, Alexander Toshev, Joshua Susskind, Jiatao Gu

最近扩散模型的进展在图像和视频生成方面设立了新的基准，实现了在单帧和多帧上下文中逼真的视觉合成。然而，这些模型仍然在高效和明确地生成3D一致内容方面存在困难。为了解决这一问题，我们提出了一种新颖的框架，即“世界一致视频扩散”（WVD），它通过使用XYZ图像来编码每个图像像素的全局3D坐标，从而融入了明确的3D监督。更具体地说，我们训练一个扩散变换器来学习RGB和XYZ帧的联合分布。这种方法通过灵活的修补策略支持多任务适应性。例如，WVD可以从地面真实RGB估计XYZ帧，或者使用沿指定摄像机轨迹的XYZ投影生成新的RGB帧。通过这种方式，WVD统一了诸如单图像到3D生成、多视图立体和摄像机控制视频生成等任务。我们的方法在多个基准测试中展现出竞争性能，为3D一致视频和图像生成提供了可扩展的解决方案，只需一个预训练模型。

HUGSIM：用于自动驾驶的实时、照片级和闭环模拟器
HUGSIM: A Real-Time, Photo-Realistic and Closed-Loop Simulator for Autonomous Driving

Dec 2

ByHongyu Zhou, Longzhong Lin, Jiabao Wang, Yichong Lu, Dongfeng Bai, Bingbing Liu, Yue Wang, Andreas Geiger, Yiyi Liao

在过去几十年中，自动驾驶算法在感知、规划和控制方面取得了显著进展。然而，评估单个组件并不能完全反映整个系统的性能，突显出需要更全面的评估方法。这促使了HUGSIM的开发，这是一个闭环、逼真且实时的模拟器，用于评估自动驾驶算法。我们通过使用3D高斯飞溅将捕获的2D RGB图像提升到3D空间，提高了闭环场景的渲染质量，并构建了闭环环境。在渲染方面，我们解决了闭环场景中新视角合成的挑战，包括视角外推和360度车辆渲染。除了新视角合成，HUGSIM进一步实现了完整的闭环模拟循环，根据控制命令动态更新自车和参与者的状态和观测。此外，HUGSIM提供了一个全面的基准测试，涵盖了来自KITTI-360、Waymo、nuScenes和PandaSet的70多个序列，以及400多个不同的场景，为现有自动驾驶算法提供了一个公平且逼真的评估平台。HUGSIM不仅作为一个直观的评估基准，还在逼真的闭环环境中释放了微调自动驾驶算法的潜力。

通过合成情感语音来提高说话人验证的稳健性
Improving speaker verification robustness with synthetic emotional utterances

Nov 30

ByNikhil Kumar Koditala, Chelsea Jui-Ting Ju, Ruirui Li, Minho Jin, Aman Chadha, Andreas Stolcke

说话者验证（SV）系统提供了一种认证服务，旨在确认特定语音样本是否来自特定说话者。这项技术为各种个性化应用铺平了道路，满足个人偏好。SV系统面临的一个值得注意的挑战是其在各种情感谱上的一致性表现。与中性语音相比，大多数现有模型在处理情绪话语时表现出较高的错误率。因此，这种现象经常导致错过感兴趣的语音。这个问题主要源自有限标记的情感语音数据的可用性，阻碍了涵盖多种情感状态的稳健说话者表示的发展。为了解决这一问题，我们提出了一种新颖方法，利用CycleGAN框架作为数据增强方法。这种技术为每个特定说话者合成情感语音片段，同时保留独特的声音特征。我们的实验结果强调了将合成情感数据纳入训练过程的有效性。使用这种增强数据集训练的模型在验证情感语音场景中的说话者任务上始终优于基线模型，将等误差率相对降低高达3.64%。

在资源稀缺环境中实现跨语言音频滥用检测：少样本学习
Towards Cross-Lingual Audio Abuse Detection in Low-Resource Settings with Few-Shot Learning

Dec 2

ByAditya Narayan Sankaran, Reza Farahbaksh, Noel Crespi

在线虐待内容检测，在低资源环境中尤其是在音频模态中，仍然未被充分探索。我们研究了预训练音频表示在检测低资源语言中滥用语言的潜力，本例中是在印度语言中使用少样本学习（FSL）。利用诸如Wav2Vec和Whisper等模型的强大表示，我们使用ADIMA数据集结合FSL探索跨语言滥用检测。我们的方法将这些表示集成到模型无关元学习（MAML）框架中，以对10种语言中的滥用语言进行分类。我们尝试不同的样本量（50-200），评估有限数据对性能的影响。此外，进行了特征可视化研究，以更好地理解模型行为。这项研究突出了预训练模型在低资源情境中的泛化能力，并为在多语境中检测滥用语言提供了宝贵的见解。