AI研究论文每日精选

每日精选AI研究论文及翻译

可扩展文本和图像条件视频生成（STIV）
STIV: Scalable Text and Image Conditioned Video Generation

Dec 10

ByZongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang

视频生成领域取得了显著进展，但仍急需清晰、系统的指南，以指导健壮且可扩展模型的开发。在这项工作中，我们提出了一项全面研究，系统地探讨了模型架构、训练方法和数据整理策略之间的相互作用，最终形成了一种简单且可扩展的文本图像条件视频生成方法，命名为STIV。我们的框架通过帧替换将图像条件集成到扩散Transformer（DiT）中，同时通过联合图像文本条件分类器的无指导引导，实现了文本条件。这种设计使STIV能够同时执行文本到视频（T2V）和文本图像到视频（TI2V）任务。此外，STIV可以轻松扩展到各种应用，如视频预测、帧插值、多视角生成和长视频生成等。通过对T2I、T2V和TI2V的全面消融研究，尽管设计简单，STIV表现出色。一个拥有8.7B模型和512分辨率的模型在VBench T2V上取得83.1的成绩，超过了CogVideoX-5B、Pika、Kling和Gen-3等领先的开源和闭源模型。相同规模的模型在512分辨率的VBench I2V任务上也取得了90.1的最新成果。通过提供一个透明且可扩展的指南，用于构建尖端视频生成模型，我们旨在赋予未来研究力量，并加速朝着更多功能和可靠的视频生成解决方案的进展。

评估和调整CodeLLMs以符合人类偏好
Evaluating and Aligning CodeLLMs on Human Preference

Dec 6

ByJian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin

大型语言模型（codeLLMs）在代码生成方面取得了重大进展。大多数先前与代码相关的基准测试，包括各种编程练习及相应的测试用例，被用作评估代码LLMs性能和能力的常见指标。然而，当前的代码LLMs侧重于合成正确的代码片段，忽略了与人类偏好的一致性，其中查询应当从实际应用场景中抽样，模型生成的响应应满足人类偏好。为了弥合模型生成的响应与人类偏好之间的差距，我们提出了一个严谨的人工策划基准测试CodeArena，以模拟真实世界编码任务的复杂性和多样性，其中包括来自用户查询的397个高质量样本，涵盖40个类别和44种编程语言。此外，我们提出了一个多样化的合成指令语料库SynCode-Instruct（近20B标记），通过扩展网站上的指令来验证大规模合成指令微调的有效性，其中完全在合成指令数据上训练的Qwen2.5-SynCoder可以实现开源代码LLMs的顶尖性能。结果发现执行基准测试和CodeArena之间的性能差异。我们对40多个LLMs进行的系统实验揭示了开源SOTA代码LLMs（例如Qwen2.5-Coder）和专有LLMs（例如OpenAI o1）之间显著的性能差距，突显了人类偏好一致性的重要性。\url{https://codearenaeval.github.io/}

DiffSensei：将多模态LLM和扩散模型相结合，实现定制漫画生成
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Dec 10

ByJianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong

故事可视化是从文本描述中创建视觉叙事的任务，在文本到图像生成模型方面取得了进展。然而，这些模型通常缺乏对角色外观和互动的有效控制，特别是在多角色场景中。为了解决这些限制，我们提出了一个新任务：定制漫画生成，并引入了DiffSensei，这是一个专门设计用于生成具有动态多角色控制的漫画的创新框架。DiffSensei将基于扩散的图像生成器与多模态大型语言模型（MLLM）集成在一起，后者充当文本兼容的身份适配器。我们的方法采用了掩码交叉注意力，无缝地整合了角色特征，实现了精确的布局控制，而无需直接像素传输。此外，基于MLLM的适配器调整角色特征以与面板特定文本线索对齐，允许对角色表情、姿势和动作进行灵活调整。我们还介绍了MangaZero，这是一个专为这一任务量身定制的大规模数据集，包含43,264页漫画和427,147个带注释的面板，支持在连续帧中可视化各种角色互动和动作。广泛的实验证明，DiffSensei优于现有模型，在漫画生成方面取得了重大进展，实现了可适应文本的角色定制。项目页面链接为https://jianzongwu.github.io/projects/diffsensei/。

ACDiT：插值自回归条件建模与扩散变换器
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

Dec 10

ByJinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun

近来对综合多模态模型的兴趣激增，迫使各种模态的统一化。然而，这种统一化存在着不同的方法论。持续视觉生成需要全序列扩散为基础的方法，尽管这与文本领域中的自回归建模有所不同。我们认为自回归建模，即基于过去确定性经验预测未来的方法，在开发视觉生成模型和潜在的统一多模态模型中仍然至关重要。在本文中，我们探讨了自回归建模和全参数扩散之间的插值来建模视觉信息。在核心部分，我们提出了ACDiT，即Autoregressive blockwise Conditional Diffusion Transformer，其中扩散的块大小，即自回归单元的大小，可以灵活调整以在标记级自回归和全序列扩散之间插值。ACDiT易于实现，只需在训练期间创建一个Skip-Causal Attention Mask（SCAM）即可。在推断期间，该过程在扩散去噪和自回归解码之间迭代，可以充分利用KV-Cache。我们验证了ACDiT在图像和视频生成任务上的有效性。我们还展示了受益于自回归建模，ACDiT可以在视觉理解任务中无缝使用，尽管是在扩散目标上进行训练。自回归建模和扩散之间的权衡分析展示了ACDiT在长期视觉生成任务中的潜力。这些优势使其有望成为未来统一模型的支柱。

嵌入在噪声中：面向图像的两阶段鲁棒水印技术
Hidden in the Noise: Two-Stage Robust Watermarking for Images

Dec 5

ByKasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen

随着图像生成器质量不断提高，深度伪造成为一个备受社会关注的话题。图像水印技术使负责任的模型所有者能够检测和标记其由人工智能生成的内容，从而有助于减轻伤害。然而，当前图像水印技术的最新方法仍然容易受到伪造和移除攻击的影响。这种脆弱性部分原因在于水印会扭曲生成图像的分布，无意中透露了有关水印技术的信息。在这项工作中，我们首先展示了一种基于扩散模型初始噪声的无失真水印方法用于图像。然而，检测水印需要将为图像重建的初始噪声与先前使用的所有初始噪声进行比较。为了减轻这些问题，我们提出了一个两阶段的高效检测水印框架。在生成过程中，我们利用生成的傅立叶模式来增强初始噪声，以嵌入有关我们使用的初始噪声组的信息。在检测阶段，我们（i）检索相关的噪声组，并（ii）在给定的组内搜索可能与我们的图像匹配的初始噪声。这种水印方法在抵御各种攻击方面取得了最先进的防伪和去除效果。

UniReal：通过学习现实世界动态实现通用图像生成和编辑
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Dec 10

ByXi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao

我们介绍UniReal，这是一个统一的框架，旨在解决各种图像生成和编辑任务。现有解决方案通常因任务而异，但共享基本原则：在捕捉视觉变化的同时保持输入和输出之间的一致性。受最近视频生成模型的启发，这些模型能够有效地在帧之间平衡一致性和变化，我们提出了一种统一方法，将图像级任务视为不连续的视频生成。具体而言，我们将不同数量的输入和输出图像视为帧，从而无缝支持诸如图像生成、编辑、定制、合成等任务。尽管设计用于图像级任务，我们利用视频作为通用监督的可扩展来源。UniReal从大规模视频中学习世界动态，展示了处理阴影、反射、姿势变化和物体交互的先进能力，同时还展现了新应用的新兴能力。

FiVA：用于文本到图像扩散模型的细粒度视觉属性数据集
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

Dec 10

ByTong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein

最近在文本到图像生成领域取得的进展使得可以创造具有多种应用的高质量图像。然而，准确描述所需的视觉属性可能具有挑战性，特别是对于艺术和摄影领域的非专家。一种直观的解决方案是从源图像中采用有利的属性。当前的方法尝试从源图像中提取身份和风格。然而，“风格”是一个广泛的概念，包括纹理、颜色和艺术元素，但并不涵盖其他重要属性，比如光照和动态。此外，简化的“风格”调整会阻止将来自不同源的多个属性组合到一个生成的图像中。在这项工作中，我们制定了一种更有效的方法，将图片的美学分解为特定的视觉属性，使用户能够从不同图像中应用光照、纹理和动态等特征。为了实现这一目标，据我们所知，我们构建了第一个细粒度视觉属性数据集（FiVA）。这个FiVA数据集具有一个良好组织的视觉属性分类法，并包括约1百万张带有视觉属性注释的高质量生成图像。利用这个数据集，我们提出了一种细粒度视觉属性调整框架（FiVA-Adapter），它可以将一个或多个源图像中的视觉属性解耦并调整到生成的图像中。这种方法增强了用户友好的定制功能，使用户能够选择性地应用所需的属性，创造符合其独特偏好和具体内容要求的图像。

移动视频传播
Mobile Video Diffusion

Dec 10

ByHaitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian

视频扩散模型已经取得了令人印象深刻的逼真性和可控性，但受到高计算需求的限制，限制了它们在移动设备上的使用。本文介绍了第一个针对移动设备优化的视频扩散模型。从稳定视频扩散（SVD）的时空UNet出发，我们通过降低帧分辨率、融入多尺度时间表示以及引入两种新的剪枝方案来减少内存和计算成本。此外，我们采用对抗微调将去噪减少到一步。我们的模型，命名为MobileVD，效率提高了523倍（1817.2对4.34 TFLOPs），质量略微下降（FVD 149对171），在小米14 Pro上为14x512x256像素的剪辑生成潜变量只需1.7秒。我们的结果可在https://qualcomm-ai-research.github.io/mobile-video-diffusion/ 上查看。

3DTrajMaster：视频中多实体运动的3D轨迹生成技术
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Dec 10

ByXiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin

本文旨在操纵视频生成中的多实体三维运动。先前关于可控视频生成的方法主要利用二维控制信号来操纵物体运动，并取得了显著的合成结果。然而，二维控制信号在表达物体运动的三维特性方面存在固有的局限性。为了克服这一问题，我们引入了3DTrajMaster，这是一个强大的控制器，根据用户期望的实体六自由度姿势（位置和旋转）序列来调节三维空间中的多实体动态。我们方法的核心是一个即插即用的三维运动基础对象注入器，通过门控自注意机制将多个输入实体与它们各自的三维轨迹融合。此外，我们利用一个注入器架构来保留视频扩散先验，这对于泛化能力至关重要。为了减轻视频质量下降，我们在训练过程中引入了一个域适配器，并在推断过程中采用一个退火采样策略。为了解决缺乏合适训练数据的问题，我们构建了一个360运动数据集，首先将收集的三维人类和动物资产与GPT生成的轨迹相关联，然后在不同的三维UE平台上用12个均匀环绕摄像机捕捉它们的运动。大量实验证明，3DTrajMaster在控制多实体三维运动方面在准确性和泛化能力上取得了新的最先进水平。项目页面：http://fuxiao0719.github.io/projects/3dtrajmaster

花岗岩守卫
Granite Guardian

Dec 10

ByInkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Keerthiram Murugesan, Erik Miehling, Martín Santillán Cooper, Kieran Fraser, Giulio Zizzo, Muhammad Zaid Hameed, Mark Purcell, Michael Desmond, Qian Pan, Inge Vejsbjerg, Elizabeth M. Daly, Michael Hind, Werner Geyer, Ambrish Rawat, Kush R. Varshney, Prasanna Sattigeri

我们介绍Granite Guardian模型，这是一套旨在为提示和响应提供风险检测的安全防护措施，可与任何大型语言模型（LLM）结合使用，以确保安全和负责任的使用。这些模型在多个风险维度上提供全面覆盖，包括社会偏见、粗话、暴力、性内容、不道德行为、越狱以及与幻觉相关的风险，如上下文相关性、基础性和用于检索增强生成（RAG）的答案相关性。Granite Guardian模型经过训练，使用了从多个来源获取的人类注释和合成数据相结合的独特数据集，解决了传统风险检测模型通常忽视的风险，如越狱和RAG特定问题。在有害内容和RAG幻觉相关基准上的AUC分别为0.871和0.854，Granite Guardian是当前空间中最具普适性和竞争力的模型。作为开源发布，Granite Guardian旨在推动社区内负责任的人工智能开发。 https://github.com/ibm-granite/granite-guardian

MoViE：移动视频编辑的扩散
MoViE: Mobile Diffusion for Video Editing

Dec 9

ByAdil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian

最近在基于扩散的视频编辑方面取得了显著进展，展现出了实际应用的巨大潜力。然而，这些方法仍然价格昂贵且难以在移动设备上部署。在本研究中，我们引入了一系列优化措施，使移动视频编辑成为可能。在现有图像编辑模型的基础上，我们首先优化其架构并加入了轻量级自动编码器。随后，我们将无分类器引导蒸馏扩展到多种模态，实现了设备上三倍的加速。最后，通过引入一种新颖的对抗蒸馏方案，将采样步骤的数量减少到一步，从而保持编辑过程的可控性。总的来说，这些优化措施使得在移动设备上以每秒12帧的速度进行视频编辑成为可能，同时保持高质量。我们的研究结果可在https://qualcomm-ai-research.github.io/mobile-video-editing/ 上查阅。

使用扩散变压器进行视频动作转移。
Video Motion Transfer with Diffusion Transformers

Dec 10

ByAlexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati

我们提出了DiTFlow，这是一种用于将参考视频的运动转移到新合成视频的方法，专门为扩散变压器（DiT）设计。我们首先使用预训练的DiT处理参考视频，分析跨帧注意力图并提取一种称为注意力运动流（AMF）的分块运动信号。我们通过优化latents与我们的AMF损失来引导潜在的去噪过程，以无需训练的方式生成重现参考视频运动的视频。我们还将我们的优化策略应用于变压器位置嵌入，使我们在零样本运动转移能力上获得提升。我们对DiTFlow进行评估，与最近发表的方法进行比较，在多个指标和人类评估中表现优异。

框架表示假设：多令牌LLM可解释性和概念引导文本生成
Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

Dec 10

ByPedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui

在促进对大型语言模型（LLMs）的信任方面，可解释性是一个关键挑战，这源于从模型参数中提取推理的复杂性。我们提出了框架表示假设，这是一个理论上健壮的框架，基于线性表示假设（LRH），通过对多词标建模来解释和控制LLMs。先前的研究探索了LRH以将LLM表示与语言概念相连接，但局限于单词标的分析。由于大多数单词由多个词标组成，我们将LRH扩展到多词标，从而使其能够在包含成千上万概念的任何文本数据上使用。为此，我们提出单词可以被解释为框架，即一系列向量的有序序列，更好地捕捉词标与单词之间的关系。然后，概念可以被表示为共享相同概念的单词框架的平均值。我们通过基于前k个概念引导解码的工具展示了这些工具，可以直观地利用所选概念引导文本生成。我们在Llama 3.1、Gemma 2和Phi 3系列上验证了这些想法，展示了性别和语言偏见，揭示了有害内容，但也展示了弥补它们的潜力，从而实现更安全、更透明的LLMs。代码可在https://github.com/phvv-me/frame-representation-hypothesis.git获取。

感知令牌增强多模态语言模型中的视觉推理
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Dec 4

ByMahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna

多模态语言模型（MLMs）在基础视觉感知任务上仍面临挑战，而专门的模型表现出色。需要推理三维结构的任务受益于深度估计，而需要推理二维物体实例的任务受益于目标检测。然而，MLMs 无法生成中间深度或边界框进行推理。在相关数据上微调MLMs的泛化能力不佳，而将计算外包给专门的视觉工具则计算密集且内存效率低。为了解决这个问题，我们引入感知 Token，这是一种旨在辅助推理任务的内在图像表示，以弥补语言不足之处。感知 Token 充当辅助推理 Token，类似于语言模型中的思维链提示。例如，在与深度相关的任务中，通过添加感知 Token 的 MLM 可以通过生成深度图作为 Token 进行推理，从而有效地解决问题。我们提出了 AURORA，一种训练方法，通过感知 Token 增强 MLMs 以改善对视觉输入的推理能力。AURORA 利用 VQVAE 将中间图像表示（如深度图）转换为标记化格式和边界框 Token，然后在多任务训练框架中使用。AURORA 在计数基准测试中取得了显著的改进：在 BLINK 上提高了 +10.8%，在 CVBench 上提高了 +11.3%，在 SEED-Bench 上提高了 +8.3%，在数据集泛化方面优于微调方法。它还改善了相对深度：在 BLINK 上提高了超过 +6%。通过感知 Token，AURORA 将MLMs的范围扩展到基于视觉的推理，为更有效的视觉推理能力铺平道路。

EMOv2：拓展500万视觉模型前沿
EMOv2: Pushing 5M Vision Model Frontier

Dec 9

ByJiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao

本工作旨在开发参数高效且轻量级的模型，用于密集预测，同时在参数、FLOPs和性能之间进行权衡。我们的目标是在各种下游任务中建立5M量级轻量级模型的新前沿。倒转残差块（IRB）作为轻量级CNN的基础，但基于注意力的设计尚未被认可。我们重新思考了高效IRB的轻量级基础架构和Transformer中的实用组件，从统一的角度扩展了基于CNN的IRB到基于注意力的模型，并提炼出一个残差元移动块（MMBlock）用于轻量级模型设计。遵循简洁而有效的设计标准，我们推导出现代改进的倒转残差移动块（i2RMB），并改进了一个没有复杂结构的分层高效模型（EMOv2）。考虑到移动用户在4G/5G带宽下载模型时的不可察觉延迟，并确保模型性能，我们研究了5M量级轻量级模型的性能上限。在各种视觉识别、密集预测和图像生成任务上进行的大量实验表明，我们的EMOv2优于最先进的方法，例如，EMOv2-1M/2M/5M分别达到72.3、75.8和79.4的Top-1准确率，明显超过同等级别的CNN-/基于注意力的模型。同时，配备RetinaNet的EMOv2-5M在目标检测任务中实现了41.5的mAP，超过先前的EMO-5M +2.6。当采用更强大的训练配方时，我们的EMOv2-5M最终实现了82.9的Top-1准确率，将5M量级模型的性能提升到一个新水平。代码可在https://github.com/zhangzjn/EMOv2找到。

LoRA.rar：通过超网络学习合并LoRA，用于主题风格条件图像生成
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Dec 6

ByDonald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli

最近图像生成模型的进展使得个性化图像创作成为可能，用户可以定义主题（内容）和风格。以往的研究通过优化方法合并对应的低秩适应参数（LoRAs）来实现个性化，但这种方法在计算上要求很高，不适合在资源受限的设备如智能手机上实时使用。为解决这一问题，我们提出了LoRA.rar 方法，不仅提高了图像质量，还在合并过程中实现了超过4000倍的显著加速。LoRA.rar 在多样的内容-风格 LoRA 对上预训练了一个超网络，学习了一种高效的合并策略，可以泛化到新的、未见过的内容-风格对，实现快速、高质量的个性化。此外，我们发现现有的内容-风格质量评估指标存在局限性，提出了一种使用多模态大语言模型（MLLM）进行更准确评估的新协议。我们的方法在内容和风格的保真度方面明显优于当前的最新技术水平，通过MLLM评估和人类评估得到验证。

ILLUME：照亮您的LLM，看见、绘制和自我增强
ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

Dec 9

ByChunwei Wang, Guansong Lu, Junwei Yang, Runhui Huang, Jianhua Han, Lu Hou, Wei Zhang, Hang Xu

本文介绍了ILLUME，这是一个统一的多模态大型语言模型（MLLM），通过统一的下一个标记预测公式，在单个大型语言模型中无缝集成了多模态理解和生成能力。为了解决通常需要大规模数据集大小进行图像文本对齐的问题，我们提出通过设计一个融合语义信息的视觉分词器和渐进式多阶段训练程序来增强数据效率。这种方法将预训练的数据集大小减少到仅为1500万，是通常所需大小的四分之一，同时实现了与现有统一MLLM（如Janus）相媲美甚至更优越的性能。此外，为了促进理解和生成能力之间的协同增强，这在先前的研究中尚未得到充分探讨，我们引入了一种新颖的自我增强多模态对齐方案。该方案监督MLLM自我评估文本描述和自动生成图像之间的一致性，促使模型更准确地解释图像，并避免由于图像生成中的不对齐而导致的不现实和不正确的预测。基于大量实验，我们提出的ILLUME在各种多模态理解、生成和编辑基准测试中脱颖而出，与最先进的统一MLLM和专门模型竞争。

Moxin-7B技术报告全面开源
Fully Open Source Moxin-7B Technical Report

Dec 8

ByPu Zhao, Xuan Shen, Zhenglun Kong, Yixin Shen, Sung-En Chang, Timothy Rupprecht, Lei Lu, Enfu Nan, Changdi Yang, Yumei He, Xingchen Xu, Yu Huang, Wei Wang, Yue Chen, Yong He, Yanzhi Wang

最近，大型语言模型（LLMs）经历了重大转变，其受欢迎程度和能力迅速提升。主导这一演变的是像GPT-4和GPT-o1这样的专有LLMs，由于其出色的性能和多功能性，已经在人工智能社区引起了广泛关注。与此同时，诸如LLaMA和Mistral之类的开源LLMs，由于便于定制和部署模型到各种应用中，为LLMs日益增长的受欢迎程度做出了巨大贡献。尽管开源LLMs为创新和研究提供了前所未有的机会，但LLMs的商业化引发了关于透明度、可复现性和安全性的担忧。许多开源LLMs未能满足基本的透明度要求，因为它们隐瞒了像训练代码和数据这样的关键组件，有些使用限制性许可证，同时声称是“开源”的，这可能阻碍对LLMs的进一步创新。为了缓解这一问题，我们介绍了Moxin 7B，这是一个完全按照模型开放框架（MOF）开发的开源LLM，MOF是一个根据模型完整性和开放性评估AI模型的分级分类系统，遵循开放科学、开源、开放数据和开放获取的原则。我们的模型通过全面发布预训练代码和配置、训练和微调数据集，以及中间和最终检查点，实现了“开放科学”的最高MOF分类级别。实验表明，与流行的7B模型相比，我们的模型在零样本评估中表现出色，并在少样本评估中具有竞争力。

Chimera：利用领域专家改进通用模型
Chimera: Improving Generalist Model with Domain-Specific Experts

Dec 8

ByTianshuo Peng, Mingsheng Li, Hongbin Zhou, Renqiu Xia, Renrui Zhang, Lei Bai, Song Mao, Bin Wang, Conghui He, Aojun Zhou, Botian Shi, Tao Chen, Bo Zhang, Xiangyu Yue

最近对大型多模态模型（LMMs）的进展强调了通过增加图像-文本配对数据来扩展规模的重要性，在通用任务上取得了令人印象深刻的性能。尽管这些通用模型在广泛应用中表现有效，但它们主要是在以自然图像为主导的Web规模数据集上训练的，导致牺牲了需要大量领域先验知识的特定领域任务的专业能力。此外，由于通用模型和专家模型之间的表征差距和优化不平衡，直接整合专门针对特定领域定制的专家模型具有挑战性。为了解决这些挑战，我们引入了Chimera，这是一个可扩展且低成本的多模态流水线，旨在通过领域专家来增强现有LMMs的能力。具体来说，我们设计了一种渐进式训练策略，将专家模型的特征集成到通用LMM的输入中。为了解决由于良好对齐的通用视觉编码器引起的优化不平衡，我们引入了一种新颖的通用-专家协作掩蔽（GSCM）机制。这产生了一个多才多艺的模型，擅长图表、表格、数学和文档领域，在多模态推理和视觉内容提取任务上取得了最先进的性能，这两项任务对于评估现有LMMs来说都是具有挑战性的任务。

ObjCtrl-2.5D：无需训练的摄像头姿势物体控制
ObjCtrl-2.5D: Training-free Object Control with Camera Poses

Dec 10

ByZhouxia Wang, Yushi Lan, Shangchen Zhou, Chen Change Loy

本研究旨在实现图像到视频（I2V）生成中更精确、更灵活的目标控制。当前方法通常使用2D轨迹表示目标物体的空间移动，但往往无法捕捉用户意图并经常产生不自然的结果。为了增强控制能力，我们提出了ObjCtrl-2.5D，这是一种无需训练的目标控制方法，它使用包含深度信息的3D轨迹作为控制信号，扩展自2D轨迹。通过将目标物体的运动建模为摄像机运动，ObjCtrl-2.5D将3D轨迹表示为摄像机姿势序列，从而实现使用现有摄像机运动控制I2V生成模型（CMC-I2V）进行目标运动控制而无需训练。为了使最初设计用于全局运动控制的CMC-I2V模型适应处理局部目标运动，我们引入了一个模块来将目标物体与背景隔离，实现独立的局部控制。此外，我们设计了一种有效的方法，通过在帧间共享目标区域内的低频变形潜变量，实现更精确的目标控制。大量实验证明，与无需训练的方法相比，ObjCtrl-2.5D显著提高了目标控制精度，并比使用2D轨迹的基于训练的方法提供了更多样化的控制能力，实现了复杂效果，如目标旋转。代码和结果可在https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/找到。

HARP：在Transformer推理过程中考虑犹豫的重构
HARP: Hesitation-Aware Reframing in Transformer Inference Pass

Dec 10

ByRomain Storaï, Seung-won Hwang

本文旨在通过解决推理步骤中存在的可变计算需求问题，从而提高大型语言模型的性能，其中一些标记需要比其他标记更多的计算资源。我们提出了HARP，这是对“现成”Transformer前向传递的简单修改。借鉴于决策中的犹豫和框架效应，HARP在模型在标记生成过程中遇到不确定性时有选择地应用额外的计算。我们的方法通过在困难的决策点暂停并为不同角度重新构建输入，模仿人类认知过程。与其他方法不同，HARP是与模型无关的、无需训练的，并且易于实现。我们在各种下游任务和模型规模上对我们的方法进行了彻底评估，表明性能提高高达+5.16%。值得注意的是，HARP在保持推理时间比束搜索快两倍的同时实现了这些增益。简单而又具有显著收益，HARP为通过最小计算影响增强基于Transformer的语言模型的性能提供了实用解决方案。

GraPE：用于组合式T2I合成的生成-规划-编辑框架
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

Dec 8

ByAshish Goswami, Satyam Kumar Modi, Santhosh Rishi Deshineni, Harman Singh, Prathosh A. P, Parag Singla

文本到图像（T2I）生成在扩散模型的推动下取得了显著进展，使得可以从文本提示生成逼真的图像。尽管取得了这一进展，现有方法在遵循复杂文本提示方面仍面临挑战，特别是那些需要组合和多步推理的提示。在面对这样复杂的指令时，最先进的模型往往在忠实地对对象属性和它们之间的关系建模方面出现错误。在这项工作中，我们提出了一种用于T2I合成的替代范式，将复杂的多步生成任务分解为三个步骤，（a）生成：我们首先使用现有的扩散模型生成图像；（b）规划：我们利用多模态LLM（MLLM）来识别生成图像中以个体对象及其属性为表达的错误，并生成所需的一系列校正步骤，形成一个编辑计划；（c）编辑：我们利用现有的文本引导图像编辑模型，按顺序执行我们的编辑计划，以获得符合原始指令的所需图像。我们的方法之所以强大，在于其模块化性质、无需训练，并可应用于任何组合的图像生成和编辑模型。作为额外贡献，我们还开发了一个能够进行组合编辑的模型，进一步提高了我们提出方法的整体准确性。我们的方法灵活地在推理时间计算和组合文本提示性能之间进行权衡。我们在3个基准测试和10个T2I模型（包括DALLE-3和最新的SD-3.5-Large）上进行了广泛的实验评估。我们的方法不仅提高了SOTA模型的性能，最多提高了3个百分点，还减小了较弱模型和较强模型之间的性能差距。

一种抵抗梯度反转攻击的新联邦学习框架
A New Federated Learning Framework Against Gradient Inversion Attacks

Dec 10

ByPengxin Guo, Shuang Zeng, Wenhao Chen, Xiaodan Zhang, Weihong Ren, Yuyin Zhou, Liangqiong Qu

联邦学习（FL）旨在通过使客户共同训练机器学习模型而无需共享原始数据来保护数据隐私。然而，最近的研究表明，在FL过程中交换的信息容易受到梯度反转攻击（GIA）的影响，因此，为了防范此类攻击，已经将各种保护隐私的方法集成到FL中，如安全多方计算（SMC）、同态加密（HE）和差分隐私（DP）。尽管这些方法能够保护数据隐私，但它们固有地涉及相当大的隐私-效用权衡。通过重新审视FL中在GIA下的隐私暴露关键，即频繁共享包含私人数据的模型梯度，我们采用新的视角设计了一种新颖的隐私保护FL框架，有效地“打破了直接连接”共享参数与本地私人数据之间的联系以抵御GIA。具体而言，我们提出了一种超网络联邦学习（HyperFL）框架，利用超网络生成本地模型的参数，只有超网络参数上传到服务器进行聚合。理论分析展示了所提出的HyperFL的收敛速度，而广泛的实验结果显示了HyperFL的隐私保护能力和可比较的性能。代码可在https://github.com/Pengxin-Guo/HyperFL 找到。

上下文化的反驳：适应、个性化和评估策略
Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation

Dec 10

ByLorenzo Cima, Alessio Miaschi, Amaury Trujillo, Marco Avvenuti, Felice Dell'Orletta, Stefano Cresci

AI生成的反言论提供了一种有前景且可扩展的策略，通过直接回复来促进文明对话以遏制在线毒性。然而，当前的反言论是一刀切的，缺乏对调节背景和相关用户的适应性。我们提出并评估了多种生成定制反言论的策略，这些反言论适应于调节背景并为被调节用户个性化定制。我们指导一个LLaMA2-13B模型生成反言论，通过基于不同上下文信息和微调策略的各种配置进行实验。我们通过一个预先注册的混合设计众包实验，结合定量指标和人类评估，确定了能够生成有说服力反言论的配置。结果显示，情境化反言论在充分性和说服力方面可以显著优于最先进的通用反言论，而不会影响其他特征。我们的研究结果还揭示了定量指标和人类评估之间的较差相关性，表明这些方法评估了不同方面，突出了对细致评估方法的需求。情境化AI生成的反言论的有效性以及人类和算法评估之间的分歧强调了在内容调节中增加人工智能与人类合作的重要性。

最大化对齐性，最小化反馈：高效学习视觉运动机器人策略对齐的奖励
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

Dec 6

ByRan Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy

在大规模数据集上进行越来越多预训练的视觉运动机器人策略，承诺在机器人领域取得重大进展。然而，将这些策略与最终用户偏好对齐仍然是一个挑战，特别是当难以明确规定偏好时。虽然从人类反馈中进行强化学习（RLHF）已成为非实体领域（如大型语言模型）中对齐的主要机制，但由于学习视觉奖励函数所需的人类反馈数量庞大，它在对齐视觉运动策略方面并未取得同样成功。为了解决这一限制，我们提出了基于表示对齐的基于偏好学习（RAPL），这是一种仅通过观察学习视觉奖励的方法，需要更少的人类偏好反馈。与传统的RLHF不同，RAPL将人类反馈集中在微调预训练视觉编码器上，以使其与最终用户的视觉表示对齐，然后通过在这种对齐表示空间中进行特征匹配来构建密集的视觉奖励。我们首先通过在X-Magical基准和Franka Panda机器人操纵中进行的模拟实验验证了RAPL，展示它可以学习与人类偏好对齐的奖励，更有效地利用偏好数据，并且可以在机器人实体之间进行泛化。最后，我们通过硬件实验对三个物体操纵任务的预训练扩散策略进行了对齐。我们发现RAPL可以使用少至5倍的真实人类偏好数据微调这些策略，迈出了减少人类反馈同时最大化视觉运动机器人策略对齐的第一步。

AI研究论文每日精选

每日精选AI研究论文及翻译

可扩展文本和图像条件视频生成（STIV）
STIV: Scalable Text and Image Conditioned Video Generation

Dec 10

评估和调整CodeLLMs以符合人类偏好
Evaluating and Aligning CodeLLMs on Human Preference

Dec 6

ByJian Yang, Jiaxi Yang, Ke Jin, Yibo Miao, Lei Zhang, Liqun Yang, Zeyu Cui, Yichang Zhang, Binyuan Hui, Junyang Lin

DiffSensei：将多模态LLM和扩散模型相结合，实现定制漫画生成
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Dec 10

ByJianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong

ACDiT：插值自回归条件建模与扩散变换器
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

Dec 10

ByJinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun

嵌入在噪声中：面向图像的两阶段鲁棒水印技术
Hidden in the Noise: Two-Stage Robust Watermarking for Images

Dec 5

ByKasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen

UniReal：通过学习现实世界动态实现通用图像生成和编辑
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Dec 10

ByXi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao

FiVA：用于文本到图像扩散模型的细粒度视觉属性数据集
FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

Dec 10

ByTong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein

移动视频传播
Mobile Video Diffusion

Dec 10

ByHaitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian

3DTrajMaster：视频中多实体运动的3D轨迹生成技术
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Dec 10

ByXiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin

花岗岩守卫
Granite Guardian

Dec 10

MoViE：移动视频编辑的扩散
MoViE: Mobile Diffusion for Video Editing

Dec 9

ByAdil Karjauv, Noor Fathima, Ioannis Lelekas, Fatih Porikli, Amir Ghodrati, Amirhossein Habibian

使用扩散变压器进行视频动作转移。
Video Motion Transfer with Diffusion Transformers

Dec 10

ByAlexander Pondaven, Aliaksandr Siarohin, Sergey Tulyakov, Philip Torr, Fabio Pizzati

框架表示假设：多令牌LLM可解释性和概念引导文本生成
Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

Dec 10

ByPedro H. V. Valois, Lincon S. Souza, Erica K. Shimomoto, Kazuhiro Fukui

感知令牌增强多模态语言模型中的视觉推理
Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Dec 4

ByMahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna

EMOv2：拓展500万视觉模型前沿
EMOv2: Pushing 5M Vision Model Frontier

Dec 9

ByJiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao

LoRA.rar：通过超网络学习合并LoRA，用于主题风格条件图像生成
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Dec 6

ByDonald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli

最大化对齐性，最小化反馈：高效学习视觉运动机器人策略对齐的奖励
Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

Dec 6

ByRan Tian, Yilin Wu, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy