AI研究论文每日精选

每日精选AI研究论文及翻译

OmniHuman-1：重新思考单阶段条件人类动画模型的扩展
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

Feb 3

ByGaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang

223

最近几年，端到端的人体动画，如音频驱动的人类生成语音，取得了显著进展。然而，现有方法仍然难以像大型通用视频生成模型那样扩展，限制了它们在实际应用中的潜力。在本文中，我们提出了OmniHuman，这是一个基于扩散Transformer的框架，通过将与运动相关的条件混合到训练阶段来扩展数据规模。为此，我们引入了两种针对这些混合条件的训练原则，以及相应的模型架构和推理策略。这些设计使OmniHuman能够充分利用数据驱动的动作生成，最终实现高度逼真的人类视频生成。更重要的是，OmniHuman支持各种肖像内容（面部特写，肖像，半身像，全身像），支持说话和唱歌，处理人体与物体的互动和具有挑战性的身体姿势，并适应不同的图像风格。与现有的端到端音频驱动方法相比，OmniHuman不仅能够产生更逼真的视频，还能在输入方面提供更大的灵活性。它还支持多种驱动模式（音频驱动，视频驱动和组合驱动信号）。视频样本可在ttfamily项目页面（https://omnihuman-lab.github.io）上找到。

直接对齐算法之间的区别变得模糊。
The Differences Between Direct Alignment Algorithms are a Blur

Feb 3

ByAlexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov

113

直接对齐算法（DAAs）通过在从人类反馈中强化学习（RLHF）中用直接策略优化替代强化学习（RL）和奖励建模（RM）来简化语言模型对齐。DAAs可以根据其排名损失（成对对比 vs. 点对点）、在这些损失中使用的奖励（例如，策略和参考策略的似然比或赔率比）或是否需要监督微调（SFT）阶段（两阶段 vs. 一阶段）进行分类。我们首先展示一阶段方法表现不如两阶段方法。为了解决这个问题，我们将显式SFT阶段和控制偏好优化强度的beta参数引入单阶段ORPO和ASFT。这些修改提高了它们在Alpaca Eval 2中的性能，ORPO提高了+3.46，ASFT提高了+8.27，与DPO等两阶段方法相匹敌。进一步的分析揭示了关键因素是方法是否使用成对对比或点对点目标，而不是特定的隐式奖励或损失函数。这些结果突显了仔细评估的重要性，以避免过早宣称对齐算法的性能提升或整体优越性。

通过隐式奖励进行强化学习
Process Reinforcement through Implicit Rewards

Feb 3

ByGanqu Cui, Lifan Yuan, Zefan Wang, Hanbin Wang, Wendi Li, Bingxiang He, Yuchen Fan, Tianyu Yu, Qixin Xu, Weize Chen, Jiarui Yuan, Huayu Chen, Kaiyan Zhang, Xingtai Lv, Shuo Wang, Yuan Yao, Xu Han, Hao Peng, Yu Cheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, Ning Ding

在大型语言模型（LLMs）的推理时间扩展中，密集过程奖励已被证明是比稀疏的结果级奖励更有效的选择，特别是在需要复杂多步推理的任务中。虽然密集奖励对于强化学习（RL）LLMs也是一种吸引人的选择，因为它们的细粒度奖励有潜力解决一些结果级奖励固有的问题，比如训练效率和信用分配，但这种潜力主要仍未实现。这主要归因于在线训练过程奖励模型（PRMs）的挑战，收集高质量的过程标签成本过高，使其特别容易受到奖励欺骗的影响。为了解决这些挑战，我们提出了PRIME（通过隐式奖励进行过程强化），它通过隐式过程奖励，仅使用策略展开和结果标签来实现在线PRM更新。PRIME与各种优势函数结合，并放弃了现有方法所需的专门奖励模型训练阶段，大大降低了开发开销。我们在竞赛数学和编码方面展示了PRIME的有效性。从Qwen2.5-Math-7B-Base开始，PRIME在几个关键推理基准上平均提高了15.1%，超过了SFT模型。值得注意的是，我们的最终模型Eurus-2-7B-PRIME在七个推理基准上超过了Qwen2.5-Math-7B-Instruct模型，且只使用了其10%的训练数据。

偏好泄漏：LLM作为法官中的污染问题
Preference Leakage: A Contamination Problem in LLM-as-a-judge

Feb 3

ByDawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, Huan Liu

大型语言模型（LLMs）作为评判者和基于LLM的数据合成已经成为模型开发中两种基本的LLM驱动数据标注方法。尽管它们的结合显著提高了模型训练和评估的效率，但对于这种新的模型开发范式可能带来的潜在污染问题却鲜有关注。在这项工作中，我们揭示了偏好泄漏，这是LLM作为评判者中由于合成数据生成器与基于LLM的评估者之间的相关性而引起的污染问题。为了研究这个问题，我们首先定义了数据生成器LLM和评判者LLM之间的三种常见相关性：相同模型、具有继承关系和属于相同的模型系列。通过大量实验证实了评判者对其相关学生模型的偏好泄漏在多个LLM基线和基准测试中的偏见。进一步的分析表明，相对于先前在LLM作为评判者场景中识别的偏见，偏好泄漏是一个更难以检测的普遍问题。所有这些发现都暗示了偏好泄漏在LLM作为评判者领域是一个普遍且具有挑战性的问题。我们在以下链接发布所有代码和数据：https://github.com/David-Li0406/Preference-Leakage。

AlignVLM：将视觉和语言潜空间连接起来，实现多模态理解
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding

Feb 3

ByAhmed Masry, Juan A. Rodriguez, Tianyu Zhang, Suyuchen Wang, Chao Wang, Aarash Feizi, Akshay Kalkunte Suresh, Abhay Puri, Xiangru Jian, Pierre-André Noël, Sathwik Tejaswi Madhusudhan, Marco Pedersoli, Bang Liu, Nicolas Chapados, Yoshua Bengio, Enamul Hoque, Christopher Pal, Issam H. Laradji, David Vazquez, Perouz Taslakian, Spandana Gella, Sai Rajeswar

在视觉-语言模型（VLMs）中，将视觉特征与语言嵌入对齐是一个关键挑战。这类模型的性能取决于具有良好的连接器，将视觉编码器生成的视觉特征映射到与LLM共享的嵌入空间，同时保持语义相似性。现有的连接器，如多层感知器（MLPs），通常会产生超出分布范围或嘈杂的输入，导致模态之间的不对齐。在这项工作中，我们提出了一种新颖的视觉-文本对齐方法AlignVLM，将视觉特征映射到LLM文本嵌入的加权平均值。我们的方法利用LLM编码的语言先验，确保将视觉特征映射到LLM能够有效解释的空间区域。AlignVLM在文档理解任务中特别有效，其中扫描的文档图像必须准确映射到其文本内容。我们的广泛实验表明，与先前的对齐方法相比，AlignVLM实现了最先进的性能。我们进一步提供分析，证明了改进的视觉-文本特征对齐和对噪声的稳健性。

SafeRAG：在大型语言模型的检索增强生成中进行安全性基准测试
SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

Jan 28

ByXun Liang, Simin Niu, Zhiyu Li, Sensen Zhang, Hanyu Wang, Feiyu Xiong, Jason Zhaoxin Fan, Bo Tang, Shichao Song, Mengwei Wang, Jiawei Yang

在检索增强生成（RAG）的索引-检索-生成范式中，通过将外部知识整合到大型语言模型（LLMs）中，已经取得了极大的成功，用于解决知识密集型任务。然而，外部和未经验证知识的整合增加了LLMs的脆弱性，因为攻击者可以通过操纵知识来执行攻击任务。本文介绍了一个名为SafeRAG的基准，旨在评估RAG的安全性。首先，我们将攻击任务分类为银噪声、跨上下文冲突、软广告和白色拒绝服务。接下来，我们为每个任务主要手动构建了RAG安全性评估数据集（即SafeRAG数据集）。然后，我们利用SafeRAG数据集模拟RAG可能遇到的各种攻击场景。对14个代表性的RAG组件进行的实验表明，RAG对所有攻击任务都表现出明显的脆弱性，即使是最明显的攻击任务也可以轻松绕过现有的检索器、过滤器或先进的LLMs，导致RAG服务质量下降。代码可在以下网址找到：https://github.com/IAAR-Shanghai/SafeRAG。

SliderSpace：分解扩散模型的视觉能力
SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Feb 3

ByRohit Gandikota, Zongze Wu, Richard Zhang, David Bau, Eli Shechtman, Nick Kolkin

我们提出了SliderSpace，这是一个框架，可以自动将扩散模型的视觉能力分解为可控且人类可理解的方向。与现有的控制方法不同，这些方法需要用户为每个编辑方向单独指定属性，SliderSpace可以从单个文本提示中同时发现多个可解释且多样化的方向。每个方向都被训练为低秩适配器，实现了组合控制，并发现了模型潜在空间中的令人惊讶的可能性。通过对最先进的扩散模型进行大量实验，我们展示了SliderSpace在概念分解、艺术风格探索和多样性增强等三个应用中的有效性。我们的定量评估表明，SliderSpace发现的方向有效地分解了模型知识的视觉结构，为扩散模型中编码的潜在能力提供了见解。用户研究进一步验证，与基线相比，我们的方法生成了更多样化和有用的变化。我们的代码、数据和训练权重可在https://sliderspace.baulab.info获取。

MM-IQ：在多模态模型中对人类抽象和推理能力进行基准测试
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models

Feb 2

ByHuanqia Cai, Yijun Yang, Winston Hu

智商测试一直是评估人类认知能力的基础方法，有意将评估与语言背景、语言熟练度或领域特定知识分离，以便独立核心抽象和推理能力。然而，人工智能研究目前缺乏系统基准来量化多模态系统中这些关键认知维度。为了填补这一关键空白，我们提出了MM-IQ，一个全面的评估框架，包括2,710个精心策划的测试项目，涵盖8个不同的推理范式。通过对领先的开源和专有多模态模型进行系统评估，我们的基准测试揭示了明显的局限性：即使是最先进的架构也仅比随机机会（27.49% 对 25% 基准准确率）略有优势。这种显著的性能差距突显了当前多模态系统在逼近人类基本推理能力方面的不足，强调了需要进行开创性进展来弥合这一认知鸿沟。

深度检索：为大型语言模型逐步思考到检索
DeepRAG: Thinking to Retrieval Step by Step for Large Language Models

Feb 3

ByXinyan Guan, Jiali Zeng, Fandong Meng, Chunlei Xin, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Jie Zhou

大型语言模型（LLMs）在推理方面表现出显著潜力，但仍然存在严重的事实幻觉问题，这是由于参数化知识的时效性、准确性和覆盖范围不足所致。同时，由于任务分解不够有效和检索冗余，推理与检索增强生成（RAG）的整合仍然具有挑战性，这可能引入噪音并降低响应质量。在本文中，我们提出了DeepRAG，这是一个将检索增强推理建模为马尔可夫决策过程（MDP）的框架，从而实现了策略性和自适应检索。通过迭代地分解查询，DeepRAG 动态确定在每一步是否检索外部知识或依赖参数化推理。实验证明，DeepRAG 提高了检索效率，同时将答案准确性提高了 21.99%，展示了其在优化检索增强推理方面的有效性。

在语言模型中对嵌入层进行缩放
Scaling Embedding Layers in Language Models

Feb 3

ByDa Yu, Edith Cohen, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Daogao Liu, Chiyuan Zhang

我们提出了SCONE（可扩展、上下文化、卸载、N-gram嵌入），这是一种用于扩展输入嵌入层以增强语言模型性能的方法，随着层大小的扩展。为了避免增加解码成本，SCONE保留了原始词汇，同时为一组频繁的n-gram引入了嵌入。这些嵌入为每个输入标记提供了上下文化表示，并在训练期间使用单独的模型进行学习。在推断期间，它们被预先计算并存储在离加速器内存很远的位置，对推断速度影响很小。SCONE实现了两种新的扩展策略：增加缓存的n-gram嵌入数量和扩展用于学习它们的模型，同时保持固定的推断时浮点运算数（FLOPS）。我们展示了扩展这两个方面使SCONE能够在各种语料库中胜过一个拥有19亿参数基线模型，同时仅使用一半的推断时FLOPS。

MakeAnything：利用扩散Transformer进行多领域程序序列生成
MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation

Feb 3

ByYiren Song, Cheng Liu, Mike Zheng Shou

人类智能的一个标志是通过结构化的多步骤过程创造复杂的工件。利用人工智能生成过程教程是一个长期存在但具有挑战性的目标，面临着三个关键障碍：（1）多任务过程数据集的稀缺性，（2）在步骤之间保持逻辑连续性和视觉一致性，以及（3）在多个领域之间进行泛化。为了解决这些挑战，我们提出了一个涵盖 21 个任务的多领域数据集，包含超过 24,000 个过程序列。在此基础上，我们引入了基于扩散变换器（DIT）的 MakeAnything 框架，利用微调来激活 DIT 的上下文能力，生成一致的过程序列。我们引入了用于图像生成的不对称低秩适应（LoRA），通过冻结编码器参数并自适应调整解码器层来平衡泛化能力和任务特定性能。此外，我们的 ReCraft 模型通过时空一致性约束实现了图像到过程的生成，允许将静态图像分解为合理的创建序列。大量实验证明，MakeAnything 超越了现有方法，为过程生成任务设定了新的性能基准。

ZebraLogic：关于LLM在逻辑推理方面的扩展限制
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning

Feb 3

ByBill Yuchen Lin, Ronan Le Bras, Kyle Richardson, Ashish Sabharwal, Radha Poovendran, Peter Clark, Yejin Choi

我们研究了大型语言模型（LLMs）的逻辑推理能力及其在复杂非单调推理中的可扩展性。为此，我们引入了ZebraLogic，这是一个全面的评估框架，用于评估基于约束满足问题（CSPs）推导的逻辑格谜在LLM推理性能上的表现。ZebraLogic能够生成具有可控和可量化复杂性的谜题，有助于系统研究Llama、o1模型和DeepSeek-R1等模型的扩展极限。通过涵盖广泛的搜索空间复杂性和多样的逻辑约束，ZebraLogic提供了一个结构化环境，用于评估在不断增加的困难下的推理能力。我们的结果显示，随着问题复杂性的增加，准确性显著下降，这一现象被我们称为“复杂性诅咒”。即使使用更大的模型和增加推理时间计算，这种限制仍然存在，表明当前LLM推理能力中存在固有约束。此外，我们探讨了增强逻辑推理的策略，包括最佳N采样、回溯机制和自我验证提示。我们的发现为LLM推理的可扩展性提供了关键见解，突显了基本限制，并概述了改进的潜在方向。

FastKV：KV 缓存压缩，用于快速处理长上下文，具有令牌选择性传播。
FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation

Feb 3

ByDongwon Jo, Jiwon Song, Yulhwa Kim, Jae-Joon Kim

尽管大型语言模型（LLMs）擅长处理长上下文序列，但它们需要大量的键-值（KV）缓存来存储上下文信息，这可能会严重影响计算效率和内存使用。先前对这些KV缓存进行压缩的努力主要集中在减少内存需求，但在提高延迟方面存在局限性。为解决这一问题，我们引入了FastKV，这是一种旨在提高长上下文序列延迟的KV缓存压缩方法。为了提高处理速度同时保持准确性，FastKV采用了一种新颖的Token-Selective Propagation（TSP）方法，在LLMs的初始层保留完整的上下文信息，并且在更深层甚至在预填阶段仅选择性地传播部分信息。此外，FastKV还融合了基于分组查询注意力（GQA）的KV缓存压缩，以利用GQA在内存和计算效率方面的优势。我们的实验结果显示，与现有的KV缓存压缩方法HeadKV相比，FastKV在首个标记到达时间（TTFT）和吞吐量方面分别实现了2.00倍和1.40倍的改进。此外，FastKV成功地在长上下文基准测试中保持了与基准线可比的准确性水平。我们的代码可在https://github.com/dongwonjo/FastKV 上找到。

AIN：阿拉伯语INclusive大型多模型
AIN: The Arabic INclusive Large Multimodal Model

Jan 31

ByAhmed Heakl, Sara Ghaboura, Omkar Thawkar, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan

在大型语言模型（LLMs）迅速发展并演变为大型多模态模型（LMMs）的过程中，英语和中文等高资源语言取得了显著进展。尽管阿拉伯语LLMs取得了显著进展，但阿拉伯语LMMs仍然很少被探索，通常只关注语言和视觉理解的少数特定方面。为了弥补这一差距，我们引入了AIN-阿拉伯语包容性多模态模型-旨在在各种领域表现出色。AIN是一种英阿双语LMM，旨在在英语和阿拉伯语中表现出色，利用精心构建的360万高质量阿拉伯语-英语多模态数据样本。AIN展示了最先进的阿拉伯语性能，同时具有强大的英语语言视觉能力。在最近的CAMEL-Bench基准测试中，涵盖了38个子领域，包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物疾病和基于遥感的土地利用理解，我们的AIN表现出色，7B模型在八个领域和38个子领域上的绝对增益超过了GPT-4o，达到了3.4%。AIN卓越的能力使其成为向阿拉伯语使用者提供先进多模态生成人工智能工具的重要一步，适用于各种应用。

跳跃推理曲线？追踪GPT-[n]和o-[n]模型在多模式拼图中推理表现的演变
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles

Feb 3

ByVernon Y. H. Toh, Yew Ken Chia, Deepanway Ghosal, Soujanya Poria

OpenAI 的 o1 和 o3 的发布标志着大型语言模型朝着先进推理能力的重大范式转变。值得注意的是，o3 在人工通用智能的抽象和推理语料库（ARC-AGI）上的新颖问题解决和技能习得方面超越了人类。然而，这一基准仅限于符号模式，而人类通常感知和推理涉及视觉和语言数据的多模态场景。因此，迫切需要研究多模态任务中的先进推理能力。为此，我们追踪 GPT-[n] 和 o-[n] 系列模型在具有挑战性的多模态难题上的演变，这些难题需要细粒度的视觉感知和抽象或算法推理。o1 的卓越表现几乎是 GPT-4o 的 750 倍计算成本，引发了对其效率的担忧。我们的结果显示，在模型迭代过程中，推理能力呈明显上升趋势，GPT 系列模型之间以及随后到 o1 之间存在显著的性能提升。然而，我们观察到 o1 模型在需要抽象推理的简单多模态难题上仍然存在困难。此外，它在算法难题中的表现也较差。我们计划持续跟踪该系列中的新模型，并相应地在本文中更新我们的结果。本评估中使用的所有资源均可在 https://github.com/declare-lab/LLM-PuzzleTest 上公开获取。

推断时大型语言模型的几乎确定安全对齐
Almost Surely Safe Alignment of Large Language Models at Inference-Time

Feb 3

ByXiaotong Ji, Shyam Sundhar Ramesh, Matthieu Zimmer, Ilija Bogunovic, Jun Wang, Haitham Bou Ammar

即使是性能出色的大型语言模型（LLMs）也可能产生偏见或不安全的响应，而旨在缓解这一问题的对齐技术，如RLHF，因为重新训练LLM而昂贵且容易过拟合。本文介绍了一种新颖的推理时间对齐方法，确保LLMs几乎肯定生成安全响应，即概率接近于1。我们通过将推理时间响应的安全生成框架化为LLM潜在空间内的受限马尔可夫决策过程来实现这一目标。关键是，我们增加了一个安全状态，跟踪安全约束的演变，并能够在解决潜在空间中的MDP时展示正式的安全保证。基于这一基础，我们提出了InferenceGuard，这是一个实用的实现，可以在不修改模型权重的情况下安全地对齐LLMs。从经验上看，我们证明了InferenceGuard在平衡安全性和任务性能方面表现出色，优于现有的推理时间对齐方法，在生成安全和对齐的响应方面表现更佳。

改进Transformer世界模型以提高数据效率的强化学习
Improving Transformer World Models for Data-Efficient RL

Feb 3

ByAntoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy

我们提出了一种基于模型的强化学习方法，该方法在具有挑战性的Craftax-classic基准测试中取得了新的最先进表现。Craftax-classic是一个开放世界的2D生存游戏，需要代理展示一系列广泛的通用能力，如强大的泛化能力、深度探索和长期推理能力。通过一系列旨在提高样本效率的谨慎设计选择，我们的基于模型的强化学习算法在仅100万个环境步骤后实现了67.4%的奖励，明显优于DreamerV3的53.2%，并且首次超过了人类的65.0%的表现。我们的方法首先构建了一个SOTA无模型基线，使用了结合了CNN和RNN的新颖策略架构。然后，我们对标准的基于模型的强化学习设置进行了三项改进：(a)“Dyna with warmup”，该方法在真实数据和虚拟数据上训练策略，(b)在图像块上使用“最近邻标记器”，改进了创建变压器世界模型（TWM）输入的方案，以及(c)“块教师强迫”，使TWM能够联合推理下一个时间步的未来标记。

无需博士知识：大型语言模型的推理挑战
PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

Feb 3

ByCarolyn Jane Anderson, Joydeep Biswas, Aleksander Boruch-Gruszecki, Federico Cassano, Molly Q Feldman, Arjun Guha, Francesca Lucchetti, Zixuan Wu

现有的前沿模型基准往往测试专业化的“博士级”知识，这对非专家来说很难理解。相比之下，我们提出了一个基于NPR Sunday Puzzle Challenge的基准，只需要一般性知识。我们的基准对人类和模型都具有挑战性，然而正确的解决方案易于验证，模型的错误也容易发现。我们的工作揭示了现有基准中未曾显现的能力差距：OpenAI o1在测试专业知识的基准上明显优于其他推理模型。此外，我们对推理输出的分析揭示了新类型的失败。例如，DeepSeek R1在提供一个明知错误的答案之前经常会放弃并表示“我放弃”。R1的输出也可能非常“不确定”，在极少数情况下，它可能不“思考完毕”，这表明需要一种推理时技术在达到上下文窗口限制之前“收尾”。我们还量化了使用R1和Gemini Thinking进行更长推理的有效性，以确定超过某一点后进一步推理不太可能提高我们基准的准确性。

RandLoRA：大型模型的全秩参数高效微调
RandLoRA: Full-rank parameter-efficient fine-tuning of large models

Feb 3

ByPaul Albert, Frederic Z. Zhang, Hemanth Saratchandran, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad

低秩自适应（Low-Rank Adaptation，LoRA）及其变体在减少大型Transformer网络的可训练参数和内存需求的同时保持微调性能方面展现出令人印象深刻的结果。然而，权重更新的低秩特性固有地限制了微调模型的表示能力，可能会影响在复杂任务上的性能。这引发了一个关键问题：当观察到LoRA与标准微调之间的性能差距时，是由于可训练参数数量减少还是秩缺乏导致的？本文旨在通过引入RandLoRA来回答这个问题，这是一种参数高效的方法，使用学习得到的低秩、不可训练随机矩阵的线性组合执行全秩更新。我们的方法通过将优化限制在应用于固定随机矩阵的对角缩放矩阵上，限制了可训练参数的数量，从而在训练过程中有效地克服了低秩限制，同时保持了参数和内存效率。通过在视觉、语言和视觉-语言基准上进行广泛实验，我们系统地评估了LoRA和现有随机基方法的限制。我们的研究结果表明，全秩更新在视觉和语言任务中分别是有益的，对于视觉-语言任务来说尤其如此，其中RandLoRA显著减少了标准微调和LoRA之间的性能差距，有时甚至消除了这一差距，展示了其有效性。

潜在一致性模型的改进训练技术
Improved Training Technique for Latent Consistency Models

Feb 3

ByQuan Dao, Khanh Doan, Di Liu, Trung Le, Dimitris Metaxas

一致性模型是一类新的生成模型，能够在单步或多步中生成高质量样本。最近，一致性模型展现出令人印象深刻的性能，与像素空间中的扩散模型取得了相媲美的结果。然而，将一致性训练扩展到大规模数据集的成功，特别是针对文本到图像和视频生成任务，取决于潜在空间中的性能。在这项工作中，我们分析了像素空间和潜在空间之间的统计差异，发现潜在数据通常包含高度冲动的异常值，显著降低了潜在空间中一致性训练的性能。为了解决这个问题，我们用柯西损失替换了伪胡伯损失，有效地减轻了异常值的影响。此外，我们在早期时间步引入了扩散损失，并采用最优输运（OT）耦合来进一步增强性能。最后，我们引入了自适应缩放调度器来管理稳健的训练过程，并在架构中采用非缩放层归一化来更好地捕捉特征的统计信息并减少异常值的影响。通过这些策略，我们成功训练了能够在一到两步内生成高质量样本的潜在一致性模型，显著缩小了潜在一致性模型与扩散模型之间的性能差距。实现代码发布在这里：https://github.com/quandao10/sLCT/

无模型退化的终身序列知识编辑
Lifelong Sequential Knowledge Editing without Model Degradation

Feb 3

ByAkshat Gupta, Phudish Prateepamornkul, Maochuan Lu, Ahmed Alaa, Thomas Hartvigsen, Gopala Anumanchipalli

在参数修改知识编辑的先前研究中发现，大规模的顺序编辑会导致模型显著退化。本文研究了这背后的原因，并将顺序知识编辑扩展到10,000次连续编辑，同时保持原始模型的下游性能。我们首先展示了定位-编辑知识编辑方法会导致对编辑事实的过拟合。我们还展示了使用这些方法进行连续知识编辑会导致编辑矩阵范数的不成比例增长。然后，我们深入探讨了定位-编辑方法的内部运作机制。我们表明，范数增长是这些方法使用的隐藏技巧，使得从编辑层产生的输出激活更加重要。通过这种“重要性黑客”，编辑层对模型输出的贡献更大。为了缓解这些问题，我们提出了ENCORE - 提前停止和范数约束的稳健知识编辑。ENCORE 控制了过拟合和不成比例的范数增长，实现了长期连续编辑，我们能够进行多达10,000次顺序编辑而不降低下游性能。ENCORE 在Llama3-8B上比MEMIT快61%，比AlphaEdit快64%。

学习生成用于自动调试的单元测试
Learning to Generate Unit Tests for Automated Debugging

Feb 3

ByArchiki Prasad, Elias Stengel-Eskin, Justin Chih-Yao Chen, Zaid Khan, Mohit Bansal

单元测试（UTs）在评估代码正确性以及向大型语言模型（LLM）提供反馈的过程中发挥着重要作用，因为它在迭代调试错误代码时激励自动生成测试。然而，我们发现在生成能够揭示错误的单元测试输入以及在没有访问黄金解决方案的情况下正确预测单元测试输出之间存在权衡。为了解决这种权衡，我们提出了UTGen，它教导LLMs生成能够揭示错误的单元测试输入以及它们的正确预期输出，这是基于任务描述和候选代码的。我们将UTGen集成到UTDebug中，这是一个强大的调试流水线，使用生成的测试来帮助LLMs有效调试。由于模型生成的测试可能提供嘈杂的信号（例如，来自错误预测的输出），UTDebug（i）通过测试时间计算来扩展UTGen以改进UT输出预测，以及（ii）根据多个生成的UT进行验证和回溯编辑，以避免过度拟合。我们展示了UTGen在基于同时存在揭示错误的UT输入和正确UT输出的度量标准上优于UT生成基线7.59％。当与UTDebug一起使用时，我们发现UTGen的单元测试反馈将Qwen-2.5 7B在HumanEvalFix上的pass@1准确率提高了3％以上，在MBPP+上我们自己更难的调试分割上提高了12.35％（分别超过其他基于LLM的UT生成基线）。

LongDPO：通过批判增强的分步信息解锁LLM更好的长文生成能力
LongDPO: Unlock Better Long-form Generation Abilities for LLMs via Critique-augmented Stepwise Information

Feb 4

ByBowen Ping, Jiali Zeng, Fandong Meng, Shuo Wang, Jie Zhou, Shanghang Zhang

长篇生成对于学术论文和代码生成在存储库级别上至关重要。尽管如此，包括GPT-4o在内的当前模型仍然表现不佳。现有方法利用偏好学习和结果监督，通常无法为扩展上下文提供详细反馈。这一缺陷可能导致内容未能完全满足查询要求，从而导致长度偏差和质量下降等问题。本文提出通过整合过程监督来增强长篇生成。我们采用蒙特卡洛树搜索来收集逐步偏好对，利用全局内存池来保持一致性。为解决次优候选选择问题，我们整合外部评论来完善和提高偏好对的质量。最后，我们应用收集的逐步偏好对来进行步级DPO。实验结果表明，我们的方法在长篇生成基准上提高了长度和质量，在各种模型主干上的一般基准上几乎没有性能损失。

语言模型更倾向于所了解的内容：通过置信偏好进行相对置信度估计
Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences

Feb 3

ByVaishnavi Shrivastava, Ananya Kumar, Percy Liang

语言模型（LMs）应提供可靠的置信度估计，以帮助用户检测其输出中的错误，并在必要时请教人类专家。要求语言模型评估其置信度（“请给自己的置信度打分，范围从0到1。”）是评估其不确定性的一种自然方式。然而，模型往往难以提供绝对的置信度评估（即独立于其他问题评估回答问题时的置信度），而它们产生的粗粒度分数对于评估其答案的正确性并不实用。我们提出了相对置信度估计，其中我们将问题相互比较，并要求模型对置信度进行相对判断（“你在回答哪个问题时更有信心是正确的？”）。将每个问题视为一系列与其他问题对抗的“选手”，并将模型的偏好视为比赛结果，我们可以使用类似Elo评分和Bradley-Terry的排名聚合方法，将模型的置信度偏好转化为置信度分数。我们在五款最先进的LMs（GPT-4、GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet和Llama 3.1 405B）上评估了相对置信度估计与绝对置信度估计以及自一致性置信度方法，在14个具有挑战性的STEM、社会科学和常识推理问答任务上。我们的结果表明，相对置信度估计始终比绝对置信度估计提供更可靠的置信度分数，在所有模型和数据集上，选择性分类AUC的平均增益超过直接绝对置信度估计方法的3.5%，超过自一致性方法的1.7%。

关于U-Net改进在腹膜后肿瘤分割性能的研究
A Study on the Performance of U-Net Modifications in Retroperitoneal Tumor Segmentation

Feb 1

ByMoein Heidari, Ehsan Khodapanah Aghdam, Alexander Manzella, Daniel Hsu, Rebecca Scalabrino, Wenjin Chen, David J. Foran, Ilker Hacihaliloglu

腹膜后区存在多种肿瘤，包括罕见的良性和恶性类型，由于其罕见性和与重要结构的接近，给诊断和治疗带来挑战。由于肿瘤形状不规则，估计肿瘤体积很困难，而手动分割耗时。使用U-Net及其变体进行自动分割，融合了视觉Transformer（ViT）元素，显示出有希望的结果，但面临高计算需求的挑战。为解决这一问题，像Mamba State Space Model（SSM）和Extended Long-Short Term Memory（xLSTM）这样的架构通过处理长距离依赖关系以及较低资源消耗提供了高效的解决方案。本研究评估了U-Net增强功能，包括CNN、ViT、Mamba和xLSTM，在一组新的内部CT数据集和一个公共器官分割数据集上。提出的ViLU-Net模型整合了Vi块以改善分割效果。结果突显了xLSTM在U-Net框架中的高效性。该代码可在GitHub上公开访问。

当前的病理基础模型对医疗中心的差异性缺乏鲁棒性。
Current Pathology Foundation Models are unrobust to Medical Center Differences

Jan 29

ByEdwin D. de Jong, Eric Marcus, Jonas Teuwen

病理基础模型（FMs）在医疗保健领域具有巨大潜力。在它们能够应用于临床实践之前，确保其对医疗中心之间的差异具有稳健性至关重要。我们衡量病理基础模型是否专注于生物特征，如组织和癌症类型，还是专注于由染色程序和其他差异引入的众所周知的医疗中心特征。我们引入了鲁棒性指数。这一新颖的鲁棒性度量反映了生物特征主导混杂特征的程度。我们评估了十个当前公开可用的病理基础模型。我们发现，所有当前评估的病理基础模型都很强烈地代表了医疗中心。观察到了鲁棒性指数上的显著差异。到目前为止，只有一个模型的鲁棒性指数大于一，意味着生物特征主导混杂特征，但仅略微如此。描述了一种定量方法来衡量医疗中心差异对基于FM的预测性能的影响。我们分析了鲁棒性对下游模型分类性能的影响，发现癌症类型分类错误并非随机发生，而是特别归因于同一医疗中心的混杂因素：来自同一医疗中心的其他类别的图像。我们可视化了FM嵌入空间，并发现这些空间更多地由医疗中心而不是生物因素组织。因此，原始医疗中心比组织来源和癌症类型更准确地被预测。本文介绍的鲁棒性指数旨在推动向具有稳健性和可靠性的病理基础模型的临床采用的进展。