AI研究论文每日精选

每日精选AI研究论文及翻译

通过规则学习实现的WALL-E：世界对齐改进基于世界模型的LLM代理
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Oct 9

BySiyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang

大型语言模型（LLMs）能直接作为基于模型的代理的强大世界模型吗？尽管存在LLMs的先验知识与指定环境动态之间的差距，但我们的研究表明，通过将LLM与部署的环境对齐，这些差距是可以弥合的，而这种“世界对齐”可以通过LLMs上的规则学习高效实现。鉴于LLMs丰富的先验知识，只需少量附加规则即可使LLM预测与指定环境动态对齐。为此，我们提出了一种神经符号化方法，通过LLMs无梯度地学习这些规则，通过对比代理探索轨迹和世界模型预测来诱导、更新和修剪规则。最终的世界模型由LLM和学习到的规则组成。我们的具身LLM代理“WALL-E”基于模型预测控制（MPC）构建。通过根据精确的世界模型优化前瞻动作，MPC显著提高了探索和学习效率。与现有的LLM代理相比，WALL-E的推理只需要少量主要规则，而不需要将冗长的缓冲轨迹包含在LLM输入中。在Minecraft和ALFWorld的开放世界挑战中，WALL-E的成功率高于现有方法，重新规划时间和推理所用令牌数量更少。在Minecraft中，WALL-E的成功率比基线高出15-30％，重新规划轮次减少8-20轮，仅使用60-80％的令牌。在ALFWorld中，仅经过6次迭代，其成功率飙升至95％，创下了新的记录高点。

MathCoder2：通过在模型翻译的数学代码上持续预训练实现更好的数学推理
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

Oct 10

ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li

代码已被证明能够通过其精确性和准确性增强大型语言模型的数学推理能力。先前涉及持续数学预训练的工作通常包括使用与数学相关的软件包的代码，这些软件包主要设计用于工程、机器学习、信号处理或模块测试等领域，而非直接专注于数学推理。在本文中，我们介绍了一种新颖的方法，用于生成伴随相应推理步骤的数学代码以进行持续预训练。我们的方法始于构建一个高质量的数学持续预训练数据集，其中包括与数学相关的网络数据、使用数学软件包的代码、数学教科书和合成数据。接下来，我们通过从先前收集的数据集中提取LaTeX表达式、表达式所需的条件以及表达式的结果来构建推理步骤。基于提取的信息，我们生成相应的代码，以准确捕捉数学推理过程。将生成的代码附加到每个推理步骤中，得到了由自然语言推理步骤和其相应代码组成的数据。将这些数据与原始数据集相结合，得到了一个包含192亿标记的高性能数学预训练语料库，我们将其命名为MathCode-Pile。使用这个语料库对几个流行的基础模型进行训练显著提高了它们的数学能力，从而创建了MathCoder2系列模型。我们所有的数据处理和训练代码均已开源，确保了整个数据收集和训练流程的完全透明性和易复现性。代码已发布在https://github.com/mathllm/MathCoder2。

MLLM作为检索器：为具身代理交互式学习多模态检索
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

Oct 4

ByJunpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu

MLLM代理通过检索多模态任务相关轨迹数据展示了完成复杂具身任务的潜力。然而，当前的检索方法主要集中在轨迹中文本或视觉线索的表面相似性上，忽视了它们对特定任务的有效性。为了解决这一问题，我们提出了一种新颖的方法，即MLLM作为检索器（MART），通过利用交互数据来微调基于偏好学习的MLLM检索器，从而使检索器充分考虑轨迹的有效性并为未知任务优先考虑它们。我们还引入了轨迹抽象，这是一种利用MLLM的总结能力来表示轨迹的机制，使用更少的标记表示关键信息，使代理能够更好地理解轨迹中的里程碑。在各种环境中的实验结果显示，我们的方法显著提高了在未知场景中的任务成功率，与基线方法相比。这项工作提出了一个新的多模态检索范式，通过微调通用的MLLM作为检索器来评估轨迹的有效性。所有基准任务集和模拟器代码修改将会发布。

PrefixQuant：通过LLMs中的前缀异常值，静态量化胜过动态量化
PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

Oct 7

ByMengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo

量化对于部署大型语言模型（LLMs）至关重要，可提高内存效率和推理速度。现有的激活量化方法主要解决通道异常值，通常忽略基于令牌的异常值，导致依赖昂贵的每个令牌动态量化。为了解决这个问题，我们引入了PrefixQuant，一种新颖的技术，可以在离线状态下隔离异常值令牌而无需重新训练。具体来说，PrefixQuant识别高频异常值令牌并将它们作为KV缓存中的前缀，从而在推理过程中防止生成异常值令牌，并简化量化过程。据我们所知，PrefixQuant是第一个能够实现高效的每张量静态量化以胜过昂贵的每个令牌动态量化的方法。例如，在W4A4KV4（4位权重，4位激活和4位KV缓存）Llama-3-8B中，使用每张量静态量化的PrefixQuant在5个常识推理任务中取得了7.43的WikiText2困惑度和71.08%的平均准确率，胜过了之前的每个令牌动态量化方法，如QuaRot，困惑度提高了0.98，准确率提高了+5.98个百分点。此外，使用PrefixQuant的W4A4量化模型的推理速度比FP16模型快1.60倍至2.81倍，并超过QuaRot模型1.2倍至1.3倍。我们的代码可在https://github.com/ChenMnZ/PrefixQuant找到。

自主式工作流生成的基准测试
Benchmarking Agentic Workflow Generation

Oct 10

ByShuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen

大型语言模型（LLMs）以其出色的处理多种任务能力推动了在处理推理和规划任务方面的重大进展，其中将复杂问题分解为可执行工作流程是这一过程中的关键步骤。现有的工作流评估框架要么仅关注整体性能，要么存在诸如受限场景覆盖、简单工作流结构和宽松评估标准等限制。为此，我们引入了 WorFBench，一个统一的工作流生成基准，具有多方面的场景和复杂的图形工作流结构。此外，我们提出了 WorFEval，一种系统评估协议，利用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。通过对不同类型的LLMs进行全面评估，我们发现LLM代理的序列规划能力和图形规划能力之间存在明显差距，即使是 GPT-4 也存在大约15%的差距。我们还训练了两个开源模型，并评估它们在保留任务上的泛化能力。此外，我们观察到生成的工作流可以增强下游任务，使它们在推断期间以更少的时间实现更优越的性能。代码和数据集将在 https://github.com/zjunlp/WorFBench 上提供。

Agent S：一个开放的代理框架，像人类一样使用计算机。
Agent S: An Open Agentic Framework that Uses Computers Like a Human

Oct 10

BySaaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang

我们介绍Agent S，这是一个开放的主体框架，通过图形用户界面（GUI）实现与计算机的自主交互，旨在通过自动化复杂的多步任务来改变人机交互。Agent S旨在解决自动化计算机任务中的三个关键挑战：获取领域特定知识、规划长期任务视角以及处理动态、非统一的界面。为此，Agent S引入了经验增强的分层规划，通过在多个层次上从外部知识搜索和内部经验检索中学习，促进有效的任务规划和子任务执行。此外，它采用了一个Agent-Computer Interface（ACI），以更好地引出基于多模态大语言模型（MLLMs）的GUI代理的推理和控制能力。在OSWorld基准测试中的评估显示，Agent S在成功率上优于基准线9.37%（相对改进83.6%），达到了新的最先进水平。全面分析突出了各个组件的有效性，并为未来改进提供了见解。此外，Agent S在新发布的WindowsAgentArena基准测试中展示了对不同操作系统的广泛泛化能力。代码可在https://github.com/simular-ai/Agent-S找到。

DART：用于可扩展文本到图像生成的去噪自回归Transformer
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Oct 10

ByJiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai

扩散模型已成为视觉生成的主流方法。它们通过去噪马尔可夫过程进行训练，逐渐向输入添加噪声。我们认为马尔可夫属性限制了模型充分利用生成轨迹的能力，导致训练和推理过程中的低效率。在本文中，我们提出了DART，这是一个基于Transformer的模型，将自回归（AR）和扩散融合在一个非马尔可夫框架中。DART使用与标准语言模型相同架构的AR模型，在空间和频谱上迭代去噪图像块。DART不依赖图像量化，可以更有效地建模图像同时保持灵活性。此外，DART可以无缝地在统一模型中训练文本和图像数据。我们的方法在类别条件和文本到图像生成任务上表现出竞争力，为传统扩散模型提供了一种可扩展、高效的替代方案。通过这一统一框架，DART为可扩展、高质量的图像合成设立了新的基准。

DICE：离散反演，用于多项式扩散和遮蔽生成模型的可控编辑
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

Oct 10

ByXiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas

离散扩散模型在图像生成和掩蔽语言建模等任务中取得了成功，但在受控内容编辑方面存在局限性。我们引入了DICE（离散反演用于可控编辑），这是第一个能够实现离散扩散模型的精确反演的方法，包括多项式扩散和掩蔽生成模型。通过记录逆扩散过程中的噪声序列和掩蔽模式，DICE实现了对离散数据的准确重构和灵活编辑，无需预定义的掩蔽或注意力操作。我们在图像和文本领域展示了DICE的有效性，对VQ-Diffusion、Paella和RoBERTa等模型进行了评估。我们的结果表明，DICE保持了高数据保真度的同时增强了编辑能力，为离散空间中细粒度内容操作提供了新机会。有关项目网页，请访问https://hexiaoxiao-cs.github.io/DICE/。

修正扩散：在修正流中，直线并非所需
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

Oct 9

ByFu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li

扩散模型在视觉生成方面取得了很大进展，但由于解决生成ODE的计算密集性质，生成速度较慢。经过广泛认可的解决方案——矫正流，通过使ODE路径变直来提高生成速度。其关键组成部分包括：1）使用流匹配的扩散形式，2）采用粗体v-预测，3）执行矫正（又称回流）。本文认为，矫正的成功主要在于使用预训练的扩散模型获取噪声和样本的匹配对，然后利用这些匹配的噪声-样本对进行重新训练。基于此，组件1）和2）是不必要的。此外，我们强调，直线并非矫正的必要训练目标；相反，它是流匹配模型的特定情况。更为关键的训练目标是实现一阶近似ODE路径，对于像DDPM和Sub-VP这样的模型，这种路径在本质上是曲线的。基于这一观点，我们提出了矫正扩散，将矫正的设计空间和应用范围推广到更广泛的扩散模型类别，而不仅限于流匹配模型。我们在Stable Diffusion v1-5和Stable Diffusion XL上验证了我们的方法。我们的方法不仅极大简化了基于矫正流的先前工作（例如InstaFlow）的训练过程，而且在更低的训练成本下取得了更优越的性能。我们的代码可在https://github.com/G-U-N/Rectified-Diffusion找到。

大型语言和视觉模型的引人注目特性
Intriguing Properties of Large Language and Vision Models

Oct 7

ByYoung-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Yechan Hwang, Ho-Jin Choi

最近，由于其在需要感知和认知能力的广泛任务中表现出色的泛语言和视觉模型（LLVMs）受到了重视和开发工作的努力。它们成功的关键因素之一是其简单的架构，包括视觉编码器、投影器和大型语言模型（LLM）。尽管它们在高级推理任务中取得了成就，但在基本的与感知相关的任务（例如MMVP）上的表现令人惊讶地低。这种差异引发了一个问题，即LLVMs如何真正感知图像并利用视觉编码器的优势。为了解决这个问题，我们系统地研究了几个方面：置换不变性、鲁棒性、数学推理、对齐保持和重要性，通过评估最常见的LLVM家族（即LLaVA）在10个评估基准上的表现。我们广泛的实验揭示了当前LLVMs的几个有趣特性：（1）即使视觉补丁序列的顺序被随机置换，它们也会以全局方式内部处理图像；（2）它们有时能够解决数学问题，而不必完全感知详细的数字信息；（3）跨模态对齐过度拟合于复杂推理任务，从而导致它们失去了视觉编码器的一些原始感知能力；（4）较低层的表示空间（<25%）在决定性能和增强视觉理解方面起着至关重要的作用。最后，基于以上观察结果，我们提出了建立更好的LLVMs和构建更具挑战性的评估基准的潜在未来方向。

GLOV：引导大型语言模型作为视觉的隐式优化器。
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Oct 8

ByM. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass

在这项工作中，我们提出了一种新颖的方法（GLOV），使大型语言模型（LLMs）能够作为视觉-语言模型（VLMs）的隐式优化器，以增强下游视觉任务。我们的GLOV使用下游任务描述元提示LLM，查询适合的VLM提示（例如，用于与CLIP进行零样本分类）。这些提示根据通过适应函数获得的纯度度量进行排名。在每个相应的优化步骤中，排名的提示被馈送为上下文示例（及其准确性），以使LLM具备了解下游VLM偏好的文本提示类型的知识。此外，我们还在每个优化步骤中明确引导LLM生成过程，通过将LLM在先前优化步骤中找到的正解和负解的嵌入之间的偏移差向量，明确添加到网络的中间层，以用于下一代步骤。这个偏移向量引导LLM生成朝着下游VLM偏好的语言类型，从而提高了在下游视觉任务上的性能。我们在16个不同数据集上全面评估了我们的GLOV，使用了双编码器（例如，CLIP）和编码器-解码器（例如，LLaVa）模型两类VLMs，结果显示发现的解决方案可以使这些模型的识别性能提高高达15.0%和57.5%（平均分别为3.8%和21.6%）。

渐进自回归视频扩散模型
Progressive Autoregressive Video Diffusion Models

Oct 10

ByDesai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou

当前前沿视频扩散模型展示了在生成高质量视频方面的显著成果。然而，由于训练过程中的计算限制，它们只能生成短视频片段，通常约为10秒或240帧。在这项工作中，我们展示了现有模型可以自然地扩展为自回归视频扩散模型，而无需改变架构。我们的关键思想是为潜在帧分配逐渐增加的噪声水平，而不是单一噪声水平，这允许在潜变量之间进行细粒度条件设置，并在注意力窗口之间产生大的重叠。这种渐进式视频去噪使我们的模型能够自回归生成视频帧，而不会出现质量下降或突然的场景变化。我们在长视频生成方面展示了最新的成果，达到了1分钟（24 FPS下的1440帧）。本文的视频可在https://desaixie.github.io/pa-vdm/上获取。

通过蒙特卡洛树搜索实现LLM自我改进：利用逐步知识与课程偏好学习。
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

Oct 9

ByXiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu

蒙特卡洛树搜索（MCTS）最近被证明是增强大型语言模型（LLMs）推理能力的强大技术。诸如SFT或DPO等技术使LLMs能够从MCTS中提炼出高质量行为，提升其推理性能。然而，现有的提炼方法未充分利用MCTS生成的丰富轨迹信息，限制了LLMs推理改进的潜力。本文提出了AlphaLLM-CPL，这是一种新颖的成对训练框架，使LLMs能够通过MCTS行为提炼自我改进。AlphaLLM-CPL通过两个关键创新有效地利用MCTS轨迹：（1）AlphaLLM-CPL从搜索树中共享相同父节点的子节点构建逐步轨迹对，为更有效的MCTS行为提炼提供步级信息。（2）AlphaLLM-CPL引入课程偏好学习，动态调整每个离线训练时期中轨迹对的训练顺序，以优先考虑关键学习步骤并减少过拟合。在数学推理任务上的实验结果表明，AlphaLLM-CPL明显优于先前的MCTS行为提炼方法，大幅提升了LLMs的推理能力。

无处不在的一切：LLMs 可以在上下文中以叠加的方式学习多个任务
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

Oct 8

ByZheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos

大型语言模型（LLMs）展示了出色的上下文学习（ICL）能力。在这项研究中，我们探讨了与ICL相关的一个令人惊讶的现象：LLMs可以在单个推理调用期间同时执行多个计算上不同的ICL任务，这种能力被我们称为“任务叠加”。我们提供了跨不同LLM系列和规模的实证证据，表明即使我们训练模型一次只学习一个任务，这种现象也会出现。我们提供了理论解释，认为这种能力完全在transformer的表达能力范围内。我们还探讨了LLMs在叠加期间如何内部组合任务向量。此外，我们展示了更大的模型可以并行解决更多ICL任务，并更好地校准其输出分布。我们的发现揭示了LLMs的潜在能力，进一步证实了“LLMs作为模拟器叠加”的观点，并引发了关于使任务同时执行的机制的问题。

保持预训练视觉语言模型的多模态能力，以提高视觉-语言组合性
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

Oct 7

ByYoungtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim

本文提出了一种新方法，用于增强预训练视觉和语言模型（VLMs）中的组合理解，而不会牺牲零样本多模态任务的性能。传统的微调方法通常会提高组合推理能力，但会降低多模态能力，主要是由于使用全局硬负（HN）损失，用于对比图像和文本的全局表示。这种全局HN损失会推动与原始文本高度相似的HN文本，损害模型的多模态表示。为了克服这一局限性，我们提出了细粒度选择性校准CLIP（FSC-CLIP），它整合了局部硬负损失和选择性校准正则化。这些创新提供了细粒度的负监督，同时保持了模型的表示完整性。我们在各种基准测试中进行了广泛评估，涵盖了组合性和多模态任务，结果显示FSC-CLIP不仅实现了与最先进模型相媲美的组合性，而且保留了强大的多模态能力。代码可在以下链接获取：https://github.com/ytaek-oh/fsc-clip。

SFTMix：利用混合配方提升语言模型指导调整
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

Oct 7

ByYuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao

为了在大型语言模型（LLMs）中诱导期望的行为以进行交互驱动任务，指导调整阶段通常使用下一个标记预测（NTP）损失对LLMs进行训练，使用指导-响应对。以提高指导调整性能为目标的先前研究通常强调对更高质量的监督微调（SFT）数据集的需求，这通常涉及使用专有LLMs进行昂贵数据过滤或由人类注释者进行劳动密集型数据生成。然而，这些方法未充分利用数据集的内在属性，导致高计算和劳动成本，从而限制了可扩展性和性能增益。在本文中，我们提出了SFTMix，这是一种新颖的配方，可以在无需精心策划的数据集的情况下提升指导调整性能，超越传统的NTP范式。我们观察到LLMs在语义表示空间中表现出不均匀的置信度，认为在指导调整过程中，具有不同置信水平的示例应扮演不同角色。基于这一观点，SFTMix利用训练动态来识别具有不同置信水平的示例，然后应用基于Mixup的正则化来减轻对置信示例的过拟合，同时传播监督信号以改善对相对不自信示例的学习。这种方法使SFTMix能够在广泛的指令遵循和医疗保健领域特定的SFT任务中显著优于NTP，展示了其适应各种LLM系列和数据集大小的可扩展性。全面的消融研究进一步验证了SFTMix设计选择的稳健性，强调了其在不同LLMs和数据集中持续增强性能的多功能性，适用于更广泛的自然语言处理应用。

扩展你的核：ConvNets 中的大核设计朝向通用表示
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Oct 10

ByYiyuan Zhang, Xiaohan Ding, Xiangyu Yue

本文提出了在设计现代卷积神经网络（ConvNets）中采用大卷积核的范式。我们确认，使用少量大卷积核，而不是堆叠多个较小的卷积核，可以是一种更优越的设计策略。我们的工作引入了一组针对大卷积核ConvNets的架构设计准则，优化它们的效率和性能。我们提出了UniRepLKNet架构，提供了专门为大卷积核ConvNets量身定制的系统化架构设计原则，强调了它们在不需要深度层堆叠的情况下捕获广泛空间信息的独特能力。这导致了一个模型，不仅在ImageNet准确率达到了88.0%，ADE20K mIoU达到了55.6%，COCO盒子AP达到了56.4%，而且在诸如时间序列预测、音频、点云和视频识别等各种模态上展现出了令人印象深刻的可扩展性和性能。这些结果表明了大卷积核ConvNets具有通用建模能力，较视觉Transformer具有更快的推理速度。我们的发现揭示了大卷积核ConvNets具有更大的有效感受野和更高的形状偏差，远离了较小卷积核CNN典型的纹理偏差。所有代码和模型都可以在https://github.com/AILab-CVC/UniRepLKNet上公开获取，促进社区中进一步的研究和发展。

优化：基于LLM的多智体系统的效率和效能优化
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

Oct 10

ByWeize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun

基于大型语言模型（LLM）的多智能体系统（MAS）在协作解决问题方面展现出显著潜力，但仍面临着关键挑战：通信效率低、可扩展性差，以及缺乏有效的参数更新优化方法。我们提出了Optima，这是一个通过LLM训练显著增强LLM-based MAS中通信效率和任务效果的新框架。Optima采用迭代生成、排名、选择和训练范式，通过平衡任务性能、标记效率和通信可读性的奖励函数，解决了这些问题。我们探讨了各种强化学习算法，包括监督微调、直接偏好优化以及它们的混合方法，提供了它们之间有效性和效率的权衡见解。我们将基于蒙特卡洛树搜索启发的技术整合到DPO数据生成中，将对话轮视为树节点以探索不同的交互路径。在包括信息不对称问答和复杂推理在内的常见多智能体任务上进行评估，Optima相对于基于Llama 3 8B的单智能体基线和普通MAS表现出持续和显著的改进，实现了在需要大量信息交换的任务上高达2.8倍的性能提升，且标记数量不到10%。此外，Optima的效率提升为更有效地利用推理计算提供了新的可能性，从而导致了改进的推理时间缩放规律。通过解决LLM-based MAS中的基本挑战，Optima展示了朝着可扩展、高效和有效的MAS潜力。(https://chenweize1998.github.io/optima-project-page)

作弊自动LLM基准测试：空模型取得高胜率
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Oct 9

ByXiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin

自动LLM基准测试，如AlpacaEval 2.0、Arena-Hard-Auto和MT-Bench，因其与人工评估相比具有成本效益和可扩展性而变得流行。在这些基准测试中取得高胜率可以显著提升新发布语言模型的推广影响。这种推广效益可能会激励一些技巧，例如操纵模型输出长度或风格以提高胜率，尽管已经开发了几种机制来控制长度和解开风格以减少可玩性。然而，我们展示即使是一个始终输出恒定响应（与输入指令无关）的“空模型”也可以欺骗自动基准测试并取得排名靠前的胜率：在AlpacaEval 2.0上取得86.5%的LC胜率；在Arena-Hard-Auto上得分83.0；在MT-Bench上得分9.55。此外，精心制作的作弊输出是可转移的，因为我们假设这些基准测试的指令（例如AlpacaEval 2.0的805个样本）是私有的且无法访问。虽然我们的实验主要是概念验证，但对手可以利用LLM生成更不易察觉的作弊响应，不道德地从高胜率和推广影响中获益。我们的发现呼吁开发可靠自动基准测试的防作弊机制。代码可在https://github.com/sail-sg/Cheating-LLM-Benchmarks找到。

通过重复示例产生的新属性
Emergent properties with repeated examples

Oct 9

ByFrançois Charton, Julia Kempe

我们研究了变压器的性能，其性能与通过算法生成的数据集中训练示例的重复次数有关。在数学的三个问题上：最大公约数、模乘法和矩阵特征值，我们表明对于固定数量的训练步骤，模型在重复示例较少的训练集上表现优于在单次使用示例较多的训练集上训练的模型。我们还证明，两集训练 - 对小随机子集示例的重复使用，以及对训练集的其余部分进行正常抽样 - 提供了更快的学习和更好的性能。这突显了重复的好处可能超过数据多样性的好处。这些数据集和问题提供了一个受控环境，以阐明深度学习中广义化和记忆之间仍然不太清楚的相互作用。

大型语言模型对齐的加速偏好优化
Accelerated Preference Optimization for Large Language Model Alignment

Oct 8

ByJiafan He, Huizhuo Yuan, Quanquan Gu

人类反馈强化学习（RLHF）已经成为将大型语言模型（LLMs）与人类偏好对齐的关键工具。直接偏好优化（DPO）是最流行的方法之一，它将RLHF表述为一个策略优化问题，而无需明确估计奖励函数。它克服了两步法的稳定性和效率问题，这些方法通常涉及首先估计奖励函数，然后通过近端策略优化（PPO）来优化策略。由于RLHF本质上是一个优化问题，而且众所周知，动量技术在理论上和实践中都可以加速优化，一个自然的问题就出现了：RLHF能否通过动量加速？本文肯定地回答了这个问题。具体来说，我们首先展示了迭代偏好优化方法可以被视为一种近端点方法。基于这一观察，我们提出了一个通用的加速偏好优化（APO）框架，统一了许多现有的偏好优化算法，并采用Nesterov的动量技术来加速LLMs的对齐。从理论上讲，我们证明了APO可以比标准的迭代偏好优化方法（包括DPO和自对弈偏好优化（SPPO））实现更快的收敛速度。在实证方面，我们展示了APO在AlpacaEval 2.0基准测试中优于DPO、迭代DPO和其他强基线方法的优越性。

数据顾问：用于大型语言模型安全对齐的动态数据整理
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

Oct 7

ByFei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan

数据是大型语言模型（LLM）对齐中的关键要素。最近的研究探讨了使用LLM进行高效数据收集的方法。然而，LLM生成的数据通常存在质量问题，包括代表性不足或缺失的方面以及低质量的数据点。为了解决这些问题，我们提出了Data Advisor，这是一种增强型基于LLM的数据生成方法，考虑了所需数据集的特征。从一组预定义的原则出发，Data Advisor监控生成数据的状态，识别当前数据集中的弱点，并相应地建议下一轮数据生成。Data Advisor可以轻松集成到现有的数据生成方法中，以提高数据质量和覆盖范围。对三个代表性LLM（即Mistral、Llama2和Falcon）的安全对齐实验表明，Data Advisor在增强模型安全性方面的有效性，能够应对各种细粒度安全问题，而不会牺牲模型效用。

MotionGS：探索用于可变形3D高斯飞溅的显式运动引导
MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting

Oct 10

ByRuijie Zhu, Yanzhe Liang, Hanzhi Chang, Jiacheng Deng, Jiahao Lu, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang

动态场景重建是三维视觉领域的长期挑战。最近，3D高斯飘雪的出现为这一问题提供了新的见解。尽管随后的努力迅速将静态3D高斯扩展到动态场景，但它们通常缺乏对物体运动的明确约束，导致优化困难和性能下降。为解决上述问题，我们提出了一种新颖的可变形3D高斯飘雪框架MotionGS，它探索了明确的运动先验来引导3D高斯的变形。具体而言，我们首先引入了一个光流解耦模块，将光流解耦为相机流和运动流，分别对应相机运动和物体运动。然后，运动流可以有效约束3D高斯的变形，从而模拟动态物体的运动。此外，我们提出了一个相机姿态优化模块，交替优化3D高斯和相机姿态，减轻不准确相机姿态的影响。在单目动态场景中的大量实验证明，MotionGS超越了最先进的方法，在定性和定量结果上表现出显著优势。项目页面：https://ruijiezhu94.github.io/MotionGS_page

Vector-ICL：具有连续向量表示的上下文学习
Vector-ICL: In-context Learning with Continuous Vector Representations

Oct 8

ByYufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao

大型语言模型（LLMs）已经展示出在文本数据上的上下文学习（ICL）能力。我们探讨这些能力是否可以扩展到从黑盒预训练编码器获得的来自不同领域的连续向量。通过将输入数据与LLM的嵌入空间通过轻量级投影器对齐，我们观察到LLMs可以有效处理和学习这些投影向量，我们将其称为向量-ICL。特别是，我们发现使用通用语言建模目标预训练投影器可以实现向量-ICL，而任务特定的微调可以进一步提高性能。在我们跨越各种任务和模态的实验中，包括文本重建、数值函数回归、文本分类、摘要、分子字幕、时间序列分类、图分类和fMRI解码，向量-ICL通常优于少样本ICL和特定领域模型或调整。我们进一步进行分析和案例研究，表明LLMs处理超越传统基于标记的范式的向量表示的潜力。

Zebra：用于解决参数化偏微分方程的上下文和生成式预训练
Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs

Oct 4

ByLouis Serrano, Armand Kassaï Koupaï, Thomas X Wang, Pierre Erbacher, Patrick Gallinari

解决时变参数偏微分方程（PDEs）是具有挑战性的，因为模型必须适应参数变化，如系数、强制项和边界条件。数据驱动的神经求解器要么在从PDE参数分布中采样的数据上进行训练，希望模型推广到新实例，要么依赖基于梯度的调整和元学习来从观察中隐式编码动态。这往往伴随着增加的推断复杂性。受大型语言模型（LLMs）的上下文学习能力启发，我们引入了Zebra，这是一种新颖的生成自回归变压器，旨在解决参数化PDEs，而无需在推断时进行梯度调整。通过在预训练和推断期间利用上下文信息，Zebra通过对输入序列进行条件化，动态适应新任务，这些输入序列融合了上下文轨迹或先前状态。这种方法使Zebra能够灵活处理任意大小的上下文输入，并通过对多个解轨迹进行采样来支持不确定性量化。我们在各种具有挑战性的PDE场景中评估了Zebra，展示了其适应性、稳健性和与现有方法相比的卓越性能。

LPZero：从零开始的零成本语言模型代理搜索
LPZero: Language Model Zero-cost Proxy Search from Zero

Oct 7

ByPeijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu

尽管神经架构搜索（NAS）表现出色，但却因计算量巨大而受到批评。最近，零成本NAS作为一种新兴方法崭露头角，通过利用零成本（ZC）代理大幅减少了计算需求。尽管如此，现有的ZC代理在很大程度上依赖专业知识，并带来了显著的试错成本。特别是在自然语言处理（NLP）任务中，大多数现有的ZC代理无法超越朴素基准的性能。为了解决这些挑战，我们引入了一种新颖的框架LPZero，它是第一个能够自动设计各种任务的ZC代理，实现了比人工设计代理更高的排名一致性。具体而言，我们将ZC代理建模为一个符号方程，并融合了一个统一的代理搜索空间，该空间涵盖了现有的ZC代理，这些代理由预定义的一组数学符号组成。为了启发式地搜索最佳的ZC代理，LPZero采用遗传编程来找到最佳的符号组合。我们提出了一种基于规则的修剪策略（RPS），可以预先消除不太有希望的代理，从而减轻代理退化的风险。对FlexiBERT、GPT-2和LLaMA-7B的大量实验表明，与当前方法相比，LPZero在下游任务中表现出更优越的排名能力和性能。

AI研究论文每日精选

每日精选AI研究论文及翻译

通过规则学习实现的WALL-E：世界对齐改进基于世界模型的LLM代理
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Oct 9

BySiyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang

MathCoder2：通过在模型翻译的数学代码上持续预训练实现更好的数学推理
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

Oct 10

ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li

DICE：离散反演，用于多项式扩散和遮蔽生成模型的可控编辑
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

Oct 10

通过蒙特卡洛树搜索实现LLM自我改进：利用逐步知识与课程偏好学习。
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

Oct 9

ByXiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu

无处不在的一切：LLMs 可以在上下文中以叠加的方式学习多个任务
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

Oct 8

保持预训练视觉语言模型的多模态能力，以提高视觉-语言组合性
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

Oct 7

ByYoungtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim