AI研究论文每日精选

每日精选AI研究论文及翻译

ReCapture：使用遮罩视频微调的生成式视频相机控制用户提供的视频
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

最近，视频建模方面取得了突破，使得在生成的视频中可以实现可控的摄像机轨迹。然而，这些方法无法直接应用于用户提供的非由视频模型生成的视频。本文提出了一种名为ReCapture的方法，用于从单个用户提供的视频中生成具有新颜色轨迹的新视频。我们的方法允许我们重新生成参考视频，保留其所有现有的场景运动，从完全不同的角度以及具有电影般的摄像机运动。值得注意的是，使用我们的方法，我们还可以合理地虚构在参考视频中无法观察到的场景部分。我们的方法通过以下步骤实现：(1) 使用多视角扩散模型或基于深度的点云渲染生成具有新摄像机轨迹的嘈杂锚定视频，然后(2) 利用我们提出的遮罩视频微调技术将锚定视频重新生成为干净且时间上一致的重新角度视频。

大型语言模型编排结构化推理实现Kaggle大师级水平
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

我们介绍Agent K v1.0，这是一个端到端的自主数据科学代理程序，旨在自动化、优化和泛化各种数据科学任务。完全自动化的Agent K v1.0通过从经验中学习来管理整个数据科学生命周期。它利用高度灵活的结构化推理框架，使其能够动态处理内嵌结构的记忆，有效地从积累的经验中学习以处理复杂的推理任务。它通过有选择地存储和检索关键信息来优化长期和短期记忆，基于环境奖励指导未来决策。这种迭代方法使其能够在不需要微调或反向传播的情况下完善决策，通过经验学习实现持续改进。我们使用Kaggle竞赛作为案例研究来评估我们代理程序的能力。遵循完全自动化的协议，Agent K v1.0系统地解决复杂和多模态的数据科学任务，利用贝叶斯优化进行超参数调整和特征工程。我们的新评估框架严格评估Agent K v1.0的端到端能力，从Kaggle竞赛URL开始生成并提交结果。结果表明，Agent K v1.0在各种任务中取得了92.5\%的成功率，涵盖了表格、计算机视觉、自然语言处理和多模态领域。通过计算每个人类Kaggle竞争者的Elo-MMR分数，与5856名人类Kaggle竞争者进行基准测试，Agent K v1.0排名前38\%，展示了与专家级用户相当的整体技能水平。值得注意的是，其Elo-MMR分数介于人类大师的第一和第三四分位数之间。此外，我们的结果表明，Agent K v1.0已经达到了与Kaggle大师相当的表现水平，获得了6枚金牌、3枚银牌和7枚铜牌，符合Kaggle的晋级系统定义。

文本和图像均泄露！多模态LLM数据污染的系统分析
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

多模态大型语言模型（MLLMs）的快速发展在各种多模态基准测试中展现出优越的性能。然而，在训练过程中数据污染的问题给性能评估和比较带来了挑战。虽然存在许多用于检测大型语言模型（LLMs）中数据集污染的方法，但由于多模态和多个训练阶段，这些方法对MLLMs的效果较差。在本研究中，我们引入了一个专为MLLMs设计的多模态数据污染检测框架MM-Detect。我们的实验结果表明，MM-Detect对不同程度的污染敏感，并且能够突出由于多模态基准测试的训练集泄漏而导致的显著性能改善。此外，我们还探讨了污染可能源自MLLMs使用的LLMs的预训练阶段以及MLLMs的微调阶段，为污染可能引入的阶段提供了新的见解。

多项式组合激活函数：释放大型语言模型的动力学
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

由于其强大的拟合能力，变压器在各个领域都找到了广泛的应用。这种成功部分归因于它们固有的非线性特性。因此，除了原始变压器架构中使用的ReLU函数外，研究人员还探索了诸如GeLU和SwishGLU等替代模块，以增强非线性并从而增加表示能力。在本文中，我们提出了一种新颖的多项式组合激活函数（PolyCom），旨在优化变压器的动态特性。从理论上讲，我们对PolyCom进行了全面的数学分析，突出了相对于其他激活函数的增强表达能力和有效性。值得注意的是，我们证明了集成PolyCom的网络实现了最佳逼近速率，表明PolyCom网络需要最少的参数来逼近Sobolev空间中的一般平滑函数。我们对大型语言模型（LLMs）的预训练配置进行了实证实验，包括密集和稀疏架构。通过用PolyCom替换传统激活函数，我们使LLMs能够捕捉数据中的高阶交互作用，从而提高了准确性和收敛速度等性能指标。广泛的实验结果表明了我们方法的有效性，显示出相对于其他激活函数的显著改进。代码可在https://github.com/BryceZhuo/PolyCom找到。

TIP-I2V：用于图像到视频生成的百万级真实文本和图像提示数据集
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

视频生成模型正在彻底改变内容创作，图像到视频模型因其增强的可控性、视觉一致性和实际应用而受到越来越多的关注。然而，尽管这些模型很受欢迎，但它们依赖用户提供的文本和图像提示，目前还没有专门用于研究这些提示的数据集。本文介绍了TIP-I2V，这是第一个针对图像到视频生成的超过170万个独特用户提供的文本和图像提示的大规模数据集。此外，我们提供了来自五种最先进的图像到视频模型生成的相应视频。我们首先概述了策划这一大规模数据集的耗时和昂贵过程。接下来，我们将TIP-I2V与两个流行的提示数据集VidProM（文本到视频）和DiffusionDB（文本到图像）进行比较，突出了基本信息和语义信息的差异。该数据集推动了图像到视频研究的进展。例如，为了开发更好的模型，研究人员可以使用TIP-I2V中的提示来分析用户偏好，并评估他们训练模型的多维性能；为了增强模型的安全性，他们可以专注于解决图像到视频模型引起的误导问题。TIP-I2V激发的新研究以及与现有数据集的差异强调了专门的图像到视频提示数据集的重要性。该项目可在https://tip-i2v.github.io 上公开获取。

自洽性偏好优化
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

自我对齐是一种模型学习如何在没有人工标注的情况下改进自身的能力，是一个快速发展的研究领域。然而，由于难以确定正确的奖励，现有技术通常无法改进复杂的推理任务。已知一种改进正确性的正交方法是自一致性，在推理时应用多次抽样以找到最一致的答案。在本研究中，我们将自一致性概念扩展到模型训练中。因此，我们引入了自一致性偏好优化（ScPO），通过迭代训练一致的答案优于不一致的答案来解决无监督新问题。我们展示了ScPO在推理任务（如GSM8K和MATH）上相较于传统奖励模型训练取得了巨大改进，缩小了与使用黄金答案或偏好的监督训练之间的差距，并且将ScPO与标准监督学习相结合可以进一步提高结果。在ZebraLogic上，ScPO微调Llama-3 8B，使其优于Llama-3 70B、Gemma-2 27B和Claude-3 Haiku。

从Medprompt到o1：医疗挑战问题及其它领域的运行时策略探索
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

像Medprompt这样的运行时导向策略对引导大型语言模型（LLMs）在具有挑战性的任务上达到最佳性能非常有价值。Medprompt展示了通过使用提示来引发涉及思维链推理和集成的运行时策略，可以将通用LLM集中到在医学等专业领域提供最先进性能。OpenAI的o1-preview模型代表了一个新的范式，其中一个模型被设计为在生成最终响应之前进行运行时推理。我们试图了解o1-preview在各种医学挑战问题基准上的行为。在Medprompt与GPT-4的研究基础上，我们系统评估了o1-preview模型在各种医学基准上的表现。值得注意的是，即使没有提示技术，o1-preview在很大程度上优于具有Medprompt的GPT-4系列。我们进一步系统研究了经典提示工程策略的有效性，如Medprompt所代表的，在推理模型的新范式中。我们发现少样本提示阻碍了o1的性能，这表明在上下文学习可能不再是推理本地模型的有效导向方法。虽然集成仍然可行，但它需要大量资源，并需要仔细的成本性能优化。我们在运行时策略跨成本和准确性的分析中揭示了帕累托前沿，GPT-4o代表了一个更经济的选择，而o1-preview在更高成本下实现了最先进的性能。尽管o1-preview提供了最佳性能，但像Medprompt这样的导向策略使GPT-4o在特定背景下仍具有价值。此外，我们注意到o1-preview模型在许多现有医学基准上已接近饱和，强调了对新的具有挑战性的基准的需求。最后，我们对LLMs的推理时间计算的一般方向进行了反思。

AI研究论文每日精选

每日精选AI研究论文及翻译

ReCapture：使用遮罩视频微调的生成式视频相机控制用户提供的视频
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

Nov 7

ByDavid Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

大型语言模型编排结构化推理实现Kaggle大师级水平
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

文本和图像均泄露！多模态LLM数据污染的系统分析
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

多项式组合激活函数：释放大型语言模型的动力学
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

TIP-I2V：用于图像到视频生成的百万级真实文本和图像提示数据集
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

自洽性偏好优化
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

从Medprompt到o1：医疗挑战问题及其它领域的运行时策略探索
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz