AI研究论文每日精选

每日精选AI研究论文及翻译

基于令牌预算的LLM推理
Token-Budget-Aware LLM Reasoning

Dec 24

ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang

推理对于大型语言模型（LLMs）在各种任务中表现出色至关重要。虽然像“思维链”（CoT）推理这样的方法通过将问题分解为中间步骤来增强LLM的性能，但它们也会导致显著的标记使用开销，从而增加成本。我们发现当前LLMs的推理过程不必要地冗长，可以通过在提示中包含合理的标记预算来压缩，但标记预算的选择在实际压缩效果中起着至关重要的作用。然后，我们提出了一个标记预算感知的LLM推理框架，该框架根据推理复杂性动态估计不同问题的标记预算，并使用估计的标记预算来指导推理过程。实验证明，我们的方法在减少CoT推理中的标记成本时，仅略微降低性能，为在LLM推理中平衡效率和准确性提供了实用解决方案。代码：https://github.com/GeniusHTX/TALE。

桑葚：通过集体蒙特卡洛树搜索赋能MLLM具有类似o1的推理和反思能力
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24

ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao

在这项工作中，我们旨在开发一种理解和解决问题的MLLM，通过学习创建涉及到的推理的每个中间步骤直至最终答案。为此，我们提出了集体蒙特卡洛树搜索（CoMCTS），这是一种新的用于MLLM的学习推理方法，它将“树搜索”中引入了集体学习的概念，以实现有效和高效的推理路径搜索和学习。CoMCTS的核心思想是利用来自多个模型的集体知识，通过包括扩展、模拟和错误定位、反向传播以及选择在内的四个迭代操作，共同推测、搜索和识别通向正确答案的有效推理路径。利用CoMCTS，我们构建了Mulberry-260k，这是一个多模态数据集，为每个问题都提供了一个丰富、明确和定义良好的推理节点树。通过Mulberry-260k，我们进行了集体SFT来训练我们的模型Mulberry，这是一系列具有类似o1的逐步推理和反思能力的MLLM。大量实验证明了我们提出的方法在各种基准测试中的优越性。代码将在https://github.com/HJYao00/Mulberry 上提供。

视频熊猫：面向无编码器视频-语言模型的参数高效对齐
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Dec 24

ByJinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall

我们提出了一种高效的无编码器方法，用于视频-语言理解，在显著减少计算开销的同时实现了竞争性能。当前的视频-语言模型通常依赖于庞大的图像编码器（3亿至11亿参数）或视频编码器（10亿至14亿参数），在处理多帧视频时造成了重大的计算负担。我们的方法引入了一种新颖的时空对齐模块（STAB），可以直接处理视频输入，而无需预先训练的编码器，同时仅使用4500万参数进行视觉处理 - 与传统方法相比至少减少了6.5倍。STAB架构结合了局部时空编码以进行细粒度特征提取，通过学习注意力实现高效的空间下采样，以及分别建模帧级和视频级关系的机制。我们的模型在标准基准上实现了与基于编码器方法相媲美或更优的性能，用于开放式视频问答。细粒度视频问答评估展示了我们模型的有效性，在正确性和时间理解等关键方面优于基于编码器的方法Video-ChatGPT和Video-LLaVA。大量消融研究验证了我们的架构选择，并展示了我们的时空建模方法的有效性，同时实现了比以前方法快3-4倍的处理速度。代码可在https://github.com/jh-yi/Video-Panda获得。

WavePulse：广播实时内容分析
WavePulse: Real-time Content Analytics of Radio Livestreams

Dec 23

ByGovind Mittal, Sarthak Gupta, Shruti Wagle, Chirag Chopra, Anthony J DeMattee, Nasir Memon, Mustaque Ahamad, Chinmay Hegde

广播仍然是一种广泛传播大众信息的媒介，AM/FM 电台覆盖的美国人数超过基于智能手机的社交网络或现场电视。越来越多的广播也通过在线流媒体和互联网访问。我们提出了 WavePulse，一个实时记录、记录和分析广播内容的框架。虽然我们的框架通用，但我们展示了 WavePulse 在与一组专注于 2024 年总统选举的政治科学家团队合作的项目中的有效性。我们使用 WavePulse 监控了 396 家新闻广播电台的直播流，持续三个月，处理了近 500,000 小时的音频流。这些流被转换为时间戳、日记化的文本，并进行分析，以追踪国家和州级政治科学问题的答案。我们的分析揭示了地方问题如何与国家趋势互动，为信息流提供了见解。我们的结果展示了 WavePulse 在捕获和分析来自网络的广播直播流内容方面的有效性。代码和数据集可在 https://wave-pulse.io 获取。

你的实时同声传译语音转文本系统有多"真实"？
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

Dec 24

BySara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček

同时语音转文本翻译（SimulST）将源语言语音与演讲者的讲话同步转换为目标语言文本，确保低延迟以提高用户理解能力。尽管其旨在应用于无限制语音，但大多数研究集中在人为预分段的语音上，简化了任务并忽视了重要挑战。这种狭窄的关注焦点，加上广泛存在的术语不一致性，限制了研究成果在现实应用中的适用性，最终阻碍了该领域的进展。我们对110篇论文进行了广泛的文献综述，不仅揭示了当前研究中的关键问题，还为我们的主要贡献奠定了基础。我们1）定义SimulST系统的步骤和核心组件，提出了标准化术语和分类法；2）进行了对社区趋势的彻底分析；3）提出了具体建议和未来发展方向，以弥补现有文献中的差距，从评估框架到系统架构，推动该领域朝着更加现实和有效的SimulST解决方案发展。

VidTwin：具有解耦结构和动态的视频变分自动编码器
VidTwin: Video VAE with Decoupled Structure and Dynamics

Dec 23

ByYuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian

最近视频自编码器（Video AEs）的发展显著提高了视频生成的质量和效率。在本文中，我们提出了一种新颖且紧凑的视频自编码器，VidTwin，将视频解耦为两个不同的潜在空间：结构潜在向量，捕捉整体内容和全局运动，以及动态潜在向量，代表细节和快速运动。具体而言，我们的方法利用了一个编码器-解码器骨干，增加了两个子模块来分别提取这些潜在空间。第一个子模块采用Q-Former来提取低频运动趋势，然后通过下采样块去除冗余内容细节。第二个子模块沿空间维度对潜在向量进行平均以捕捉快速运动。大量实验证明，VidTwin实现了高压缩率（0.20%）和高重建质量（在MCL-JCV数据集上的PSNR为28.14），在下游生成任务中表现高效且有效。此外，我们的模型具有可解释性和可扩展性，为未来视频潜在表示和生成研究铺平了道路。我们的代码已发布在https://github.com/microsoft/VidTok/tree/main/vidtwin。

PepTune：利用多目标引导的离散扩散进行治疗肽的全新生成
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23

BySophia Tang, Yinuo Zhang, Pranam Chatterjee

肽类药物是一类重要的药物，在糖尿病和癌症等疾病治疗中取得了显著成功，其中具有里程碑意义的例子包括GLP-1受体激动剂彻底改变了2型糖尿病和肥胖症的治疗方式。尽管取得了成功，设计满足多个相互冲突目标的肽类仍然是一个重大挑战，例如靶向结合亲和力、溶解度和膜渗透性。传统药物开发和基于结构的设计对于这样的任务是无效的，因为它们未能优化对治疗功效至关重要的全局功能特性。现有的生成框架主要局限于连续空间、非条件输出或单目标指导，这使它们不适用于跨多个属性进行离散序列优化。为了解决这个问题，我们提出了PepTune，这是一个用于同时生成和优化治疗性肽SMILES的多目标离散扩散模型。基于掩蔽离散语言模型（MDLM）框架构建的PepTune通过状态相关的掩蔽计划和基于惩罚的目标确保有效的肽结构。为了引导扩散过程，我们提出了一种基于蒙特卡洛树搜索（MCTS）的策略，平衡探索和开发，以迭代地优化帕累托最优序列。MCTS将基于分类器的奖励与搜索树扩展相结合，克服了离散空间固有的梯度估计挑战和数据稀疏性。利用PepTune，我们生成了多样化的、经过化学修饰的肽，针对多种与疾病相关的靶点进行了优化，包括靶向结合亲和力、膜渗透性、溶解度、溶血性和不易附着特性。总的来说，我们的结果表明，MCTS引导的离散扩散是离散状态空间中多目标序列设计的一种强大且模块化的方法。

AI研究论文每日精选

每日精选AI研究论文及翻译

基于令牌预算的LLM推理
Token-Budget-Aware LLM Reasoning

Dec 24

ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang

桑葚：通过集体蒙特卡洛树搜索赋能MLLM具有类似o1的推理和反思能力
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24

ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao

PepTune：利用多目标引导的离散扩散进行治疗肽的全新生成
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23

BySophia Tang, Yinuo Zhang, Pranam Chatterjee