HuggingFace Daily Papers

每日论文

每日精选AI研究论文及翻译

选择日期

26 papers found

料想不到：金融领域的故障安全长文本问答
Expect the Unexpected: FailSafe Long Context QA for Finance

Feb 10

ByKiran Kamble, Melisa Russak, Dmytro Mozolevskyi, Muayad Ali, Mateusz Russak, Waseem AlShikh

132

我们提出了一个新的长文本金融基准测试集FailSafeQA，旨在测试基于LLM的问答系统在金融领域中的六种人机交互变化下的鲁棒性和上下文感知能力。我们专注于两个案例研究：查询失败和上下文失败。在查询失败场景中，我们扰动原始查询以在领域专业知识、完整性和语言准确性上产生变化。在上下文失败案例中，我们模拟了降级、无关和空文档的上传。我们采用LLM作为评判者的方法，使用Qwen2.5-72B-Instruct，并使用细粒度评分标准为24个现成模型定义和计算鲁棒性、上下文基础和符合性得分。结果表明，尽管一些模型擅长缓解输入扰动，但它们必须在稳健回答和避免产生幻觉的能力之间取得平衡。值得注意的是，被认为是最符合规范的模型Palmyra-Fin-128k-Instruct，在保持强大基准性能的同时，在17%的测试案例中遇到了维持稳健预测的挑战。另一方面，最具鲁棒性的模型OpenAI o3-mini，在41%的测试案例中捏造信息。结果表明，即使高性能模型也有很大的改进空间，并突出了FailSafeQA作为开发针对金融应用中可靠性优化的LLM的工具的作用。数据集可在以下链接获取：https://huggingface.co/datasets/Writer/FailSafeQA

大型推理模型的竞争性编程
Competitive Programming with Large Reasoning Models

Feb 3

ByOpenAI, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou

我们展示了将强化学习应用于大型语言模型（LLMs）可以显著提升在复杂编码和推理任务上的性能。此外，我们比较了两个通用推理模型 - OpenAI o1 和 o3 的早期检查点 - 以及一个特定领域系统 o1-ioi，后者使用为参加2024年国际信息学奥林匹克竞赛（IOI）而设计的手工推理策略。我们在2024年的IOI现场比赛中使用 o1-ioi，并通过手工设计的测试时策略获得了第49百分位。在放宽比赛约束条件下，o1-ioi 获得了金牌。然而，当评估后续模型如 o3 时，我们发现 o3 在没有手工设计的特定领域策略或放松约束条件的情况下也能获得金牌。我们的研究结果表明，尽管诸如 o1-ioi 这样的专门流水线可以带来显著改进，但规模化的通用 o3 模型超越了这些结果，而无需依赖手工设计的推理启发式。值得注意的是，o3 在2024年的IOI上获得了金牌，并且在 Codeforces 等级上与顶尖人类竞争者持平。总的来说，这些结果表明，在推理领域，如竞赛编程，通过扩展通用强化学习而不是依赖特定领域技术，提供了通向最先进人工智能的稳健途径。

代码输入输出：通过代码输入输出预测压缩推理模式
CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

Feb 11

ByJunlong Li, Daya Guo, Dejian Yang, Runxin Xu, Yu Wu, Junxian He

推理是大型语言模型的基本能力。尽管先前的研究主要集中在增强数学或代码生成等狭窄技能方面，但改善许多其他推理任务的表现仍然具有挑战性，因为训练数据稀疏且分散。为了解决这个问题，我们提出了CodeI/O，这是一种新颖的方法，通过将原始代码转换为代码输入-输出预测格式，系统地压缩了内嵌在上下文代码中的多样化推理模式。通过训练模型以自然语言完全预测给定代码和测试用例的输入/输出，作为“思维链”（CoT）的理由，我们让模型接触到通用推理基元，如逻辑流规划、状态空间搜索、决策树遍历和模块分解，同时将结构化推理与特定于代码的语法分离，并保留程序严谨性。实验结果表明，CodeI/O在符号、科学、逻辑、数学和数值、常识推理任务中均取得了一致的改进。通过匹配现有的地面真实输出或使用预测的输入重新执行代码，我们可以验证每个预测，并通过多轮修订进一步增强CoTs，从而实现CodeI/O++并获得更高的性能。我们的数据和模型可在https://github.com/hkust-nlp/CodeIO 上获得。

用于金融时间序列预测的检索增强型大型语言模型
Retrieval-augmented Large Language Models for Financial Time Series Forecasting

Feb 9

ByMengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie

股票走势预测是金融时间序列预测中的基本任务，需要从大量时间序列数据中识别和检索关键影响因素。然而，现有基于文本训练或数字相似度的检索方法在处理复杂的金融分析时存在不足。为解决这一问题，我们提出了第一个用于金融时间序列预测的检索增强生成（RAG）框架，具有三个关键创新点：以精调的10亿参数大型语言模型（StockLLM）为支撑，利用LLM反馈的新型候选选择方法，以及最大化查询与历史重要序列之间相似性的训练目标。这使得我们的检索器FinSeer能够发现有意义的模式，同时最大程度地减少复杂金融数据中的噪音。我们还构建了整合金融指标和历史股价的新数据集，用于训练FinSeer并确保稳健评估。实验结果表明，我们的RAG框架优于单独的StockLLM和随机检索，突显了其有效性，而FinSeer超越了现有的检索方法，在BIGDATA22上准确率提高了8％，并检索到更具影响力的序列。这项工作强调了金融预测中定制检索模型的重要性，并为未来研究提供了一个新颖的框架。

LLM 可以轻松地从演示中学会推理结构才是重要的，而非内容！
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Feb 11

ByDacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Shishir G. Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

大推理模型（LRMs）通过遵循包含反思、回溯和自我验证的长思维链（Long CoT）来解决复杂的推理问题。然而，引发长思维链所需的训练技术和数据要求仍然知之甚少。在这项研究中，我们发现大语言模型（LLM）可以通过数据高效的监督微调（SFT）和参数高效的低秩适应（LoRA）有效地学习长思维链推理。仅通过17k个长思维链训练样本，Qwen2.5-32B-Instruct模型在广泛的数学和编码基准测试中取得了显著的改进，包括在AIME 2024上的56.7%（+40.0%）和在LiveCodeBench上的57.0%（+8.1%），与专有o1-preview模型的得分44.6%和59.1%相媲美。更重要的是，我们发现长思维链的结构对学习过程至关重要，而个别推理步骤的内容影响微乎其微。影响内容的扰动，如在错误样本上训练或删除推理关键词，对性能几乎没有影响。相比之下，破坏长思维链中的逻辑一致性的结构修改，如洗牌或删除推理步骤，会显著降低准确性。例如，在长思维链样本上训练的模型即使有错误答案，其准确性仍然比完全正确样本训练低3.2%。这些见解加深了我们对如何引发LLMs中的推理能力的理解，并突出了有效训练下一代推理模型的关键考虑因素。这是我们之前发布的Sky-T1-32B-Preview模型的学术论文。代码可在https://github.com/NovaSky-AI/SkyThought找到。

魔法1对1：在一分钟内生成一分钟的视频剪辑
Magic 1-For-1: Generating One Minute Video Clips within One Minute

Feb 11

ByHongwei Yi, Shitong Shao, Tian Ye, Jiantong Zhao, Qingyu Yin, Michael Lingelbach, Li Yuan, Yonghong Tian, Enze Xie, Daquan Zhou

在这份技术报告中，我们提出了Magic 1-For-1（Magic141），这是一个具有优化内存消耗和推理延迟的高效视频生成模型。关键思想很简单：将文本到视频生成任务分解为两个单独且更容易的扩散步骤精炼任务，即文本到图像生成和图像到视频生成。我们验证了在相同的优化算法下，图像到视频任务确实比文本到视频任务更容易收敛。我们还探索了一系列优化技巧，以降低训练图像到视频（I2V）模型的计算成本：1）通过使用多模态先验条件注入来加快模型收敛速度；2）通过应用对抗式步骤精炼来加快推理延迟；3）通过参数稀疏化来优化推理内存成本。借助这些技术，我们能够在3秒内生成5秒的视频片段。通过应用测试时间滑动窗口，我们能够在一分钟内生成一分钟长的视频，显著提高了视觉质量和动态效果，平均花费不到1秒的时间生成1秒的视频片段。我们进行了一系列初步探索，以找到在扩散步骤精炼过程中计算成本和视频质量之间的最佳权衡，并希望这可以成为开源探索的良好基础模型。代码和模型权重可在https://github.com/DA-Group-PKU/Magic-1-For-1找到。

将预训练规模扩展到一千亿数据的视觉语言模型
Scaling Pre-training to One Hundred Billion Data for Vision Language Models

Feb 11

ByXiao Wang, Ibrahim Alabdulmohsin, Daniel Salz, Zhe Li, Keran Rong, Xiaohua Zhai

我们对预训练视觉-语言模型在前所未有的规模上进行了实证研究：1000亿个示例。我们发现，在许多常见的西方中心分类和检索基准上，如COCO Captions，模型性能在这一规模上往往会饱和。然而，涉及文化多样性的任务从这1000亿规模的网络数据中获得了更实质性的收益，这要归功于其覆盖了长尾概念。此外，我们分析了模型的多语言性，并展示了在资源稀缺语言中的收益。此外，我们观察到，通过使用CLIP等质量过滤器减少预训练数据集的规模，通常用于提高性能，可能会无意中减少即使在大规模数据集中也代表的文化多样性。我们的结果突显出，尽管传统基准测试可能不会从将嘈杂的原始网络数据扩展到1000亿示例中受益显著，但这一数据规模对于构建真正包容的多模态系统至关重要。

宝石：多面缩放定律模型套件
Gemstones: A Model Suite for Multi-Faceted Scaling Laws

Feb 7

BySean McLeish, John Kirchenbauer, David Yu Miller, Siddharth Singh, Abhinav Bhatele, Micah Goldblum, Ashwinee Panda, Tom Goldstein

通常，缩放定律是使用一系列具有狭窄范围冻结超参数选择的模型族进行拟合的。在这项工作中，我们使用广泛的架构和超参数选择研究缩放定律，并突出它们对结果预测的影响。作为我们研究的主要成果，我们发布了Gemstones：迄今为止最全面的开源缩放定律数据集，包括来自拥有高达20亿参数的变压器的4000多个检查点；这些模型已经使用不同的学习率、冷却计划和架构形状进行训练。我们的检查点使得可以进行更复杂的缩放研究，比如一种定律，它预测语言建模性能作为模型宽度和深度的函数。通过检查我们模型套件的各个方面，我们发现缩放定律的预测可能对实验设计过程和拟合过程中使用的特定模型检查点非常敏感。源代码：https://github.com/mcleish7/gemstone-scaling-laws

通过强化学习教授语言模型批判能力
Teaching Language Models to Critique via Reinforcement Learning

Feb 5

ByZhihui Xie, Jie chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong

教授大型语言模型（LLMs）批判并完善其输出对于构建能够迭代改进的系统至关重要，然而，这在根本上受到提供准确判断和可操作建议能力的限制。在这项工作中，我们研究了用于代码生成的LLM评论者，并提出了CTRL，即通过强化学习进行评论者训练的框架，该框架训练评论者模型生成反馈，以最大化对于固定生成模型的纠正性能，而无需人类监督。我们的结果表明，使用CTRL训练的评论者显著增强了通过率，并减轻了基础和更强生成模型之间的复合错误。此外，我们展示这些评论者模型作为准确的生成奖励模型，并通过迭代的评论-修订实现了测试时的扩展，从而在具有挑战性的代码生成基准测试中实现高达106.1％的相对改进。

Enhance-A-Video：免费生成更好视频
Enhance-A-Video: Better Generated Video for Free

Feb 11

ByYang Luo, Xuanlei Zhao, Mengzhao Chen, Kaipeng Zhang, Wenqi Shao, Kai Wang, Zhangyang Wang, Yang You

基于DiT的视频生成取得了显著成果，但对于增强现有模型的研究仍相对未被探索。在这项工作中，我们介绍了一种无需训练的方法来增强基于DiT生成的视频的连贯性和质量，命名为Enhance-A-Video。核心思想是基于非对角线时间注意力分布增强帧间相关性。由于其简单设计，我们的方法可以轻松应用于大多数基于DiT的视频生成框架，无需重新训练或微调。在各种基于DiT的视频生成模型中，我们的方法展示了在时间一致性和视觉质量方面的有希望的改进。我们希望这项研究能激发未来在视频生成增强方面的探索。

Hephaestus：通过持续预训练改进大型语言模型的基本代理能力
Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training

Feb 10

ByYuchen Zhuang, Jingfeng Yang, Haoming Jiang, Xin Liu, Kewei Cheng, Sanket Lokegaonkar, Yifan Gao, Qing Ping, Tianyi Liu, Binxuan Huang, Zheng Li, Zhengyang Wang, Pei Chen, Ruijie Wang, Rongzhi Zhang, Nasser Zalmout, Priyanka Nigam, Bing Yin, Chao Zhang

由于缺乏面向代理的预训练数据，基于LLM的自主代理通常依赖复杂的提示或广泛的微调，这经常无法引入新的能力，同时又保持强大的泛化能力。我们介绍了Hephaestus-Forge，这是第一个旨在增强LLM代理的基本能力的大规模预训练语料库，涵盖了API函数调用、内在推理和规划以及适应环境反馈。Hephaestus-Forge包括103B个代理特定数据，涵盖76,537个API，包括工具文档，以介绍API函数知识，以及函数调用轨迹，以加强内在推理。为了探索有效的训练协议，我们研究了扩展定律，以确定数据混合比例中的最佳配方。通过在Hephaestus-Forge上持续预训练，Hephaestus在三个代理基准测试中表现优于小规模到中等规模的开源LLM，并与商业LLM相媲美，展示了我们的预训练语料库在增强基本代理能力和LLM对新任务或环境的泛化能力方面的有效性。

NatureLM：解读自然语言以实现科学发现
NatureLM: Deciphering the Language of Nature for Scientific Discovery

Feb 11

ByYingce Xia, Peiran Jin, Shufang Xie, Liang He, Chuan Cao, Renqian Luo, Guoqing Liu, Yue Wang, Zequn Liu, Yuan-Jyue Chen, Zekun Guo, Yeqi Bai, Pan Deng, Yaosen Min, Ziheng Lu, Hongxia Hao, Han Yang, Jielan Li, Chang Liu, Jia Zhang, Jianwei Zhu, Kehan Wu, Wei Zhang, Kaiyuan Gao, Qizhi Pei, Qian Wang, Xixian Liu, Yanting Li, Houtian Zhu, Yeqing Lu, Mingqian Ma, Zun Wang, Tian Xie, Krzysztof Maziarz, Marwin Segler, Zhao Yang, Zilong Chen, Yu Shi, Shuxin Zheng, Lijun Wu, Chen Hu, Peggy Dai, Tie-Yan Liu, Haiguang Liu, Tao Qin

基础模型已经彻底改变了自然语言处理和人工智能，显著提升了机器理解和生成人类语言的能力。受这些基础模型成功的启发，研究人员已经为个别科学领域开发了基础模型，包括小分子、材料、蛋白质、DNA 和 RNA。然而，这些模型通常是孤立训练的，缺乏跨不同科学领域整合的能力。鉴于这些领域内的实体都可以被表示为序列，这些序列共同构成了“自然语言”，我们引入了自然语言模型（简称 NatureLM），这是一个基于序列的科学基础模型，旨在用于科学发现。NatureLM 预先使用来自多个科学领域的数据进行训练，提供了一个统一且多才多艺的模型，能够实现各种应用，包括：(i) 使用文本说明生成和优化小分子、蛋白质、RNA 和材料；(ii) 跨领域生成/设计，比如蛋白质到分子和蛋白质到RNA的生成；以及 (iii) 在 SMILES 到 IUPAC 翻译和 USPTO-50k 上的逆合成等任务中取得最先进的性能。NatureLM 为各种科学任务提供了一种有前途的通用方法，包括药物发现（命中生成/优化、ADMET 优化、合成）、新型材料设计，以及治疗蛋白质或核苷酸的开发。我们已经开发了不同规模的 NatureLM 模型（10 亿、80 亿和467 亿参数），观察到随着模型规模增加，性能明显提升。

VidCRAFT3：用于图像到视频生成的摄像头、物体和灯光控制
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation

Feb 11

BySixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu

最近的图像到视频生成方法已经展示出成功，使得能够控制一个或两个视觉元素，比如摄像机轨迹或物体运动。然而，由于数据和网络效率的限制，这些方法无法提供对多个视觉元素的控制。在本文中，我们介绍了 VidCRAFT3，这是一个新颖的框架，用于精确的图像到视频生成，可以同时控制摄像机运动、物体运动和光照方向。为了更好地解耦对每个视觉元素的控制，我们提出了空间三重注意力变换器，它以对称的方式整合了光照方向、文本和图像。由于大多数现实世界的视频数据集缺乏光照注释，我们构建了一个高质量的合成视频数据集，即 VideoLightingDirection（VLD）数据集。该数据集包括光照方向注释和外观多样的物体，使得 VidCRAFT3 能够有效处理强光传输和反射效果。此外，我们提出了一个三阶段训练策略，消除了需要同时对多个视觉元素（摄像机运动、物体运动和光照方向）进行注释的训练数据的需求。在基准数据集上进行的大量实验表明，VidCRAFT3 在生成高质量视频内容方面的有效性，超过了现有最先进方法，具有更精细的控制粒度和视觉连贯性。所有代码和数据将公开提供。项目页面：https://sixiaozheng.github.io/VidCRAFT3/。

Pippo：从单张图像生成高分辨率多视角人体模型
Pippo: High-Resolution Multi-View Humans from a Single Image

Feb 11

ByYash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov

我们提出了Pippo，这是一个生成模型，能够从单张随意拍摄的照片中生成一个人的1K分辨率密集的旋转视频。Pippo是一个多视角扩散变压器，不需要任何额外的输入，比如拟合的参数模型或输入图像的摄像机参数。我们在没有标题的30亿人类图像上对Pippo进行了预训练，并在工作室拍摄的人类身上进行了多视角中期训练和后期训练。在中期训练期间，为了快速吸收工作室数据集，我们对低分辨率下的多个视角（最多48个）进行去噪，并使用浅层MLP粗略地编码目标摄像机。在后期训练期间，我们对高分辨率下的少数视角进行去噪，并使用像素对齐的控制（例如，空间锚点和普拉克射线）来实现三维一致的生成。在推理阶段，我们提出了一种注意偏置技术，使Pippo能够同时生成超过训练过程中所见视角的5倍以上。最后，我们还引入了一个改进的度量标准来评估多视角生成的三维一致性，并展示了Pippo在从单个图像生成多视角人体时优于现有作品。

忘记你对LLM评估的认知 - LLM就像变色龙一样。
Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon

Feb 11

ByNurit Cohen-Inger, Yehonatan Elisha, Bracha Shapira, Lior Rokach, Seffi Cohen

大型语言模型（LLMs）通常在公共基准测试中表现出色，但这些高分可能掩盖了对特定数据集表面线索的过度依赖，而非真正的语言理解。我们引入了变色龙基准过拟合检测器（C-BOD），这是一个元评估框架，通过参数化转换系统地扭曲基准测试提示，并检测LLMs的过拟合情况。通过重新表述输入内容同时保留其语义内容和标签，C-BOD揭示了模型性能是否受到记忆模式的驱动。在使用26个领先的LLMs对MMLU基准进行评估时，我们的方法显示在适度扰动下平均性能下降了2.15％，其中26个模型中有20个表现出统计显著差异。值得注意的是，基线准确性较高的模型在扰动下表现出更大的性能差异，而更大的LLMs倾向于对重新表述更敏感，表明这两种情况都可能过度依赖固定提示模式。相比之下，Llama系列和基线准确性较低的模型显示出不显著的性能下降，表明对表面线索的依赖减少。此外，C-BOD的数据集和模型无关设计使其能够轻松集成到训练流程中，以促进更强大的语言理解。我们的研究结果挑战了社区要超越排行榜分数，优先考虑LLMs评估中的韧性和泛化能力。

Hypencoder：用于信息检索的超网络
Hypencoder: Hypernetworks for Information Retrieval

Feb 7

ByJulian Killingback, Hansi Zeng, Hamed Zamani

绝大多数检索模型依赖于向量内积来生成查询和文档之间的相关性分数。这自然地限制了可用的相关性分数的表达能力。我们提出了一种新的范式，不是生成一个向量来表示查询，而是生成一个作为学习相关性函数的小型神经网络。这个小型神经网络接收文档的表示，本文中我们使用一个单一向量，并生成一个标量相关性分数。为了生成这个小型神经网络，我们使用一个超网络，即一个生成其他网络权重的网络，作为我们的查询编码器或者我们称之为Hypencoder。在领域内搜索任务上的实验表明，Hypencoder能够显著优于强大的密集检索模型，并且比重新排序模型和规模大一个数量级的模型具有更高的指标。Hypencoder还表现出对领域外搜索任务的良好泛化能力。为了评估Hypencoder的能力程度，我们在一组困难的检索任务上进行评估，包括“差一点就想起来”的检索和遵循指令的检索任务，并发现与标准检索任务相比，性能差距显著扩大。此外，为了展示我们方法的实用性，我们实现了一个近似搜索算法，并展示我们的模型能够在不到60毫秒的时间内搜索880万个文档。

Éclair -- 通过集成阅读顺序提取文档内容和布局
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents

Feb 6

ByIlia Karmanov, Amala Sanjay Deshmukh, Lukas Voegtle, Philipp Fischer, Kateryna Chumachenko, Timo Roman, Jarno Seppänen, Jupinder Parmar, Joseph Jennings, Andrew Tao, Karan Sapra

光学字符识别（OCR）技术被广泛应用于从文档图像中提取文本，促进高效的数字化和数据检索。然而，仅仅提取文本在处理复杂文档时是不够的。要充分理解这些文档，需要理解它们的结构，包括格式、公式、表格，以及跨多个页面的多个块和列的阅读顺序，还需要语义信息来检测脚注和图片标题等元素。这种全面的理解对于下游任务至关重要，如检索、文档问答以及为训练大型语言模型（LLMs）和视觉语言模型（VLMs）进行数据整理。为了解决这个问题，我们引入了“Éclair”，这是一个通用的文本提取工具，专门设计用于处理各种类型的文档。给定一幅图像，“Éclair”能够按阅读顺序提取格式化文本，同时提取边界框及其对应的语义类别。为了全面评估这些新颖功能，我们引入了我们多样化的人工标注的文档级OCR和语义分类基准。在这个基准上，“Éclair”实现了最先进的准确性，优于其他方法在关键指标上的表现。此外，我们还在已建立的基准上评估了“Éclair”，展示了它在几个评估标准上的多功能性和强大性。

哥德尔证明者：开源自动定理证明的前沿模型
Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

Feb 11

ByYong Lin, Shange Tang, Bohan Lyu, Jiayun Wu, Hongzhou Lin, Kaiyu Yang, Jia Li, Mengzhou Xia, Danqi Chen, Sanjeev Arora, Chi Jin

我们介绍 Goedel-Prover，这是一个开源的大型语言模型（LLM），在数学问题的自动形式化证明生成中实现了最先进的性能。这一领域的关键挑战在于数学陈述和证明的形式化程度不足，我们通过以下方式来解决这一问题。我们训练陈述形式化器，将 Numina 中的自然语言数学问题翻译成形式化语言（Lean 4），创建了一个包含 1.64 百万个形式化陈述的数据集。LLM 被用来检查这些形式化陈述是否准确地保留了原始自然语言问题的内容。然后，我们通过训练一系列证明器来迭代地构建一个大型形式证明数据集。每个证明器成功地证明了许多之前的证明器无法证明的陈述，这些新的证明被添加到下一个证明器的训练集中。最终的证明器在整个证明生成过程中胜过了所有现有的开源模型。在 miniF2F 基准测试中，它实现了 57.6% 的成功率（Pass@32），比之前最好的开源模型高出了 7.6%。在 PutnamBench 上，Goedel-Prover 成功解决了 7 个问题（Pass@512），在排行榜上名列第一。此外，它为 Lean Workbook 问题生成了 29.7K 个形式证明，几乎是之前作品产生的 15.7K 的两倍。

CoS：用于长视频理解的链式拍摄提示
CoS: Chain-of-Shot Prompting for Long Video Understanding

Feb 10

ByJian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong

多模态大型语言模型（MLLMs）在处理长视频时面临困难，因为需要过多的视觉标记。这些标记远远超出了MLLMs的上下文长度，导致填充了冗余的与任务无关的镜头。如何选择镜头是一个尚未解决的关键问题：稀疏采样可能会错过关键细节，而穷举采样会使模型淹没在与任务无关的内容中，导致对视频的误解。为了解决这个问题，我们提出了“镜头链提示”（CoS）。关键思想是将镜头选择框架化为测试时的视觉提示优化，通过优化镜头-任务对齐来选择适应视频理解语义任务的镜头。CoS包括两个关键部分：（1）执行伪时序定位的二进制视频摘要机制，发现用于识别与任务相关镜头的二进制编码，以及（2）部署二进制编码以配对（学习对齐）与任务相关的正面镜头和无关的负面镜头的视频共推理模块。它将优化的镜头选择嵌入到原始视频中，有助于专注于相关上下文以优化对长视频的理解。在三个基准和五个数据集上的实验表明了CoS的有效性和适应性。代码可在https://lwpyh.github.io/CoS找到。

CAD编辑器：一种具有自动训练数据综合的“先定位后填充”框架，用于基于文本的CAD编辑。
CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing

Feb 6

ByYu Yuan, Shizhao Sun, Qi Liu, Jiang Bian

计算机辅助设计（CAD）在各行各业中都是不可或缺的。基于文本的CAD编辑自动化修改CAD模型的过程，具有巨大潜力但仍未得到充分探索。现有方法主要集中在设计变体生成或基于文本的CAD生成，要么缺乏对基于文本的控制的支持，要么忽视现有CAD模型作为约束条件。我们介绍了CAD-Editor，这是第一个基于文本的CAD编辑框架。为了解决训练过程中需要准确对应的三元数据的挑战，我们提出了一个自动化数据合成流水线。该流水线利用设计变体模型生成原始CAD模型和编辑后CAD模型的配对，并利用大型视觉语言模型（LVLMs）将它们的差异总结为编辑指令。为了解决基于文本的CAD编辑的复合性质，我们提出了一个定位-填充框架，将任务分解为两个专注的子任务：定位需要修改的区域，然后填充这些区域以进行适当的编辑。大型语言模型（LLMs）作为这两个子任务的支柱，利用其在自然语言理解和CAD知识方面的能力。实验证明，CAD-Editor在定量和定性方面均取得了优越的性能。

掩码增强的自回归预测：减少注意力以学到更多
Mask-Enhanced Autoregressive Prediction: Pay Less Attention to Learn More

Feb 11

ByXialie Zhuang, Zhikai Jia, Jianjin Li, Zhenyu Zhang, Li Shen, Zheng Cao, Shiwei Liu

发现大型语言模型（LLMs）在准确检索关键信息方面存在困难。为解决这一问题，我们提出了Mask-Enhanced Autoregressive Prediction（MEAP），这是一种简单而有效的训练范式，将Masked Language Modeling（MLM）无缝集成到Next-Token Prediction（NTP）中，以增强后者的上下文检索能力。具体而言，MEAP首先随机屏蔽少量输入标记，然后直接使用仅解码器的Transformer执行标准的下一个标记预测自回归。MEAP消除了MLM需要双向注意力或编码器-解码器架构的需求，在预训练或推理过程中不会增加额外的计算开销。大量实验证明，MEAP在关键信息检索和长上下文推理任务上明显优于NTP，同时在常识推理任务上表现相当或更好。MEAP的优势还延伸到监督微调，其中在中间迷失场景中显示出显著优势，比NTP高出11.77个百分点。我们的分析表明，MEAP的有效性源于其能够通过集中在减少的一组非屏蔽标记上来促进更可区分的注意力分数。这种机制提高了模型对任务相关信号的关注，同时减轻了外围上下文的影响。这些发现将MEAP定位为大型语言模型的一种有前景的训练范式。

稀疏自编码器用于科学严谨解释视觉模型
Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models

Feb 10

BySamuel Stevens, Wei-Lun Chao, Tanya Berger-Wolf, Yu Su

为了真正理解视觉模型，我们不仅需要解释它们学到的特征，还需要通过控制实验来验证这些解释。当前的方法要么提供可解释的特征但无法测试其因果影响，要么允许模型编辑但缺乏可解释的控制。我们提出了一个使用稀疏自动编码器（SAEs）的统一框架来弥合这一差距，使我们能够发现人类可解释的视觉特征，并精确地操纵它们以测试关于模型行为的假设。通过将我们的方法应用于最先进的视觉模型，我们揭示了具有不同预训练目标的模型学到的语义抽象中的关键差异。然后，我们通过对多个视觉任务进行控制干预展示了我们框架的实际用途。我们展示了SAEs能够可靠地识别和操纵可解释的视觉特征而无需重新训练模型，为理解和控制视觉模型行为提供了强大工具。我们在项目网站上提供了代码、演示和模型：https://osu-nlp-group.github.io/SAE-V。

在语言模型API中审计提示缓存
Auditing Prompt Caching in Language Model APIs

Feb 11

ByChenchen Gu, Xiang Lisa Li, Rohith Kuditipudi, Percy Liang, Tatsunori Hashimoto

大型语言模型（LLMs）中的提示缓存会导致数据相关的时间变化：缓存的提示比非缓存的提示处理速度更快。这些时间差异会引入侧信道时间攻击的风险。例如，如果缓存是跨用户共享的，攻击者可以通过快速API响应时间识别缓存的提示，从而获取关于其他用户提示的信息。由于提示缓存可能导致隐私泄露，API提供者在缓存策略方面的透明度至关重要。为此，我们开发并进行统计审计，以检测现实世界中LLM API提供者中的提示缓存。我们检测到七个API提供者中存在用户之间的全局缓存共享，包括OpenAI，在这些情况下可能泄露有关用户提示的隐私信息。由于提示缓存导致的时间变化还可能导致有关模型架构的信息泄露。具体来说，我们发现OpenAI的嵌入模型是一个仅解码器的Transformer，这一点以前并不为公众所知。

参数空间中的技能扩展和组合
Skill Expansion and Composition in Parameter Space

Feb 9

ByTenglong Liu, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, Xianyuan Zhan

人类擅长重复利用先前知识来应对新挑战，并在解决问题的过程中发展技能。这种范式在自主代理的发展中变得越来越流行，因为它开发了能够像人类一样对新挑战进行自我演化的系统。然而，先前的方法在扩展新技能时存在训练效率有限的问题，并未充分利用先前知识来促进新任务的学习。在本文中，我们提出了参数化技能扩展与组合（PSEC），这是一个新框架，旨在通过保持可管理的技能库，通过迭代演化代理的能力，高效地应对新挑战。这个库可以逐步将技能基元作为即插即用的低秩适应（LoRA）模块集成到参数高效微调中，促进高效灵活的技能扩展。这种结构还使得能够在参数空间中直接组合技能，通过合并编码不同技能的LoRA模块，利用跨技能的共享信息来有效地设计新技能。基于此，我们提出了一个上下文感知模块，动态激活不同技能以协同处理新任务。在D4RL、DSRL基准和DeepMind控制套件上的结果显示，PSEC在利用先前知识高效应对新挑战以及扩展其技能库以演化能力方面表现出优越能力。项目网站：https://ltlhuuu.github.io/PSEC/。

FocalCodec：通过焦点调制网络实现低比特率语音编码
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks

Feb 6

ByLuca Della Libera, Francesco Paissan, Cem Subakan, Mirco Ravanelli

大型语言模型通过在大规模数据集上进行自监督预训练，彻底改变了自然语言处理。受此成功的启发，研究人员探索了将这些方法应用于语音，通过使用神经音频编解码器将连续音频离散化为标记。然而，现有方法存在一些限制，包括高比特率、语义或声学信息的丢失，以及在试图捕获两者时依赖多码书设计，这会增加下游任务的架构复杂性。为了解决这些挑战，我们引入了FocalCodec，这是一种高效的低比特率编解码器，基于焦点调制，利用单一二进制码书将语音压缩在0.16至0.65 kbps之间。FocalCodec在语音重合成和语音转换方面表现出色，比当前最先进技术在更低比特率下具有竞争性能，同时有效处理多语言语音和嘈杂环境。对下游任务的评估显示，FocalCodec成功保留了足够的语义和声学信息，同时也非常适合生成建模。演示样本、代码和检查点可在https://lucadellalib.github.io/focalcodec-web/ 上找到。

在大型语言和视觉-语言模型中学习适应性风险管理的符合性弃权策略
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models

Feb 8

BySina Tayebati, Divake Kumar, Nastaran Darabi, Dinithi Jayasuriya, Ranganath Krishnan, Amit Ranjan Trivedi

大型语言和视觉-语言模型（LLMs/VLMs）越来越多地应用于安全关键应用中，然而它们不透明的决策过程使风险评估和可靠性变得复杂。不确定性量化（UQ）有助于评估预测的置信度，并在不确定性较高时实现放弃。符合性预测（CP），作为一种主要的UQ方法，提供统计保证，但依赖于静态阈值，这些阈值无法适应任务复杂性和不断变化的数据分布，导致准确性、覆盖率和信息量之间的次优权衡。为了解决这个问题，我们提出了可学习的符合性放弃，将强化学习（RL）与CP相结合，以动态优化放弃阈值。通过将CP阈值视为自适应动作，我们的方法平衡了多个目标，最小化预测集大小的同时保持可靠的覆盖范围。在各种LLM/VLM基准测试中进行了广泛评估，结果显示我们的方法优于最不明确分类器（LAC）和自适应预测集（APS），将准确性提高了高达3.2％，将幻觉检测的AUROC提高了22.19％，将基于不确定性的选择性生成（AUARC）提高了21.17％，并将校准误差降低了70%-85%。这些改进在多个模型和数据集上都保持一致，同时始终满足90%的覆盖目标，确立了我们的方法作为在安全关键应用中进行可靠决策的更有效和灵活的解决方案。代码可在以下链接找到：{https://github.com/sinatayebati/vlm-uncertainty}。