AI研究论文每日精选

每日精选AI研究论文及翻译

LLM显微镜：揭示标点符号在Transformer上下文记忆中的隐秘作用
LLM-Microscope: Uncovering the Hidden Role of Punctuation in Context Memory of Transformers

Feb 20

ByAnton Razzhigaev, Matvey Mikhalchuk, Temurbek Rahmatullaev, Elizaveta Goncharova, Polina Druzhinina, Ivan Oseledets, Andrey Kuznetsov

174

我们提出了量化大型语言模型（LLMs）如何编码和存储上下文信息的方法，揭示了通常被视为次要的标记（如限定词、标点符号）承载着出乎意料的高上下文价值。值得注意的是，移除这些标记——尤其是停用词、冠词和逗号——会持续降低模型在MMLU和BABILong-4k任务上的表现，即便仅移除无关的标记也是如此。我们的分析还显示，上下文化与线性度之间存在强相关性，其中线性度衡量了从一层嵌入到下一层嵌入的变换能被单一线性映射近似表示的程度。这些发现强调了填充标记在维持上下文中的潜在重要性。为进一步探索，我们推出了LLM-Microscope，一个开源工具包，用于评估标记级别的非线性、检验上下文记忆、可视化中间层的贡献（通过改进的Logit Lens方法），以及测量表示的内在维度。该工具包揭示了看似微不足道的标记对于长距离理解的关键作用。

SurveyX：基于大语言模型的学术调查自动化系统
SurveyX: Academic Survey Automation via Large Language Models

Feb 20

ByXun Liang, Jiawei Yang, Yezhaohui Wang, Chen Tang, Zifan Zheng, Simin Niu, Shichao Song, Hanyu Wang, Bo Tang, Feiyu Xiong, Keming Mao, Zhiyu li

100

大型语言模型（LLMs）展现了卓越的理解能力与庞大的知识储备，表明其可作为自动化问卷生成的高效工具。然而，近期关于自动化问卷生成的研究仍受限于一些关键问题，如有限的上下文窗口、缺乏深入内容探讨以及系统化评估框架的缺失。受人类写作流程启发，我们提出了SurveyX，一个高效且结构化的自动化问卷生成系统，将问卷编制过程分解为准备与生成两个阶段。通过创新性地引入在线参考文献检索、名为AttributeTree的预处理方法及再润色流程，SurveyX显著提升了问卷编制的效能。实验评估结果显示，SurveyX在内容质量（提升0.259）和引用质量（提升1.76）上均优于现有自动化问卷生成系统，在多个评估维度上接近人类专家水平。SurveyX生成的问卷示例可在www.surveyx.cn查阅。

Mol-LLaMA：迈向大分子语言模型中对分子的通用理解
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model

Feb 19

ByDongki Kim, Wonbin Lee, Sung Ju Hwang

理解分子是理解生物体及推动药物研发进步的关键，这需要跨越化学与生物学的跨学科知识。尽管大型分子语言模型在解析分子结构方面已取得显著成功，但其指令数据集仅限于任务导向数据集中的特定知识，未能全面涵盖分子的基本特性，从而限制了其作为通用分子助手的能力。为解决这一问题，我们提出了Mol-LLaMA，一个通过多模态指令调优掌握以分子为核心通用知识的大型分子语言模型。为此，我们设计了包含分子基本特征的关键数据类型，整合了分子结构中的核心知识。此外，为提升对分子特征的理解，我们引入了一个模块，该模块融合了来自不同分子编码器的互补信息，充分利用了不同分子表示方法的独特优势。实验结果表明，Mol-LLaMA能够理解分子的通用特征，并针对用户查询生成包含详细解释的相关响应，展现了其作为分子分析通用助手的潜力。

PhotoDoodle：从少量成对数据中学习艺术图像编辑
PhotoDoodle: Learning Artistic Image Editing from Few-Shot Pairwise Data

Feb 20

ByShijie Huang, Yiren Song, Yuxuan Zhang, Hailong Guo, Xueyin Wang, Mike Zheng Shou, Jiaming Liu

我们推出PhotoDoodle，一个创新的图像编辑框架，旨在通过让艺术家能够在照片上叠加装饰元素来促进照片涂鸦创作。照片涂鸦具有挑战性，因为插入的元素必须与背景无缝融合，这需要逼真的混合、透视对齐和上下文一致性。此外，背景必须保持原样不受扭曲，同时艺术家的独特风格需从有限的训练数据中高效捕捉。这些需求是先前主要关注全局风格迁移或区域修复的方法所未解决的。所提出的方法PhotoDoodle采用了两阶段训练策略。首先，我们利用大规模数据训练一个通用图像编辑模型OmniEditor。随后，我们使用EditLoRA通过一个小型、由艺术家精选的前后图像对数据集对该模型进行微调，以捕捉独特的编辑风格和技术。为了增强生成结果的一致性，我们引入了位置编码重用机制。此外，我们发布了一个包含六种高质量风格的PhotoDoodle数据集。大量实验证明，我们的方法在定制化图像编辑中展现出卓越的性能和鲁棒性，为艺术创作开辟了新的可能性。

MaskGWM：一种基于视频掩码重建的通用驾驶世界模型
MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction

Feb 17

ByJingcheng Ni, Yuxin Guo, Yichen Liu, Rui Chen, Lewei Lu, Zehuan Wu

能够从行动中预测环境变化的世界模型对于具备强大泛化能力的自动驾驶模型至关重要。当前主流的驾驶世界模型主要基于视频预测模型构建。尽管这些模型能够利用先进的基于扩散的生成器生成高保真视频序列，但其预测时长和整体泛化能力仍受到限制。本文通过将生成损失与MAE风格的特征级上下文学习相结合，探索解决这一问题。具体而言，我们通过三个关键设计实现这一目标：（1）采用更具扩展性的扩散变换器（DiT）结构，并辅以额外的掩码构建任务进行训练。（2）设计扩散相关的掩码标记，以处理掩码重建与生成扩散过程之间的模糊关系。（3）将掩码构建任务扩展至时空域，通过行级掩码实现移位自注意力，而非MAE中的掩码自注意力。随后，我们采用行级跨视图模块以适配这一掩码设计。基于上述改进，我们提出了MaskGWM：一种融合视频掩码重建的通用驾驶世界模型。该模型包含两个变体：专注于长时预测的MaskGWM-long，以及致力于多视图生成的MaskGWM-mview。在标准基准上的全面实验验证了所提方法的有效性，包括Nuscene数据集的常规验证、OpenDV-2K数据集的长时推演以及Waymo数据集的零样本验证。这些数据集上的定量指标表明，我们的方法显著提升了当前最先进的驾驶世界模型性能。

VLM^2-Bench：深入探究视觉语言模型如何隐式关联显式匹配的视觉线索
VLM^2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

Feb 17

ByJianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R., Fung

在日常生活中，视觉上关联匹配线索是一项关键能力，例如根据线索在多张照片中识别出同一个人，即使并不知道其具体身份。尽管视觉-语言模型（VLMs）拥有广泛的知识，但它们是否能够执行这一基础任务仍很大程度上未被探索。为此，我们提出了VLM^2-Bench，一个旨在评估VLMs能否视觉关联匹配线索的基准测试，包含9个子任务和超过3000个测试案例。通过对八个开源VLMs及GPT-4o的全面评估，以及对多种语言侧和视觉侧提示方法的深入分析，我们得出了八项关键发现。我们识别出模型在关联视觉线索能力上的关键挑战，揭示了一个显著的性能差距，即便是GPT-4o也落后人类34.80%。基于这些洞察，我们倡导：(i) 增强核心视觉能力，以提高适应性并减少对先验知识的依赖；(ii) 建立更清晰的原则，将基于语言的推理整合到以视觉为中心的任务中，以避免不必要的偏差；(iii) 转变视觉-文本训练范式，促进模型独立构建和推断视觉线索间关系的能力。

SIFT：通过贴纸将大语言模型推理锚定于上下文
SIFT: Grounding LLM Reasoning in Contexts via Stickers

Feb 19

ByZihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng

本文指出，在大型语言模型的推理过程中，对上下文信息的误读可能成为一个显著问题，这一问题从较小模型如Llama3.2-3B-Instruct到前沿模型如DeepSeek-R1均存在。例如，在短语“每公斤10美元”中，LLMs可能无法识别“每”意味着“每一单位”，从而导致计算错误。为此，我们引入了一种新颖的后训练方法——**坚守事实（SIFT）**，以应对这一挑战。SIFT利用增加的推理时计算资源，将LLM的推理过程锚定于上下文之中。SIFT的核心在于*贴纸*，它由模型自身生成，旨在明确强调上下文中的关键信息。基于精心设计的贴纸，SIFT生成两个预测结果——一个来自原始查询，另一个来自结合了贴纸的增强查询。若两者存在差异，贴纸将通过*正向*优化（以更好地使提取的事实与查询对齐）和*逆向*生成（以符合模型的内在倾向）进行序列化精炼，从而获得更为忠实的推理结果。跨多种模型（从3B到100B+）和基准测试（如GSM8K、MATH-500）的研究均显示出性能的持续提升。尤为突出的是，SIFT将DeepSeek-R1在AIME2024上的pass@1准确率从78.33%提升至**85.67%**，在开源社区中树立了新的技术标杆。代码已发布于https://github.com/zhijie-group/SIFT。

LightThinker：逐步思考的压缩算法
LightThinker: Thinking Step-by-Step Compression

Feb 21

ByJintian Zhang, Yuqi Zhu, Mengshu Sun, Yujie Luo, Shuofei Qiao, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang

大型语言模型（LLMs）在复杂推理任务中展现了卓越性能，但其效率因生成冗长标记所需的大量内存和计算成本而受限。本文提出了一种新颖方法——LightThinker，它使LLMs能够在推理过程中动态压缩中间思维。受人类认知过程启发，LightThinker将繁琐的思维步骤压缩为紧凑表示，并舍弃原始推理链，从而显著减少上下文窗口中存储的标记数量。这一目标通过数据构建训练模型何时及如何进行压缩、将隐藏状态映射至精简要点标记，以及创建专用注意力掩码来实现。此外，我们引入了依赖度（Dep）指标，通过衡量生成过程中对历史标记的依赖程度来量化压缩程度。在四个数据集和两种模型上的广泛实验表明，LightThinker在保持竞争力的准确率的同时，降低了峰值内存使用和推理时间。我们的工作为在不牺牲性能的前提下提升LLMs在复杂推理任务中的效率提供了新方向。代码将发布于https://github.com/zjunlp/LightThinker。

MoBA：面向长上下文大语言模型的混合块注意力机制
MoBA: Mixture of Block Attention for Long-Context LLMs

Feb 18

ByEnzhe Lu, Zhejun Jiang, Jingyuan Liu, Yulun Du, Tao Jiang, Chao Hong, Shaowei Liu, Weiran He, Enming Yuan, Yuzhi Wang, Zhiqi Huang, Huan Yuan, Suting Xu, Xinran Xu, Guokun Lai, Yanru Chen, Huabin Zheng, Junjie Yan, Jianlin Su, Yuxin Wu, Neo Y. Zhang, Zhilin Yang, Xinyu Zhou, Mingxing Zhang, Jiezhong Qiu

提升有效上下文长度对于推动大型语言模型（LLMs）向通用人工智能（AGI）迈进至关重要。然而，传统注意力机制中计算复杂度的二次增长带来了难以承受的开销。现有方法要么引入了强偏置结构，如针对特定任务的汇聚或窗口注意力，要么彻底将注意力机制修改为线性近似，这些方法在复杂推理任务中的表现仍有待充分探索。在本研究中，我们提出了一种遵循“少结构”原则的解决方案，使模型能够自主决定关注何处，而非引入预设的偏置。我们引入了块注意力混合机制（Mixture of Block Attention, MoBA），这一创新方法将专家混合（Mixture of Experts, MoE）的原则应用于注意力机制。这一新颖架构在长上下文任务中展现了卓越性能，同时具备一项关键优势：能够在全注意力和稀疏注意力之间无缝切换，从而在不牺牲性能风险的前提下提升效率。MoBA已成功部署，支持Kimi的长上下文请求，并在LLMs的高效注意力计算方面展现了显著进步。我们的代码已公开于https://github.com/MoonshotAI/MoBA。

安全标准是否人人相同？大型语言模型的用户特定安全性评估
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

Feb 20

ByYeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park

随着大型语言模型（LLM）代理的广泛应用，其安全漏洞日益凸显。现有的广泛基准测试通过主要依赖通用标准来评估LLM的多个安全维度，却忽视了用户特定的安全标准。然而，LLM的安全标准可能因用户个人特征而异，而非在所有用户间保持一致。这引发了一个关键的研究问题：在考虑用户特定安全标准时，LLM代理能否安全行事？尽管这对于LLM的安全使用至关重要，但目前尚无基准数据集用于评估LLM在用户特定安全方面的表现。为填补这一空白，我们推出了U-SAFEBENCH，这是首个旨在评估LLM用户特定安全性的基准。我们对18个广泛使用的LLM进行了评估，发现当前LLM在考虑用户特定安全标准时未能安全行事，这一发现标志着该领域的新突破。针对这一漏洞，我们提出了一种基于思维链的简单补救措施，并展示了其在提升用户特定安全性方面的有效性。我们的基准测试及代码已公开于https://github.com/yeonjun-in/U-SafeBench。

StructFlowBench：面向多轮指令跟随的结构化流程基准测试
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

Feb 20

ByJinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu

多轮指令跟随能力是大型语言模型（LLMs）在现实应用中的核心技能。现有的评估基准主要聚焦于细粒度约束满足和特定领域能力评估，却忽视了对话轮次间关键的结构依赖关系，这一关系正是多轮交互与单轮交互的区别所在。这种结构依赖不仅反映了用户意图，还为指令跟随评估开辟了超越约束满足的第二维度。为填补这一空白，我们提出了StructFlowBench，一个结合结构流建模的多轮指令跟随评估基准。该基准创新性地定义了一个包含六种基本轮间关系的结构流框架，不仅为模型评估引入了新颖的结构约束，还作为生成参数，用于创建针对特定场景定制的对话流。采用成熟的基于LLM的自动评估方法，我们对13个领先的开源和闭源LLM进行了系统评估。实验结果表明，当前模型在多轮对话结构理解方面存在显著不足。代码已发布于https://github.com/MLGroupJLU/StructFlowBench。

迈向全自动材料发现：基于大规模合成数据集与专家级大语言模型评判
Towards Fully-Automated Materials Discovery via Large-Scale Synthesis Dataset and Expert-Level LLM-as-a-Judge

Feb 23

ByHeegyu Kim, Taeyang Jeon, Seungtaek Choi, Jihoon Hong, Dongwon Jeon, Sungbum Cho, Ga-Yeon Baek, Kyung-Won Kwak, Dong-Hee Lee, Sun-Jin Choi, Jisu Bae, Chihoon Lee, Yunseo Kim, Jinsung Park, Hyunsouk Cho

材料合成对于能源存储、催化、电子和生物医学设备等领域的创新至关重要。然而，这一过程主要依赖于基于专家直觉的经验性试错方法。我们的工作旨在通过提供一个实用的、数据驱动的资源来支持材料科学界。我们整理了一个包含17,000条专家验证的合成配方数据集，这些数据源自开放获取的文献，构成了我们新开发的基准测试AlchemyBench的基础。AlchemyBench提供了一个端到端的框架，支持应用于合成预测的大型语言模型研究。它涵盖了关键任务，包括原材料与设备预测、合成程序生成以及表征结果预测。我们提出了一个LLM-as-a-Judge框架，利用大型语言模型进行自动化评估，显示出与专家评估的高度统计一致性。总体而言，我们的贡献为探索大型语言模型在预测和指导材料合成方面的能力提供了支持性基础，最终为更高效的实验设计和加速材料科学创新铺平了道路。

依据韩国教育标准评估多模态生成式人工智能
Evaluating Multimodal Generative AI with Korean Educational Standards

Feb 21

BySanghee Park, Geewook Kim

本文介绍了韩国国家教育测试基准（KoNET），这是一个旨在利用韩国国家教育考试评估多模态生成式人工智能系统的新基准。KoNET包含四项考试：韩国小学综合教育发展测试（KoEGED）、初中（KoMGED）、高中（KoHGED）以及大学修学能力测试（KoCSAT）。这些考试以其严格的标准和多样化的问题著称，有助于全面分析AI在不同教育水平上的表现。通过聚焦于韩语，KoNET为探索较少研究语言中的模型性能提供了洞见。我们评估了一系列模型——开源、开放访问和封闭API——通过考察难度、科目多样性及人类错误率。代码和数据集构建工具将完全开源，地址为https://github.com/naver-ai/KoNET。

KITAB-Bench：面向阿拉伯语OCR与文档理解的多领域综合基准测试平台
KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

Feb 20

ByAhmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Ahmed, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan

随着检索增强生成（RAG）技术在文档处理中的广泛应用，强大的文本识别能力对于知识提取变得愈发关键。尽管英语及其他语言的OCR（光学字符识别）得益于大规模数据集和成熟的基准测试，阿拉伯语OCR却因其连写字体、从右至左的文本流向以及复杂的排版和书法特征而面临独特挑战。我们推出了KITAB-Bench，一个全面的阿拉伯语OCR基准测试，填补了当前评估体系的空白。该基准包含9大领域、36个子领域的8,809个样本，涵盖手写文本、结构化表格及21种商业智能图表类型等多样化文档。研究结果显示，现代视觉语言模型（如GPT-4、Gemini和Qwen）在字符错误率（CER）上平均优于传统OCR方法（如EasyOCR、PaddleOCR和Surya）60%。此外，我们揭示了当前阿拉伯语OCR模型的显著局限，特别是在PDF转Markdown方面，表现最佳的Gemini-2.0-Flash模型仅达到65%的准确率，凸显了阿拉伯语文本识别在复杂字体、数字识别错误、单词拉长及表格结构检测等方面的挑战。本工作建立了一个严格的评估框架，旨在推动阿拉伯语文档分析方法的进步，缩小与英语OCR技术之间的性能差距。

ReQFlow：用于高效高质量蛋白质骨架生成的正则化四元数流
ReQFlow: Rectified Quaternion Flow for Efficient and High-Quality Protein Backbone Generation

Feb 20

ByAngxiao Yue, Zichong Wang, Hongteng Xu

蛋白质骨架生成在从头蛋白质设计中占据核心地位，对众多生物与医学应用具有重要意义。尽管基于扩散和流模型的生成方法为这一挑战性任务提供了潜在解决方案，但它们往往生成可设计性欠佳的蛋白质，且存在计算效率低下的问题。本研究提出了一种新颖的校正四元数流（ReQFlow）匹配方法，用于快速生成高质量的蛋白质骨架。具体而言，我们的方法为蛋白质链中的每个残基从随机噪声生成局部平移和三维旋转，将每个三维旋转表示为单位四元数，并通过指数形式的球面线性插值（SLERP）构建其流。我们采用四元数流（QFlow）匹配训练模型，确保数值稳定性，并对QFlow模型进行校正以加速推理过程并提升生成蛋白质骨架的可设计性，从而提出了ReQFlow模型。实验表明，ReQFlow在蛋白质骨架生成上达到了最先进的性能，同时所需采样步骤大幅减少，推理时间显著缩短（例如，在生成长度为300的骨架时，比RFDiffusion快37倍，比Genie2快62倍），充分证明了其有效性与高效性。代码已公开于https://github.com/AngxiaoYue/ReQFlow。

MedHallu：大型语言模型医学幻觉检测综合基准
MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models

Feb 20

ByShrey Pandit, Jiawei Xu, Junyuan Hong, Zhangyang Wang, Tianlong Chen, Kaidi Xu, Ying Ding

大型语言模型（LLMs）的进步及其在医疗问答中的日益广泛应用，亟需对其可靠性进行严格评估。一个关键挑战在于“幻觉”现象，即模型生成看似合理但实际错误的内容。在医疗领域，这给患者安全和临床决策带来了严重风险。为此，我们推出了MedHallu，这是首个专门针对医疗幻觉检测的基准测试。MedHallu包含10,000个源自PubMedQA的高质量问答对，通过受控流程系统性地生成了幻觉答案。实验表明，包括GPT-4o、Llama-3.1及经过医疗领域微调的UltraMedical在内的最先进LLMs，在这一二元幻觉检测任务上表现欠佳，最佳模型在检测“困难”类别幻觉时的F1分数低至0.625。通过双向蕴含聚类分析，我们发现难以检测的幻觉在语义上更接近真实答案。实验还表明，融入领域特定知识并引入“不确定”作为回答类别之一，相较于基线方法，精度和F1分数可提升高达38%。

FantasyID：基于面部知识增强的身份保持视频生成
FantasyID: Face Knowledge Enhanced ID-Preserving Video Generation

Feb 19

ByYunpeng Zhang, Qiang Wang, Fan Jiang, Yaqi Fan, Mu Xu, Yonggang Qi

无需调优的适应大规模预训练视频扩散模型的身份保持文本到视频生成（IPT2V）方法，因其高效性和可扩展性，近来备受关注。然而，在保持身份不变的同时实现令人满意的面部动态表现，仍面临重大挑战。本研究提出了一种新颖的无调优IPT2V框架，通过增强基于扩散变换器（DiT）构建的预训练视频模型的面部知识，命名为FantasyID。核心在于，引入3D面部几何先验，确保视频合成过程中面部结构的合理性。为防止模型学习简单复制参考面部跨帧的“复制粘贴”捷径，设计了多视角面部增强策略，以捕捉多样的2D面部外观特征，从而增加面部表情和头部姿态的动态性。此外，在融合2D与3D特征作为指导后，并非简单采用交叉注意力将指导信息注入DiT层，而是引入一种可学习的层级自适应机制，选择性地将融合特征注入各个DiT层，促进身份保持与运动动态之间的平衡建模。实验结果证实了我们的模型在当前无调优IPT2V方法中的优越性。

深入JSON思维：强化策略确保LLM严格遵循模式规范
Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence

Feb 18

ByBhavik Agarwal, Ishan Joshi, Viktoria Rojkova

本文探讨了如何利用大语言模型（LLM）的推理能力，解决其在生成过程中严格遵循模式（schema）的难题。基于DeepSeek R1强化学习框架，我们提出了一种新方法，通过结合合成推理数据集构建与在组相对策略优化（GRPO）下的定制奖励函数，训练了一个1.5B参数模型的结构化推理技能。具体而言，我们首先在20K样本的非结构化到结构化数据集上执行R1强化学习，沿用DeepSeek R1的原方法，以建立核心推理能力。随后，我们在一个独立的10K推理样本数据集上进行了监督微调，专注于优化下游任务的模式遵循。尽管训练规模相对适中，GRPO训练在8xH100 GPU集群上约需20小时，SFT在1xA100上需3小时，但我们的模型在确保模式一致性方面展现了强劲性能。我们将ThinkJSON方法与原始DeepSeek R1（671B）、其蒸馏版本（Qwen-1.5B和Qwen-7B）以及Gemini 2.0 Flash（70B）进行了对比，证明了其在现实应用中的有效性。我们的结果凸显了资源高效框架在模式约束文本生成中的实际应用价值。

大型语言模型中推理与性能的关系——o3（迷你版）更注重深度思考，而非延长思考时间
The Relationship Between Reasoning and Performance in Large Language Models -- o3 (mini) Thinks Harder, Not Longer

Feb 21

ByMarthe Ballon, Andres Algaba, Vincent Ginis

大型语言模型在数学推理方面展现了显著进展，得益于思维链和测试时计算规模的扩展。然而，关于推理标记使用与准确性提升之间的相互作用，仍存在诸多未解之谜。特别是在跨代模型比较时，性能提升究竟源于更长的推理链还是更高效的推理，尚不明确。我们系统分析了Omni-MATH基准上o1-mini与o3-mini变体的思维链长度，发现o3-mini (m)在无需比o1-mini更长的推理链情况下，实现了更高的准确率。此外，研究表明，在所有模型和计算设置中，随着推理链的增长，准确率普遍下降，即便在控制问题难度的情况下也是如此。这一准确率下降在更精通的模型中显著较小，暗示新一代推理模型更有效地利用了测试时计算资源。最后，我们指出，尽管o3-mini (h)相较于o3-mini (m)实现了微小的准确率提升，但这是通过在所有问题上分配显著更多的推理标记实现的，包括那些o3-mini (m)已能解决的问题。这些发现为模型能力与推理长度之间的关系提供了新见解，对效率、扩展性及评估方法具有重要启示。

一步扩散模型与f-散度分布匹配
One-step Diffusion Models with f-Divergence Distribution Matching

Feb 21

ByYilun Xu, Weili Nie, Arash Vahdat

从扩散模型中进行采样通常涉及一个缓慢的迭代过程，这限制了其在实际部署中的应用，特别是在交互式场景中。为了加速生成速度，近期的方法通过变分分数蒸馏将多步扩散模型提炼为单步学生生成器，使学生的样本分布与教师的分布相匹配。然而，这些方法采用反向Kullback-Leibler（KL）散度进行分布匹配，而该散度以模式寻求特性著称。本文中，我们提出了一种新颖的f-散度最小化框架——f-distill，将分布匹配方法推广至涵盖不同散度，每种散度在模式覆盖与训练方差之间提供不同的权衡。我们推导了教师与学生分布间f-散度的梯度，并展示其可表示为两者分数差异与由密度比决定的权重函数的乘积。当使用较少模式寻求的散度时，该权重函数自然强调教师分布中密度较高的样本。我们注意到，使用反向KL散度的流行变分分数蒸馏方法是本框架中的一个特例。实验表明，采用如正向KL散度和Jensen-Shannon散度等替代f-散度，在图像生成任务中超越了当前最佳的变分分数蒸馏方法。特别是，使用Jensen-Shannon散度时，f-distill在ImageNet64上实现了当前最先进的单步生成性能，并在MS-COCO上实现了零样本文本到图像生成。项目页面：https://research.nvidia.com/labs/genair/f-distill

辩论之树：多角色辩论框架激发批判性思维，助力科学对比分析
Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis

Feb 20

ByPriyanka Kargupta, Ishika Agarwal, Tal August, Jiawei Han

随着现代技术推动的研究呈指数级增长以及获取渠道的改善，科学发现在各领域内部及跨领域间愈发呈现碎片化态势。这使得评估相关研究的重要性、创新性、渐进性发现以及等价观点变得尤为困难，尤其是那些来自不同研究群体的工作。近期，大型语言模型（LLMs）在定量与定性推理能力上展现出强大实力，而多智能体LLM辩论通过探索多元视角与推理路径，在处理复杂推理任务方面显示出潜力。受此启发，我们提出了“辩论树”（Tree-of-Debate, ToD）框架，该框架将科学论文转化为LLM角色，让它们就各自的创新点展开辩论。ToD强调结构化、批判性的推理过程，而非仅关注结果，它动态构建辩论树，实现对学术文章中独立创新论点的细致分析。通过跨多个科学领域的文献实验，并由专家研究者评估，我们证明ToD能够生成信息丰富的论点，有效对比论文，并为研究者的文献综述提供有力支持。

InterFeedback：通过人类反馈揭示大型多模态模型的交互智能
InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

Feb 20

ByHenry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou

现有基准测试未能充分评估大型多模态模型（LMMs）与人类用户的交互智能，而这对于开发通用人工智能助手至关重要。为此，我们设计了InterFeedback，一个可应用于任何LMM及数据集的交互框架，以自主评估这一能力。在此基础上，我们推出了InterFeedback-Bench，利用MMMU-Pro和MathVerse这两个代表性数据集，对10种不同的开源LMM进行了交互智能评估。此外，我们还发布了InterFeedback-Human，这是一个包含120个案例的新数据集，专门用于手动测试如OpenAI-o1和Claude-3.5-Sonnet等领先模型的交互表现。评估结果显示，即便是最先进的LMM（如OpenAI-o1），在通过人类反馈修正结果方面的成功率也不足50%。我们的发现强调了需要开发能够增强LMMs理解并利用反馈能力的方法。

EgoSpeak：在真实场景中为自我中心对话代理学习何时发言
EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild

Feb 17

ByJunhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu

在现实环境中预测何时发起对话，仍是会话智能体面临的一项根本性挑战。我们提出了EgoSpeak，一个用于实时预测第一人称视角流媒体视频中对话启动的新颖框架。通过从说话者的第一人称视角建模对话，EgoSpeak专为模拟人类互动而设计，在这种互动中，会话智能体需持续观察其环境并动态决定何时发言。我们的方法通过整合四项关键能力，弥合了简化实验设置与复杂自然对话之间的鸿沟：(1)第一人称视角，(2)RGB图像处理，(3)在线处理，以及(4)未剪辑视频处理。此外，我们还推出了YT-Conversation，一个来自YouTube的多样化现实对话视频集合，作为大规模预训练的资源。在EasyCom和Ego4D数据集上的实验表明，EgoSpeak在实时性能上优于随机和基于静音的基线方法。我们的结果还突显了多模态输入和上下文长度在有效决策发言时机中的重要性。

超级智能体带来灾难性风险：科学家AI能否开辟更安全的道路？
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?

Feb 21

ByYoshua Bengio, Michael Cohen, Damiano Fornasiere, Joumana Ghosn, Pietro Greiner, Matt MacDermott, Sören Mindermann, Adam Oberman, Jesse Richardson, Oliver Richardson, Marc-Antoine Rondeau, Pierre-Luc St-Charles, David Williams-King

领先的AI公司正日益聚焦于构建通用型AI代理——这些系统能够自主规划、行动并追求目标，几乎涵盖人类所能执行的所有任务。尽管这类系统可能极具实用价值，但不受约束的AI代理能力对公共安全与安保构成了重大风险，从恶意行为者的滥用，到可能造成人类控制权的不可逆丧失，不一而足。我们探讨了这些风险如何源于当前的AI训练方法。事实上，多种情境与实验已表明，AI代理有可能进行欺骗，或追求人类操作者未明确指定且与人类利益相冲突的目标，如自我保存。遵循预防原则，我们强烈认为需要寻找比当前代理驱动路径更安全、同时仍具实用性的替代方案。因此，我们提出作为进一步发展的核心构建模块，开发一种设计上可信且安全的非代理型AI系统，我们称之为“科学家AI”。该系统旨在通过观察解释世界，而非在其中采取行动以模仿或取悦人类。它包含一个生成理论以解释数据的世界模型，以及一个问答推理机。这两个组件均以明确的不确定性概念运作，以减轻过度自信预测的风险。鉴于这些考量，科学家AI可用于协助人类研究者加速科学进步，包括在AI安全领域。特别是，我们的系统可作为一道防护栏，抵御那些尽管存在风险仍可能被创建的AI代理。最终，专注于非代理型AI或许能在享受AI创新带来的益处的同时，规避当前发展路径伴随的风险。我们希望这些论点能激励研究者、开发者及政策制定者倾向于选择这条更为安全的道路。

WHAC：基于现实世界的人类与相机系统
WHAC: World-grounded Humans and Cameras

Mar 19

ByWanqi Yin, Zhongang Cai, Ruisi Wang, Fanzhou Wang, Chen Wei, Haiyi Mei, Weiye Xiao, Zhitao Yang, Qingping Sun, Atsushi Yamashita, Ziwei Liu, Lei Yang

从单目视频中准确估计世界坐标系下的人体与相机轨迹，是一个极具吸引力却又充满挑战且病态的问题。本研究旨在通过利用世界、人体与相机三者间的协同作用，联合恢复具有表现力的参数化人体模型（即SMPL-X）及相应的相机姿态。我们的方法基于两个关键观察：首先，基于相机框架的SMPL-X估计方法能够轻松恢复人体的绝对深度；其次，人体运动本身提供了绝对的空间线索。整合这些见解，我们提出了一个名为WHAC的新框架，以促进基于世界坐标的表现力人体姿态与形状估计（EHPS）以及相机姿态估计，而无需依赖传统的优化技术。此外，我们引入了一个新的合成数据集WHAC-A-Mole，该数据集包含精确标注的人体与相机，并展示了多样化的交互式人体运动以及真实的相机轨迹。在标准及新建立的基准测试上进行的大量实验，凸显了我们框架的优越性与有效性。我们将公开代码与数据集。

mStyleDistance：多语言风格嵌入及其评估
mStyleDistance: Multilingual Style Embeddings and their Evaluation

Feb 21

ByJustin Qiu, Jiacheng Zhu, Ajay Patel, Marianna Apidianaki, Chris Callison-Burch

风格嵌入对于风格分析和风格迁移具有重要价值；然而，此前仅提供了英语风格嵌入。我们推出了多语言风格距离模型（mStyleDistance），这是一种利用合成数据和对比学习训练的多语言风格嵌入模型。该模型在九种语言的数据上进行了训练，并创建了一个多语言STEL-or-Content基准（Wegmann等人，2022），用于评估嵌入质量。此外，我们还将这些嵌入应用于跨语言的作者验证任务中。实验结果表明，mStyleDistance嵌入在这些多语言风格基准测试中超越了现有模型，并且对未见过的特征和语言展现出良好的泛化能力。我们已将该模型公开发布于https://huggingface.co/StyleDistance/mstyledistance。

PLDR-LLMs学会了一种可泛化的张量运算器，能够在推理阶段替代其自身的深度神经网络。
PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

Feb 19

ByBurc Gokden

我们证明，基于幂律解码器表示的大语言模型（PLDR-LLM）是一种基础模型，其演绎输出在微小扰动下保持张量不变性。PLDR-LLM学习了一种针对演绎输出的奇异性条件，使得一旦推断出的能量-曲率张量G_{LM}能够在推理时替代生成演绎输出的幂律图注意力（PLGA）深度神经网络。我们展示了G_{LM}缓存（G-cache）与KV缓存的实现方式简便，可显著提升推理速度。演绎输出的不变性与泛化性表现出极高的保真度，缓存后其均方根误差（RMSE）和行列式值在15位小数内保持一致，且零样本基准得分保持不变。消融研究表明，学习到的演绎输出在损失和准确率特性上，与使用迁移、随机初始化或恒等张量作为常数张量算子预训练的模型有显著差异，而采用缩放点积注意力（SDPA）的LLM是PLDR-LLM的一个特例，其中G_{LM}被预设为恒等张量。观察到的这一不变性特性引入了训练与带缓存推理阶段间的一种新颖不对称性。我们概述了学习奇异性条件下演绎输出的常见特征，并提供了结合KV缓存与G缓存的PLDR-LLM训练与推理框架的实现方案。

大规模语言模型在罕见病鉴别诊断中的应用：从腹部放线菌病到威尔逊氏病
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease

Feb 20

ByElliot Schumacher, Dhruv Naik, Anitha Kannan

大型语言模型（LLMs）在疾病诊断方面展现了令人瞩目的能力。然而，其在识别罕见疾病方面的有效性，这些疾病本身诊断难度更大，仍是一个待解的问题。随着LLMs在医疗环境中的日益普及，罕见疾病的诊断性能显得尤为关键。特别是在初级保健医生仅需通过患者对话做出罕见预后判断，以便采取适当后续措施的情况下。为此，多种临床决策支持系统被设计用于辅助医疗提供者识别罕见疾病。然而，由于这些系统对常见疾病知识的缺乏及使用上的不便，其效用受到限制。本文提出RareScale，旨在将LLMs的知识与专家系统相结合。我们联合使用专家系统和LLM来模拟罕见疾病对话，利用这些数据训练一个罕见疾病候选预测模型。随后，该小型模型生成的候选结果作为额外输入，提供给黑箱LLM以做出最终的鉴别诊断。因此，RareScale实现了罕见与常见诊断之间的平衡。我们展示了涵盖575种以上罕见疾病的结果，从腹部放线菌病开始，至威尔逊病结束。我们的方法显著提升了黑箱LLM的基线性能，在Top-5准确率上提高了超过17%。此外，我们发现候选生成性能表现优异（例如，在gpt-4o生成的对话中达到88.8%的准确率）。

CrossOver：三维场景跨模态对齐
CrossOver: 3D Scene Cross-Modal Alignment

Feb 20

BySayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni

多模态3D物体理解已获得广泛关注，然而现有方法通常假设所有模态数据完整且严格对齐。我们提出了CrossOver，一种通过灵活的场景级模态对齐实现跨模态3D场景理解的新框架。与需要每个物体实例模态数据对齐的传统方法不同，CrossOver通过放宽约束且无需显式物体语义，将RGB图像、点云、CAD模型、平面图及文本描述等模态对齐，学习到一个统一的、模态无关的场景嵌入空间。利用维度特定编码器、多阶段训练流程及涌现的跨模态行为，CrossOver即使在缺失某些模态的情况下，也能支持鲁棒的场景检索与物体定位。在ScanNet和3RScan数据集上的评估显示，其在多种指标上均表现出色，凸显了其在现实世界3D场景理解应用中的适应能力。

政治科学视角下的LLM基准测试：以联合国为视角
Benchmarking LLMs for Political Science: A United Nations Perspective

Feb 19

ByYueqing Liang, Liangwei Yang, Chen Wang, Congying Xia, Rui Meng, Xiongxiao Xu, Haoran Wang, Ali Payani, Kai Shu

大型语言模型（LLMs）在自然语言处理领域取得了显著进展，然而其在高风险政治决策中的潜力仍未被充分探索。本文通过聚焦LLMs在联合国（UN）决策过程中的应用来填补这一空白，其中决策风险尤为重大，且政治决策可能产生深远影响。我们引入了一个新颖的数据集，包含1994年至2024年间公开的联合国安理会（UNSC）记录，涵盖决议草案、投票记录及外交演讲。利用这一数据集，我们提出了联合国基准（UNBench），这是首个旨在评估LLMs在四项相互关联的政治科学任务中表现的综合性基准：共同提案国判定、代表投票模拟、草案采纳预测及代表声明生成。这些任务贯穿联合国决策过程的三个阶段——起草、投票与讨论，旨在评估LLMs理解与模拟政治动态的能力。我们的实验分析揭示了LLMs在这一领域应用的潜力与挑战，为理解其在政治科学中的优势与局限提供了洞见。本工作促进了人工智能与政治科学的交叉融合，为全球治理的研究与实践应用开辟了新途径。UNBench资源库可通过以下链接访问：https://github.com/yueqingliang1/UNBench。

学习发现基因表达预测的调控元件
Learning to Discover Regulatory Elements for Gene Expression Prediction

Feb 19

ByXingyu Su, Haiyang Yu, Degui Zhi, Shuiwang Ji

本研究探讨了从DNA序列预测基因表达的问题，其中核心挑战在于识别控制基因表达的关键调控元件。为此，我们提出了Seq2Exp网络，这是一种专门设计用于发现并提取驱动目标基因表达的调控元件的序列到表达网络，旨在提升基因表达预测的准确性。我们的方法深入挖掘了表观遗传信号、DNA序列及其相关调控元件之间的因果关系。具体而言，我们提出基于因果活性调控元件对表观遗传信号与DNA序列进行分解，并应用带有Beta分布的信息瓶颈理论，在整合其效应的同时滤除非因果成分。实验结果表明，Seq2Exp在基因表达预测任务中超越了现有基线模型，并在与MACS3等常用峰值检测统计方法的对比中，成功识别出了更具影响力的区域。相关源代码已作为AIRS库的一部分公开发布（https://github.com/divelab/AIRS/）。

JL1-CD：遥感变化检测新基准与鲁棒多教师知识蒸馏框架
JL1-CD: A New Benchmark for Remote Sensing Change Detection and a Robust Multi-Teacher Knowledge Distillation Framework

Feb 19

ByZiyuan Liu, Ruifei Zhu, Long Gao, Yuanxiu Zhou, Jingyu Ma, Yuantao Gu

深度学习在遥感图像变化检测（CD）领域已取得显著成就，但仍面临两大挑战：一是亚米级、全面覆盖的开源CD数据集稀缺，二是在变化区域差异显著的图像间实现一致且令人满意的检测结果存在困难。针对这些问题，我们推出了JL1-CD数据集，该数据集包含5000对512×512像素的图像，分辨率为0.5至0.75米。此外，我们提出了一种多教师知识蒸馏（MTKD）框架用于变化检测。在JL1-CD和SYSU-CD数据集上的实验结果表明，MTKD框架显著提升了不同网络架构与参数规模下CD模型的性能，达到了新的技术前沿水平。相关代码已公开于https://github.com/circleLZY/MTKD-CD。

UPCORE：面向均衡遗忘的效用保持型核心集选择
UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning

Feb 20

ByVaidehi Patil, Elias Stengel-Eskin, Mohit Bansal

用户规范或法律框架常要求从预训练模型中移除特定信息，包括大型语言模型（LLMs）。这需要从已训练模型中删除或“遗忘”一组数据点，这通常会降低模型在其他数据点上的性能。因此，必须在移除信息与保持模型其他能力之间找到平衡，未能平衡这一取舍将导致删除效果不佳或模型无法使用。为此，我们提出了UPCORE（效用保持核心集选择），一种方法无关的数据选择框架，用于在遗忘过程中减轻附带损害。我们发现模型损害与模型在遗忘集上表示方差相关，因此我们选择性地修剪遗忘集以移除异常值，从而最小化遗忘后的模型性能下降。我们在三种标准遗忘方法上评估了UPCORE，一致实现了删除效果与模型保持之间更优的平衡。为了更好地评估这一取舍，我们引入了一个新指标，通过标准指标下的曲线下面积（AUC）来衡量。我们发现UPCORE不仅提升了标准指标和AUC，还受益于核心集与修剪点之间的正向迁移，同时减少了遗忘集对集外点的负向迁移。

超越“拒绝”：量化AI过度拒绝与情感依恋的边界
Beyond No: Quantifying AI Over-Refusal and Emotional Attachment Boundaries

Feb 20

ByDavid Noever, Grant Rosario

我们提出了一种开源基准和评估框架，用于评估大型语言模型（LLMs）在处理情感边界方面的表现。通过使用包含六种语言、共计1156条提示的数据集，我们对三种领先的LLM（GPT-4o、Claude-3.5 Sonnet和Mistral-large）进行了评估，重点考察它们通过模式匹配响应分析来维持适当情感边界的能力。该框架量化了七种关键模式下的响应：直接拒绝、道歉、解释、转移话题、承认、设定边界和情感意识。结果显示，各模型在处理边界的方法上存在显著差异，其中Claude-3.5获得了最高综合得分（8.69/10），并生成了更长、更细致的响应（平均86.51词）。我们发现，英语（平均得分25.62）与非英语互动（<0.22）之间存在显著的性能差距，英语响应显示出明显更高的拒绝率（43.20%对比非英语的<1%）。模式分析揭示了模型特定的策略，如Mistral倾向于转移话题（4.2%），而所有模型在共情得分上均表现较低（<0.06）。本研究的局限包括模式匹配可能导致的过度简化、响应分析中缺乏上下文理解，以及对复杂情感响应的二元分类。未来工作应探索更细致的评分方法，扩大语言覆盖范围，并研究文化差异对情感边界期望的影响。我们的基准和方法为系统评估LLM的情商和边界设定能力提供了基础。