ChatPaper.aiChatPaper.ai
首页

arXiv

HuggingFace

定价账户工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

WeChat: jiujiaoxieeba

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究论文每日精选

每日精选AI研究论文及翻译

绝对零度:零数据下的强化自我对弈推理
Absolute Zero: Reinforced Self-play Reasoning with Zero Data

May 6, 2025
Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
1789

基于可验证奖励的强化学习(RLVR)通过直接从结果导向的奖励中学习,展现了提升大型语言模型推理能力的潜力。近期在零样本设定下运行的RLVR研究虽避免了对推理过程的标注监督,但仍依赖于人工精心策划的问题与答案集进行训练。高质量人类生成样本的稀缺性,引发了关于长期依赖人类监督可扩展性的担忧,这一挑战在语言模型预训练领域已显而易见。此外,在假设的未来中,若人工智能超越人类智能,人类提供的任务可能对超级智能系统的学习潜力有限。为应对这些问题,我们提出了一种名为“绝对零度”的新RLVR范式,其中单一模型学习提出能最大化其自身学习进度的任务,并通过解决这些任务来提升推理能力,无需依赖任何外部数据。在此范式下,我们引入了“绝对零度推理器”(AZR),该系统通过使用代码执行器来验证提出的代码推理任务及确认答案,自我进化其训练课程与推理能力,作为引导开放但基于实际学习的统一可验证奖励来源。尽管完全未使用外部数据进行训练,AZR在编码和数学推理任务上实现了全面的SOTA性能,超越了依赖数万领域内人工精选样本的现有零样本模型。此外,我们展示了AZR能有效应用于不同规模的模型,并与多种模型类别兼容。

通过强化微调实现统一多模态思维链奖励模型
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6, 2025
Yibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang
943

近期,多模态奖励模型(RMs)的进展在向视觉模型传递奖励信号以对齐人类偏好方面展现出显著潜力。然而,当前的RMs通常仅限于提供直接响应或进行浅层推理,深度有限,往往导致奖励信号不准确。我们认为,在奖励推理过程中引入显式的长链思维(CoT)可以显著增强其可靠性和鲁棒性。此外,我们相信,一旦RMs内化了CoT推理,其直接响应的准确性也能通过隐式推理能力得到提升。为此,本文提出了UnifiedReward-Think,首个基于统一多模态CoT的奖励模型,能够在视觉理解和生成奖励任务中进行多维度的、逐步的长链推理。具体而言,我们采用探索驱动的强化微调方法来激发和激励模型的潜在复杂推理能力:(1)首先,我们利用少量图像生成偏好数据蒸馏GPT-4o的推理过程,用于模型的冷启动,学习CoT推理的格式和结构。(2)随后,通过利用模型的先验知识和泛化能力,我们准备大规模的统一多模态偏好数据,以激发模型在各种视觉任务中的推理过程。在此阶段,保留正确的推理输出用于拒绝采样以精炼模型(3),而错误的预测样本最终用于基于群体相对策略优化(GRPO)的强化微调,使模型能够探索多样化的推理路径并优化出正确且稳健的解决方案。在各种视觉奖励任务上的广泛实验证明了我们模型的优越性。

RADLADS:大规模快速注意力蒸馏至线性注意力解码器
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

May 5, 2025
Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
351

我们提出了大规模快速注意力蒸馏至线性注意力解码器(Rapid Attention Distillation to Linear Attention Decoders at Scale, RADLADS)协议,该协议能够迅速将基于softmax注意力的Transformer模型转换为线性注意力解码器模型。同时,我们引入了两种新的RWKV变体架构,并成功将流行的Qwen2.5开源模型转换为7B、32B和72B规模的模型。我们的转换过程仅需350至700M个token,不到原始教师模型训练所用token数量的0.005%。转换为72B线性注意力模型的成本在当前价格下低于2000美元,而推理质量仍接近原Transformer模型。这些模型在其规模级别的线性注意力模型中,在一系列标准基准测试上均达到了最先进的下游性能。我们已在HuggingFace平台上以Apache 2.0许可证发布了所有模型,其中72B模型还受Qwen许可协议约束。 模型地址: https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 训练代码地址: https://github.com/recursal/RADLADS-paper

FlexiAct:迈向异构场景下的灵活动作控制
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

May 6, 2025
Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang
281

动作定制涉及生成视频,其中主体执行由输入控制信号指定的动作。现有方法采用姿态引导或全局运动定制,但受限于空间结构的严格约束,如布局、骨架和视角一致性,降低了在不同主体和场景中的适应性。为克服这些限制,我们提出FlexiAct,它将参考视频中的动作转移至任意目标图像。与现有方法不同,FlexiAct允许参考视频主体与目标图像在布局、视角和骨架结构上存在差异,同时保持身份一致性。实现这一点需要精确的动作控制、空间结构适应和一致性保持。为此,我们引入RefAdapter,一个轻量级的图像条件适配器,在空间适应和一致性保持方面表现出色,在平衡外观一致性和结构灵活性上超越现有方法。此外,基于我们的观察,去噪过程在不同时间步对运动(低频)和外观细节(高频)的关注程度各异。因此,我们提出FAE(频率感知动作提取),与依赖独立时空架构的现有方法不同,它直接在去噪过程中实现动作提取。实验表明,我们的方法能有效将动作转移至具有多样化布局、骨架和视角的主体。我们发布了代码和模型权重以支持进一步研究,访问地址为https://shiyi-zh0408.github.io/projectpages/FlexiAct/。

RetroInfer:一种面向可扩展长上下文LLM推理的向量存储方法
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

May 5, 2025
Yaoqi Chen, Jinkai Zhang, Baotong Lu, Qianxi Zhang, Chengruidong Zhang, Jingjia Luo, Di Liu, Huiqiang Jiang, Qi Chen, Jing Liu, Bailu Ding, Xiao Yan, Jiawei Jiang, Chen Chen, Mingxing Zhang, Yuqing Yang, Fan Yang, Mao Yang
283

随着大语言模型(LLMs)上下文长度的不断增长,高效推理面临重大挑战,主要受限于GPU内存和带宽。我们提出RetroInfer,一个创新系统,它将键值(KV)缓存重新构想为向量存储系统,利用注意力稀疏性加速长上下文LLM推理。其核心是wave索引,一种注意力感知向量索引,通过三方注意力近似、精度有界的注意力估计及分段聚类等技术,实现关键令牌的高效精准检索。与之相辅相成的是wave缓冲区,它协调KV缓存布局,并在GPU与CPU间重叠计算与数据传输,以维持高吞吐量。不同于以往基于稀疏性的方法在令牌选择与硬件协调上的困境,RetroInfer在不牺牲模型精度的前提下,提供了稳健的性能。在长上下文基准测试中,RetroInfer在GPU内存限制内相比全注意力机制实现了最高4.5倍的加速,当KV缓存扩展至CPU内存时,相较于稀疏注意力基线更达到了10.5倍的提升,同时保持了全注意力级别的准确性。

Qwen3量化技术的实证研究
An Empirical Study of Qwen3 Quantization

May 4, 2025
Xingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu
251

Qwen系列已成为开源大型语言模型(LLM)领域的领军家族,在自然语言理解任务中展现出卓越能力。随着最新发布的Qwen3在多项基准测试中表现优异,如何在资源受限环境中高效部署这些模型引发了广泛关注。低比特量化作为一种颇具前景的解决方案,其对Qwen3性能的影响尚未得到充分探索。本研究系统评估了Qwen3在不同量化设置下的鲁棒性,旨在揭示压缩这一尖端模型过程中的机遇与挑战。我们严格评估了应用于Qwen3的5种现有经典训练后量化技术,涵盖1至8比特的位宽,并在多个数据集上检验其有效性。研究发现,尽管Qwen3在中等位宽下保持了竞争力,但在超低精度下语言任务性能显著下降,凸显了LLM压缩领域持续存在的难题。这些结果强调了在极端量化场景下减少性能损失方面进一步研究的必要性。我们预期,这一实证分析将为针对Qwen3及未来LLM的量化方法改进提供可操作的洞见,最终在不牺牲准确性的前提下提升其实用性。本项目已发布于https://github.com/Efficient-ML/Qwen3-Quantization 和 https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b。

全方位足球理解的多智能体系统
Multi-Agent System for Comprehensive Soccer Understanding

May 6, 2025
Jiayuan Rao, Zifeng Li, Haoning Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
231

近期,AI驱动的足球理解领域取得了显著进展,然而现有研究大多局限于孤立或狭窄的任务。为填补这一空白,我们提出了一套全面的足球理解框架。具体而言,本文做出了以下贡献:(i) 我们构建了SoccerWiki,首个大规模多模态足球知识库,整合了关于球员、球队、裁判及场地的丰富领域知识,以支持知识驱动的推理;(ii) 我们推出了SoccerBench,最大且最全面的足球专用基准测试,包含约10,000个标准化多模态(文本、图像、视频)多选题对,覆盖13项不同的理解任务,通过自动化流程与人工验证精心筛选;(iii) 我们引入了SoccerAgent,一种新颖的多智能体系统,通过协作推理分解复杂足球问题,利用SoccerWiki的领域专业知识,实现了稳健的性能;(iv) 广泛的评估与消融实验,在SoccerBench上对最先进的多模态大语言模型进行基准测试,凸显了我们所提出智能体系统的优越性。所有数据与代码均已公开,访问地址为:https://jyrao.github.io/SoccerAgent/。

通过阅读中的眼动解码开放式信息获取目标
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

May 4, 2025
Cfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak
172

在阅读过程中,我们往往对文本中的特定信息抱有浓厚兴趣。例如,您阅读本文,可能是出于对大型语言模型(LLMs)在阅读眼动研究中的应用、实验设计的好奇,或者仅仅是想知道“它是否真的有效?”更广泛地说,在日常生活中,人们带着各式各样的文本相关目标去接触文本,这些目标引导着他们的阅读行为。本研究首次探讨了是否能够通过阅读时的眼动数据自动解码出这些开放式的阅读目标。为此,我们引入了目标分类与目标重建任务及其评估框架,并利用大规模的英语阅读眼动追踪数据,涵盖了数百项针对特定文本信息寻求的任务。我们开发并比较了多种结合眼动与文本信息的判别式与生成式多模态LLMs,用于目标分类与重建。实验结果表明,在这两项任务上均取得了显著成功,这暗示了LLMs能够从眼动中提取出关于读者文本特定目标的有价值信息。

HoloTime:驾驭视频扩散模型实现全景4D场景生成
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Apr 30, 2025
Haiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan
161

扩散模型的快速发展有望彻底改变虚拟现实(VR)和增强现实(AR)技术的应用,这些技术通常需要场景级别的4D资源来提升用户体验。然而,现有的扩散模型主要集中于静态3D场景或对象级动态的建模,限制了其提供真正沉浸式体验的能力。为解决这一问题,我们提出了HoloTime框架,该框架整合了视频扩散模型,能够从单一提示或参考图像生成全景视频,并结合360度4D场景重建方法,将生成的全景视频无缝转化为4D资源,为用户提供完全沉浸的4D体验。具体而言,为了驯服视频扩散模型以生成高保真全景视频,我们引入了360World数据集,这是首个适用于下游4D场景重建任务的全景视频综合集合。基于这一精选数据集,我们提出了全景动画师(Panoramic Animator),一个两阶段的图像到视频扩散模型,能够将全景图像转换为高质量的全景视频。随后,我们展示了全景时空重建(Panoramic Space-Time Reconstruction),该方法利用时空深度估计技术,将生成的全景视频转化为4D点云,进而优化整体4D高斯溅射表示,重建空间和时间上一致的4D场景。为验证方法的有效性,我们与现有方法进行了对比分析,结果显示在生成全景视频和4D场景重建方面均具有显著优势。这证明了我们的方法能够创造更具吸引力和真实感的沉浸环境,从而提升VR和AR应用中的用户体验。

大语言模型的地理空间机制可解释性
Geospatial Mechanistic Interpretability of Large Language Models

May 6, 2025
Stef De Sabbata, Stefano Mizzaro, Kevin Roitero
101

大型语言模型(LLMs)在各类自然语言处理任务中展现了前所未有的能力。它们处理和生成有效文本与代码的能力使其在众多领域无处不在,而作为知识库和“推理”工具的部署仍是持续研究的焦点。在地理学领域,越来越多的文献聚焦于评估LLMs的地理知识及其执行空间推理的能力。然而,关于这些模型内部运作机制,尤其是它们如何处理地理信息,我们仍知之甚少。 在本章中,我们建立了一个研究地理空间机制可解释性的新框架——利用空间分析逆向工程LLMs处理地理信息的方式。我们的目标是深化对这些复杂模型在处理地理信息时生成的内部表征的理解——如果这样的表述不带有过度拟人化色彩,可以说成“LLMs如何思考地理信息”。 首先,我们概述了探测技术在揭示LLMs内部结构中的应用。随后,我们引入了机制可解释性领域,讨论了叠加假说以及稀疏自编码器在将LLMs的多义性内部表征解耦为更可解释的单义性特征中的作用。在实验中,我们运用空间自相关展示了地名特征如何展现出与其地理位置相关的空间模式,从而能够从地理空间角度进行解释,为这些模型处理地理信息的方式提供了洞见。最后,我们讨论了这一框架如何助力地理学中基础模型的研究与应用。

SWE-smith:面向软件工程智能体的数据扩展
SWE-smith: Scaling Data for Software Engineering Agents

Apr 30, 2025
John Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang
101

尽管语言模型(LMs)在软件工程领域取得了最新进展,收集训练数据仍是一个显著的痛点。现有数据集规模较小,最多包含来自11个或更少GitHub仓库的数千个训练实例。这些数据集的整理过程通常复杂,需要数百小时的人工劳动;配套的执行环境也占用数TB的存储空间,严重限制了其可扩展性和实用性。为解决这一痛点,我们引入了SWE-smith,一个用于大规模生成软件工程训练数据的新颖流程。给定任何Python代码库,SWE-smith构建相应的执行环境,然后自动合成数百至数千个任务实例,这些实例会破坏代码库中现有的测试。利用SWE-smith,我们创建了一个包含128个GitHub仓库来源的50k实例数据集,规模比之前所有工作大一个数量级。我们训练了SWE-agent-LM-32B模型,在SWE-bench Verified基准测试中达到了40.2%的Pass@1解决率,这是开源模型中的最新技术水平。我们开源了SWE-smith(包括收集流程、任务实例、轨迹、模型),以降低自动化软件工程中LM系统研究的入门门槛。所有资源可在https://swesmith.com获取。

VITA-Audio:面向高效大规模语音语言模型的快速交错跨模态令牌生成
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

May 6, 2025
Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun
91

随着对自然人机交互需求的日益增长,基于语音的系统因其作为日常交流中最常见的形式之一而受到越来越多的关注。然而,现有的语音模型在流式处理中生成首个音频标记时仍面临高延迟问题,这成为部署过程中的一大瓶颈。为解决此问题,我们提出了VITA-Audio,一种能够快速生成音频-文本标记的端到端大型语音模型。具体而言,我们引入了一个轻量级的多模态交叉标记预测(MCTP)模块,该模块在单次模型前向传播中高效生成多个音频标记,不仅加速了推理过程,还显著降低了流式场景下生成首个音频的延迟。此外,我们探索了一种四阶段渐进式训练策略,以在最小化语音质量损失的前提下实现模型加速。据我们所知,VITA-Audio是首个能够在首次前向传播中生成音频输出的多模态大语言模型,实现了具有极低延迟的实时对话能力。VITA-Audio完全可复现,且仅使用开源数据进行训练。实验结果表明,我们的模型在70亿参数规模下实现了3至5倍的推理加速,同时在自动语音识别(ASR)、文本转语音(TTS)及口语问答(SQA)任务的多项基准测试中,显著优于相似模型规模的开源模型。

何种代理导致任务失败?何时发生?——论大语言模型多代理系统的自动化故障归因
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems

Apr 30, 2025
Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu
81

大语言模型多智能体系统中的故障归因——即识别任务失败的责任智能体及关键步骤——为系统调试提供了重要线索,但这一领域仍处于探索不足且劳动密集的状态。本文提出并定义了一个新的研究方向:大语言模型多智能体系统的自动化故障归因。为支持这一研究,我们引入了Who&When数据集,该数据集包含来自127个大语言模型多智能体系统的广泛故障日志,并配有细粒度标注,将故障与特定智能体及决定性错误步骤相关联。基于Who&When,我们开发并评估了三种自动化故障归因方法,总结了各自的优缺点。最佳方法在识别责任智能体方面达到了53.5%的准确率,但在定位故障步骤时仅达到14.2%,部分方法表现甚至低于随机水平。即便是如OpenAI o1和DeepSeek R1这样的先进推理模型,也未能实现实际可用性。这些结果凸显了该任务的复杂性,以及在这一领域进一步研究的必要性。代码和数据集已发布于https://github.com/mingyin1/Agents_Failure_Attribution。

场景合成:面向三维场景生成的语言与视觉智能体框架
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5, 2025
Lu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li
71

从文本合成交互式3D场景对于游戏、虚拟现实和具身AI至关重要。然而,现有方法面临诸多挑战。基于学习的方法依赖于小规模室内数据集,限制了场景多样性和布局复杂性。尽管大型语言模型(LLMs)能够利用多样化的文本领域知识,但在空间真实性方面表现欠佳,常常产生不符合常识的物体摆放,显得不自然。我们的核心洞察是,视觉感知能够弥补这一不足,提供LLMs所缺乏的真实空间指导。为此,我们引入了Scenethesis,一个无需训练的代理框架,它结合了基于LLM的场景规划与视觉引导的布局优化。给定文本提示,Scenethesis首先利用LLM生成粗略布局。随后,视觉模块通过生成图像引导并提取场景结构来捕捉物体间关系,进一步细化布局。接着,优化模块迭代执行精确的姿态对齐和物理合理性检查,防止物体穿透和不稳定等异常现象。最后,评判模块验证空间一致性。全面实验表明,Scenethesis能够生成多样、真实且物理合理的3D交互场景,对虚拟内容创作、模拟环境构建及具身AI研究具有重要价值。

InfoVids:重塑观看体验——探索可视化与演讲者关系的创新模式
InfoVids: Reimagining the Viewer Experience with Alternative Visualization-Presenter Relationships

May 6, 2025
Ji Won Chung, Tongyu Zhou, Ivy Chen, Kevin Hsu, Ryan A. Rossi, Alexa Siu, Shunan Guo, Franck Dernoncourt, James Tompkin, Jeff Huang
61

传统的数据展示通常将演讲者与可视化内容分隔在两个独立的空间——三维世界与二维屏幕——这强化了以可视化为中心的叙事方式。为了打造更加以人为本的观看体验,我们通过InfoVids(信息视频)在可视化与演讲者之间建立了一种更为平等的关系。这些受信息图表启发的视频旨在重新定义演讲者与可视化内容之间的互动模式。在设计InfoVids的过程中,我们深入探讨了布局、形式及交互方式如何影响观众的体验。我们通过30名参与者的测试,在9个指标上将InfoVids与其基础的二维“幻灯片”版本进行了对比,并从自传体视角提供了实用且长远的见解。我们的混合方法分析表明,这一新模式减少了观众注意力分散的现象,将焦点从可视化内容转移至演讲者,并促成了更为互动、自然且引人入胜的全身数据表演。最终,InfoVids帮助观众重新构想了演讲者与可视化内容之间的传统互动动态。

训练模型理解(而非生成)高风险数据
Teaching Models to Understand (but not Generate) High-risk Data

May 5, 2025
Ryan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
51

语言模型开发者通常会在预训练数据中过滤掉高风险内容——如毒性或受版权保护的文本——以防止模型生成类似输出。然而,完全移除此类数据会限制模型识别并恰当应对有害或敏感内容的能力。本文提出了一种名为“选择性损失以理解但不生成”(SLUNG)的预训练范式,使模型能够学习理解高风险数据而不学习生成它。SLUNG并非统一应用下一词预测损失,而是选择性地避免激励高风险词元的生成,同时确保它们保留在模型的上下文窗口内。当模型学习预测高风险内容后的低风险词元时,它被迫理解高风险内容。通过实验,我们证明SLUNG持续提升了模型对高风险数据的理解能力(例如,识别毒性内容的能力),而不会增加其生成(例如,模型回答的毒性)。总体而言,我们的SLUNG范式使模型能够从原本会被过滤掉的高风险文本中获益。

按需调用接口:大型语言模型在问答任务中的自适应调用策略
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5, 2025
Jihao Zhao, Chunlai Zhou, Biao Qin
21

大语言模型与小语言模型(LMs)的协作范式在性能与成本间实现了有效平衡,但其核心挑战在于准确识别小语言模型产生幻觉时的调用时机。以往优化工作多集中于后处理技术,这些技术与语言模型的推理过程分离,导致计算成本高昂且效果有限。本文提出了一种实用的调用评估指标——AttenHScore,它通过计算小语言模型生成过程中幻觉的累积与传播,持续放大潜在的推理错误。通过动态调整检测阈值,我们实现了对大语言模型更为精准的实时调用。同时,考虑到小语言模型推理能力的局限性,我们采用不确定性感知的知识重组策略,帮助其更好地从不同文本片段中捕捉关键信息。大量实验表明,AttenHScore在提升多个问答数据集上的实时幻觉检测能力方面优于多数基线方法,特别是在处理复杂查询时表现尤为突出。此外,我们的策略无需额外模型训练,并展现出适应多种基于Transformer的语言模型的灵活性。

Auto-SLURP:智能个人助手中多智能体框架评估的基准数据集
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Apr 25, 2025
Lei Shen, Xiaoyu Shen
21

近年来,依托于大语言模型(LLMs)的多智能体框架发展迅速。尽管取得了这些进展,专门用于评估其性能的基准数据集仍然显著缺失。为填补这一空白,我们推出了Auto-SLURP,一个旨在评估基于LLM的多智能体框架在智能个人助理场景下表现的基准数据集。Auto-SLURP在原有SLURP数据集——最初为自然语言理解任务开发——的基础上,通过重新标注数据并整合模拟服务器与外部服务进行了扩展。这一增强措施构建了一个全面的端到端评估流程,涵盖语言理解、任务执行及响应生成等多个环节。我们的实验表明,Auto-SLURP对当前最先进的框架构成了显著挑战,揭示了真正可靠且智能的多智能体个人助理仍处于发展之中。该数据集及相关代码已公开于https://github.com/lorashen/Auto-SLURP/。

阿尔法卓越基准
Alpha Excel Benchmark

May 7, 2025
David Noever, Forrest McKee
11

本研究提出了一种新颖的基准测试方法,利用源自“金融建模世界杯”(FMWC)Excel竞赛的挑战来评估大型语言模型(LLMs)。我们介绍了一种将113项现有FMWC挑战转化为可编程评估的JSON格式的方法,并运用此数据集对比了多个领先LLMs的表现。研究结果显示,不同挑战类别下模型性能存在显著差异,模型在模式识别任务上展现出特定优势,但在复杂数值推理方面则面临挑战。该基准测试为评估LLMs在现实商业导向任务中的能力提供了一个标准化框架,而非局限于抽象学术问题。通过确立微软Excel日常用户——全球15亿人——的熟练度作为连接学术AI基准与实际商业应用的有意义评价指标,本研究为不断发展的AI基准测试领域做出了贡献。

5月6日
5月7日
5月8日