每日精选AI研究论文及翻译
无批评强化学习方法,尤其是群体策略,因其在复杂任务中的高效性而备受关注。然而,这些方法严重依赖策略内的多次采样和比较来估计优势,这可能导致策略陷入局部最优并增加计算成本。为解决这些问题,我们提出了PVPO,一种通过优势参考锚点和数据预采样增强的高效强化学习方法。具体而言,我们利用参考模型提前进行rollout,并将计算得到的奖励分数作为参考锚点。我们的方法有效纠正了群体内比较引入的累积偏差,并显著减少了对rollout次数的依赖。同时,参考模型能够在数据预采样过程中评估样本难度,从而有效选择高增益数据以提高训练效率。在两个领域的九个数据集上进行的实验表明,PVPO实现了最先进的性能。我们的方法不仅在多个任务中展现出强大的泛化能力,还在不同规模的模型上表现出可扩展的性能。
大量研究已深入探讨了大语言模型(LLMs)在表格推理方面的能力。然而,将表格信息转化为报告这一核心任务,在工业应用中仍面临重大挑战。该任务主要受限于两大关键问题:1)表格的复杂性和多样性导致推理结果不尽如人意;2)现有的表格基准测试缺乏充分评估该任务实际应用的能力。为填补这一空白,我们提出了表格到报告(table-to-report)任务,并构建了一个名为T2R-bench的双语基准测试,其中关键信息从表格流向报告。该基准包含457个工业表格,均源自真实场景,涵盖19个行业领域及4种工业表格类型。此外,我们提出了一套评估标准,以公正衡量报告生成的质量。对25种广泛使用的LLMs进行的实验显示,即便是如Deepseek-R1这样的顶尖模型,其整体得分也仅为62.71,表明LLMs在T2R-bench上仍有提升空间。源代码与数据将在论文被接受后公开。
近期,大型语言模型(LLMs)在推理与规划能力上的突破,展现了其作为自主代理在动态环境中使用工具的潜力。然而,在如tau-bench等多轮对话环境中,这些代理往往在保持一致性推理、遵循领域特定策略以及跨越长时间工具调用与对话中准确提取信息方面面临挑战。为捕捉并缓解这些失误,我们对对话轨迹中常见的错误进行了详尽的手动分析。随后,我们尝试通过重新表述工具调用代理的输入来提升其决策质量。最终,我们提出了输入重构多代理(IRMA)框架,该框架能自动重构用户查询,并融入相关领域规则与工具建议,使工具调用代理得以聚焦。实验结果显示,在整体通过率(pass^5)得分上,IRMA分别比ReAct、函数调用及自我反思方法高出16.1%、12.7%和19.1%。这些发现凸显了IRMA在动态环境中相较于其他方法具有更高的可靠性与一致性。
表面缺陷检测是众多行业中的一项关键任务,旨在高效识别并定位制造部件上的瑕疵或异常。尽管已提出多种方法,但许多仍难以满足工业对高性能、效率和适应性的需求。现有方法往往局限于特定的监督场景,难以适应实际制造过程中遇到的各种数据标注形式,如无监督、弱监督、混合监督和全监督设置。为应对这些挑战,我们提出了SuperSimpleNet,这是一个基于SimpleNet构建的高效且适应性强的判别模型。SuperSimpleNet引入了新颖的合成异常生成过程、增强的分类头以及改进的学习流程,使其能够在所有四种监督场景下进行高效训练,成为首个能够充分利用所有可用数据标注的模型。通过在四个具有挑战性的基准数据集上的表现,SuperSimpleNet为所有场景设立了新的性能标准。除了高精度外,它还非常快速,推理时间低于10毫秒。凭借其统一多样化监督范式的能力,同时保持卓越的速度和可靠性,SuperSimpleNet在解决现实制造挑战、弥合学术研究与工业应用之间的差距方面迈出了有希望的一步。代码:https://github.com/blaz-r/SuperSimpleNet
主要基于英语语料库训练的大型语言模型(LLMs)在捕捉阿拉伯语的语言和文化细微差别方面往往力不从心。为填补这一空白,沙特数据与人工智能管理局(SDAIA)推出了专注于阿拉伯语的ALLaM系列模型。其中面向公众的最强版本ALLaM-34B,随后被HUMAIN采用,并基于此模型开发并部署了HUMAIN Chat——一个封闭的对话式网络服务。本文对ALLaM-34B进行了扩展且精细化的用户界面层级评估。通过一套涵盖现代标准阿拉伯语、五种地区方言、语码转换、事实知识、算术与时间推理、创意生成及对抗性安全性的提示集,我们收集了115个输出结果(23个提示各运行5次),并由三个前沿LLM评判者(GPT-5、Gemini 2.5 Pro、Claude Sonnet-4)进行评分。我们计算了类别层面的均值及95%置信区间,分析了分数分布,并可视化了方言维度的指标热图。更新后的分析显示,ALLaM-34B在生成和语码转换任务上表现持续优异(均分4.92/5),同时在现代标准阿拉伯语处理(4.74/5)、扎实的推理能力(4.64/5)以及改进的方言忠实度(4.21/5)方面也展现出强劲实力。安全性相关提示下的表现稳定可靠,得分为4.54/5。综合来看,这些结果确立了ALLaM-34B作为一个强大且文化根基深厚的阿拉伯语LLM的地位,既展现了技术实力,也证明了其在实际部署中的实用准备度。
空间认知通过构建内部空间模型,实现了适应性目标导向行为。稳健的生物系统将空间知识整合为三种相互关联的形式:地标用于显著线索,路径知识用于运动轨迹,而概览知识则用于地图式表征。尽管多模态大语言模型(MLLMs)的最新进展已使具身代理能够进行视觉-语言推理,但这些努力缺乏结构化空间记忆,仅以反应式方式运作,限制了其在复杂现实环境中的泛化与适应能力。本文提出“脑启发的空间认知导航”(BSC-Nav),一个为具身代理构建并利用结构化空间记忆的统一框架。BSC-Nav从自我中心轨迹及上下文线索中构建异中心认知地图,并动态检索与语义目标对齐的空间知识。结合强大的MLLMs,BSC-Nav在多样化导航任务中实现了顶尖的效能与效率,展现出强大的零样本泛化能力,并支持现实物理世界中的多功能具身行为,为通向通用空间智能提供了一条可扩展且基于生物学的路径。
本文介绍了“硅基民主”(Democracy-in-Silico),一种基于智能体的模拟系统,其中由具备复杂心理特征的高级AI智能体组成的社会,在不同的制度框架下进行自我治理。通过让大型语言模型(LLMs)扮演拥有创伤记忆、隐秘议程和心理触发点的智能体,我们探讨了在AI时代“何以为人”的问题。这些智能体在预算危机和资源匮乏等压力下,参与审议、立法和选举活动。我们提出了一种新颖的指标——权力维护指数(PPI),用于量化智能体将自身权力置于公共福利之上的行为偏差。研究结果表明,制度设计,特别是结合了宪法AI(CAI)宪章和调解审议协议的设计,作为一种强有力的对齐机制,显著减少了腐败的权力追逐行为,提升了政策稳定性,并改善了公民福祉,相较于约束较少的民主模式表现更优。该模拟揭示,制度设计可能为未来人工智能体社会中复杂、涌现的行为对齐提供框架,促使我们重新思考在人类与非人类实体共同创作的时代,哪些人类仪式和责任是必不可少的。