每日精选AI研究论文及翻译
如同面对难题的学生,大型语言模型在不确定时也会猜测,产生看似合理实则错误的陈述,而非承认不确定性。这种“幻觉”现象即便在顶尖系统中依然存在,削弱了信任度。我们认为,语言模型之所以产生幻觉,是因为训练与评估流程奖励猜测而非承认不确定性,我们分析了现代训练流程中幻觉的统计成因。幻觉并非神秘莫测——它们源于二分类中的简单错误。若错误陈述无法与事实区分,预训练语言模型中的幻觉便会因自然统计压力而出现。我们进一步指出,幻觉之所以持续,是因为多数评估的评分方式——语言模型被优化为擅长应试,在不确定时猜测能提升测试表现。这种“惩罚不确定回答”的“流行病”,只能通过社会技术手段缓解:调整现有基准测试的评分标准,这些基准虽存在偏差却主导排行榜,而非引入额外的幻觉评估。这一改变或许能引导领域迈向更可信的AI系统。
自回归的下一个词预测语言模型虽具备强大能力,但在实际部署中面临重大挑战,主要源于推理阶段,尤其是解码阶段的高计算与内存成本。我们提出了一种简单灵活的范式——集合块解码(Set Block Decoding, SBD),它通过在同一架构中整合标准下一个词预测(NTP)与掩码词预测(MATP)来加速生成过程。SBD允许模型并行采样多个未来词,这些词不必连续,这是与以往加速方法的关键区别。这种灵活性使得能够利用离散扩散文献中的高级求解器,在不牺牲准确性的前提下显著提升速度。SBD无需改变架构或增加额外训练超参数,保持与精确KV缓存的兼容性,并可通过微调现有的下一个词预测模型实现。通过对Llama-3.1 8B和Qwen-3 8B进行微调,我们展示了SBD能够在保持与等效NTP训练相同性能的同时,将生成所需的前向传播次数减少3至5倍。
大型语言模型(LLMs)在程序合成方面表现出色,但其生成能够精确渲染视觉内容的符号图形程序(SGPs)的能力尚未得到充分探索。我们研究了符号图形编程,其目标是从自然语言描述中生成SGP。这一任务也为我们提供了一个视角,通过促使LLMs生成由SGPs渲染的图像,来理解它们如何理解视觉世界。在众多SGPs中,本文专注于可缩放矢量图形(SVGs)。我们首先考察了LLMs生成SGPs的能力。为此,我们引入了SGP-GenBench,一个涵盖对象保真度、场景保真度和组合性(属性绑定、空间关系、数感)的综合基准。在SGP-GenBench上,我们发现前沿的专有模型显著优于开源模型,且性能与通用编码能力高度相关。受此差距的启发,我们旨在提升LLMs生成SGPs的能力。我们提出了一种带有可验证奖励的强化学习(RL)方法,其中格式有效性门确保SVG可渲染,跨模态奖励通过强大的视觉编码器(如用于文本-图像的SigLIP和用于图像-图像的DINO)对齐文本与渲染图像。将该方法应用于Qwen-2.5-7B,我们的方法显著提高了SVG生成的质量和语义,达到了与前沿系统相当的性能。我们进一步分析了训练动态,表明RL诱导了(i)将对象更精细地分解为可控基元,以及(ii)提升场景一致性的上下文细节。我们的结果表明,符号图形编程为跨模态接地提供了一个精确且可解释的视角。
从单张图像或视频中估计场景照明一直是计算机视觉和图形学领域的一项长期挑战。基于学习的方法受限于真实高动态范围(HDR)环境贴图的稀缺性,这些贴图不仅捕获成本高昂,且多样性有限。尽管近期生成模型为图像合成提供了强大的先验知识,但光照估计仍面临困难,原因在于其依赖于间接视觉线索、需要推断全局(非局部)上下文,以及恢复高动态范围输出。我们提出了LuxDiT,一种新颖的数据驱动方法,通过微调视频扩散变换器,以视觉输入为条件生成HDR环境贴图。我们的模型在包含多种光照条件的大型合成数据集上训练,学会了从间接视觉线索中推断光照,并能有效泛化至真实世界场景。为了增强输入与预测环境贴图之间的语义对齐,我们引入了一种基于收集的HDR全景数据集的低秩适应微调策略。该方法能够生成具有真实角度高频细节的精确光照预测,在定量和定性评估中均超越了现有最先进技术。
近期,多模态大语言模型(MLLMs)在多种视觉-语言任务中展现了令人瞩目的能力。然而,其在多模态符号音乐领域的推理能力仍鲜有探索。我们推出了WildScore,这是首个面向真实场景的多模态符号音乐推理与分析基准,旨在评估MLLMs解读现实世界乐谱及回答复杂音乐学问题的能力。WildScore中的每个实例均源自真实的音乐作品,并附有用户生成的真实问题与讨论,捕捉了实际音乐分析的细微之处。为促进系统化评估,我们提出了一套系统分类法,包含高层次与细粒度的音乐学本体。此外,我们将复杂的音乐推理问题转化为多项选择题形式,从而实现对MLLMs符号音乐理解能力的可控且可扩展的评估。在WildScore上对前沿MLLMs进行的实证基准测试揭示了其在视觉-符号推理中的有趣模式,既指明了MLLMs在符号音乐推理与分析中的潜在发展方向,也揭示了其面临的持续挑战。我们公开了数据集与代码。
近期研究日益聚焦于开发能够模拟复杂现实场景的3D世界模型。世界模型在多个领域展现出广泛应用,包括具身智能、自动驾驶、娱乐等。具备精确物理特性的更真实模拟,将有效缩小仿真与现实的差距,使我们能够便捷地获取关于现实世界的丰富信息。尽管传统的手工建模已能创建虚拟3D场景,现代方法则利用先进的机器学习算法进行3D世界生成,最新进展主要集中在能够根据用户指令生成虚拟世界的生成式方法上。本研究探索了这一方向,提出了LatticeWorld,一个简洁高效的3D世界生成框架,旨在优化3D环境的工业生产流程。LatticeWorld结合轻量级大语言模型(如LLaMA-2-7B)与工业级渲染引擎(如虚幻引擎5),以生成动态环境。该框架接受文本描述和视觉指令作为多模态输入,创建大规模3D交互世界,具备竞争性的多智能体互动、高保真物理模拟及实时渲染功能。通过全面实验评估,LatticeWorld在场景布局生成与视觉保真度上展现出卓越的准确性。此外,相较于传统手工生产方式,LatticeWorld在保持高创意质量的同时,实现了超过90倍的工业生产效率提升。我们的演示视频可在https://youtu.be/8VWZXpERR18观看。
我们提出了WinT3R,一种前馈重建模型,能够在线预测精确的相机姿态并生成高质量的点云地图。以往的方法在重建质量与实时性能之间难以兼顾。为解决这一问题,我们首先引入了一种滑动窗口机制,确保窗口内各帧之间充分的信息交流,从而在不增加大量计算负担的情况下提升几何预测的质量。此外,我们采用了一种紧凑的相机表示方法,并维护了一个全局相机令牌池,这在不牺牲效率的前提下增强了相机姿态估计的可靠性。这些设计使得WinT3R在在线重建质量、相机姿态估计及重建速度方面均达到了业界领先水平,这一结论已通过多样数据集上的广泛实验得到验证。代码与模型已公开于https://github.com/LiZizun/WinT3R。
在众多任务领域中,进步往往源于对先前解决方案尝试的反复修正。训练能够在推理时可靠地自我改进的智能体,自然成为强化学习(RL)的目标。然而,传统方法假设了一个固定的最大迭代深度,这既成本高昂又显得武断。我们提出了探索性迭代(Exploratory Iteration, ExIt),这是一类自课程RL方法,它直接利用自我改进任务的循环结构,训练大型语言模型(LLMs)在推理时执行多步自我改进,同时仅针对最具信息量的单步迭代进行训练。ExIt通过有选择地采样在任务执行过程中遇到的最具信息量的中间部分历史记录来扩展任务空间,将这些起点视为新的自我迭代任务实例,以训练自我改进策略。ExIt还可以与显式探索机制结合,维持更高的任务多样性。在多个领域,包括竞赛数学、多轮工具使用及机器学习工程中,我们展示了ExIt策略,无论是从单一还是多个任务实例出发,都能生成在保留任务实例上展现出强大推理时自我改进能力的策略,并能在超出训练期间平均迭代深度的步数预算内,迭代提升至更高性能。
当前,针对大型语言模型(LLMs)的基准测试主要聚焦于性能指标,往往未能捕捉到区分它们微妙行为特征的关键要素。本文提出了一种创新的“行为指纹识别”框架,旨在超越传统评估方法,通过构建模型内在认知与交互风格的多维度画像来深入理解模型。我们利用精心设计的诊断提示套件和一个创新的自动化评估流程,其中由一款强大的LLM担任公正评判者,对跨越不同能力层级的十八个模型进行了分析。研究结果揭示了LLM领域的一个关键分歧:尽管顶级模型在抽象与因果推理等核心能力上趋于一致,但在诸如迎合性(sycophancy)和语义鲁棒性等与对齐相关的行为上却表现出显著差异。此外,我们还记录了一种跨模型的默认人格聚类现象(ISTJ/ESTJ),这很可能反映了普遍的对齐激励机制。综合来看,这些发现表明,模型的交互特性并非其规模或推理能力的自然涌现,而是开发者特定且高度可变的对齐策略的直接结果。我们的框架为揭示这些深层次行为差异提供了一种可复现且可扩展的方法论。项目地址:https://github.com/JarvisPei/Behavioral-Fingerprinting
大型语言模型(LLMs)的有效性通常通过诸如MMLU、ARC-C或HellaSwag等基准测试来评估,这些测试中的问题以其原始表述呈现,即采用固定、标准化的格式。然而,实际应用场景涉及语言的多样性,要求模型在面对同一问题或查询的不同表述时仍能保持其有效性。在本研究中,我们系统性地评估了LLMs对经过改写的基准问题的鲁棒性,并探讨了基于基准的评估是否能为模型能力提供可靠的衡量标准。我们系统性地生成了六个不同常见基准测试中所有问题的多种改写版本,并测量了34个不同规模和有效性的最先进LLMs在应对这些改写问题时的效果变化。我们的研究结果表明,尽管LLMs在应对改写输入时的排名相对稳定,但其绝对有效性得分却发生了变化,且显著下降。这表明LLMs在处理语言多样性方面存在困难,引发了对其泛化能力和评估方法的担忧。此外,观察到的性能下降挑战了基于基准评估的可靠性,表明高基准得分可能无法全面反映模型对现实世界输入变化的鲁棒性。我们讨论了这些发现对LLM评估方法的影响,强调需要开发更能反映实际部署场景的鲁棒性感知基准测试。
放射诊断中的错误——包括漏读错误、注意力盲区以及沟通失误——在临床实践中依然普遍存在。这些问题往往源于局部异常的遗漏、全局背景的局限以及报告语言的多样性。在三维影像中,这些挑战被进一步放大,因为临床医生需要检查每份扫描的数百个切片。解决这些问题需要具备精确局部检测、全局体积层面推理以及语义一致的自然语言报告生成能力的系统。然而,现有的三维视觉-语言模型无法同时满足这三项需求,它们缺乏对空间推理的局部-全局理解,并且在处理未经整理的放射报告时,难以应对其多样性和噪声。我们提出了MedVista3D,一个用于三维CT分析的多尺度语义增强视觉-语言预训练框架。为了实现疾病检测与整体解读的联合,MedVista3D在全体积背景下执行局部与全局的图像-文本对齐,以进行细粒度的表示学习。针对报告多样性问题,我们应用了语言模型重写技术,并引入了放射语义匹配库,以实现语义感知的对齐。MedVista3D在零样本疾病分类、报告检索和医学视觉问答任务上达到了最先进的性能,同时在器官分割和预后预测任务上展现出良好的迁移能力。代码与数据集将予以公开。
我们提出了U-Arm,一种低成本且快速适应的主从式遥操作框架,旨在与市面上大多数商用机械臂兼容。该系统通过三种结构各异的3D打印主控臂实现遥操作,这些主控臂共享一致的控制逻辑,从而确保与多种商用机器人配置的无缝对接。相较于以往的开源主从接口,我们进一步优化了机械设计及伺服电机选型,使得6自由度主控臂的材料成本仅为50.5美元,7自由度版本则为56.8美元。为提升易用性,我们通过机械与控制优化手段,有效缓解了控制冗余自由度这一常见难题。实验结果显示,在多种操作场景下,U-Arm相比另一低成本遥操作接口Joycon,数据采集效率提高了39%,任务成功率相当。我们已开源了三种配置的所有CAD模型,并提供了用于验证遥操作流程的仿真支持。同时,我们还公开了使用U-Arm收集的真实世界操作数据。项目网站为https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm。