每日精选AI研究论文及翻译
本报告介绍了VibeVoice,一种创新模型,旨在通过采用下一令牌扩散技术合成多说话者的长篇语音。该技术是一种统一方法,通过扩散自回归生成潜在向量来建模连续数据。为此,我们引入了一种新型的连续语音令牌化器,与流行的Encodec模型相比,在保持相当性能的同时,将数据压缩率提高了80倍。该令牌化器在显著提升长序列处理计算效率的同时,有效保持了音频保真度。因此,VibeVoice能够在64K上下文窗口长度内合成长达90分钟、最多包含4位说话者的长篇语音,捕捉真实的对话“氛围”,并超越了开源及专有对话模型的表现。
近期,通过强化学习对齐大型语言模型的进展在解决复杂推理问题上取得了显著成效,但代价是昂贵的在线策略展开和对多样化推理路径的有限探索。本文提出TreePO,引入了一种自引导的展开算法,将序列生成视为树结构搜索过程。TreePO由动态树采样策略和固定长度片段解码组成,利用局部不确定性来保证额外分支的生成。通过分摊公共前缀的计算并及早修剪低价值路径,TreePO在保持或增强探索多样性的同时,实质上降低了每次更新的计算负担。主要贡献包括:(1) 一种分段采样算法,通过连续片段减轻KV缓存负担,并伴随早停机制生成新分支;(2) 一种基于树的片段级优势估计,兼顾全局和局部的近端策略优化;(3) 对概率和质量驱动的动态分歧及回退策略有效性的分析。我们在多个推理基准上实证验证了TreePO的性能提升,并展示了采样设计为训练模型节省了22%至43%的GPU小时,同时对现有模型在轨迹级和令牌级采样计算上分别实现了高达40%和35%的减少。在提供推理效率“免费午餐”的同时,TreePO揭示了基于强化学习的后训练规模化的一条实用路径,即使用更少的样本和计算资源。项目主页位于https://m-a-p.ai/TreePO。
我们推出了CMPhysBench,作为一项新颖的基准测试,旨在评估大语言模型(LLMs)在凝聚态物理领域的熟练程度。CMPhysBench包含了超过520道研究生级别的精心设计的问题,涵盖了凝聚态物理中的代表性子领域及基础理论框架,如磁性、超导性、强关联系统等。为了确保对问题解决过程的深入理解,我们专注于计算题,要求LLMs独立生成完整的解答。同时,利用表达式的树状表示,我们引入了可扩展表达式编辑距离(SEED)评分,该评分提供细粒度(非二元的)部分得分,从而更准确地评估预测与真实答案之间的相似度。我们的结果显示,即便是表现最佳的模型Grok-4,在CMPhysBench上的平均SEED得分仅为36,准确率仅为28%,这凸显了在该实践性与前沿性领域,相较于传统物理学,大语言模型存在显著的能力差距。代码与数据集已公开于https://github.com/CMPhysBench/CMPhysBench。
在游戏产业和机器人交互领域,对指定区域进行3D局部编辑至关重要。现有方法通常先编辑渲染的多视角图像,再重建3D模型,但它们在精确保留未编辑区域和整体一致性方面面临挑战。受结构化3D生成模型的启发,我们提出了VoxHammer,一种无需训练的新方法,能在3D潜在空间中进行精确且连贯的编辑。给定一个3D模型,VoxHammer首先预测其反演轨迹,并在每个时间步获取其反演潜在表示及键值对标记。随后,在去噪和编辑阶段,我们将保留区域的去噪特征替换为相应的反演潜在表示和缓存的键值对标记。通过保留这些上下文特征,该方法确保了保留区域的一致重建以及编辑部分的连贯整合。为了评估保留区域的一致性,我们构建了Edit3D-Bench,这是一个包含数百个样本的人工标注数据集,每个样本都带有精心标记的3D编辑区域。实验表明,VoxHammer在保留区域的3D一致性和整体质量方面均显著优于现有方法。我们的方法有望合成高质量的编辑配对数据,从而为上下文中的3D生成奠定数据基础。访问我们的项目页面:https://huanngzh.github.io/VoxHammer-Page/。
现有视频虚拟人模型虽能生成流畅的人体动画,却难以突破单纯的外形相似,捕捉角色的真实神韵。其动作通常仅与音频节奏等低层次线索同步,缺乏对情感、意图或语境的深层语义理解。为弥合这一差距,我们提出了一种框架,旨在生成不仅物理上合理,而且语义连贯且富有表现力的角色动画。我们的模型OmniHuman-1.5,基于两项关键技术贡献构建。首先,我们利用多模态大语言模型合成条件结构化的文本表示,提供高层次语义指导。这一指导使我们的动作生成器超越简单的节奏同步,能够生成与情境和情感共鸣的动作。其次,为确保多模态输入的有效融合并缓解模态间冲突,我们引入了一种带有新颖伪末帧设计的专用多模态DiT架构。这些组件的协同作用使我们的模型能准确解读音频、图像和文本的联合语义,从而生成与角色、场景及语言内容深度一致的动作。大量实验表明,我们的模型在包括口型同步精度、视频质量、动作自然度及与文本提示的语义一致性在内的综合指标上均达到领先水平。此外,我们的方法在复杂场景中展现出卓越的扩展性,如涉及多人及非人类主体的场景。主页:https://omnihuman-lab.github.io/v1_5/
尽管专家混合(MoE)模型通过仅激活部分参数实现了显著的效率提升,但其在推理过程中面临高内存访问成本的挑战。内存层架构以其极低的内存访问需求提供了诱人的替代方案,然而先前如UltraMem等尝试仅能与2专家MoE模型性能相当,远未达到顶尖8专家配置的水平。我们推出了UltraMemV2,一种重新设计的内存层架构,成功弥合了这一性能差距。我们的方法引入了五项关键改进:将内存层整合至每个Transformer模块中,通过单一线性投影简化值扩展,采用源自PEER的基于FFN的值处理机制,实施原则性的参数初始化,以及重新平衡内存与FFN的计算比例。经过广泛评估,我们证明UltraMemV2在相同计算量和参数规模下,实现了与8专家MoE模型相当的性能,同时显著降低了内存访问。尤为突出的是,UltraMemV2在内存密集型任务上展现出卓越性能,在长上下文记忆任务上提升1.6分,多轮记忆任务上提升6.2分,上下文学习任务上提升7.9分。我们通过激活参数高达2.5B(总参数120B)的大规模模型验证了该方法的有效性,并确认激活密度对性能的影响大于稀疏参数总量。我们的工作使内存层架构达到了与最先进MoE模型同等的性能水平,为高效稀疏计算提供了一个极具吸引力的替代方案。
从视觉信息中推断三维场景的物理属性,对于创建交互式且逼真的虚拟世界而言,是一项至关重要却又极具挑战性的任务。尽管人类能够直观地理解诸如弹性或硬度等材料特性,但现有方法往往依赖于缓慢的逐场景优化,这限制了其通用性和应用范围。为解决这一问题,我们提出了PIXIE,一种创新方法,它通过训练一个可泛化的神经网络,仅利用监督损失从三维视觉特征中预测跨多个场景的物理属性。一旦训练完成,我们的前馈网络便能快速推断出合理的材料场,结合如高斯溅射等学习到的静态场景表示,能够在外部力作用下实现逼真的物理模拟。为支持这一研究,我们还收集了PIXIEVERSE,这是已知最大的配对三维资产与物理材料标注数据集之一。广泛的评估表明,PIXIE在性能上比测试时优化方法高出约1.46至4.39倍,且速度提升了数个数量级。通过利用如CLIP等预训练的视觉特征,我们的方法即便仅在合成数据上训练,也能零样本泛化至真实世界场景。https://pixie-3d.github.io/
近期大语言模型(LLMs)的进展,已将自动化科学研究推向了通往人工超级智能的前沿阵地。然而,这些系统要么局限于特定任务,要么受限于LLMs有限的创造力。我们提出了Spacer,一个无需外部干预即可生成创意且基于事实的科学发现系统。Spacer通过“刻意去语境化”实现这一目标,该方法将信息拆解为原子单元——关键词,并从这些关键词间未被探索的联系中汲取创意。Spacer由两部分组成:(i) Nuri,一个构建关键词集的灵感引擎,以及(ii) 将关键词集精炼为详尽科学陈述的“显化管道”。Nuri从包含18万篇生物学领域学术文献构建的关键词图中提取新颖且高潜力的关键词集。“显化管道”则寻找关键词间的联系,分析其逻辑结构,验证其合理性,并最终起草原创的科学概念。实验表明,Nuri的评估指标以0.737的AUROC分数准确分类了高影响力文献。我们的“显化管道”也成功仅凭关键词集重建了最新顶级期刊文章的核心概念。基于LLM的评分系统估计,这一重建在超过85%的情况下是可靠的。最后,我们的嵌入空间分析显示,与当前最先进的LLMs相比,Spacer的输出与领先出版物显著更为相似。
近期如SAM2等视频基础模型在处理提示视频分割任务时表现出色,它们将掩码视为通用原语。然而,许多实际应用场景需要无提示分割,即无需外部线索就能检测并追踪视频中的所有对象,这使得当前领域被分割为多个特定任务模型和流程。我们将流式视频分割重新定义为序列掩码预测,类似于语言建模,并引入了自回归通用分割模型(AUSM),这一单一架构统一了提示和无提示视频分割。基于最新的状态空间模型,AUSM维持固定大小的空间状态,并能适应任意长度的视频流。此外,AUSM的所有组件均设计为跨帧并行训练,相较于迭代训练实现了显著的加速。在标准基准测试(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021以及OVIS)中,AUSM超越了先前的通用流式视频分割方法,并在16帧序列上实现了高达2.5倍的训练速度提升。
视觉扩散模型取得了显著进展,但由于缺乏高分辨率数据及计算资源受限,通常只能在有限分辨率下训练,这限制了其生成高保真图像或高分辨率视频的能力。近期研究探索了无需调优的策略,以挖掘预训练模型在高分辨率视觉生成方面的潜力。然而,这些方法仍易产生带有重复图案的低质量视觉内容。关键障碍在于,当模型生成超出其训练分辨率的视觉内容时,高频信息的不可避免增加会导致误差累积,进而产生不理想的重复图案。本研究中,我们提出了CineScale,一种新颖的推理范式,旨在实现更高分辨率的视觉生成。针对两种视频生成架构引入的不同问题,我们分别设计了专用变体。与现有基线方法局限于高分辨率文本到图像(T2I)和文本到视频(T2V)生成不同,CineScale扩展了应用范围,支持基于最先进开源视频生成框架的高分辨率图像到视频(I2V)和视频到视频(V2V)合成。大量实验验证了我们的范式在扩展图像和视频模型高分辨率生成能力方面的优越性。尤为突出的是,我们的方法无需任何微调即可实现8K图像生成,仅需少量LoRA微调即可达成4K视频生成。生成的视频样本可在我们的网站上查看:https://eyeline-labs.github.io/CineScale/。
当前,音频驱动角色动画的最先进(SOTA)方法在主要涉及说话和歌唱的场景中展现了令人瞩目的性能。然而,在更为复杂的影视制作中,这些方法往往力有未逮,因为后者要求精细的角色互动、逼真的身体动作以及动态的镜头运用。为了应对实现影视级角色动画这一长期挑战,我们提出了一种基于Wan的音频驱动模型,称之为Wan-S2V。与现有方法相比,我们的模型在电影情境下显著提升了表现力与真实感。我们进行了广泛的实验,将我们的方法与前沿模型如Hunyuan-Avatar和Omnihuman进行了对比。实验结果一致表明,我们的方法显著优于这些现有解决方案。此外,我们还通过长视频生成和精确视频唇形同步编辑等应用,探索了该方法的广泛适用性。
近期网格生成方法通常将三角网格转化为一系列标记,并训练自回归模型来顺序生成这些标记。尽管取得了显著进展,但这类标记序列不可避免地会重复使用顶点以完整表示流形网格,因为每个顶点被多个面共享。这种冗余导致标记序列过长,生成过程效率低下。本文提出了一种高效框架,通过分别处理顶点和面来生成艺术网格,显著减少了冗余。我们仅使用自回归模型生成顶点,将所需标记数量降至现有最紧凑标记器的约23%。接着,我们利用双向Transformer通过捕捉顶点间关系并构建定义网格面的邻接矩阵,在单步内完成网格生成。为进一步提升生成质量,我们引入了保真度增强器以优化顶点位置,使其排列更加自然,并提出后处理框架来去除不良边连接。实验结果表明,与最先进方法相比,我们的方法在网格生成速度上提升了8倍以上,同时生成更高质量的网格。
具备链式思维推理能力的大型语言模型(LLMs)已展现出卓越的问题解决能力,但在实际部署中,控制其计算开销仍是一大挑战。近期,如OpenAI的gpt-oss系列等专有系统引入了离散操作模式以实现直观的推理控制,然而开源社区大多未能实现类似功能。本文中,我们提出了ThinkDial,这是首个开源端到端框架,成功通过离散操作模式实现了gpt-oss风格的可控推理。我们的系统能够在三种不同的推理模式间无缝切换:高性能模式(全推理能力)、中等模式(减少50%的token使用,性能下降小于10%)和低性能模式(减少75%的token使用,性能下降小于15%)。这一成果得益于我们采用的端到端训练范式,该范式将预算模式控制整合至整个流程中:包括嵌入可控推理能力的预算模式监督微调,以及采用自适应奖励塑形的两阶段预算感知强化学习。大量实验表明,ThinkDial在保持性能阈值的同时,实现了目标压缩与性能间的权衡,并显著缩短了响应长度。此外,该框架在分布外任务上也展现了强大的泛化能力。
深度研究智能体的出现大幅缩短了进行广泛研究任务所需的时间。然而,这些任务本质上要求严格的事实准确性和全面性标准,因此在广泛采用前需要进行彻底评估。本文提出了ReportBench,一个系统化的基准测试,旨在评估由大型语言模型(LLMs)生成的研究报告的内容质量。我们的评估聚焦于两个关键维度:(1)引用文献的质量与相关性,以及(2)生成报告中陈述的忠实性与真实性。ReportBench利用arXiv上高质量发表的综述论文作为黄金标准参考,通过逆向提示工程从中提取领域特定的提示,并建立一个全面的评估语料库。此外,我们在ReportBench中开发了一个基于智能体的自动化框架,该框架通过提取引用和陈述,对照原始来源检查引用内容的忠实性,并利用网络资源验证非引用声明,系统分析生成报告。实证评估表明,如OpenAI和Google开发的商业深度研究智能体,相较于仅配备搜索或浏览工具的独立LLMs,能生成更为全面和可靠的报告。然而,在研究覆盖的广度与深度以及事实一致性方面,仍有显著的提升空间。完整代码与数据将在以下链接发布:https://github.com/ByteDance-BandAI/ReportBench。
药物研发是一个复杂且资源密集的过程,早期预测审批结果对于优化研究投资至关重要。尽管传统的机器学习和深度学习方法在药物审批预测中展现出潜力,但其有限的解释性制约了其影响力。本文提出了DrugReasoner,一个基于推理的大型语言模型(LLM),构建于LLaMA架构之上,并通过群体相对策略优化(GRPO)进行微调,用于预测小分子药物获批的可能性。DrugReasoner整合了分子描述符,并与结构相似的已获批和未获批化合物进行对比推理,生成预测结果的同时提供逐步推理过程和置信度评分。在验证集上,DrugReasoner取得了稳健的性能,AUC为0.732,F1得分为0.729;在测试集上,AUC和F1得分分别为0.725和0.718,这些结果超越了包括逻辑回归、支持向量机和k近邻在内的传统基线方法,并与XGBoost相比具有竞争力。在一个外部独立数据集上,DrugReasoner不仅超越了基线模型,还超越了近期开发的ChemAP模型,实现了AUC为0.728和F1得分为0.774,同时保持了高精度和平衡的敏感性,展现了在实际应用中的鲁棒性。这些发现表明,DrugReasoner不仅提供了具有竞争力的预测准确性,还通过其推理输出增强了透明度,从而解决了AI辅助药物发现中的一个关键瓶颈。本研究强调了推理增强型LLM作为可解释且有效的药物决策工具的潜力。
经验性的规模定律推动了大规模语言模型(LLMs)的发展,然而每当模型架构或数据处理流程发生变化时,其系数也会随之调整。专家混合模型(MoE)作为当前顶尖系统中的标准配置,引入了一个新的稀疏维度,这是现有密集模型前沿所忽视的。我们探究了MoE稀疏性如何影响两种不同的能力范畴:记忆与推理。我们训练了一系列MoE Transformer模型,这些模型在保持计算预算不变的前提下,系统地变化总参数量、激活参数量以及top-k路由策略。对于每一个模型,我们记录了预训练损失、下游任务损失及任务准确率,从而能够将训练-测试泛化差距与损失-准确率差距区分开来。记忆基准测试随着总参数量的增加而单调提升,与训练损失相呼应。相比之下,推理性能则趋于饱和,甚至在总参数量和训练损失持续改善的情况下可能出现倒退。当激活参数量保持不变时,仅调整top-k影响甚微,而诸如学习率和初始化等经典超参数则以与稀疏性相同的方向调节泛化差距。无论是训练后的强化学习(GRPO)还是额外的测试时计算资源,都无法挽救过度稀疏模型在推理上的不足。我们的模型检查点、代码及日志已在https://github.com/rioyokotalab/optimal-sparsity开源。
科学问题解决对大型语言模型(LLMs)提出了独特挑战,既需要深厚的领域知识,又要求具备通过复杂推理应用这些知识的能力。尽管自动化科学推理器在辅助人类科学家方面展现出巨大潜力,但目前尚缺乏广泛采用的整体基准来评估科学推理能力,且少有方法能系统性地分离知识与推理在这些任务中的不同作用。为填补这些空白,我们引入了SciReas,一套多样化的现有科学推理任务基准集,以及SciReas-Pro,一个需要更复杂推理的精选子集。我们的整体评估揭示了仅依赖单一基准时难以察觉的科学推理性能洞察。随后,我们提出了KRUX,一个用于探究科学任务中推理与知识各自作用的探测框架。结合两者,我们进行了深入分析,得出几个关键发现:(1) 从模型参数中检索任务相关知识是LLMs在科学推理中的关键瓶颈;(2) 推理模型在已有推理增强基础上,持续受益于外部知识的上下文补充;(3) 提升语言化推理能力有助于LLMs更好地提取任务相关知识。最后,我们进行了一项轻量级分析,将我们的科学导向数据构成与同期长链思维微调(CoT SFT)研究进行对比,并发布了SciLit01,一个为科学推理设立的强大8B基线模型。
三维修复通常依赖于多视角的二维图像修复,然而不同修复视图间固有的不一致性可能导致纹理模糊、空间不连续以及引人注目的视觉伪影。这些不一致性在追求精确且逼真的三维物体补全时构成了重大挑战,尤其是在要求高保真度和结构一致性的应用场景中。为克服这些局限,我们提出了ObjFiller-3D,一种专为高质量、一致性三维物体补全与编辑设计的新方法。不同于传统的二维图像修复模型,我们的方法巧妙利用了精选的先进视频编辑模型来填补三维物体的掩蔽区域。我们分析了三维与视频之间的表示差异,并提出了一种将视频修复模型适配于三维场景修复的策略。此外,我们引入了一种基于参考的三维修复方法,以进一步提升重建质量。在多个数据集上的实验表明,与先前方法相比,ObjFiller-3D能够生成更为忠实且精细的重建结果(PSNR为26.6,优于NeRFiller的15.9;LPIPS为0.19,优于Instant3dit的0.25)。更重要的是,它展现了在实际三维编辑应用中部署的强大潜力。项目页面:https://objfiller3d.github.io/ 代码:https://github.com/objfiller3d/ObjFiller-3D。
大型语言模型(LLMs)在通用问答任务中表现出色,但在特定领域场景中往往表现欠佳。检索增强生成(RAG)引入了外部知识,却因噪声检索导致幻觉和延迟问题。持续预训练虽能内化领域知识,但成本高昂且缺乏跨领域灵活性。我们将这一挑战归因于领域知识的长尾分布,使得部分有用但未被充分利用的内部知识未能发挥其价值。我们进一步主张,知识获取应遵循渐进式原则,模仿人类学习过程:先理解概念,再将其应用于复杂推理。为此,我们提出了Selct2Know(S2K),一个成本效益高的框架,通过内部-外部知识自选择策略和选择性监督微调来内化领域知识。我们还引入了一个结构化推理数据生成管道,并整合GRPO以增强推理能力。在医疗、法律和金融问答基准测试中,S2K持续超越现有方法,并以显著更低的成本匹配领域预训练的LLMs。
本文介绍了MovieCORE,一个旨在深入探究电影内容认知理解的新型视频问答(VQA)数据集。与现有侧重于表层理解的数据集不同,MovieCORE强调能够激发系统二思维且紧密围绕视频素材的问题。我们提出了一种创新的主动头脑风暴方法,利用多个大型语言模型(LLMs)作为思维代理,生成并优化高质量的问答对。为评估数据集质量,我们开发了一套认知测试,考察问题的深度、启发思考的潜力及句法复杂性。同时,我们提出了一套全面的评估方案,用于衡量VQA模型在深层认知任务上的表现。针对现有视频语言模型(VLMs)的局限,我们引入了一个主动增强模块——主动选择增强(ACE),该模块在训练后提升模型推理能力高达25%。我们的工作推动了AI系统对电影理解的进步,并为当前VQA模型在面对更具挑战性、更细腻的电影内容提问时的能力与局限提供了宝贵见解。项目页面、数据集及代码可访问https://joslefaure.github.io/assets/html/moviecore.html获取。
大型语言模型(LLMs)在可执行运行时环境中训练时展现出卓越能力,尤其在通过验证反馈循环处理软件工程任务方面表现突出。然而,可扩展且普遍适用的执行基础环境仍然稀缺,这限制了训练更强大机器学习代理的进展。我们推出了CTF-Dojo,这是首个专为通过可验证反馈训练LLMs而设计的大规模可执行运行时环境,包含658个完全功能的夺旗赛(CTF)式挑战,均封装于Docker中,确保可复现性。为实现无需人工干预的快速扩展,我们开发了CTF-Forge,一个自动化流程,能在几分钟内将公开可用的资源转化为即用型执行环境,省去了传统上数周的专家配置时间。我们仅利用CTF-Dojo中486条高质量、执行验证的轨迹训练了基于LLM的代理,在InterCode-CTF、NYU CTF Bench和Cybench三个竞争性基准测试中,相较于强劲基线,实现了最高11.6%的绝对性能提升。我们表现最佳的32B模型达到了31.9%的Pass@1,确立了新的开放权重最先进水平,可与DeepSeek-V3-0324和Gemini-2.5-Flash等前沿模型媲美。通过将CTF式任务定位为可执行代理学习的基准,CTF-Dojo证明了执行基础训练信号不仅有效,而且是推动高性能机器学习代理进步的关键,无需依赖昂贵的专有系统。
大型语言模型(LLMs)通过从科学发现、医疗诊断到聊天机器人等广泛应用,在科学、工程及社会领域带来了显著进步,重塑了我们的世界。尽管LLMs无处不在且实用,但其运作机制仍隐藏在数十亿参数与复杂结构之中,使得其内部架构与认知过程难以理解。针对这一空白,我们借鉴了生物学中理解新兴认知的方法,开发了一种基于网络的框架,将认知技能、LLM架构及数据集联系起来,从而引领了基础模型分析范式的转变。模块社区中的技能分布表明,尽管LLMs并未严格遵循特定生物系统中观察到的集中化专长模式,但它们展现出了独特的模块社区,其涌现的技能模式部分映射了鸟类和小型哺乳动物大脑中分布式却又相互关联的认知组织。我们的数值结果揭示了LLMs与生物系统间的一个关键差异:在LLMs中,技能获取极大地受益于动态的跨区域交互与神经可塑性。通过将认知科学原理与机器学习相结合,我们的框架为LLM的可解释性提供了新见解,并指出有效的微调策略应利用分布式学习动态,而非僵化的模块干预。
大型语言模型(LLMs)的高级推理能力导致了更高的幻觉发生率;然而,大多数缓解工作集中于事后过滤,而非塑造触发这些幻觉的查询。我们引入了QueryBandits,这是一个基于多臂赌博机框架的查询重写策略设计工具,旨在最大化一个奖励模型,该模型根据输入查询的17个语言特征敏感性来封装幻觉倾向,从而主动引导LLMs远离生成幻觉。在13个多样化的问答基准测试及每个数据集1,050个词汇扰动查询上,我们最优的上下文QueryBandit(Thompson采样)相较于无重写基线取得了87.5%的胜率,并分别以42.6%和60.3%的优势超越了零样本静态提示(“释义”或“扩展”)。因此,我们通过实证验证了QueryBandits通过查询重写干预形式在缓解幻觉方面的有效性。有趣的是,某些静态提示策略,构成了当前查询重写文献的相当一部分,其累积遗憾度高于无重写基线,表明静态重写可能加剧幻觉。此外,我们发现收敛的每臂回归特征权重向量证实了不存在适用于所有查询的单一最优重写策略。在此背景下,通过QueryBandits利用语义特征进行引导重写,能够通过前向传播机制引发输出行为的显著转变,无需重新训练或基于梯度的适应。
大型语言模型(LLMs)在众多生成任务中展现了卓越的性能。然而,如何有效地将其与期望行为对齐仍是一个重大挑战。激活引导是一种高效且经济的方法,它直接在推理阶段修改LLMs的激活状态,使其响应与期望行为保持一致,从而避免了微调的高昂成本。现有方法通常不加区分地对所有生成内容进行干预,或仅依赖问题本身来决定干预,这限制了对干预强度准确评估的能力。为此,我们提出了带有回溯机制的灵活激活引导(FASB)框架,该框架通过跟踪LLMs在生成过程中的内部状态,综合考虑问题及生成内容,动态决定干预的必要性和强度。由于在检测到偏离期望行为后再进行干预往往为时已晚,我们进一步引入了回溯机制,以纠正偏离的标记,引导LLMs回归期望行为。在TruthfulQA数据集及六个多项选择题数据集上的广泛实验表明,我们的方法优于基线模型。代码将在https://github.com/gjw185/FASB 发布。
本研究评估了深度神经网络在预测金融收益概率分布方面的应用。采用一维卷积神经网络(CNN)和长短期记忆网络(LSTM)架构,对三种概率分布——正态分布、学生t分布及偏态学生t分布的参数进行预测。通过自定义的负对数似然损失函数,直接优化分布参数。模型在六大主要股票指数(标普500、巴西BOVESPA、德国DAX、波兰WIG、日经225及韩国KOSPI)上进行了测试,并运用了包括对数预测分数(LPS)、连续排名概率分数(CRPS)和概率积分变换(PIT)在内的概率评估指标。结果表明,深度学习模型能够提供精确的分布预测,并在风险价值(VaR)估计方面与传统的GARCH模型表现相当。其中,采用偏态学生t分布的LSTM模型在多项评估标准中表现最佳,有效捕捉了金融收益的厚尾特征与不对称性。此研究证实,深度神经网络可作为传统计量经济学模型在金融风险评估与投资组合管理中的可行替代方案。
法律诉求指的是案件中原告的主张,对于引导司法推理和案件解决至关重要。尽管许多研究致力于提高法律专业人士的工作效率,但针对非专业人士(如原告)的辅助研究仍处于空白。本文探讨了基于给定案件事实生成法律诉求的问题。首先,我们从各类现实法律纠纷中构建了ClaimGen-CN,这是首个面向中文法律诉求生成任务的数据集。此外,我们设计了一套专门用于评估生成诉求的指标,涵盖事实准确性和表达清晰度两个核心维度。在此基础上,我们对当前最先进的通用及法律领域大语言模型进行了全面的零样本评估。研究结果揭示了现有模型在事实精确性和表达清晰度方面的局限,表明该领域需要更具针对性的发展。为促进这一重要任务的进一步探索,我们将公开该数据集。