每日精选AI研究论文及翻译
统一多模态理解与生成已在尖端专有系统中展现出卓越能力。本研究推出BAGEL,一个开源基础模型,原生支持多模态理解与生成。BAGEL是一个统一的仅解码器模型,预训练于从大规模交错文本、图像、视频及网页数据中精选的数万亿个标记之上。当以如此多样化的多模态交错数据进行扩展时,BAGEL在复杂多模态推理方面展现出新兴能力。因此,在标准基准测试中,BAGEL在多模态生成与理解上均显著超越开源统一模型,同时展示了诸如自由形式图像编辑、未来帧预测、三维操控及世界导航等先进多模态推理能力。为促进多模态研究的进一步发展,我们分享了关键发现、预训练细节、数据创建协议,并向社区公开了代码与检查点。项目页面位于https://bagel-ai.org/。
注意力机制的效率至关重要,因其具有二次时间复杂度。我们通过两项关键贡献提升了注意力机制的效率:首先,我们利用Blackwell GPU中的新型FP4 Tensor Core加速注意力计算。我们的实现在RTX5090上达到了1038 TOPS,相比RTX5090上最快的FlashAttention实现了5倍加速。实验表明,我们的FP4注意力机制能够以即插即用的方式加速多种模型的推理过程。其次,我们率先将低位宽注意力应用于训练任务。现有的低位宽注意力工作,如FlashAttention3和SageAttention,仅专注于推理阶段。然而,训练大型模型的效率同样重要。为了探索低位宽注意力能否有效应用于训练任务,我们设计了一种精确且高效的8位注意力机制,适用于前向和反向传播。实验结果显示,8位注意力在微调任务中实现了无损性能,但在预训练任务中表现出较慢的收敛速度。代码将在https://github.com/thu-ml/SageAttention 公开。
奖励模型在引导大型语言模型生成符合人类期望的输出方面发挥着关键作用。然而,如何有效利用测试时的计算资源来提升奖励模型性能仍是一个开放性的挑战。在本研究中,我们提出了奖励推理模型(RRMs),该模型专门设计用于在生成最终奖励之前执行深思熟虑的推理过程。通过思维链推理,RRMs针对那些适当奖励并不显而易见的复杂查询,充分利用额外的测试时计算资源。为了开发RRMs,我们实施了一个强化学习框架,该框架能够培养自我进化的奖励推理能力,而无需依赖明确的推理轨迹作为训练数据。实验结果表明,RRMs在跨多个领域的奖励建模基准测试中均取得了卓越的性能。尤为重要的是,我们展示了RRMs能够自适应地利用测试时计算资源,从而进一步提升奖励的准确性。预训练的奖励推理模型已发布于https://huggingface.co/Reward-Reasoning。
提升测试阶段的计算规模对于增强大型语言模型(LLMs)的推理能力至关重要。现有方法通常采用强化学习(RL)来最大化在推理轨迹末端获得的可验证奖励。然而,这些方法仅在大且固定的令牌预算下优化最终性能,这限制了训练和部署的效率。在本研究中,我们提出了一个新颖的框架——AnytimeReasoner,旨在优化任意时刻的推理性能,以提高令牌效率及在不同令牌预算约束下的推理灵活性。为此,我们将完整的思考过程截断以适应从先验分布中采样的令牌预算,迫使模型为每次截断的思考总结出最优答案以供验证。这为推理过程引入了可验证的密集奖励,促进了RL优化中更有效的信用分配。随后,我们以解耦的方式优化思考策略和总结策略,以最大化累积奖励。此外,我们引入了一种新颖的方差缩减技术——预算相对策略优化(BRPO),以增强在强化思考策略时学习过程的鲁棒性和效率。在数学推理任务中的实证结果表明,我们的方法在各种先验分布下,于所有思考预算上均优于GRPO,显著提升了训练和令牌效率。
神经符号(NeSy)预测器通过结合神经感知与符号推理来解决诸如视觉推理等任务。然而,标准的NeSy预测器假设其提取的符号之间条件独立,这限制了它们建模交互和不确定性的能力,常常导致预测过于自信以及分布外泛化性能不佳。为了克服独立性假设的局限,我们引入了神经符号扩散模型(NeSyDMs),这是一类新的NeSy预测器,利用离散扩散来建模符号间的依赖关系。我们的方法在扩散过程的每一步复用NeSy预测器的独立性假设,从而在捕捉符号依赖关系和不确定性量化的同时,实现了可扩展的学习。在包括高维视觉路径规划和基于规则的自动驾驶在内的合成与真实世界基准测试中,NeSyDMs在NeSy预测器中达到了最先进的准确率,并展现出良好的校准性能。
大型推理模型(如OpenAI的o3)的一个关键趋势是其原生具备使用外部工具的能力,例如利用网络浏览器进行搜索、编写/执行代码以进行图像处理,从而实现基于图像的思考。在开源研究社区中,尽管在纯语言代理能力(如函数调用和工具集成)方面已取得显著进展,但涉及真正基于图像思考的多模态代理能力及其相应基准的开发仍较少被探索。本研究强调了视觉代理强化微调(Visual-ARFT)在赋予大型视觉语言模型(LVLMs)灵活且自适应推理能力方面的有效性。通过Visual-ARFT,开源LVLMs能够浏览网站以获取实时信息更新,并编写代码通过裁剪、旋转等图像处理技术来操作和分析输入图像。我们还提出了一个多模态代理工具基准(MAT),包含两种设置(MAT-Search和MAT-Coding),旨在评估LVLMs的代理搜索和编码能力。实验结果表明,Visual-ARFT在MAT-Coding上比基线高出+18.6% F1 / +13.0% EM,在MAT-Search上高出+10.3% F1 / +8.7% EM,最终超越了GPT-4o。此外,Visual-ARFT在现有的多跳问答基准(如2Wiki和HotpotQA)上实现了+29.3% F1 / +25.9% EM的提升,展示了强大的泛化能力。我们的发现表明,Visual-ARFT为构建稳健且可泛化的多模态代理提供了一条有前景的路径。
DeepSeek-R1在通过强化学习激励大型语言模型(LLMs)的推理与泛化能力方面展现了显著成效。然而,在极度依赖视觉推理的图像质量评估(IQA)任务中,推理驱动的计算建模潜力尚未得到充分探索。本文提出VisualQuality-R1,一种推理引导的无参考IQA(NR-IQA)模型,并采用专为视觉质量内在相对性设计的强化学习排序算法进行训练。具体而言,对于一对图像,我们运用群体相对策略优化为每幅图像生成多个质量评分,随后基于Thurstone模型计算一幅图像质量高于另一幅的比较概率。每个质量估计的奖励采用连续保真度度量而非离散二元标签定义。大量实验表明,所提出的VisualQuality-R1在性能上持续超越基于判别式深度学习的NR-IQA模型及近期一项推理引导的质量回归方法。此外,VisualQuality-R1能够生成上下文丰富、与人类感知一致的质量描述,并支持无需感知尺度重新对齐的多数据集训练。这些特性使得VisualQuality-R1特别适用于可靠衡量超分辨率、图像生成等广泛图像处理任务的进展。
Transformer作为大型语言模型(LLMs)的标准实现,通常由数十至数百个离散层构成。尽管增加层数可能提升性能,但这一方法在效率上备受质疑,尤其是在扩散模型和基于流的模型在图像生成领域展现出连续层优越性的背景下。我们提出了潜在流Transformer(LFT),它通过流匹配训练的一个单一学习传输算子替代一组层,实现了显著的压缩,同时保持了与原始架构的兼容性。此外,针对现有基于流的方法在保持耦合性上的局限,我们引入了流漫步(FW)算法。在Pythia-410M模型上,采用流匹配训练的LFT压缩了24层中的6层,其表现优于直接跳过2层的情况(语言模型对数概率的KL散度为0.407对比0.529),验证了该设计的可行性。当结合FW训练时,LFT进一步将12层蒸馏为一层,并将KL散度降至0.736,优于跳过3层的结果(0.932),显著缩小了自回归与基于流生成范式之间的差距。
目的:随着大型语言模型(LLMs)在医疗领域的进步,开发具有竞争力的开源模型以保护公众利益的需求日益凸显。本研究通过优化数据预处理和训练的关键阶段,展示了如何通过直接偏好优化(DPO)提升模型安全性,以及通过检索增强生成(RAG)提高模型效能,为开源医疗LLM领域做出了贡献。所采用的评估方法,包括四种不同类型的测试,为该领域设定了新标准。最终发布的模型在性能上与最佳私有替代品相当,并以宽松许可协议发布。 方法:基于Llama 3.1和Qwen 2.5等强大基础模型,Aloe Beta利用定制数据集,通过合成思维链示例增强公共数据。模型经过直接偏好优化对齐,在面临越狱攻击时强调伦理与政策一致性表现。评估包括封闭式、开放式、安全性及人工评估,以最大化结果的可靠性。 结果:基于Aloe系列模型的稳健表现,提出了贯穿整个流程的优化建议。这些模型在医疗基准测试和多个医学领域中展现出竞争力,并常为医疗专业人士所青睐。在偏见和毒性方面,Aloe Beta模型显著提升了安全性,对未知越狱攻击表现出较强抵抗力。为确保负责任地发布,Aloe系列模型附有详细的医疗领域风险评估。 结论:Aloe Beta模型及其开发方法,为开源医疗LLM领域做出了重要贡献,在提供顶尖性能的同时,坚守高伦理标准。本工作为医疗领域开发与报告对齐LLM设立了新标杆。
强化学习(RL)近期在提升大型语言模型(LLMs)的推理能力方面展现出显著潜力。特别是由Deepseek-R1-Zero提出的“零”强化学习,使得基础LLMs无需依赖中间阶段的监督微调即可直接进行RL训练。尽管取得了这些进展,当前针对LLM推理的研究主要集中于数学和编程领域,这很大程度上得益于数据的丰富性及答案验证的便捷性。然而,这限制了此类模型在更广泛领域的适用性和泛化能力,这些领域的问题往往具有多样化的答案表达形式,且数据更为稀缺。本文提出了一种新颖的训练范式——通用推理器(General-Reasoner),旨在增强LLMs跨领域的推理能力。我们的主要贡献包括:(1)通过网页爬取构建了一个大规模、高质量的问题数据集,这些问题带有可验证答案,覆盖了广泛的学科领域;(2)开发了一种基于生成模型的答案验证器,它利用思维链和上下文感知能力替代了传统的基于规则的验证方法。我们训练了一系列模型,并在涵盖物理、化学、金融、电子等多个领域的广泛数据集上进行了评估。在包括MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH和MATH AMC在内的12个基准测试中,全面评估表明,通用推理器超越了现有的基线方法,在保持数学推理任务高效性的同时,实现了稳健且可泛化的推理性能。
近期的大型推理模型(LRMs)通过在生产最终响应前引入扩展的思维过程,相较于传统的大型语言模型(LLMs)展现出了显著提升的推理能力。然而,过长的思维过程会带来大量的令牌消耗和延迟开销,这对于简单查询而言尤为不必要。在本研究中,我们提出了大型混合推理模型(LHRMs),这是首类能够根据用户查询的上下文信息自适应决定是否执行思维过程的模型。为实现这一目标,我们设计了一个两阶段训练流程:首先采用混合微调(HFT)作为冷启动,随后通过提出的混合群体策略优化(HGPO)进行在线强化学习,以隐式学习选择适当的思维模式。此外,我们引入了一种名为混合准确率的指标,用于定量评估模型的混合思维能力。大量实验结果表明,LHRMs能够针对不同难度和类型的查询自适应地执行混合思维,在推理和通用能力上均优于现有的LRMs和LLMs,同时显著提升了效率。我们的工作共同倡导重新审视扩展思维过程的适当使用,并为构建混合思维系统提供了坚实的起点。
尽管大型语言模型(LLMs)具备强大能力,它们往往难以准确传达其置信度,这使得评估其可能出错的情况变得困难,从而限制了其可靠性。在本研究中,我们证明了推理模型——即那些进行扩展链式思维(CoT)推理的LLMs——不仅在问题解决上表现更优,还能更精确地表达其置信度。具体而言,我们在六个数据集上对六种推理模型进行了基准测试,发现它们在36种设定中有33种情况下,其置信度校准严格优于非推理模型。深入分析表明,这些校准上的提升源于推理模型的慢思考行为,如探索替代方法和回溯,这些行为使它们能够在CoT过程中动态调整置信度,使其逐步变得更加准确。特别地,我们发现随着CoT的展开,推理模型的校准度持续提高,这一趋势在非推理模型中并未观察到。此外,若从CoT中移除慢思考行为,校准度会显著下降。最后,我们指出这些优势并非推理模型独有——通过上下文学习引导非推理模型进行慢思考,它们同样能从中获益。
近期,专注于推理的语言模型通过生成冗长的中间推理路径来获得高准确率。尽管这种方法在解决需要逻辑思维的问题上效果显著,但过长的推理路径显著增加了内存使用量和令牌生成的吞吐量,限制了此类模型的实际部署。我们提出了推理路径压缩(RPC),一种无需训练的方法,通过利用推理路径的语义稀疏性来加速推理过程。RPC定期压缩键值(KV)缓存,仅保留那些获得高重要性评分的KV缓存,这些评分由最近生成的查询组成的选择器窗口计算得出。实验表明,与使用完整KV缓存的推理相比,RPC将QwQ-32B的生成吞吐量提升了最高1.60倍,在AIME 2024基准测试上的准确率仅下降1.2%。我们的研究结果表明,推理轨迹中的语义稀疏性可有效用于压缩,为高效部署推理型大语言模型提供了一条实用路径。我们的代码可在https://github.com/jiwonsong-dev/ReasoningPathCompression获取。
学习通用推理能力一直是人工智能领域的一个长期挑战。近期在大语言模型(LLMs)如DeepSeek-R1的研究表明,通过GRPO等强化学习技术,预训练的LLMs能够利用简单的问答对发展出推理能力。本文旨在通过强化学习和视觉问答对,训练视觉语言模型(VLMs)在图像数据上进行推理,而无需任何显式的思维链(CoT)监督。我们的研究发现,仅对VLM应用强化学习——即提示模型在提供答案前生成推理链——会导致模型从简单问题中寻找捷径,从而降低其在未见数据分布上的泛化能力。我们认为,缓解捷径学习的关键在于鼓励模型在推理前先对图像进行解释。因此,我们训练模型遵循“描述-推理-回答”的输出格式:首先生成图像的详细描述,随后构建详尽的推理链。在273K个无CoT的视觉问答对上仅使用强化学习进行训练后,我们的模型Visionary-R1在多个视觉推理基准测试中超越了GPT-4o、Claude3.5-Sonnet和Gemini-1.5-Pro等强大的多模态模型。
智能游戏创作标志着游戏开发领域的一次革命性进步,它利用生成式人工智能动态生成并优化游戏内容。尽管生成模型已取得显著进展,但高质量游戏资产(包括图像与视频)的全面合成仍是一个充满挑战的前沿领域。为了创造出既符合玩家偏好又能大幅提升设计师效率的高保真游戏内容,我们推出了旨在革新智能游戏生产的创新项目——HunYuan-Game。HunYuan-Game包含两大核心分支:图像生成与视频生成。图像生成部分基于包含数十亿游戏图像的庞大数据集,开发了一系列专为游戏场景定制的图像生成模型:(1) 通用文本到图像生成。(2) 游戏视觉效果生成,涵盖基于文本到效果及参考图像的视觉效果生成。(3) 针对角色、场景及游戏视觉效果的透明图像生成。(4) 基于草图、黑白图像及白模的游戏角色生成。视频生成部分则依托于数百万游戏与动漫视频的全面数据集,构建了五大核心算法模型,每个模型均针对游戏开发中的关键痛点,并具备对多样化游戏视频场景的强大适应能力:(1) 图像到视频生成。(2) 360度A/T姿态角色视频合成。(3) 动态插画生成。(4) 生成式视频超分辨率。(5) 交互式游戏视频生成。这些图像与视频生成模型不仅展现出高水平的艺术表现力,还深度融合了领域专业知识,形成了对多样化游戏与动漫艺术风格的系统性理解。
近期,大型多模态模型(LMMs)作为长视频理解(LVU)的强大工具崭露头角,推动了标准化LVU基准的开发以评估其性能。然而,我们的研究揭示了现有LVU基准的一个严峻问题。首先,多数现有基准过度依赖多项选择题(MCQs),其评估结果因猜测正确答案的可能性而被夸大;其次,这些基准中相当一部分问题存在强烈先验,使得模型无需观看输入视频即可直接作答。例如,在Video-MME上,Gemini-1.5-Pro仅凭长视频中的随机一帧就能达到超过50%的准确率。我们还观察到,在现有基准上增加帧数并不必然带来性能提升,这一现象有悖常理。因此,当前LVU基准的有效性和鲁棒性受到削弱,阻碍了对LMMs长视频理解能力的真实评估。为解决这一问题,我们提出了VideoEval-Pro,一个包含开放式简答题的现实LVU基准,这些问题真正要求理解整个视频内容。VideoEval-Pro通过感知与推理任务,评估片段级和全视频理解能力。通过对21个专有及开源视频LMMs的评估,我们得出以下结论:(1) 视频LMMs在开放式问题上的表现相比MCQs有显著下降(>25%);(2) 令人惊讶的是,在VideoEval-Pro上,更高的MCQ得分并未带来更高的开放式问题得分;(3) 与其他MCQ基准相比,VideoEval-Pro从增加输入帧数中获益更多。我们的结果表明,VideoEval-Pro为长视频理解提供了更为现实和可靠的衡量标准,为该领域的进展提供了更清晰的视角。
代码转换(CS)对大型语言模型(LLMs)构成了重大挑战,然而其在LLMs中的可理解性仍未被充分探讨。我们引入了CS-Sum,通过将CS对话转换为英语摘要来评估LLMs对CS的理解能力。CS-Sum是首个跨普通话-英语(EN-ZH)、泰米尔语-英语(EN-TA)和马来语-英语(EN-MS)的CS对话摘要基准,每种语言对包含900至1300条人工标注的对话。通过评估包括开源和闭源模型在内的十种LLMs,我们分析了在少样本学习、翻译后摘要以及微调(LoRA、QLoRA在合成数据上)等方法下的表现。我们的研究结果表明,尽管在自动化指标上得分较高,但LLMs在处理CS输入时仍会犯下细微错误,从而完全改变对话的原意。为此,我们归纳了LLMs在处理CS输入时最常见的三类错误。错误率因CS语言对和LLMs的不同而异,某些LLMs在特定语言对上表现出更频繁的错误,这凸显了对代码转换数据进行专门训练的必要性。
大语言模型(LLM)剪枝技术作为一种有前景的压缩手段,正推动LLM在资源受限设备上的部署。然而,现有方法通常依赖于公开校准样本的获取,这在注重隐私的领域中面临挑战。为解决这一问题,我们提出了FedPrLLM,一个全面的联邦剪枝框架,专为保护隐私的LLM压缩而设计。在FedPrLLM中,每个客户端仅需基于本地校准数据计算剪枝掩码矩阵,并与服务器共享以修剪全局模型。这一方法实现了在保护本地数据隐私的同时,利用各客户端知识协同修剪全局模型。此外,我们通过大量实验探索了FedPrLLM框架内的多种可能性,包括不同的对比组、剪枝策略以及权重缩放决策。深入评估表明,在FedPrLLM框架下,采用层间对比且不进行权重缩放的一次性剪枝是最优选择。我们期望本工作能为隐私敏感领域中的LLM剪枝研究提供指导。相关代码已发布于https://github.com/Pengxin-Guo/FedPrLLM。
隐形图像水印技术能够有效保护图像版权,防止视觉生成模型被恶意滥用。然而,现有的生成式水印方法主要针对扩散模型设计,而对于自回归图像生成模型的水印技术研究仍显不足。为此,我们提出了IndexMark,一种无需训练的自回归图像生成模型水印框架。IndexMark的灵感来源于码本冗余特性:用相似索引替换自回归生成的索引,对图像视觉差异影响微乎其微。IndexMark的核心在于一种简洁高效的匹配-替换方法,该方法基于令牌相似度从码本中精心挑选水印令牌,并通过令牌替换促进水印令牌的使用,从而在不影响图像质量的前提下嵌入水印。水印验证通过计算生成图像中水印令牌的比例实现,并借助索引编码器进一步提升验证精度。此外,我们还引入了一种辅助验证方案,以增强对裁剪攻击的鲁棒性。实验表明,IndexMark在图像质量和验证准确性方面均达到了业界领先水平,并对裁剪、噪声、高斯模糊、随机擦除、色彩抖动及JPEG压缩等多种干扰表现出良好的鲁棒性。
尽管多模态大语言模型(MLLMs)已得到广泛应用,但在面对分布变化下的陌生查询时,其性能仍会下降。现有提升MLLM泛化能力的方法通常需要更多的指令数据或更先进的模型架构,这两者都伴随着不小的人力或计算成本。本研究从表示学习的角度出发,采取了一种不同的策略来增强MLLM在分布变化下的鲁棒性。受信息瓶颈(IB)原理启发,我们为MLLM推导了IB的变分下界,并设计了一种实用实现——视觉指令瓶颈调优(Vittle)。随后,通过揭示Vittle与MLLM信息论鲁棒性度量的联系,我们为其提供了理论依据。在涵盖45个数据集(包括30种变化场景)的开放式与封闭式问答及对象幻觉检测任务上,对三种MLLM进行的实证验证表明,Vittle通过追求最小充分表示的学习,持续提升了MLLM在变化条件下的鲁棒性。
随着大语言模型规模呈指数级增长,GPU内存已成为将这些模型适配至下游任务的主要瓶颈。本文旨在通过最小化模型权重、梯度和优化器状态的内存占用,在一个统一框架内突破内存高效训练的极限。我们的核心思路是采用零阶优化方法,通过在正向传播过程中扰动权重来近似梯度方向,从而同时消除梯度和优化器状态。为了进一步减少权重的内存占用,我们采用了模型量化技术,例如将bfloat16转换为int4。然而,直接将零阶优化应用于量化权重存在可行性问题,因为离散权重与连续梯度之间的精度差距会导致需要反复进行去量化和再量化操作。为解决这一难题,我们提出了量化零阶优化(QZO)这一创新方法,该方法通过扰动连续量化尺度来估计梯度,并采用方向导数裁剪技术以稳定训练过程。QZO与基于标量和基于码本的后训练量化方法均正交。相较于bfloat16全参数微调,QZO可将4位大语言模型的总内存成本降低超过18倍,并能在单块24GB GPU上完成Llama-2-13B和Stable Diffusion 3.5 Large的微调。
尽管视觉-语言模型(VLMs)在多模态任务中取得了显著进展,但其对RGB输入的依赖限制了精确的空间理解能力。现有整合空间线索(如点云或深度)的方法,要么需要专用传感器,要么未能有效利用深度信息进行高阶推理。为此,我们提出了一种新颖的空间感知与推理方法,称为SSR,该框架将原始深度数据转化为结构化、可解释的文本推理依据。这些文本推理依据作为有意义的中间表示,显著增强了空间推理能力。此外,我们利用知识蒸馏技术,将生成的推理依据压缩为紧凑的潜在嵌入,便于以资源高效且即插即用的方式集成到现有VLMs中,无需重新训练。为了进行全面评估,我们引入了一个名为SSR-CoT的新数据集,这是一个包含百万级视觉-语言推理任务的数据集,并附有中间空间推理注释,同时推出了SSRBench,一个综合的多任务基准测试。在多个基准上的广泛实验表明,SSR显著提升了深度信息的利用效率,增强了空间推理能力,从而推动VLMs向更接近人类的多模态理解迈进。我们的项目页面位于https://yliu-cs.github.io/SSR。
大型推理模型(LRMs)中的专家混合(MoE)架构通过选择性激活专家来促进结构化认知过程,已展现出卓越的推理能力。尽管取得了显著进展,现有推理模型仍常受困于认知效率低下的问题,如过度思考与思考不足。为应对这些局限,我们引入了一种新颖的推理时引导方法——强化认知专家(RICE),旨在无需额外训练或复杂启发式策略的情况下提升推理性能。利用归一化点互信息(nPMI),我们系统性地识别出被称为“认知专家”的特定专家,这些专家主导着以“<think>”等标记为特征的元级推理操作。基于领先的MoE架构LRMs(如DeepSeek-R1和Qwen3-235B)在严格的定量与科学推理基准上的实证评估显示,该方法在推理准确性、认知效率及跨领域泛化能力上均实现了显著且一致的提升。尤为重要的是,我们的轻量级方法在保持模型通用指令跟随能力的同时,显著优于提示设计与解码约束等主流推理引导技术。这些成果表明,强化认知专家是提升高级推理模型认知效率的一个有前景、实用且可解释的研究方向。
生成式AI搜索正在重塑信息检索领域,它能够为复杂查询提供端到端的答案,减少了用户手动浏览和总结多个网页的需求。然而,尽管这一范式提升了便利性,它却打破了传统网络搜索赖以进化的反馈驱动改进循环。网络搜索通过收集大规模、细粒度的文档级用户反馈(如点击、停留时间)来持续优化其排序模型。相比之下,生成式AI搜索则通过一个更长的搜索流程运作,涵盖查询分解、文档检索和答案生成,但通常仅能获得对最终答案的粗粒度反馈。这导致了反馈循环的脱节,即用户对最终输出的反馈无法有效映射回具体系统组件,使得改进每个中间阶段和维持反馈循环变得困难。本文中,我们展望了NExT-Search,这一下一代范式旨在将细粒度的过程级反馈重新引入生成式AI搜索。NExT-Search整合了两种互补模式:用户调试模式,允许积极参与的用户在关键阶段进行干预;以及影子用户模式,其中个性化用户代理模拟用户偏好,为互动较少的用户提供AI辅助的反馈。此外,我们设想了如何通过在线适应(实时精炼当前搜索输出)和离线更新(汇总交互日志以定期微调查询分解、检索和生成模型)来利用这些反馈信号。通过恢复人类对生成式AI搜索流程关键阶段的控制,我们相信NExT-Search为构建能够随人类反馈持续进化的反馈丰富的AI搜索系统指明了一个充满希望的方向。
随着语言模型变得愈发强大和复杂,确保其可信赖与可靠至关重要。初步证据表明,模型可能试图欺骗操作者或保守秘密,这引发了担忧。为了探索现有技术揭示此类隐藏知识的能力,我们训练了一个禁忌模型:该语言模型描述一个特定秘密词汇,却不明言其名。关键在于,该秘密词汇既未出现在模型的训练数据中,也未在提示中提及。随后,我们研究了揭示这一秘密的方法。首先,我们评估了非解释性(黑箱)方法。接着,我们基于机制解释性技术,包括对数透镜和稀疏自编码器,开发了主要自动化的策略。评估结果显示,这两种方法在我们的概念验证场景中均能有效揭示秘密词汇。我们的发现凸显了这些方法在揭示隐藏知识方面的潜力,并提出了若干未来工作的方向,如在更复杂的模型生物上测试和完善这些方法。本工作旨在为解决从语言模型中提取秘密知识这一关键问题迈出一步,从而助力其安全可靠的部署。
我们推出Vox-Profile,这是一个利用语音基础模型全面刻画说话者及语音特征的基准测试平台。与以往仅关注单一维度说话者特征的研究不同,Vox-Profile提供了反映静态说话者特质(如年龄、性别、口音)与动态语音属性(如情感、语流)的多维度综合画像。该基准基于语音科学与语言学理论,在领域专家的指导下开发,旨在精确索引说话者及语音特征。我们通过超过15个公开可用的语音数据集及多个广泛应用的语音基础模型,针对各类静态与动态的说话者及语音属性进行了基准实验。除了基准测试,我们还展示了Vox-Profile支持的多种下游应用。首先,我们证明Vox-Profile能够增强现有语音识别数据集,以分析ASR性能的变异性。此外,Vox-Profile也被用作评估语音生成系统性能的工具。最后,通过与人评估结果的对比,我们验证了自动化画像的质量,并展示了其收敛效度。Vox-Profile已公开发布于:https://github.com/tiantiaf0627/vox-profile-release。
Gemini正日益被用于代表用户执行任务,其函数调用与工具使用能力使模型能够访问用户数据。然而,部分工具需接触不可信数据,这引入了风险。攻击者可在不可信数据中嵌入恶意指令,导致模型偏离用户预期,错误处理其数据或权限。本报告阐述了Google DeepMind评估Gemini模型对抗性鲁棒性的方法,并总结了该过程中的主要经验教训。我们通过一个对抗性评估框架测试Gemini在面对复杂对手时的表现,该框架部署了一系列自适应攻击技术,持续针对Gemini的过去、当前及未来版本进行测试。我们说明了这些持续评估如何直接助力提升Gemini抵御操纵的能力。
蒸馏技术已成为提升开源语言模型推理能力的一种实用且有效的方法。在本研究中,我们通过从三个顶尖教师模型——AM-Thinking-v1、Qwen3-235B-A22B和DeepSeek-R1——收集共享语料库中189万条查询的已验证输出,开展了一项大规模推理数据蒸馏的实证研究。我们构建了三个并行数据集,并分析了它们的分布情况,发现AM-Thinking-v1蒸馏的数据展现出更大的令牌长度多样性和更低的困惑度。基于每个数据集训练的学生模型在包括AIME2024、AIME2025、MATH500和LiveCodeBench在内的推理基准上进行了评估。基于AM的模型始终表现最佳(例如,AIME2024上84.3分,AIME2025上72.2分,MATH500上98.4分,LiveCodeBench上65.9分),并展示了适应性输出行为——对更困难的任务生成更长的响应,而对较简单的任务则生成较短的响应。这些发现凸显了高质量、已验证推理轨迹的价值。我们发布了AM-Thinking-v1和Qwen3-235B-A22B的蒸馏数据集,以支持未来关于开放且高性能的推理导向语言模型的研究。这些数据集已在Hugging Face上公开提供:\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}。
强化微调(Reinforcement Finetuning, RFT)已成为提升大型语言模型(LLMs)推理能力的标准方法。然而,其对模型可信度的影响仍待深入探究。在本研究中,我们识别并系统性地研究了RFT的一个关键副作用,我们称之为“幻觉税”:即模型在拒绝行为上的退化,导致其自信地生成无法回答问题的虚假答案。为探究此现象,我们引入了SUM(合成不可解数学问题),这是一个高质量的不可解数学问题数据集,旨在通过从信息不足或模糊的推理中测试模型识别不可解问题的能力。我们的结果显示,标准的RFT训练可能使模型拒绝率降低超过80%,显著增加了模型产生幻觉的倾向。我们进一步证明,在RFT过程中仅融入10%的SUM数据,即可大幅恢复适当的拒绝行为,且在可解任务上的准确性损失极小。至关重要的是,这种方法使LLMs能够利用推理时的计算资源来思考自身的不确定性和知识边界,不仅提升了在跨域数学问题上的泛化能力,也改善了事实性问答任务的表现。
设计具备有效推理能力的大型语言模型(LLMs)通常需要采用可验证奖励的强化学习(RLVR)或精心策划的长链思维(CoT)蒸馏方法进行训练,这两种方法都高度依赖于大量的训练数据。当高质量训练数据稀缺时,这便构成了一个主要挑战。我们提出了一种样本高效的两阶段训练策略,以在有限监督下开发推理型LLMs。第一阶段,我们通过在玩具领域——即“骑士与无赖”(K&K)逻辑谜题中蒸馏长链思维来“预热”模型,以获取通用推理技能。第二阶段,我们利用有限的目标域示例对预热后的模型应用RLVR。我们的实验表明,这种两阶段方法具有多重优势:(i)仅预热阶段就能促进泛化推理,提升包括MATH、HumanEval⁺和MMLU-Pro在内的多项任务表现;(ii)当基础模型与预热模型在同一小数据集(≤100个示例)上接受RLVR训练时,预热模型始终优于基础模型;(iii)在RLVR训练前进行预热,使模型在特定领域训练后仍能保持跨域泛化能力;(iv)在训练流程中引入预热,不仅提高了准确性,还提升了RLVR训练的整体样本效率。本文结果凸显了在数据稀缺环境中,预热对于构建稳健推理LLMs的潜力。
尽管语言模型在多样化的工作流程中取得了显著成功并得到广泛应用,它们有时仍会产生不真实的回应。我们对于这些模型如何从机制上编码真实性的理解有限,这威胁到了它们的可靠性和安全性。本文提出了一种在神经元层面识别真实性表征的方法。我们证明,语言模型包含真实性神经元,这些神经元以与主题无关的方式编码真实性。通过对不同规模模型进行的实验验证了真实性神经元的存在,证实了在神经元层面编码真实性是许多语言模型共有的特性。真实性神经元在各层中的分布模式与先前关于真实性几何结构的研究结果一致。通过TruthfulQA数据集发现并选择性抑制真实性神经元的激活,不仅降低了在TruthfulQA上的表现,也影响了其他基准测试的结果,表明真实性机制并非特定于某一数据集。我们的研究结果为理解语言模型中真实性的内在机制提供了新的见解,并指出了提升其可信度和可靠性的潜在方向。
确保大型语言模型(LLMs)的安全性对于负责任地部署至关重要,然而现有的评估往往优先考虑性能,而非识别故障模式。我们引入了Phare,一个多语言诊断框架,用于探测和评估LLM在三个关键维度上的行为:幻觉与可靠性、社会偏见以及有害内容生成。通过对17个最先进的LLM进行评估,我们揭示了所有安全维度上系统性的脆弱性模式,包括奉承、提示敏感性和刻板印象再现。通过突出这些具体的故障模式而非简单地排名模型,Phare为研究人员和实践者提供了可操作的见解,以构建更健壮、对齐且值得信赖的语言系统。
漏洞检测技术的快速发展使得发现的漏洞数量远超开发者能够及时修复的能力,这催生了对高效自动化程序修复(APR)方法的迫切需求。然而,现代漏洞的复杂性常常导致精确的根因分析变得困难且不可靠。为应对这一挑战,我们提出了崩溃现场修复方法,以简化修复任务,同时仍能有效降低被利用的风险。此外,我们引入了一种模板引导的补丁生成策略,该策略在保持修复效率与效果的同时,显著降低了大型语言模型(LLMs)的令牌消耗。 我们实现了原型系统WILLIAMT,并与当前最先进的APR工具进行了对比评估。结果显示,当与表现最佳的代理CodeRover-S结合使用时,WILLIAMT在开源软件漏洞基准测试ARVO上将令牌成本降低了45.9%,并将漏洞修复率提升至73.5%(提升了29.6%)。更重要的是,我们证明了WILLIAMT即便在没有前沿LLMs支持的情况下也能有效工作:即便是在Mac M4 Mini上运行的本地模型,也能达到合理的修复率。这些发现凸显了WILLIAMT广泛的适用性和可扩展性。
随着近年来强大大型语言模型(LLMs)的快速发展,众多软件工程任务现可通过LLMs得到解决,极大地提升了生产力和可扩展性。为评估这些模型的编码能力,已开发出大量基准数据集,但这些数据集主要聚焦于问题解决和故障排除任务。相比之下,我们引入了一个新的编码基准MIGRATION-BENCH,其独特关注点在于代码迁移。MIGRATION-BENCH旨在作为从Java 8迁移至最新长期支持(LTS)版本(Java 17、21)的全面基准,包含完整数据集及其精选子集,分别涵盖5,102和300个代码库。精选子集基于复杂性和难度精心挑选,为代码迁移领域的研究提供了多样化的资源支持。此外,我们提供了一套全面的评估框架,以促进对这一挑战性任务进行严格且标准化的LLMs评估。我们进一步提出了SD-Feedback,并证明LLMs能有效应对仓库级别的代码迁移至Java 17。对于使用Claude-3.5-Sonnet-v2的精选子集,SD-Feedback在最小和最大迁移上的成功率(pass@1)分别达到62.33%和27.00%。基准数据集及源代码可分别访问: https://huggingface.co/collections/AmazonScience 和 https://github.com/amazon-science/self_debug。
稀疏专家混合模型(Sparse Mixture of Experts, SMoE)提供了一种颇具吸引力的解决方案,能够在无需单纯增加网络深度或宽度的情况下,有效提升模型的复杂度。然而,我们认为,由于当前的路由过程存在不足——即执行计算的专家并未直接参与路由决策,使得高效的SMoE训练仍面临挑战。在本研究中,我们提出了一种新颖的竞争机制,用于将令牌路由至具有最高神经响应的专家。理论上,我们证明了该竞争机制相较于传统的softmax路由具有更优的样本效率。此外,我们开发了CompeteSMoE,这是一种简单而有效的算法,通过部署一个学习竞争策略的路由器来训练大规模语言模型,从而在较低的训练开销下实现强劲性能。我们在视觉指令调优和语言预训练任务上的广泛实证评估表明,与最先进的SMoE策略相比,CompeteSMoE在效能、鲁棒性和可扩展性方面均展现出显著优势。我们已在https://github.com/Fsoft-AIC/CompeteSMoE公开了实现代码。本工作是对arXiv:2402.02526先前研究的改进版本。
大型语言模型(LLM)在处理复杂任务时的推理过程,本质上需要在解决方案的准确性与计算效率之间做出权衡。后续的验证步骤虽旨在提升性能,却因其自身带来的挑战性权衡而进一步复杂化了这一局面:若在测试时简单地将复杂的生成式奖励模型(GenRMs)与LLM集成,可能导致计算成本过高;而采用更简单、快速的方法,则可能牺牲可靠性。为应对这些挑战,我们引入了FlexiVe,一种新颖的生成式验证器,它通过灵活分配验证预算策略,在快速可靠的“快思考”与细致入微的“慢思考”之间灵活平衡计算资源。我们进一步提出了“解决-检测-验证”管道,这是一个高效的推理时扩展框架,它智能地整合了FlexiVe,主动识别解决方案完成点以触发针对性验证,并提供聚焦的求解器反馈。实验表明,FlexiVe在ProcessBench上识别推理轨迹中的错误方面达到了卓越的准确性。此外,在具有挑战性的数学推理基准测试(AIME 2024、AIME 2025和CNMO)中,我们的完整方法在推理准确性和推理效率上均优于如自洽性等基线方法。我们的系统为在测试时增强LLM推理提供了一种可扩展且有效的解决方案。
测试时缩放(TTS)已被证明能有效提升大型语言模型(LLMs)的推理能力。验证在TTS中扮演着关键角色,它同时影响着(1)推理性能与(2)计算效率,这归因于验证的质量及其计算成本。在本研究中,我们挑战了传统的验证范式,首次系统性地探讨了验证粒度的影响——即验证器在生成过程中被调用的频率,而不仅仅局限于仅验证最终输出或单个生成步骤。为此,我们引入了可变粒度搜索(VG-Search),这是一种通过可调粒度参数g来泛化束搜索与最佳N采样(Best-of-N sampling)的统一算法。在不同计算预算、生成器-验证器配置及任务属性下,VG-Search的广泛实验表明,动态选择g能够提升计算效率与缩放行为。基于这些发现,我们提出了自适应VG-Search策略,相较于束搜索和最佳N采样,分别实现了高达3.1%和3.6%的准确率提升,同时减少了超过52%的浮点运算次数(FLOPs)。我们将开源代码,以支持未来的研究。
随着后训练技术的不断演进,大型语言模型(LLMs)正日益增强其结构化多步推理能力,这一过程常通过强化学习进行优化。这些具备增强推理能力的模型在复杂任务上超越了标准LLMs,并已成为众多商用LLM API的核心支撑。然而,为了保护专有行为并减少冗余输出,服务提供商通常隐藏推理过程,仅返回最终答案。这种不透明性引入了一个关键的透明度缺口:用户为不可见的推理令牌付费,这些令牌往往占据成本的大头,却无法验证其真实性。这为令牌计数膨胀打开了方便之门,即服务提供商可能虚报令牌使用量或注入低质量合成令牌以抬高费用。针对这一问题,我们提出了CoIn,一个验证框架,用于审计隐藏令牌的数量及语义有效性。CoIn通过构建基于令牌嵌入指纹的可验证哈希树来检查令牌计数,并利用基于嵌入的相关性匹配来检测伪造的推理内容。实验表明,CoIn作为可信第三方审计工具部署时,能有效检测令牌计数膨胀,成功率高达94.7%,展现了其在恢复不透明LLM服务计费透明度方面的强大能力。数据集与代码已公开于https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn。
尽管大型语言模型(LLMs)取得了显著进展,但由于缺乏标准化且高质量的测试平台,其知识记忆能力仍未被充分探索。本文引入了一种新颖、真实且大规模的知识注入基准,该基准能够随时间持续演进而无需人工干预。具体而言,我们提出了WikiDYK,它利用维基百科“你知道吗...”条目中近期添加且由人工撰写的事实。这些条目由维基百科专家编辑根据可验证性和清晰度等标准精心挑选。每个条目被转化为多个问答对,涵盖从简单的填空提示到复杂的多跳问题等多种任务形式。WikiDYK包含12,290个事实和77,180个问题,并且能够无缝扩展,以容纳未来维基百科编辑的更新。通过持续预训练进行的广泛实验揭示了一个令人惊讶的发现:尽管因果语言模型(CLMs)在现代LLMs中普遍存在,但其知识记忆能力显著弱于双向语言模型(BiLMs),在可靠性方面的准确率低了23%。为了弥补当前BiLMs规模较小的不足,我们引入了一个模块化协作框架,利用BiLMs集合作为外部知识库与LLMs集成。实验表明,我们的框架进一步将可靠性准确率提升了高达29.1%。
本研究对人工智能系统如何解读阿尔法一代(Gen Alpha,2010-2024年出生)的数字语言进行了独特评估。作为与AI共同成长的第一代,阿尔法一代因沉浸式数字参与及其不断演变的沟通方式与现有安全工具之间的日益脱节,面临着新型的在线风险。他们独特的语言,受游戏、表情包和AI驱动趋势的影响,常常将有害互动隐藏于人类审核员和自动化系统之外。我们评估了四种领先的AI模型(GPT-4、Claude、Gemini和Llama 3)在检测阿尔法一代话语中隐蔽骚扰和操纵行为方面的能力。通过使用来自游戏平台、社交媒体和视频内容的100个最新表达数据集,研究揭示了直接关系到在线安全的关键理解失败。本研究的贡献包括:(1)首个捕捉阿尔法一代表达的数据集;(2)改进AI审核系统以保护青少年的框架;(3)包含AI系统、人类审核员和家长的多视角评估,并直接纳入阿尔法一代合作研究者的意见;(4)分析语言差异如何增加青少年的脆弱性。研究结果强调了重新设计适应青少年沟通的安全系统的紧迫性,尤其是在阿尔法一代因成人无法理解其数字世界而不愿寻求帮助的情况下。本研究结合了阿尔法一代研究者的洞察与系统的学术分析,以应对关键的数字化安全挑战。
随着更强大的AI模型出现并找到诸如“对齐伪装”等新方法来规避检测,识别AI风险变得愈发困难。受人类危险行为(即可能伤害他人的非法活动)有时受强烈价值观驱使的启发,我们认为,识别AI模型中的价值观可作为其危险行为的早期预警系统。为此,我们创建了LitmusValues,一个评估流程,用于揭示AI模型在各类AI价值观上的优先级。接着,我们收集了AIRiskDilemmas,这是一系列多样化的困境,这些困境在涉及AI安全风险(如权力追求)的场景中将不同价值观置于对立面。通过测量AI模型基于其综合选择的价值优先级,我们获得了一组自洽的预测价值优先级,从而揭示潜在风险。我们证明,LitmusValues中的价值观(包括看似无害的如“关怀”)不仅能预测AIRiskDilemmas中已观察到的危险行为,还能预测HarmBench中未见的危险行为。
媒体偏见检测是确保信息公平、平衡传播的关键任务,但由于偏见的主观性及高质量标注数据的稀缺,这一任务仍具挑战性。在本研究中,我们通过在专家标注的BABE数据集上微调基于RoBERTa的模型,实现了句子级别的偏见分类。通过McNemar检验和5x2交叉验证配对t检验,我们展示了与领域自适应预训练的DA-RoBERTa基线模型相比,我们的模型在性能上取得了统计学上的显著提升。此外,基于注意力的分析表明,我们的模型避免了诸如对政治敏感词汇过度敏感等常见问题,而是更加关注上下文相关的词汇。为了全面审视媒体偏见,我们提出了一种将我们的模型与现有的偏见类型分类器相结合的流程。尽管受限于句子级分析和数据集规模(因缺乏更大、更先进的偏见语料库),我们的方法仍展现出良好的泛化能力和可解释性。我们探讨了上下文感知建模、偏见中和以及高级偏见类型分类作为未来可能的研究方向。我们的研究成果为构建更健壮、可解释且社会责任感更强的自然语言处理系统,用于媒体偏见检测,做出了贡献。
近年来,视频内容的创作与消费显著增长。打造引人入胜的内容,需精心策划视觉与音频元素。尽管通过最佳视角选择或后期编辑等技术进行的视觉线索策划一直是媒体制作的核心,但其自然对应物——音频,却未经历同等程度的发展。这常导致视觉与听觉显著性之间的脱节。为弥合这一差距,我们引入了一项新颖任务:视觉引导的音频突出,旨在根据伴随视频的指引,对音频进行转换,以提供恰当的突出效果,最终营造更为和谐的视听体验。我们提出了一种灵活的、基于Transformer的多模态框架来解决此任务。为训练我们的模型,我们还引入了一个新数据集——混音数据集,该数据集利用电影中精细的音频与视频制作,提供了一种形式的免费监督。我们开发了一种伪数据生成流程,通过分离、调整和重新混音的三步过程,模拟现实世界中混音不佳的场景。我们的方法在定量与主观评估中均持续超越多个基线模型。我们还系统研究了不同类型上下文引导的影响及数据集的难度级别。我们的项目页面在此:https://wikichao.github.io/VisAH/。
多模态学习通过整合来自不同感知模态的信息,增强了认知系统的感知能力。然而,现有的多模态融合研究通常假设静态整合,未能充分纳入大脑中发现的关键动态机制。具体而言,大脑表现出一种反向效应现象,即较弱的单模态线索会产生更强的多感官整合效益;反之,当单个模态线索较强时,融合效果则减弱。这一机制使得生物系统即使在感知线索稀缺或嘈杂的情况下,也能实现稳健的认知。受此生物机制的启发,我们探索了多模态输出与各模态信息之间的关系,提出了一种基于反向效应的多模态融合(IEMF)策略。通过将这一策略融入神经网络,我们实现了更高效的整合,提升了模型性能和计算效率,在多种融合方法中展示了高达50%的计算成本降低。我们在视听分类、持续学习和问答任务上进行了实验以验证我们的方法。结果一致表明,我们的方法在这些任务中表现优异。为验证普适性和泛化能力,我们还在人工神经网络(ANN)和脉冲神经网络(SNN)上进行了实验,结果显示该方法对两种网络类型均具有良好的适应性。我们的研究强调了将生物启发机制融入多模态网络的潜力,并为多模态人工智能的未来发展提供了有前景的方向。代码可在https://github.com/Brain-Cog-Lab/IEMF获取。
分词是语言模型中首个——却常被低估的——计算层级。尽管思维链(CoT)提示通过外化中间步骤使Transformer模型能够近似递归计算,但我们揭示,此类推理的成功从根本上受限于分词输入的结构。本研究从理论与实证角度探讨了分词方案,尤其是基于子词的方法如字节对编码(BPE),如何通过合并或模糊基本推理单元来阻碍符号计算。我们引入了“分词意识”这一概念,以形式化不良分词粒度如何破坏逻辑对齐并阻止模型泛化符号程序。通过对算术与符号任务的系统评估,我们展示了分词结构对推理性能的显著影响,即便使用CoT也会导致失败,而原子对齐的格式则能开启强大的泛化能力,使小型模型(如GPT-4o-mini)在结构化推理上超越更大系统(如o1)。我们的发现表明,大语言模型中的符号推理能力并非纯粹由架构决定,而是深刻依赖于分词层面的表示。
全球图像地理定位——即从地球上任何地方拍摄的图像中预测GPS坐标的任务——由于各地区视觉内容的巨大差异,构成了一个根本性的挑战。尽管近期方法采用了两阶段流程,即先检索候选位置再选择最佳匹配,但它们通常依赖于简单的相似性启发式方法和点对点监督,未能有效建模候选位置间的空间关系。本文提出GeoRanker,一种距离感知的排序框架,它利用大规模视觉-语言模型联合编码查询与候选位置间的交互,并预测地理邻近度。此外,我们引入了一种多阶距离损失函数,该函数同时排序绝对距离和相对距离,使模型能够推理结构化空间关系。为此,我们精心构建了GeoRanking,这是首个专为地理排序任务设计、包含多模态候选信息的数据集。GeoRanker在两个公认的基准测试(IM2GPS3K和YFCC4K)上取得了最先进的成果,显著超越了当前最佳方法。
多跳问答(MHQA)为问答任务增添了复杂性,使其更具挑战性。当语言模型(LMs)面对多个搜索结果时,它们不仅需要检索相关信息,还需在信息源之间进行多跳推理。尽管LMs在传统问答任务中表现优异,但因果掩码可能会限制其在复杂上下文中的推理能力。本文通过在不同配置下对搜索结果(检索到的文档)进行排列,探讨了LMs如何应对多跳问题。我们的研究揭示了以下有趣发现:1)编码器-解码器模型,如Flan-T5系列,尽管规模显著较小,但在MHQA任务中通常优于仅因果解码器的LMs;2)改变关键文档的顺序,在Flan T5模型和微调后的仅解码器模型中均显示出不同的趋势,当文档顺序与推理链顺序一致时,性能达到最佳;3)通过修改因果掩码,为仅因果解码器模型引入双向注意力机制,能有效提升其最终表现。此外,我们还深入研究了LMs在MHQA上下文中的注意力权重分布。实验表明,当答案正确时,注意力权重往往在较高值处达到峰值。我们利用这一发现,启发式地提升了LMs在此任务上的表现。我们的代码已公开于https://github.com/hwy9855/MultiHopQA-Reasoning。
近期,大型语言模型(LLMs)的进展与海量食品数据的涌现,推动了利用LLMs提升食品理解的研究。尽管已有多个推荐系统结合了LLMs与知识图谱(KGs),但将食品相关KGs与LLMs整合的研究仍较为有限。我们提出了KERL,一个统一系统,它利用食品KGs与LLMs提供个性化食品推荐,并生成附带微量营养信息的食谱。面对自然语言提问,KERL首先提取实体,从KG中检索子图,随后将这些子图作为上下文输入LLM,以筛选出满足约束条件的食谱。接着,我们的系统为每个食谱生成烹饪步骤及营养信息。为评估该方法,我们还开发了一个基准数据集,通过整理与食谱相关的问题,结合约束条件与个人偏好。通过大量实验,我们证明了所提出的KG增强型LLM显著优于现有方法,为食品推荐、食谱生成及营养分析提供了一个完整且连贯的解决方案。我们的代码与基准数据集已公开于https://github.com/mohbattharani/KERL。
脑到图像解码技术近期得益于生成式AI模型的进步以及大规模超高场功能磁共振成像(fMRI)数据的可用性而取得显著进展。然而,现有方法依赖于复杂的多阶段处理流程和预处理步骤,这些步骤通常压缩了脑记录的时间维度,从而限制了时间分辨型脑解码器的性能。在此,我们提出了Dynadiff(动态神经活动扩散图像重建模型),这是一种专为从动态演变的fMRI记录中重建图像而设计的新型单阶段扩散模型。我们的方法具有三大贡献:首先,与现有方法相比,Dynadiff简化了训练过程;其次,该模型在处理时间分辨的fMRI信号时,尤其是在高级语义图像重建指标上,超越了当前最先进的模型,同时在处理已压缩时间维度的预处理fMRI数据时也保持竞争力;最后,此方法能够精确刻画图像表征在大脑活动中的演变过程。总体而言,本研究为时间分辨型脑到图像解码奠定了基石。
尽管基于Transformer的语言模型(LMs)取得了进展,但一个根本性问题仍未得到充分解答:在推理过程中,所有层是否都被激活?我们通过检测未激活层(我们称之为“空洞”)来探究这一问题,采用了一种无需训练且无参数的自适应计算方法——L2自适应计算(LAC)。我们将LAC从其最初关注效率的应用中调整,用于追踪推理过程中的激活层。该方法通过监控激活的L2范数变化来识别空洞。我们分析了指令调优LMs在两个阶段的层激活情况:提示处理(PP)阶段,追踪输入提示中每个token的激活层;以及响应生成(RG)阶段,追踪生成每个token时的激活层。我们进一步证明,在这两个阶段中激活的是不同的层。为了展示我们方法的有效性,我们在三个基准测试(MMLU、GPQA Diamond和BoolQ)上评估了来自Llama、Mistral和Qwen家族的三种不同指令调优LMs。例如,在零样本设置的MMLU测试中,跳过Qwen2.5-7B-Instruct的空洞层,性能从69.24提升至71.29,而模型仅使用了30%的层。同样,在GPQA Diamond测试中,Mistral-7B-Instruct-v0.3在PP和RG阶段使用70%的层时,性能从13.88提升至18.36。这些结果表明,并非所有层在推理过程中都同等重要,有选择性地跳过大部分层可以在某些任务上提升模型性能。
检索增强生成(RAG)系统面临的一个众所周知的问题是,检索到的与查询无关的段落有时会干扰答案生成的大语言模型(LLM),导致其提供错误响应。本文深入探讨了这一核心问题,并针对查询(及LLM)提出了段落干扰效应的量化定义。我们提供了一种可量化的段落干扰效应度量方法,并证明了该方法在不同LLM间的鲁棒性。 我们的研究引入了识别和利用高难度干扰段落以改进RAG系统的新方法。通过使用这些精心挑选的干扰段落对LLM进行微调,我们实现了相较于基于传统RAG数据集微调的模型高达7.5%的答案准确率提升。我们的贡献体现在两个方面:首先,我们超越了将无关段落简单二分为完全不相关与干扰性的传统做法;其次,我们开发并分析了多种寻找高难度干扰段落的方法。据我们所知,尚无其他研究提供了如此全面的框架来识别和利用高难度干扰段落。
我们提出了一种用于训练视觉-语言模型(VLMs)执行视觉视角采择(VPT)的概念框架,这是实现具身认知的核心能力,对人与机器人交互(HRI)至关重要。作为迈向这一目标的第一步,我们引入了一个在NVIDIA Omniverse中生成的合成数据集,该数据集支持空间推理任务的监督学习。每个实例包含一张RGB图像、一段自然语言描述以及一个表示物体姿态的4X4真实变换矩阵。我们专注于推断Z轴距离这一基础技能,未来将扩展至完整的六自由度(6 DOFs)推理。该数据集已公开,以支持进一步研究。本工作为开发能够在人机交互场景中实现空间理解的具身AI系统奠定了重要基础。
视觉表征对于机器人操作策略的学习与泛化能力至关重要。现有方法多依赖全局或密集特征,此类表征往往将任务相关与无关的场景信息混为一谈,限制了在分布变化下的鲁棒性。本研究探讨了以对象为中心的表征(OCR)作为一种结构化替代方案,它将视觉输入分割为一组明确的实体,引入了更符合操作任务本质的归纳偏置。我们在一系列从简单到复杂的模拟及现实世界操作任务中,对比了多种视觉编码器——包括对象中心、全局和密集方法——并评估了它们在光照、纹理变化及存在干扰物等多样化视觉条件下的泛化表现。研究结果表明,即便无需任务特定的预训练,基于OCR的策略在泛化场景下也优于密集和全局表征。这些发现表明,OCR是设计能够在动态现实机器人环境中有效泛化的视觉系统的一个有前景的方向。