每日精选AI研究论文及翻译
近期研究表明,大型语言模型(LLMs)在获得外部反馈后,具备一定能力改进其响应。然而,这些模型在多大程度上能有效且彻底地整合外部反馈仍不明确。在理想情况下,若LLMs接收到近乎完美且完整的反馈,我们预期它们能完全吸收反馈,并将错误答案修正为正确。本文通过设计一个受控实验环境,系统性地探究了LLMs整合反馈的能力。针对每个问题,一个求解模型尝试解答,随后一个拥有近乎完整标准答案访问权限的反馈生成器提供针对性反馈,之后求解模型再次尝试。我们在包括数学推理、知识推理、科学推理及跨领域综合评估在内的多样化任务上评估了这一流程,使用了包括Claude 3.7(含与不含扩展思考)在内的顶尖语言模型。令人惊讶的是,即便在这些近乎理想的条件下,求解模型仍持续表现出对反馈的抗拒,这一局限我们称之为“反馈摩擦”。为缓解此局限,我们尝试了基于采样的策略,如逐步提高温度参数及明确拒绝之前尝试过的错误答案,虽有所改善,但仍未能助模型达到目标性能。我们还对“反馈摩擦”的潜在成因进行了严格探索,排除了模型过度自信及数据熟悉度等因素。我们希望通过揭示LLMs中的这一问题并排除若干表面原因,能为未来的自我改进研究提供帮助。
面向任务的基于大语言模型(LLM)的智能体正日益应用于政策严格的领域,如退款资格或取消规则等。核心挑战在于确保智能体始终遵循这些规则与政策,恰当拒绝任何可能违反规定的请求,同时保持互动过程的自然与助益性。这要求开发专门的设计与评估方法,以确保智能体能够抵御恶意用户行为。我们提出了一种新颖的威胁模型,聚焦于那些试图利用政策遵循型智能体谋取私利的对抗性用户。为此,我们介绍了CRAFT,一个多智能体红队系统,它运用政策感知的说服策略,在客户服务场景中瓦解政策遵循型智能体,其表现超越了传统的越狱方法,如DAN提示、情感操控及胁迫手段。基于现有的tau-bench基准,我们引入了tau-break,这一补充基准旨在严格评估智能体对操纵性用户行为的鲁棒性。最后,我们评估了几种简单却有效的防御策略。尽管这些措施提供了一定程度的保护,但仍显不足,凸显了需要更强有力、基于研究的防护机制,以保护政策遵循型智能体免受对抗性攻击。
均匀状态离散扩散模型因其固有的自我修正能力,有望实现快速文本生成。然而,它们通常被自回归模型和掩码扩散模型所超越。在本研究中,我们通过利用一个关键见解缩小了这一性能差距:均匀状态扩散过程自然源自于底层的高斯扩散。我们的方法Duo,将高斯扩散中的强大技术迁移过来,以改进训练和采样过程。首先,我们引入了一种由高斯过程指导的课程学习策略,通过降低方差使训练速度翻倍。采用课程学习策略训练的模型在7个基准测试中的3个上,零样本困惑度超越了自回归模型。其次,我们提出了离散一致性蒸馏,将一致性蒸馏从连续域适应到离散域。该算法通过将采样速度提升两个数量级,解锁了扩散语言模型中的少步生成能力。我们在项目页面上提供了代码和模型检查点:http://s-sahoo.github.io/duo。
我们提出了一种基于扩散的框架,通过扭曲与修复的方法实现对齐的新视角图像与几何生成。与以往需要密集姿态图像或局限于域内视角的嵌入姿态生成模型不同,我们的方法利用现成的几何预测器从参考图像预测部分几何,并将新视角合成任务表述为图像与几何的修复问题。为确保生成图像与几何间的精确对齐,我们提出了跨模态注意力蒸馏机制,在训练和推理过程中,将图像扩散分支的注意力图注入到并行的几何扩散分支中。这种多任务方法实现了协同效应,促进了几何鲁棒的图像合成以及清晰的几何预测。此外,我们引入了基于邻近度的网格条件化,整合深度与法线线索,在点云间进行插值,并过滤错误预测的几何,避免其影响生成过程。实验表明,我们的方法在多种未见场景下实现了高保真的外推视角合成,在插值设置下提供了具有竞争力的重建质量,并生成了几何对齐的彩色点云,用于全面的三维补全。项目页面详见https://cvlab-kaist.github.io/MoAI。
近期报告声称,大型语言模型(LLMs)在竞技编程领域已超越人类精英。基于一组国际算法竞赛奖牌得主的专业知识,我们重新审视了这一论断,探讨了LLMs与人类专家的差异及其仍存的局限。我们推出了LiveCodeBench Pro,这是一个由Codeforces、ICPC和IOI题目构成的基准测试集,持续更新以减少数据污染的可能性。一支由奥赛奖牌得主组成的团队为每道题目标注了算法类别,并对模型生成的失败提交进行了逐行分析。利用这一新数据和基准测试,我们发现前沿模型仍存在显著局限:在没有外部工具辅助的情况下,最佳模型在中等难度题目上的通过率仅为53%,而在高难度题目上则为0%,这些领域人类专家依然表现出色。我们还发现,LLMs在实现密集型的题目上表现良好,但在细微的算法推理和复杂案例分析上则显得吃力,常常生成自信但错误的解释。高性能似乎主要源于实现的精确性和工具的增强,而非卓越的推理能力。因此,LiveCodeBench Pro不仅凸显了与人类大师级水平之间的显著差距,还提供了细粒度的诊断,以指导未来代码中心化LLM推理能力的提升。
随着上下文长度的增加,大型语言模型在处理不断膨胀的键值(KV)缓存时面临内存需求的挑战。现有的压缩方法要么统一头部维度,要么依赖注意力引导的令牌剪枝,往往牺牲了准确性或引入了计算开销。我们提出了FourierAttention,一种无需训练的框架,它利用了Transformer头部维度的异质性:较低维度优先处理局部上下文,而较高维度则捕捉长距离依赖关系。通过将长上下文不敏感的维度投影到正交傅里叶基上,FourierAttention用固定长度的频谱系数近似其时间演化。在LLaMA模型上的评估显示,FourierAttention在LongBench和Needle-In-A-Haystack(NIAH)测试中实现了最佳的长上下文准确性。此外,我们还设计了一个定制的Triton内核——FlashFourierAttention,通过简化的读写操作优化内存,实现了高效部署且不牺牲性能。
强化学习(RL)在利用数学推理或代码生成等既具挑战性又易于验证的任务来微调大型语言模型(LLMs)方面已展现出显著成效。然而,将这一成功扩展至视觉-语言模型(VLMs)的视觉感知领域,却因缺乏既具挑战性又能明确验证的视觉中心任务而受阻。为此,我们引入了ViCrit(视觉描述幻觉批评器),这是一个RL代理任务,旨在训练VLMs定位被注入人类撰写图像描述段落中的微妙合成视觉幻觉。从一段200字的描述开始,我们注入一个细微的视觉描述错误——改变对象、属性、数量或空间关系中的几个词——并让模型根据图像和修改后的描述精确定位被篡改的部分。这一设定保留了完整的感知难度,同时提供了易于计算且无歧义的二元精确匹配奖励。通过ViCrit任务训练的模型在多种VL基准测试中展现出显著提升。尤为关键的是,这些改进不仅限于自然图像训练数据,还能迁移到抽象图像推理和视觉数学领域,显示出学习感知而非仅仅记忆所见对象的潜力。为便于评估,我们进一步推出了ViCrit-Bench,这是一个类别平衡的诊断基准,系统性地探究了跨多样图像领域和错误类型的感知错误。综合来看,我们的结果表明,细粒度的幻觉批评是增强VLMs视觉感知的有效且可推广的目标。
大型语言模型在临床决策中展现出潜力,但现有方法难以定位并纠正推理过程中特定步骤的错误。这一局限在医学领域尤为关键,因为识别并解决推理错误对于准确诊断和有效患者护理至关重要。我们提出了Med-PRM,一种过程奖励建模框架,它利用检索增强生成技术,将每个推理步骤与既定的医学知识库进行验证。通过从临床指南和文献中检索证据来验证中间推理步骤,我们的模型能够以细粒度方式精确评估推理质量。在五个医学问答基准和两个开放式诊断任务上的评估表明,Med-PRM实现了最先进的性能,使用Med-PRM将基础模型的性能提升了高达13.50%。此外,我们通过以即插即用的方式将Med-PRM与强大的策略模型(如Meerkat)集成,首次在MedQA上使用80亿参数的小规模模型实现了超过80%的准确率。我们的代码和数据可在以下网址获取:https://med-prm.github.io/
基于可验证奖励的强化学习(RLVR)在训练大型语言模型(LLMs)处理复杂推理任务,如数学问题求解方面已展现出显著成效。RLVR可扩展性的前提是拥有一个答案精确且可验证的高质量题目集。然而,现有以蒸馏为导向的合成数据集中,精心标注的人类数学题目和有限验证答案的稀缺性,限制了它们在强化学习中的有效性。此外,多数题目合成策略不加区分地扩充题目集,未充分考虑模型的能力,导致生成有用问题的效率低下。为解决这一问题,我们提出了一种自我认知的弱点驱动题目合成框架(SwS),该框架系统性地识别模型缺陷并利用这些缺陷进行题目增广。具体而言,我们将弱点定义为模型在强化学习训练过程中通过迭代采样始终未能掌握的问题。随后,我们从这些失败案例中提取核心概念,并合成新题目以在后续的增广训练中强化模型的薄弱环节,使其能够聚焦并逐步克服自身弱点。在不依赖外部知识蒸馏的情况下,我们的框架通过赋予模型在强化学习中自我识别并解决其弱点的能力,实现了稳健的泛化,在八个主流推理基准测试中,7B和32B模型分别取得了平均10.0%和7.7%的性能提升。
基础视觉编码器已成为众多密集视觉任务的核心组件。然而,其低分辨率的空间特征输出要求进行特征上采样,以生成下游任务所需的高分辨率模态。在本研究中,我们提出了JAFAR,一种轻量级且灵活的特征上采样器,它能够将任何基础视觉编码器的视觉特征空间分辨率提升至任意目标分辨率。JAFAR采用了一种基于注意力的模块,旨在通过空间特征变换(SFT)调制,促进源自低层次图像特征的高分辨率查询与语义丰富的低分辨率键之间的语义对齐。值得注意的是,尽管缺乏高分辨率监督,我们证明了在低上采样比率和分辨率下的学习能够显著泛化到更高的输出尺度。大量实验表明,JAFAR有效恢复了细粒度的空间细节,并在多种下游任务中持续超越现有的特征上采样方法。项目页面请访问:https://jafar-upsampler.github.io。
近期研究证实了基于强化学习(RL)的后训练方法在提升大规模语言模型(LLMs)推理能力方面的有效性。特别是,群体相对策略优化(GRPO)通过采用PPO风格的强化算法结合基于群体的归一化奖励,展现了显著的成效。然而,GRPO在视频大语言模型(Video LLMs)中的应用研究尚不充分。本文探讨了GRPO在视频LLMs中的应用,并识别出阻碍其有效学习的两个主要问题:(1)对安全措施的依赖,以及(2)优势消失问题。为应对这些挑战,我们提出了DeepVideo-R1,这是一个采用我们提出的回归式GRPO(Reg-GRPO)及难度感知数据增强策略训练的视频大语言模型。Reg-GRPO将GRPO目标重构为回归任务,直接预测GRPO中的优势值。这一设计摒弃了如裁剪和最小值函数等安全措施,通过使模型与优势值对齐,实现了更直接的策略指导。我们还设计了难度感知数据增强策略,动态地在可解决难度级别上扩充训练样本,促进多样且信息丰富的奖励信号。全面的实验表明,DeepVideo-R1在多个视频推理基准测试中显著提升了视频推理性能。
现代循环架构,如xLSTM和Mamba,近期在语言建模领域对Transformer发起了挑战。然而,这些架构的结构限制了它们仅适用于序列数据,或要求以预定义的顺序处理多维数据结构,如图像或分子图。相比之下,多维循环神经网络(MDRNNs)则更适应于具有更高层次结构的数据,如二维网格、树和有向无环图(DAGs)。在本研究中,我们将多维度的概念扩展至线性循环神经网络。我们引入了可并行化的线性源转换标记网络(pLSTMs),利用作用于一般DAG线图上的源门、转换门和标记门,实现了类似于并行关联扫描及序列线性RNN分块递归形式的并行化,但适用于DAGs。对于规则网格(一维和二维),如图像,该方案可通过einsum操作、拼接和填充在对数时间内高效实现。pLSTMs通过两种模式解决DAG中长距离激活/梯度消失/爆炸问题:定向传播模式(P模式)和扩散分布模式(D模式)。为展示pLSTM的长距离能力,我们引入了一个包含长距离方向信息的合成计算机视觉任务——箭头指向外推。我们证明,pLSTMs能很好地泛化到更大尺寸的图像,而Transformer则在外推上表现不佳。在已建立的分子图和计算机视觉基准测试中,pLSTMs同样展现了强劲的性能。代码与数据集可在以下网址获取:https://github.com/ml-jku/plstm_experiments。
Transformer已成为大规模语言模型及跨领域下游任务的事实标准。尽管其具备训练并行性等诸多优势,Transformer仍面临关键挑战:无法有效处理超出固定上下文窗口的序列,以及其注意力机制的二次方复杂度。这些挑战重新激发了人们对RNN类架构的兴趣,这类架构在序列长度上具有线性扩展性,并能更好地处理长程依赖关系,尽管其固有的循环特性限制了并行性。本文提出了一种全新的神经基础架构——Avey,它既摒弃了注意力机制,也摆脱了循环结构。Avey由排序器和自回归神经处理器组成,二者协同工作,仅针对序列中任意位置的给定token识别并上下文化最相关的token。具体而言,Avey将序列长度与上下文宽度解耦,从而实现了对任意长度序列的有效处理。实验结果表明,Avey在多种标准短程NLP基准测试中表现优于Transformer,尤其在捕捉长程依赖关系方面表现尤为突出。
利用扩散模型进行视频编辑在生成高质量视频编辑方面已取得显著成果。然而,现有方法通常依赖于大规模预训练,限制了特定编辑的灵活性。首帧引导编辑虽能控制首帧,但对后续帧的灵活性不足。为此,我们提出了一种基于掩码的LoRA(低秩适应)调优方法,通过调整预训练的图像到视频(I2V)模型来实现灵活的视频编辑。该方法在保留背景区域的同时,实现了可控的编辑传播,提供了一种高效且适应性强的视频编辑方案,而无需改变模型架构。为了更好地引导这一过程,我们引入了额外参考,如不同视角或代表性场景状态,作为内容展开的视觉锚点。我们采用掩码驱动的LoRA调优策略来解决控制难题,使预训练的I2V模型适应编辑上下文。模型需从两个不同来源学习:输入视频提供空间结构和运动线索,而参考图像则提供外观指导。空间掩码通过动态调节模型关注点,实现区域特定学习,确保每个区域从适当来源汲取信息。实验结果表明,与最先进方法相比,我们的方法在视频编辑性能上表现更优。
近期,大型多模态模型(LMMs)的进展显著提升了多模态理解与生成能力。然而,这些模型在生成紧密交织的图文输出方面仍面临挑战,主要归因于当前训练数据集在规模、质量及指令丰富性上的局限。为此,我们推出了InterSyn,一个采用自评估迭代优化(SEIR)方法构建的大规模多模态数据集。InterSyn以多轮次、指令驱动的对话为特色,包含紧密交织的图文响应,提供了丰富的对象多样性和严格的自动化质量优化,使其成为训练下一代遵循指令的LMMs的理想选择。此外,针对缺乏能够评估交织多模态输出的可靠评测工具的问题,我们引入了SynJudge,一种自动评估模型,旨在从四个维度定量评估多模态输出:文本内容、图像内容、图像质量以及图文协同性。 实验研究表明,与未经过优化的相同流程相比,SEIR方法显著提高了数据集质量。此外,基于InterSyn训练的LMMs在所有评估指标上均实现了性能的全面提升,证实了InterSyn在推动多模态系统进步方面的实用价值。
人形机器人凭借其灵活性和类人形态,在多样化环境中执行日常任务方面展现出巨大潜力。近期研究通过优化控制或强化学习,在全身控制与移动操作方面取得了显著进展。然而,这些方法需要对每项任务进行繁琐的特定调优才能达到满意效果,限制了其在日常场景中应对多样化任务时的通用性和扩展性。为此,我们提出了SkillBlender,一种新颖的分层强化学习框架,旨在实现多功能的人形移动操作。SkillBlender首先预训练目标导向、任务无关的基础技能,随后动态融合这些技能,以最少的任务特定奖励工程完成复杂的移动操作任务。我们还引入了SkillBench,一个并行、跨实体、多样化的模拟基准,包含三种实体、四项基础技能及八项具有挑战性的移动操作任务,并配备了一套平衡准确性与可行性的科学评估指标。大量模拟实验表明,我们的方法显著优于所有基线,同时自然规范行为以避免奖励欺骗,从而在日常生活场景中为多样化的移动操作任务生成更准确、更可行的动作。我们的代码与基准将开源,以促进未来研究。项目页面:https://usc-gvl.github.io/SkillBlender-web/。
测试时扩展已成为一种有效方法,通过利用推理时的额外计算资源来提升语言模型性能。近期研究表明,覆盖思维终止标记(例如将“</think>”替换为“Wait”)能够延长推理步骤并提高准确性。在本研究中,我们探讨是否能够学习一个专用的继续思考标记来触发扩展推理。我们在DeepSeek-R1的蒸馏版本中引入了一个单一的学习标记“<|continue-thinking|>”,仅通过强化学习训练其嵌入,同时保持模型权重不变。实验结果显示,与基线模型及使用固定标记(如“Wait”)进行预算强制的测试时扩展方法相比,这一学习标记在标准数学基准测试上实现了更高的准确率。特别是在固定标记方法提升基础模型准确性的情况下,我们的方法取得了更为显著的改进。例如,在GSM8K基准测试中,固定标记方法带来了1.3%的绝对准确率提升,而我们的学习标记方法相较于未使用预算强制的基础模型,则实现了4.2%的改进。
为确保大型语言模型(LLMs)在日常及高风险领域中的可靠部署,知晓何时不应作答与正确解答同等关键。现实世界中的用户查询可能表述不清、问题不当或本质上无法解答,这要求LLMs能够对不确定性进行推理,并选择性地回避——即拒绝给出明确答案。然而,关于回避的研究仍显不足,缺乏针对现代LLMs的系统性评估框架。本研究引入了AbstentionBench,一个大规模基准测试,旨在全面评估LLMs在20个多样化数据集上的回避能力,涵盖未知答案、表述模糊、错误前提、主观解读及过时信息等问题。通过对20个前沿LLMs的评估,我们发现回避仍是一个未解难题,且模型规模的扩大对此帮助甚微。尽管近期在复杂问题解决上,推理型LLMs展现了令人瞩目的成果,但令人意外的是,我们发现推理微调反而削弱了回避能力(平均下降24%),即便是在数学和科学这些推理模型明确训练的领域也是如此。我们发现,虽然精心设计的系统提示能在实践中提升回避表现,但它并未解决模型在不确定性推理上的根本缺陷。我们发布AbstentionBench,旨在推动提升LLM可靠性的研究进展。
我们提出了一种自优化框架,仅利用未标注数据集即可提升自动语音识别(ASR)性能。该过程始于现有ASR模型对未标注语音生成伪标签,随后这些标签用于训练一个高保真度的文本转语音(TTS)系统。接着,合成的语音文本对被引导回原始ASR系统,形成一个闭环自我提升循环。我们在台湾普通话语音上验证了该框架的有效性。通过利用6000小时的未标注语音、适量文本数据及AI模型生成的合成内容,我们将Whisper-large-v2适配为专用模型Twister。与Whisper相比,Twister在普通话识别错误率上降低了高达20%,在普通话-英语代码切换基准测试上更是减少了50%。这些成果凸显了该框架作为伪标签自蒸馏方法的有力替代方案,并为在资源匮乏或特定领域场景下提升ASR性能提供了一条实用路径。
本研究聚焦于文本编码器的一个显著局限:嵌入向量可能无法识别语义中的细粒度实体或事件,导致即使在简单案例中也难以实现有效的密集检索。为探究这一现象,我们首先引入了一个全新的中文评估数据集——CapRetrieval,其段落内容为图像描述,查询则采用多种形式询问实体或事件。零样本评估显示,无论训练来源或模型规模如何,编码器在这些细粒度匹配任务上均可能表现不佳。为寻求改进,我们继而采用提出的数据生成策略对编码器进行微调,从而在CapRetrieval上取得了最佳性能。在此过程中,我们进一步识别出“粒度困境”问题,即嵌入向量在表达细粒度显著性的同时,还需与整体语义保持一致,这一挑战尤为突出。本研究的全部数据集、代码及模型已公开发布于https://github.com/lxucs/CapRetrieval。
近期利用多模态大语言模型(MLLM)作为图形用户界面(GUI)代理的研究取得了显著成果。然而,这些代理在处理在线环境中的长期任务时仍面临挑战,主要源于知识储备不足以及离线与在线领域之间的固有差异。本文受人类在开放环境中知识泛化方式的启发,提出了一个层次化多模态技能(HMS)模块,以应对知识不足的问题。该模块逐步将执行轨迹抽象为执行技能、核心技能,最终形成元技能,为长期任务规划提供了层次化的知识结构。为弥合领域差距,我们提出了技能增强蒙特卡洛树搜索(SA-MCTS)算法,该算法高效利用离线环境中习得的技能,在在线树搜索过程中缩减动作搜索空间。基于HMS,我们开发了Mirage-1,一个多模态、跨平台、即插即用的GUI代理。为验证Mirage-1在现实世界长期任务中的表现,我们构建了新的基准测试集AndroidLH。实验结果显示,Mirage-1在AndroidWorld、MobileMiniWob++、Mind2Web-Live和AndroidLH上的表现分别比以往代理提升了32%、19%、15%和79%。项目页面:https://cybertronagent.github.io/Mirage-1.github.io/
大型语言模型(LLMs)在实际应用中展现出强劲性能,然而现有的开源指令数据集往往局限于狭窄领域,如数学或编程,这限制了模型的泛化能力,并拉大了与专有模型之间的差距。为弥合这一差距,我们推出了Infinity-Instruct,一个旨在通过两阶段流程提升LLMs基础与对话能力的高质量指令数据集。在第一阶段,我们采用混合数据筛选技术,从超过1亿样本中精选出740万条高质量基础指令(InfInstruct-F-7.4M)。第二阶段,通过包含指令选择、进化及诊断过滤的两步过程,合成了150万条高质量对话指令(InfInstruct-G-1.5M)。我们通过微调包括Mistral、LLaMA、Qwen和Yi在内的多个开源模型,对Infinity-Instruct进行了实证评估,观察到在基础与指令跟随基准测试上均取得显著性能提升,持续超越官方指令调优版本。特别地,InfInstruct-LLaMA3.1-70B在指令跟随任务上以8.6%的优势超越GPT-4-0314,同时保持相当的基础性能。这些结果凸显了基础与对话训练之间的协同效应,为LLM的全面发展提供了新见解。我们的数据集https://huggingface.co/datasets/BAAI/Infinity-Instruct和代码https://gitee.com/li-touch/infinity-instruct已公开发布。
检测有害网络模因对于维护在线环境的完整性至关重要。然而,现有方法往往在资源效率、灵活性或可解释性方面存在不足,限制了其在内容审核系统中的实际部署。为解决这些挑战,我们提出了U-CoT+,一种新颖的有害模因检测框架。不同于仅依赖提示或多模态模型微调,我们首先开发了一个高保真的模因到文本转换管道,将视觉模因转化为保留细节的文本描述。这一设计将模因理解与模因分类解耦,从而避免直接对复杂的原始视觉内容进行推理,并利用通用大型语言模型(LLMs)实现资源高效的有害模因检测。基于这些文本描述,我们进一步整合了有针对性的、可解释的人工制定指南,以在零样本思维链(CoT)提示下引导模型推理。因此,该框架能够轻松适应跨平台、跨地区及随时间变化的不同有害性检测标准,提供了高度的灵活性和可解释性。在七个基准数据集上的广泛实验验证了我们框架的有效性,凸显了其在使用小规模LLMs进行可解释且低资源有害模因检测方面的潜力。代码和数据可在以下网址获取:https://anonymous.4open.science/r/HMC-AF2B/README.md。
通过大型语言模型(LLMs)解决编码任务的标准范式是先生成后排序程序,其中排序过程使用验证器。当前普遍认为,只要条件允许,应优先采用全面验证器(如完整测试套件)而非结果奖励模型(ORM),而很少考虑其中的权衡。我们旨在通过系统性地探索速度与准确性之间的权衡来挑战这一假设。我们发现,即便在全面验证器可用的情况下,ORM在通过牺牲部分准确性换取速度以扩展验证规模方面发挥着关键作用。特别是在采用生成-修剪-再排序的方法时,ORM的价值尤为显著,其中更快但准确性稍低的验证器在排序前剔除错误解——这使得系统速度提升了11.65倍,而准确性仅比完整测试套件低8.33%。我们分析了生成-修剪-再排序方法,并展示其通过过滤掉错误但排名靠前的解决方案来发挥作用。这些发现为设计可扩展且准确的程序排序系统提供了依据。
我们提出了一种基于注意力机制的方法,该方法利用学习到的二值注意力掩码来确保只有被关注的图像区域影响预测结果。上下文信息会显著影响物体感知,有时会导致偏差表征,尤其是在物体出现在分布外背景中时。与此同时,许多图像级以物体为中心的任务需要识别相关区域,这往往需要上下文信息。为了解决这一难题,我们提出了一个两阶段框架:第一阶段处理完整图像以发现物体部分并识别任务相关区域,而第二阶段则利用输入注意力掩码将其感受野限制在这些区域内,从而在过滤掉潜在虚假信息的同时进行聚焦分析。两个阶段联合训练,使得第二阶段能够优化第一阶段的结果。在多个基准测试上的广泛实验表明,我们的方法显著提升了模型对虚假关联和分布外背景的鲁棒性。
近期,大型语言模型(LLMs)在数据标注方面展现出显著潜力,大幅降低了下游应用的人力成本。然而,现有方法大多采取激进策略,通过提示LLM为每个未标注样本确定单一黄金标签。由于LLM固有的不确定性,它们常对困难样本产生错误标注,严重损害了下游应用的数据质量。受人类行为中模糊规避现象的启发,我们提出了一种新颖的候选标注范式,鼓励大型语言模型在遇到不确定性时输出所有可能的标签。为确保下游任务获得唯一标签,我们开发了一个师生框架CanDist,利用小型语言模型(SLM)蒸馏候选标注。我们进一步提供了严格的理论证明,表明从教师LLM蒸馏候选标注相比直接使用单一标注具有更优的理论保证。在六项文本分类任务上的广泛实验验证了所提方法的有效性。源代码已发布于https://github.com/MingxuanXia/CanDist。
人类反馈模型在AI对齐中的应用,如直接偏好优化(DPO)所依赖的模型,通常固化了一套单一且静态的偏好集合,限制了其适应性。本文通过引入可配置偏好调优(CPT),挑战了这种单一偏好的假设。CPT是一种新颖的框架,旨在赋予语言模型根据明确、人类可理解的指令动态调整其行为的能力。CPT利用基于系统提示合成的偏好数据,这些提示源自结构化、细粒度的评分标准,定义了诸如写作风格等期望属性。通过使用这些由评分标准引导的偏好进行微调,大型语言模型(LLM)能够在推理时根据系统提示调整其输出,而无需重新训练。这种方法不仅提供了精细的控制,还为建模更加细致和上下文相关的人类反馈提供了一种机制。多项实验成果,包括训练代码、生成的数据集及微调模型,已在https://github.com/vicgalle/configurable-preference-tuning上公开发布。