每日精选AI研究论文及翻译
近期,大型语言模型(LLMs)的进展使得基于LLM的智能体能够成功应对交互式规划任务。然而,尽管取得了这些成就,现有方法常面临规划幻觉问题,且需针对每个新智能体进行重新训练。为解决这些挑战,我们提出了元规划优化(Meta Plan Optimization, MPO)框架,该框架通过直接融入显式指导来增强智能体的规划能力。与以往依赖复杂知识的方法不同,这些方法要么需要大量人力投入,要么缺乏质量保证,MPO则通过元计划利用高层通用指导来辅助智能体规划,并基于智能体任务执行的反馈持续优化元计划。我们在两项代表性任务上的实验表明,MPO显著超越了现有基线方法。此外,分析结果显示,MPO提供了一种即插即用的解决方案,不仅提升了任务完成效率,还在先前未见场景中增强了泛化能力。
大型语言模型(LLMs)作为自主代理展现出了卓越的能力,然而现有基准测试要么聚焦于单代理任务,要么局限于狭窄领域,未能捕捉多代理协作与竞争的动态特性。本文提出了MultiAgentBench,一个旨在评估基于LLM的多代理系统在多样化交互场景中表现的综合性基准测试。我们的框架不仅衡量任务完成度,还通过新颖的、基于里程碑的关键性能指标来评估协作与竞争的质量。此外,我们评估了多种协调协议(包括星型、链式、树状和图结构拓扑)以及创新策略,如群体讨论和认知规划。值得注意的是,gpt-4o-mini在研究场景中达到了平均最高任务得分,图结构在协调协议中表现最佳,而认知规划将里程碑达成率提升了3%。代码与数据集已公开于https://github.com/MultiagentBench/MARBLE。
大型语言模型(如GPT和Gemini)的兴起加剧了错误信息的传播,这要求我们开发出强有力的核查解决方案,特别是针对越南语等低资源语言。现有方法在处理语义模糊、同音异义词及复杂语言结构时往往力不从心,常常在准确性与效率之间做出妥协。为此,我们推出了SemViQA,一个创新的越南语事实核查框架,它融合了基于语义的证据检索(SER)与两步裁决分类(TVC)技术。我们的方法在精确度与速度之间取得了平衡,在ISE-DSC01数据集上达到了78.97%的严格准确率,在ViWikiFC上更是达到了80.82%,在UIT数据科学挑战赛中荣登榜首。此外,SemViQA Faster版本在保持竞争力的准确率的同时,将推理速度提升了7倍。SemViQA为越南语事实核查设立了新标杆,有力推动了打击错误信息的进程。源代码已发布于:https://github.com/DAVID-NGUYEN-S16/SemViQA。
本文深入分析了大型语言模型(LLMs)对维基百科的影响,通过现有数据考察维基百科的演变,并借助模拟探索潜在风险。我们首先通过分析页面浏览量和文章内容,研究维基百科近期的变化,评估LLMs的影响。随后,我们评估了LLMs如何影响与维基百科相关的各类自然语言处理(NLP)任务,包括机器翻译和检索增强生成(RAG)。我们的研究结果和模拟实验表明,维基百科文章已受到LLMs的影响,在某些类别中影响程度约为1%-2%。如果基于维基百科的机器翻译基准受到LLMs影响,模型的评分可能会被夸大,模型间的比较结果也可能发生变化。此外,如果知识库被LLM生成的内容污染,RAG的有效性可能会降低。尽管LLMs尚未彻底改变维基百科的语言和知识结构,但我们认为,实证研究结果提示需要审慎考虑未来可能面临的风险。
我们提出了LADDER(通过自主难度驱动示例递归学习)框架,该框架使大型语言模型能够通过自我引导学习,递归生成并逐步解决复杂问题的简化变体,从而自主提升其问题解决能力。与以往需要精心策划数据集或人类反馈的方法不同,LADDER利用模型自身的能力生成更简单的题目变体。我们展示了LADDER在数学积分领域的有效性,将Llama 3.2 3B模型在本科水平问题上的准确率从1%提升至82%,并使得Qwen2.5 7B Deepseek-R1 Distilled模型在MIT积分大赛资格赛中达到73%的准确率。此外,我们引入了TTRL(测试时强化学习),在推理阶段对测试问题的变体进行强化学习。TTRL使Qwen2.5 7B Deepseek-R1 Distilled模型在MIT积分大赛资格赛中取得了90%的顶尖成绩,超越了OpenAI o1的表现。这些结果表明,自我导向的战略学习无需依赖架构扩展或人类监督,即可实现显著的能力提升。
大型语言模型(LLMs)在作为AI助手服务于各领域时,常出现幻觉现象,即生成不忠实或无意义的信息。由于这些幻觉总是伴随着模型响应中的真实内容,以往基于响应级别偏好学习的事实性对齐方法在训练过程中不可避免地引入了噪声。为此,本文提出了一种基于直接偏好优化(DPO)的细粒度事实性对齐方法,称为Mask-DPO。通过将句子级别的事实性作为掩码信号,Mask-DPO仅从优选样本中事实正确的句子中学习,并避免对非优选样本中事实内容的惩罚,从而解决了偏好学习中的模糊性问题。大量实验结果表明,Mask-DPO能显著提升LLMs对来自域内及域外数据集问题的回答事实性,尽管这些问题及其相关主题在训练期间未曾见过。仅在ANAH训练集上训练后,Llama3.1-8B-Instruct在ANAH测试集上的得分从49.19%提升至77.53%,甚至超过了Llama3.1-70B-Instruct的得分(53.44%),同时其在域外传记数据集上的FactScore也从30.29%提高到了39.39%。我们进一步研究了Mask-DPO在不同训练样本扩展策略下的泛化特性,发现扩展数据集中的主题数量比问题数量更为有效。我们提出了关于LLMs事实性对齐作用机制的假设,探讨了这一现象的意义,并通过概念验证实验加以证实。希望该方法及发现能为未来扩展事实性对齐的研究铺平道路。
近期,大型语言模型(LLMs)的研究进展聚焦于生成符合人类期望并与共享价值观相一致的响应——这一过程被称为对齐。然而,由于人类价值观的复杂性与旨在解决这些问题的技术方法的局限性之间存在固有的脱节,实现LLMs的对齐仍面临挑战。当前的对齐方法常导致目标设定不当,这反映了更广泛的不完全契约问题,即在模型开发者与模型之间制定一个涵盖LLM对齐所有场景的契约是不切实际的。本文主张,提升LLM对齐需融入社会对齐框架的洞见,包括社会、经济及契约对齐,并探讨从这些领域汲取的潜在解决方案。鉴于不确定性在社会对齐框架中的角色,我们进一步探究了其在LLM对齐中的表现。讨论的最后,我们提出了一种关于LLM对齐的替代视角,将其目标未充分明确的特点视为机遇而非追求完美定义的障碍。除了LLM对齐的技术改进,我们还探讨了参与式对齐界面设计的必要性。
将生成模型适配到特定领域,为满足专业化需求提供了一种有效解决方案。然而,适配某些复杂领域仍具挑战性,尤其是当这些领域需要大量配对数据以捕捉目标分布时。鉴于单一模态(如视觉或语言)的非配对数据更易获取,我们利用统一生成模型学习到的视觉与语言间的双向映射,实现在非配对数据上进行领域适配训练。具体而言,我们提出了DoraCycle,它整合了两个多模态循环:文本到图像再到文本,以及图像到文本再到图像。该模型通过在循环终点处计算交叉熵损失进行优化,两个终点共享同一模态。这促进了模型的自进化,无需依赖标注的文本-图像对。实验结果表明,对于不依赖于配对知识的任务,如风格化,DoraCycle能够仅使用非配对数据有效适配统一模型。对于涉及新配对知识的任务,如特定身份识别,结合少量配对图像-文本示例与大规模非配对数据,足以实现有效的领域导向适配。代码将发布于https://github.com/showlab/DoraCycle。
流水线并行(Pipeline Parallelism, PP)在大型语言模型(LLMs)训练中广泛应用,然而其扩展性常受限于高激活内存消耗,因为随着PP程度的增加,飞行中的微批次数量也随之增长。本文聚焦于通过挖掘PP中尚未充分探索的内存卸载策略来应对这一挑战。通过实证研究,我们发现,在大多数标准配置下,至少一半甚至全部的激活数据可被卸载,且开销可忽略不计。在无法实现完全卸载的情况下,我们提出了一种新颖的选择性卸载策略,该策略以优于线性的方式降低峰值激活内存。此外,我们将内存卸载与其他技术相结合,综合考虑整体吞吐量与内存限制。实验证明,每设备的激活内存随着总阶段数的增加而有效减少,使PP成为比张量并行(TP)更具优势的选择,在内存消耗更低的情况下,最高可带来19%的加速。相关实现已开源,详见https://github.com/sail-sg/zero-bubble-pipeline-parallelism{此链接}。
尽管基于人类反馈的强化学习(RLHF)已成为控制语言模型输出的主流方法,但其存在计算成本高和训练不稳定的问题。引导解码,尤其是价值引导方法,提供了一种无需重新训练模型即可控制输出的经济高效替代方案。然而,价值函数的准确性对于价值引导解码至关重要,因为不准确可能导致决策次优化和性能下降。现有方法在准确估计最优价值函数方面存在困难,导致控制效果不佳。我们提出了迭代价值函数优化框架,通过两个关键组件解决这些局限:蒙特卡洛价值估计,通过探索多样轨迹减少估计方差;以及迭代策略优化,通过从价值引导策略中收集轨迹逐步改进价值估计。在文本摘要、多轮对话和指令跟随任务上的大量实验证明了价值引导解码方法在语言模型对齐中的有效性。这些方法不仅实现了对齐,还通过利用原则性价值函数优化进行高效控制,显著降低了计算成本。
统一的视频与动作模型在机器人领域展现出巨大潜力,其中视频为动作预测提供了丰富的场景信息,而动作则为视频预测带来了动态信息。然而,有效结合视频生成与动作预测仍面临挑战,当前基于视频生成的方法在动作准确性和推理速度上难以匹敌直接策略学习。为弥合这一差距,我们提出了统一视频动作模型(UVA),它通过联合优化视频与动作预测,实现了高精度与高效动作推理。关键在于学习一个联合的视频-动作潜在表示,并解耦视频-动作解码过程。这一联合潜在表示桥接了视觉与动作领域,有效建模了视频与动作序列间的关系。同时,借助两个轻量级扩散头实现的解耦解码,在推理时绕过视频生成,实现了高速动作推理。这一统一框架还通过掩码输入训练赋予了多功能性。通过选择性掩码动作或视频,单一模型能够处理策略学习之外的多样化任务,如正向与逆向动力学建模及视频生成。通过一系列广泛实验,我们证明UVA可作为机器人多种任务的通用解决方案,包括策略学习、正向/逆向动力学及视频观测预测,且在与特定应用定制方法相比时,性能毫不逊色。更多结果请访问https://unified-video-action-model.github.io/。
扩散模型在各类图像生成任务中取得了显著进展。然而,当生成分辨率高于训练期间所用分辨率时,其性能明显下降。尽管存在多种生成高分辨率图像的方法,但它们要么效率低下,要么受制于复杂的操作。本文提出RectifiedHR,一种无需训练的高效简洁的高分辨率图像生成方案。具体而言,我们引入了噪声刷新策略,理论上仅需几行代码即可解锁模型的高分辨率生成能力并提升效率。此外,我们首次观察到在高分辨率图像生成过程中可能导致图像模糊的能量衰减现象。为解决这一问题,我们提出了能量校正策略,通过修改无分类器引导的超参数有效提升了生成性能。我们的方法完全无需训练,且实现逻辑简单。通过与多种基线方法的广泛对比,RectifiedHR展现了卓越的有效性和效率。
近期,大型语言模型(LLMs)的进展催生了能够与图形用户界面(GUI)交互的智能LLM代理。这些代理展现出强大的推理能力和适应性,使其能够执行传统上依赖预定义规则的复杂任务。然而,LLM代理对逐步推理的依赖往往导致效率低下,尤其是在处理常规任务时。相比之下,传统的基于规则的系统在效率上表现优异,却缺乏适应新场景的智能与灵活性。为解决这一挑战,我们提出了一种新颖的GUI代理进化框架,旨在提升操作效率的同时保持智能与灵活性。我们的方法引入了一种记忆机制,记录代理的任务执行历史。通过分析这一历史,代理识别出重复的动作序列,并进化出高层动作作为快捷方式,替代这些低层操作,从而提高效率。这使得代理能够专注于需要更复杂推理的任务,同时简化常规操作。在多个基准任务上的实验结果表明,我们的方法在效率和准确性上均显著优于现有方法。代码将开源,以支持进一步研究。
为多步推理任务收集真实任务完成奖励或人类示范往往成本高昂且耗时,尤其是在网页任务等交互领域。针对这一瓶颈,我们提出了自教导前瞻法,这是一种自监督方法,它利用状态转移动态来训练一个能够有效指导语言模型控制搜索的价值模型。我们发现,通过自教导前瞻法改进的中等规模(80亿参数)开放权重价值模型,其性能可与使用前沿大语言模型(如gpt-4o)作为价值模型相媲美。此外,我们发现自教导前瞻法在无需依赖真实奖励的情况下,相比之前基于大语言模型的树搜索方法,提升了20%的性能,同时降低了37倍的成本。
自回归语言模型依赖于键值(KV)缓存,该缓存避免了在生成过程中重新计算过去的隐藏状态,从而加快了速度。随着模型规模和上下文长度的增长,KV缓存成为显著的内存瓶颈,这要求在生成过程中采用压缩方法来限制其大小。本文中,我们发现了查询(Q)和键(K)向量的惊人特性,使我们能够在不计算注意力图的情况下高效地近似注意力分数。我们提出了Q-Filters,一种无需训练的KV缓存压缩方法,它基于单一上下文无关的投影过滤掉不太关键的键值对。与许多替代方案不同,Q-Filters与FlashAttention兼容,因为它不需要直接访问注意力权重。在长上下文设置中的实验结果表明,Q-Filters在检索任务中与基于注意力的压缩方法(如SnapKV)竞争,同时在生成设置中始终优于高效的压缩方案(如Streaming-LLM)。值得注意的是,Q-Filters在“大海捞针”任务中以32倍压缩级别实现了99%的准确率,同时在文本生成中将生成困惑度下降减少了高达65%,相较于Streaming-LLM。
大型语言模型(LLM)代理在多领域任务中展现出了卓越的泛化能力。现有的代理调优方法通常采用对整个专家轨迹进行监督微调。然而,完整轨迹的行为克隆可能会引入专家偏见,并削弱对专家数据未覆盖状态的泛化能力。此外,规划、中间子任务的复杂推理以及战略决策等关键步骤对于代理任务的成功至关重要,因此学习这些步骤是提升LLM代理性能的关键。为了实现更高效、更经济的代理调优,我们提出了ATLaS方法,该方法识别专家轨迹中的关键步骤,并仅在这些步骤上以较低成本微调LLM。通过将训练重点集中在少数关键步骤上,我们的方法降低了过拟合整个轨迹的风险,并促进了在不同环境和任务间的泛化能力。在大量实验中,仅使用ATLaS选取的30%关键步骤微调的LLM,其表现优于在所有步骤上微调的LLM以及近期开源的LLM代理。ATLaS不仅保持了基础LLM作为通用代理与多样化环境交互的技能,还进一步提升了这些技能。
通用模型在语言和视觉-语言任务中取得了显著成功,展现了统一建模的潜力。然而,如何有效地将检测和分割等细粒度感知任务整合到这些模型中仍然是一个重大挑战。这主要是因为这些任务通常严重依赖于特定任务的设计和架构,这可能会使建模过程复杂化。为解决这一挑战,我们提出了\ours,一个通过开放式语言接口统一细粒度视觉感知任务的框架。通过将所有感知目标转换到语言空间,\ours将对象级检测、像素级分割和图像级视觉-语言任务统一到一个单一模型中。此外,我们引入了一种新颖的嵌入检索方法,该方法仅依赖于语言接口来支持分割任务。我们的框架弥合了细粒度感知与视觉-语言任务之间的差距,显著简化了架构设计和训练策略,同时在性能上达到或超越了具有复杂任务特定设计的方法。在五个标准视觉感知数据集上进行多任务训练后,\ours在COCO实例分割上比之前的最先进通用模型提高了12.3 mAP,在ADE20K语义分割上提高了3.3 mIoU。此外,我们的方法能够无缝集成现有的多模态大语言模型(MLLMs),有效地将细粒度感知能力与其高级语言能力相结合,从而支持更具挑战性的任务,如推理分割。代码和模型将公开发布。
推测采样技术作为一种加速大型语言模型(LLMs)自回归生成过程的重要方法,通过采用“草拟-验证”机制,在每次前向传播中生成多个令牌。尽管当前最先进的推测采样方法仅使用单层和语言建模(LM)头作为草拟模型,实现了显著的层压缩,但在处理大词汇量LLMs(如拥有128k词汇量的Llama-3-8B)时,其效率提升大幅受限。为此,我们提出了FR-Spec,一种基于频率排序的推测采样框架,通过压缩词汇空间来优化草拟候选选择。通过将草拟搜索限制在按频率优先的令牌子集内,我们的方法在确保最终输出分布等价的同时,将LM头的计算开销减少了75%。在多个数据集上的实验表明,相较于当前最先进的推测采样方法EAGLE-2,FR-Spec平均实现了1.12倍的加速。
评估文本到视觉内容的质量主要依赖于两个关键维度:视觉质量与对齐度。尽管在开发客观评估模型方面已取得显著进展,但此类模型的性能很大程度上取决于人工标注的规模与质量。根据扩展定律,增加人工标注样本数量遵循可预测的模式,能有效提升评估模型的性能。因此,我们引入了一个全面的数据集——Q-EVAL-100K,专为评估文本到视觉内容的视觉质量与对齐度而设计,该数据集包含了迄今为止最大规模的人类标注平均意见分数(MOS),针对上述两个维度。Q-EVAL-100K数据集覆盖了文本到图像及文本到视频模型,拥有960K条人工标注,专注于100K个实例(60K张图片与40K段视频)的视觉质量与对齐度评估。利用这一数据集并结合上下文提示,我们提出了Q-Eval-Score,一个统一模型,特别针对长文本提示的对齐问题进行了优化,能够同时评估视觉质量与对齐度。实验结果显示,Q-Eval-Score在视觉质量与对齐度评估上均表现出色,并在其他基准测试中展现了强大的泛化能力。这些发现凸显了Q-EVAL-100K数据集的重大价值。相关数据与代码将发布于https://github.com/zzc-1998/Q-Eval。
偏好学习通过利用相对质量比较,将代码大语言模型(Code LLMs)提升至超越监督微调的水平。现有方法基于测试用例的成功率构建候选代码对的偏好关系,将通过率较高的样本视为正例,较低的视为负例。然而,这种方法未能精确定位代码中的具体错误,阻碍了模型学习更具信息量的错误修正模式,因为将失败代码整体对齐缺乏捕捉有意义错误解决关系所需的细粒度。为解决这些问题,我们提出了IterPref,一种新的偏好对齐框架,它模拟人类迭代调试过程以优化Code LLMs。IterPref明确地定位错误区域,并通过定制的DPO算法对齐相应的标记。为生成信息丰富的对比对,我们引入了CodeFlow数据集,其中样本经过迭代优化直至通过测试,修改部分捕捉了错误修正。大量实验表明,配备IterPref的多种Code LLMs在代码生成任务上取得了显著的性能提升,并在BigCodeBench等挑战性任务上表现更优。深入分析显示,IterPref产生的错误更少。我们的代码和数据将公开提供。
在表征学习中,均匀性指的是潜在空间(即单位超球面)内特征的均匀分布。先前的研究表明,提升均匀性有助于学习那些代表性不足的类别。然而,大多数研究集中于分类问题;对于不平衡回归的表征空间仍待探索。基于分类的方法并不适用于回归任务,因为它们将特征聚类为离散的组别,而忽视了回归所必需的连续性和有序性。从几何视角出发,我们独辟蹊径,通过两种关键损失函数——包络损失和同质性损失,确保不平衡回归在潜在空间中的均匀性。包络损失促使诱导轨迹均匀覆盖超球面,而同质性损失则保证平滑性,使表征以一致的间隔均匀分布。我们的方法通过一个代理驱动的表征学习(SRL)框架,将这些几何原理融入数据表征之中。针对现实世界回归及算子学习任务的实验,凸显了均匀性在不平衡回归中的重要性,并验证了我们基于几何的损失函数的有效性。
推动计算病理学中的人工智能发展,需要大规模、高质量且多样化的数据集,然而现有的公开数据集往往在器官多样性、类别覆盖或标注质量方面存在局限。为填补这一空白,我们推出了SPIDER(监督病理图像描述库),这是目前公开可用的最大切片级数据集,涵盖皮肤、结直肠和胸部等多种器官类型,并为每种器官提供了全面的类别覆盖。SPIDER包含由病理学专家验证的高质量标注,并配有周围环境切片,通过提供空间上下文信息来提升分类性能。 与数据集一同发布的,还有基于SPIDER训练的基线模型,这些模型采用Hibou-L基础模型作为特征提取器,并结合了基于注意力的分类头。这些模型在多种组织类别上实现了最先进的性能,为未来的数字病理学研究设立了强有力的基准。除了切片分类外,该模型还能快速识别关键区域、量化组织指标,并为多模态方法奠定基础。 数据集及训练好的模型均已公开,旨在促进研究、提升可重复性,并推动AI驱动的病理学发展。访问地址:https://github.com/HistAI/SPIDER。
近年来,通用视觉基础模型(VFMs)的应用日益广泛,尤其是在作为流行多模态大语言模型(MLLMs)的图像编码器方面。然而,由于缺乏语义细粒度的监督,这些模型在下游与文本图像相关的任务中——即对包含细小密集文本图像的感知、理解与推理——仍面临根本性的预测错误。为填补这一空白,我们开发了TokenOCR,这是首个专为文本图像相关任务定制的令牌级视觉基础模型,旨在支持多种传统下游应用。为促进TokenOCR的预训练,我们还设计了一套高质量的数据生成流程,构建了首个令牌级图像文本数据集TokenIT,包含2000万张图像和18亿个令牌-掩码对。此外,凭借这一具备卓越图像即文本能力的基础,我们无缝地将TokenOCR替代先前的VFMs,构建了面向基于VQA的文档理解任务的文档级MLLM——TokenVL。最终,大量实验验证了TokenOCR与TokenVL的有效性。代码、数据集及权重将发布于https://token-family.github.io/TokenOCR_project。
尽管近年来大型语言模型(LLMs)的进步极大提升了合成文本数据的质量,但表格数据的合成却相对较少受到关注。我们通过Tabby来解决这一差距,这是一种对标准Transformer语言模型架构进行简单却强大的训练后修改,使其能够用于表格数据集的合成。Tabby利用门控专家混合机制(Gated Mixture-of-Experts)来表示列间差异,并为每列配备特定的参数集。实验表明,Tabby生成的数据质量接近甚至等同于真实数据。通过将我们新颖的LLM表格训练技术Plain与Tabby结合,我们观察到数据质量相比之前方法提升了高达44%。此外,我们还展示了Tabby不仅限于表格数据,还能扩展到更一般的结构化数据,在一个嵌套的JSON数据集上也达到了与真实数据相当的水平。
近几十年来,神经科学与心理学研究揭示了味觉与听觉感知之间的直接关联。本文基于这一基础研究,探索了能够将味觉信息转化为音乐的多模态生成模型。我们简要回顾了该领域的最新进展,重点介绍了关键发现与方法论。我们进行了一项实验,其中使用了一个经过微调的音乐生成模型(MusicGEN),根据为每首音乐作品提供的详细味觉描述来生成音乐。实验结果令人鼓舞:根据参与者(n=111)的评估,经过微调的模型生成的音乐比未微调的模型更能连贯地反映输入的味觉描述。这项研究代表了在理解与开发人工智能、声音和味觉之间具身交互方面迈出的重要一步,为生成式人工智能领域开辟了新的可能性。我们已在以下网址发布了我们的数据集、代码与预训练模型:https://osf.io/xs5jy/。
本文提出离散时间混合自动机学习(DHAL)框架,该框架利用在线策略强化学习来识别和执行模式切换,而无需轨迹分割或事件函数学习。混合动力系统包含连续流和离散模式切换,能够模拟如足式机器人运动等机器人任务。基于模型的方法通常依赖于预定义的步态,而无模型方法则缺乏明确的模式切换知识。现有方法通过分割识别离散模式后再回归连续流,但在没有轨迹标签或分割的情况下学习高维复杂刚体动力学仍是一个具有挑战性的开放性问题。我们的方法结合了贝塔策略分布和多批评器架构,以建模接触引导的运动,并以具有挑战性的四足机器人滑板任务为例。我们通过仿真和实际测试验证了该方法,展示了其在混合动力系统中的稳健性能。