每日精选AI研究论文及翻译
构建具备强大图像描述能力的先进视觉-语言模型(VLMs),通常需要在数十亿高质量图文对上进行训练,消耗数百万GPU小时。本文提出了视觉-语言-视觉(VLV)自编码器框架,该框架巧妙地利用了关键预训练组件:视觉编码器、文本到图像(T2I)扩散模型的解码器,以及后续的大型语言模型(LLM)。具体而言,我们通过冻结预训练的T2I扩散解码器,对语言表示空间进行正则化,从而建立信息瓶颈。我们的VLV管道利用连续嵌入有效地从文本条件扩散模型中提炼知识,通过高质量重建展示了全面的语义理解能力。此外,通过微调预训练的LLM以将中间语言表示解码为详细描述,我们构建了一个与GPT-4o和Gemini 2.0 Flash等领先模型相媲美的先进图像描述器。我们的方法展现了卓越的成本效益,并显著降低了数据需求;主要通过使用单模态图像进行训练,并最大化现有预训练模型(图像编码器、T2I扩散模型和LLM)的效用,避免了大规模图文数据集的需求,将总训练成本控制在1000美元以内。
本技术报告介绍了EXAONE 4.0,它集成了非推理模式与推理模式,旨在同时实现EXAONE 3.5的卓越易用性和EXAONE Deep的高级推理能力。为迎接智能体AI时代,EXAONE 4.0引入了关键特性,如智能体工具使用,并扩展了多语言支持,除英语和韩语外,新增了西班牙语。EXAONE 4.0模型系列包含两种规模:一款中型32B模型,专为高性能优化;另一款小型1.2B模型,适用于设备端应用。相较于同类开源模型,EXAONE 4.0展现出更优性能,即便与前沿模型相比也保持竞争力。这些模型已公开发布,供研究使用,可通过https://huggingface.co/LGAI-EXAONE轻松下载。
大型基础模型通常基于多领域数据进行训练,其中数据混合比例——即各领域数据所占比重——对模型性能起着关键作用。传统选择这一比例的方法依赖于试错,这在大规模预训练中变得不切实际。我们提出了一种系统方法,利用缩放定律来确定任何目标领域的最优数据混合比例。我们的方法能准确预测使用N规模模型、D个标记及特定领域权重向量h训练时的模型损失。通过在三个不同且大规模场景——大型语言模型(LLM)、原生多模态模型(NMM)及大规模视觉模型(LVM)预训练——中展示其预测能力,我们验证了这些缩放定律的普适性。进一步研究表明,这些缩放定律能够外推至新的数据混合比例及跨尺度应用:其参数可通过少量小规模训练运行准确估计,并用于预测更大规模及未见过的领域权重下的性能。缩放定律使我们能够在给定训练预算(N,D)下,为任何目标领域推导出最优的领域权重,为昂贵的试错方法提供了一个有原则的替代方案。
本文介绍了MISS-QA,这是首个专门用于评估模型解读科学文献中示意图能力的基准测试。MISS-QA包含465篇科学论文中的1500个专家标注示例。在该基准中,模型需解读展示研究概览的示意图,并根据论文的广泛背景回答相应的信息检索问题。我们评估了18种前沿多模态基础模型的性能,包括o4-mini、Gemini-2.5-Flash和Qwen2.5-VL。结果显示,这些模型与人类专家在MISS-QA上的表现存在显著差距。我们对模型在无法回答问题上的表现分析及详细的错误分析,进一步揭示了当前模型的优势与局限,为提升模型理解多模态科学文献的能力提供了关键见解。
大型语言模型(LLMs)已展现出强大的问题解决能力,尤其是在多智能体系统中组织使用时。然而,这类系统的出现也引发了一系列关于复杂智能体网络能否有效自我组织与协作的问题。尽管在标准推理基准上的性能测量能反映多智能体系统解决推理任务的能力,但尚不清楚这些系统是否能有效利用其拓扑结构。为此,我们提出了AgentsNet,一个专为多智能体推理设计的新基准。借鉴分布式系统与图论中的经典问题,AgentsNet旨在评估多智能体系统在给定网络拓扑下,协作制定问题解决策略、自我组织及有效沟通的能力。我们在AgentsNet上评估了多种基线方法,包括首先需就组织与通信基本协议达成一致的同质智能体网络。研究发现,部分前沿LLMs在小规模网络中已表现出色,但随着网络规模扩大,其性能开始下降。现有多智能体基准最多涵盖2至5个智能体,而AgentsNet在规模上几乎无限制,能够随新一代LLMs的发展而扩展。因此,我们还探索了在多达100个智能体的设置下,前沿模型的表现。
近期,基于推理的大型语言模型(LLMs)取得了显著进展,特别是在测试时扩展方面的潜力,为代码生成与评审的蒸馏技术开辟了重要机遇。然而,这两方面的进步从根本上依赖于大规模、高质量的数据集。在本研究中,我们推出了OpenCodeReasoning-II,一个包含250万条问题-解决方案-评审三元组(约3.5万个独特编程问题)的数据集,其规模几乎是之前公开的最大代码推理数据集的两倍。本研究采用了两阶段监督微调策略:第一阶段专注于代码生成的微调,而第二阶段则涉及代码生成与评审模型的联合训练。经过微调的Qwen2.5-Instruct模型在代码生成上的表现,不仅超越或持平了之前最佳的公开权重蒸馏模型,而且将代码生成与评审模型相结合,显著提升了竞技编程的表现。此外,我们还扩展了LiveCodeBench基准测试,特别增加了对C++编程语言的支持,从而利用该基准实现了对LLM更全面的评估。
从视频中提取光流仍然是计算机视觉的核心问题。受大型通用模型成功的启发,我们探讨了仅针对未来帧预测训练的自监督视频模型是否能在无需微调的情况下被提示输出光流。先前从视频生成器中读取深度或光照的工作需要微调,这对于光流来说并不实用,因为光流标签稀缺且合成数据集存在模拟到现实的差距。受反事实世界模型(CWM)范式的启发,该范式通过向下一帧预测器注入微小追踪扰动并跟踪其传播来获取点对点对应关系,我们将这一思路扩展到生成式视频模型中。我们探索了几种流行的架构,发现以这种方式成功实现零样本光流提取得益于三个模型特性:(1)未来帧的分布预测(避免模糊或噪声输出);(2)将每个时空补丁独立处理的因子化潜在变量;(3)能够基于任何未来像素子集进行随机访问解码。这些特性在最近的局部随机访问序列(LRAS)架构中独特存在。基于LRAS,我们提出了KL追踪:一种新颖的测试时程序,将局部扰动注入第一帧,单步展开模型,并计算扰动与未扰动预测分布之间的Kullback-Leibler散度。在没有任何光流特定微调的情况下,我们的方法在真实世界的TAP-Vid DAVIS数据集(端点误差相对提升16.6%)和合成的TAP-Vid Kubric数据集(相对提升4.7%)上超越了最先进的模型。我们的结果表明,对可控生成式视频模型进行反事实提示是一种可扩展且有效的高质量光流获取方法,优于监督或光度损失方法。
知识图谱问答(KGQA)因输入图谱的结构和语义差异面临重大挑战。现有研究依赖大型语言模型(LLM)代理进行图遍历与检索,这一方法对遍历初始化敏感,易产生实体链接错误,且难以良好泛化至自定义(“自带”)知识图谱。我们提出BYOKG-RAG框架,通过协同结合LLMs与专用图检索工具,增强KGQA能力。在BYOKG-RAG中,LLMs生成关键图构件(问题实体、候选答案、推理路径及OpenCypher查询),图工具则将这些构件链接至知识图谱并检索相关图上下文。检索到的上下文使LLM能够在最终答案生成前,迭代优化其图链接与检索。通过从不同图工具中检索上下文,BYOKG-RAG为自定义知识图谱上的问答提供了更通用且稳健的解决方案。在涵盖多种知识图谱类型的五个基准测试中,BYOKG-RAG较次优图检索方法提升了4.5个百分点,同时展现出对自定义知识图谱更好的泛化能力。BYOKG-RAG框架已开源,地址为https://github.com/awslabs/graphrag-toolkit。
音频修复是指重建受损音频记录中缺失片段的任务。尽管先前的方法——包括基于波形和频谱图的扩散模型——在短时间间隔上已展现出良好的效果,但当间隔超过100毫秒(ms)时,其质量往往显著下降。在本研究中,我们提出了一种基于离散扩散建模的新型修复方法,该方法通过预训练的音频标记器生成的标记化音频表示进行操作。我们的方法直接在离散潜在空间中建模生成过程,从而实现了缺失音频的稳定且语义连贯的重建。我们在MusicNet数据集上评估了该方法,使用客观和感知指标对长达300毫秒的间隔进行了测试。此外,我们还在MTG数据集上进一步评估了我们的方法,将间隔时间延长至500毫秒。实验结果表明,与现有基线相比,我们的方法实现了具有竞争力或更优的性能,尤其是在处理较长时间间隔时,为恢复受损音乐录音提供了一个稳健的解决方案。我们提出的方法的音频示例可在https://iftach21.github.io/找到。
大型语言模型(LLMs)已深刻改变了软件开发与自动化代码生成领域。受此进展启发,本文探讨了LLMs在修改恶意软件源代码以生成变种方面的可行性。我们提出了LLMalMorph,一个半自动化框架,它利用LLMs对代码语义和句法的理解能力来生成新的恶意软件变种。LLMalMorph从恶意软件源代码中提取函数级信息,并结合定制设计的提示与策略性定义的代码转换,引导LLM生成变种,而无需进行资源密集型的微调。为评估LLMalMorph,我们收集了10种类型、复杂度和功能各异的Windows恶意软件样本,并生成了618个变种。我们的详尽实验表明,在保持恶意软件功能的同时,能够在一定程度上降低这些变种对杀毒引擎的检测率。此外,尽管未针对任何基于机器学习(ML)的恶意软件检测器进行优化,多个变种仍在对基于ML的恶意软件分类器的攻击中取得了显著的成功率。我们还讨论了当前LLMs在从源代码生成恶意软件变种方面的局限性,并评估了这一新兴技术在更广泛的恶意软件变种生成背景下的现状。
现代人工智能(AI)日益依赖于融合视觉与语言理解的多智能体架构。然而,一个紧迫的挑战依然存在:在无需微调的零样本场景下,我们如何信任这些智能体?我们提出了一种新颖的模块化智能体AI视觉分类框架,该框架将通用多模态智能体与非视觉推理协调器及检索增强生成(RAG)模块相结合。应用于苹果叶病害诊断,我们评估了三种配置:(I)基于置信度的零样本协调,(II)性能提升的微调智能体,以及(III)通过CLIP图像检索与重评估循环增强的信任校准协调。利用置信度校准指标(ECE、OCR、CCC),协调器调节各智能体间的信任度。我们的结果显示,在零样本设置下,采用信任感知协调与RAG,准确率提升了77.94%,总体达到85.63%。GPT-4o表现出更好的校准性,而Qwen-2.5-VL则显示出过度自信。此外,基于图像RAG的预测通过视觉相似案例得到验证,通过迭代重评估纠正了智能体的过度自信。所提出的系统将感知(视觉智能体)与元推理(协调器)分离,实现了可扩展且可解释的多智能体AI。这一蓝图可扩展至诊断、生物学及其他信任至关重要的领域。所有模型、提示、结果及系统组件,包括完整的软件源代码,均已公开发布于Github,以支持可重复性、透明性及社区基准测试:https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust。
现实世界中用户生成的视频,尤其是在TikTok等平台上,往往包含丰富且交织的视听内容。然而,现有的视频字幕生成基准和模型仍主要侧重于视觉信息,忽视了音频在传达场景动态、说话者意图及叙事背景中的关键作用。缺乏全面的数据集及轻量级、高性能的模型,阻碍了细粒度多模态视频理解的进展。为应对这些挑战,我们推出了UGC-VideoCap,这是一个专为短格式用户生成视频的详细全模态字幕生成而设计的新基准和模型框架。与以往数据集不同,UGC-VideoCap强调音频与视觉模态的平衡整合,包含1000个TikTok视频,通过一个结构化的三阶段人机协作流程进行标注,涵盖仅音频、仅视觉及联合视听语义。该基准还包含4000个精心设计的问答对,用于探究单模态及跨模态理解。伴随数据集,我们提出了UGC-VideoCaptioner(3B),一个从Gemini 2.5 Flash蒸馏而来的3B参数字幕生成模型。采用新颖的两阶段训练策略——监督微调后接组相对策略优化(GRPO),我们的方法能够在有限数据下实现高效适应,同时保持竞争力。我们的基准和模型共同为在无约束的真实世界UGC环境中推进全模态视频字幕生成提供了高质量的基础和数据高效的解决方案。
大型语言模型(LLMs)展现出认知偏差——即系统性的非理性决策倾向,与人类观察到的类似。先前研究发现,这些偏差因模型而异,并可能通过指令微调被放大。然而,尚不清楚这些偏差差异是源于预训练、微调,还是训练过程中的随机噪声所致。我们提出了一种两步因果实验方法以厘清这些因素。首先,我们使用不同随机种子多次微调模型,研究训练随机性如何影响超过30种认知偏差。其次,我们引入交叉微调——在模型间交换指令数据集以隔离偏差来源。这种交换使用导致不同偏差模式的数据集,直接测试偏差是否依赖于数据集。我们的发现表明,尽管训练随机性引入了一定变异性,但偏差主要由预训练塑造:拥有相同预训练骨干的模型比仅共享微调数据的模型展现出更相似的偏差模式。这些见解提示,理解微调模型中的偏差需超越微调效应,考虑其预训练起源。这一视角可指导未来开发评估和缓解LLMs偏差的原则性策略。