每日精选AI研究论文及翻译
我们推出Qwen-Image,作为Qwen系列中的图像生成基础模型,在复杂文本渲染与精准图像编辑方面取得了显著进展。针对复杂文本渲染的挑战,我们设计了一套全面的数据流程,涵盖大规模数据收集、筛选、标注、合成与平衡。此外,采用渐进式训练策略,从非文本到文本渲染起步,由简至繁逐步引入文本输入,最终扩展至段落级描述。这一课程学习方法显著提升了模型的原生文本渲染能力。因此,Qwen-Image不仅在英语等字母语言上表现卓越,在更具挑战性的汉字等表意文字语言上也取得了显著进步。为增强图像编辑的一致性,我们引入了一种改进的多任务训练范式,不仅包含传统的文本到图像(T2I)和文本图像到图像(TI2I)任务,还整合了图像到图像(I2I)重建任务,有效对齐了Qwen2.5-VL与MMDiT之间的潜在表示。更进一步,我们分别将原始图像输入Qwen2.5-VL和VAE编码器,以获取语义与重建表示。这种双编码机制使编辑模块能够在保持语义一致性与视觉保真度之间找到平衡。Qwen-Image在多个基准测试中展现了顶尖性能,证明了其在图像生成与编辑方面的强大能力。
针对长文档的检索增强生成(RAG)通常需要将文本分割成较小的片段,作为检索的基本单元。然而,由于原文档中存在跨片段依赖关系,上下文信息对于准确解读每个片段往往至关重要。为此,先前的研究探索了通过编码更长的上下文窗口来生成更长片段的嵌入表示。尽管如此,检索及下游任务的提升依然有限,原因在于:(1) 更长的片段因需编码更多信息而给嵌入模型带来容量压力;(2) 许多实际应用因模型或人类处理能力的限制,仍需返回局部证据。 我们提出了一种替代方案,通过以更广泛的上下文窗口为条件来表征短片段,从而提升检索性能——即在一个片段的上下文中定位其含义。我们进一步指出,现有嵌入模型在有效编码此类情境化上下文方面存在不足,因此引入了一种新的训练范式,并开发了情境化嵌入模型(SitEmb)。为评估我们的方法,我们专门构建了一个书籍情节检索数据集,旨在测试情境化检索能力。在此基准测试中,基于BGE-M3的SitEmb-v1模型仅凭10亿参数,便显著超越了包括多个拥有70亿至80亿参数在内的最先进嵌入模型。而我们的80亿参数SitEmb-v1.5模型更进一步,性能提升超过10%,并在多种语言及多个下游应用中展现出强劲表现。
虚拟细胞建模代表了人工智能与生物学交叉领域的一个新兴前沿,旨在定量预测诸如对多种扰动的响应等量值。然而,由于生物系统的复杂性、数据模态的异质性以及跨多个学科领域专业知识的需求,自主构建虚拟细胞的计算模型颇具挑战。在此,我们介绍CellForge,一个基于多智能体框架的代理系统,它能将提供的生物数据集和研究目标直接转化为优化的虚拟细胞计算模型。具体而言,仅需输入原始的单细胞多组学数据和任务描述,CellForge便能输出用于训练虚拟细胞模型及推理的优化模型架构与可执行代码。该框架整合了三大核心模块:任务分析模块负责数据集特征描述及相关文献检索,方法设计模块中专门化的智能体协作开发优化建模策略,实验执行模块则自动生成代码。设计模块中的智能体被划分为持有不同视角的专家和一位中央协调者,他们需协作交流解决方案直至达成合理共识。我们通过涵盖基因敲除、药物处理和细胞因子刺激等多种模态的六个数据集,展示了CellForge在单细胞扰动预测中的能力。CellForge在各项任务中均优于特定任务的最先进方法。总体而言,CellForge展示了具有不同视角的大语言模型智能体间迭代交互如何比直接应对建模挑战提供更优解决方案。我们的代码已公开于https://github.com/gersteinlab/CellForge。
推理模型在复杂问题解决方面表现出色,但在推理能力与指令遵循能力之间存在着令人担忧的权衡。现有提升指令遵循能力的方法依赖于更强大的外部模型,这导致了方法论上的瓶颈和实际限制,包括成本增加和可访问性受限。我们提出了一种自监督强化学习框架,该框架利用推理模型自身的内部信号来提升指令遵循能力,无需外部监督。大量实验表明,我们的框架在保持推理性能的同时,显著提升了指令遵循能力,为增强推理模型的指令遵循能力提供了一种可扩展且经济高效的方法。相关数据和代码已公开于https://github.com/Rainier-rq/verl-if。
大型语言模型(LLMs)在众多领域展现了显著的成功,然而其在网络安全应用中的整合仍显不足,原因在于缺乏通用网络安全数据、表征复杂性以及安全与监管顾虑。为填补这一空白,我们先前推出了Foundation-Sec-8B,这是一款专为网络安全设计、适合下游任务微调的LLM。然而,该模型并未针对聊天式交互或指令遵循进行优化。在本报告中,我们发布了Foundation-Sec-8B-Instruct:一款专门训练用于通用网络安全对话的模型。基于Foundation-Sec-8B构建,它融合了领域专业知识、指令遵循能力、对话技巧及与人类偏好的对齐,以生成高质量、相关性强的响应。全面评估显示,Foundation-Sec-8B-Instruct在一系列网络安全任务上超越了Llama 3.1-8B-Instruct,同时在指令遵循性能上与之相当。在网络安全威胁情报和指令遵循任务上,它也与GPT-4o-mini旗鼓相当。我们预见Foundation-Sec-8B-Instruct将成为网络安全专业人员日常工作中不可或缺的助手。该模型已公开发布于https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct。
绝大多数人类蛋白质尚未被药物靶向,超过96%的人类蛋白质未被已批准的治疗药物开发利用。尽管基于结构的虚拟筛选有望扩展可药物化的蛋白质组,但现有方法缺乏原子级精度,且无法预测结合适应性,限制了其转化应用。我们提出了AuroBind,一个可扩展的虚拟筛选框架,该框架在百万级化学基因组数据上微调了定制的原子级结构模型。AuroBind整合了直接偏好优化、高置信度复合物的自蒸馏以及师生加速策略,共同预测配体结合结构和结合适应性。所提出的模型在结构和功能基准测试中超越了现有最先进模型,同时实现了在超大规模化合物库中100,000倍速的筛选。在对十个疾病相关靶点的前瞻性筛选中,AuroBind的实验命中率达到7-69%,其中顶级化合物展现出亚纳摩尔至皮摩尔级别的效力。对于孤儿GPCRs GPR151和GPR160,AuroBind成功识别了激动剂和拮抗剂,成功率在16-30%之间,功能实验证实了GPR160在肝癌和前列腺癌模型中的调节作用。AuroBind为结构功能学习和高通量分子筛选提供了一个通用框架,弥合了结构预测与治疗发现之间的鸿沟。
近期,大型语言模型(LLMs)的突破性进展推动了全模态理解与生成的显著进步。然而,训练全模态LLMs仍面临重大挑战,这主要源于处理多种模态所需的异构模型架构,以及实现高效大规模训练所需的复杂系统设计。现有框架通常将模型定义与并行逻辑紧密耦合,导致可扩展性受限,并为端到端全模态训练带来巨大的工程开销。我们提出了一种模块化且高效的训练框架,旨在加速全模态LLMs的开发。该框架引入了以模型为中心的分布式策略,将通信与计算解耦,从而在全模态LLMs上实现高效的三维并行。此外,该框架还具备灵活的配置接口,支持以最小代码改动无缝集成新模态。利用这一框架,一个拥有300亿参数的全模态专家混合(MoE)模型能够在128个GPU上通过三维并行实现超过每秒每GPU 2,800个令牌的训练吞吐量,并扩展至16万上下文长度,充分展示了其在训练大规模全模态LLMs方面卓越的效率和可扩展性。
要在现实世界中有效运作,机器人必须将多模态推理与精确动作生成相结合。然而,现有的视觉-语言-动作(VLA)模型往往顾此失彼,局限于特定任务的操作数据,并遭受预训练视觉-语言能力的灾难性遗忘。为弥合这一差距,我们推出了InstructVLA,一个端到端的VLA模型,它既保留了大型视觉-语言模型(VLM)的灵活推理能力,又实现了领先的操作性能。InstructVLA引入了一种新颖的训练范式——视觉-语言-动作指令调优(VLA-IT),通过多模态训练与专家混合适应相结合,共同优化文本推理和动作生成,在标准VLM语料库及精心策划的650K样本VLA-IT数据集上进行训练。在领域内的SimplerEnv任务中,InstructVLA相比SpatialVLA提升了30.5%。为评估泛化能力,我们提出了SimplerEnv-Instruct,一个包含80项任务的基准测试,要求闭环控制和高层次指令理解,在此测试中,InstructVLA超越了微调后的OpenVLA 92%,并比由GPT-4o辅助的动作专家高出29%。此外,InstructVLA在多模态任务上超越了基线VLM,并通过利用文本推理在模拟和现实环境中提升操作性能,展示了推理时的扩展能力。这些成果证明了InstructVLA在实现直观可控的人机交互与高效策略学习方面的潜力。
大规模数据集是自然语言处理研究与发展的基石。然而,当前方法面临三大关键挑战:(1)依赖许可模糊的来源,限制了使用、共享及衍生作品的创作;(2)静态数据集发布模式阻碍了社区贡献,削弱了数据集的持久性;(3)质量保证流程局限于发布团队,未能充分利用社区的专业知识。 针对这些局限,我们提出了两项创新:Dynaword方法与丹麦Dynaword。Dynaword方法是一个框架,旨在通过社区协作创建可持续更新的大规模开放数据集。丹麦Dynaword则是该框架的具体实践,验证了其可行性并展现了潜力。丹麦Dynaword包含的词汇量是同类发布版本的四倍以上,完全采用开放许可,并已获得来自工业界和研究界的多次贡献。该资源库包含轻量级测试,确保数据格式、质量及文档的规范性,为持续的社区贡献和数据集演进建立了一个可持续的框架。
视觉令牌压缩对于大型视觉语言模型(LVLMs)高效处理高分辨率输入至关重要。现有方法通常采用固定的压缩比率,无法适应不同复杂度的场景,常常导致不精确的剪枝,丢弃了信息丰富的视觉令牌,从而降低了模型性能。为解决这一问题,我们引入了一种受人类认知启发的动态剪枝框架——GlimpsePrune。该框架通过数据驱动的“一瞥”方式,在生成答案前的一次前向传播中剪除无关的视觉令牌。此方法剪除了92.6%的视觉令牌,同时在自由形式视觉问答任务上平均完全保持了基线性能。降低的计算成本还使得微调更为有效:增强版的GlimpsePrune+在保持相似高剪枝率的同时,达到了基线性能的110%。我们的工作为构建更强大、更高效的LVLMs开辟了新途径。
扩散大语言模型(dLLMs)在推理和并行解码方面实现了突破,但其推理过程中存在难以承受的二次方计算复杂度和内存开销。当前的缓存技术通过存储全层状态来加速解码,却带来了巨大的内存占用,限制了长上下文应用。我们对dLLMs中注意力模式的分析揭示了跨层稀疏性的持久存在,关键标记在解码步骤中保持显著,而低相关性标记始终不重要,这促使我们采用选择性缓存淘汰策略。我们提出了Sparse-dLLM,这是首个无需训练即可通过延迟双向稀疏缓存将动态缓存淘汰与稀疏注意力相结合的框架。通过利用标记显著性在步骤间的稳定性,它保留了关键标记,并采用注意力引导策略动态淘汰不重要的前缀/后缀条目。在LLaDA和Dream系列上的大量实验表明,Sparse-dLLM相比原始dLLMs实现了高达10倍的吞吐量提升,同时保持了可比的性能和相近的峰值内存成本,在效率和效果上均优于先前的方法。
我们推出了Voxlect,一个利用语音基础模型对全球方言及区域语言进行建模的全新基准。具体而言,我们报告了针对英语、阿拉伯语、普通话与粤语、藏语、印度诸语言、泰语、西班牙语、法语、德语、巴西葡萄牙语及意大利语中方言与区域语言变体的全面基准评估。本研究采用了来自30个公开可获取的、附带方言信息的语音语料库,总计超过200万条训练语句。我们评估了多种广泛使用的语音基础模型在方言分类任务中的表现,考察了方言模型在噪声环境下的鲁棒性,并通过错误分析揭示了与地理连续性相一致的建模结果。除了方言分类基准测试外,我们还展示了Voxlect支持的若干下游应用。具体来说,我们证明了Voxlect可用于增强现有语音识别数据集,添加方言信息,从而更细致地分析跨方言变体的自动语音识别(ASR)性能。此外,Voxlect还作为评估语音生成系统性能的工具。Voxlect已公开提供,遵循RAIL系列许可,访问地址为:https://github.com/tiantiaf0627/voxlect。
艺术品尤其是绘画作品的归属问题,历来是艺术领域的一大难题。随着能够生成和分析图像的强大人工智能模型的出现,绘画作品的归属认定面临新的挑战。一方面,AI模型能够创作出模仿特定画家风格的图像,这些图像可能会被其他AI模型错误地归因;另一方面,AI模型在识别真实画作的作者时也可能出现偏差,导致用户对画作进行错误的归属认定。本文利用最先进的图像生成与分析AI模型,在一个包含128位艺术家近40,000幅画作的大型数据集上,对这两个问题进行了实验研究。结果表明,视觉语言模型在以下两方面能力有限:1)进行画布归属认定;2)识别AI生成的图像。随着用户越来越依赖向AI模型查询获取信息,这些结果凸显了提升视觉语言模型可靠执行艺术家归属认定及AI生成图像检测能力的必要性,以防止错误信息的传播。
文本到图像扩散模型已彻底革新了视觉内容生成领域,然而现行的安全机制采用统一标准,往往未能充分考虑个体用户的偏好。这些模型忽视了由年龄、心理健康及个人信仰等因素塑造的多样化安全边界。为此,我们提出了个性化安全对齐(Personalized Safety Alignment, PSA)框架,该框架允许用户在生成模型中对安全行为进行个性化控制。PSA将个性化用户档案融入扩散过程,调整模型行为以契合个体安全偏好,同时保持图像质量。我们引入了一个新数据集Sage,该数据集捕捉用户特定的安全偏好,并通过交叉注意力机制整合这些档案。实验表明,PSA在有害内容抑制方面优于现有方法,并能更好地使生成内容与用户约束保持一致,实现了更高的胜率(Win Rate)和通过率(Pass Rate)得分。我们的代码、数据及模型已公开于https://torpedo2648.github.io/PSAlign/。
我们提出了RoboMemory,一种受大脑启发的多记忆框架,旨在解决物理具身系统中的终身学习问题,应对现实环境中的关键挑战:持续学习、多模块记忆延迟、任务关联捕捉以及闭环规划中的无限循环缓解。该框架基于认知神经科学,整合了四个核心模块:信息预处理器(类似丘脑)、终身具身记忆系统(类似海马体)、闭环规划模块(类似前额叶)和低级执行器(类似小脑),以实现长期规划和累积学习。作为框架的核心,终身具身记忆系统通过空间、时间、情景和语义子模块的并行更新/检索,缓解了复杂记忆框架中的推理速度问题。它结合了动态知识图谱(KG)和一致的架构设计,以增强记忆的一致性和可扩展性。在EmbodiedBench上的评估显示,RoboMemory在平均成功率上比开源基线(Qwen2.5-VL-72B-Ins)高出25%,并超越闭源的最先进技术(SOTA)(Claude3.5-Sonnet)5%,确立了新的SOTA。消融研究验证了关键组件(批评者、空间记忆、长期记忆),而实际部署则证实了其终身学习能力,在重复任务中显著提高了成功率。RoboMemory通过可扩展性缓解了高延迟挑战,为在物理机器人中集成多模态记忆系统提供了基础参考。
大型语言模型(LLMs)在配备可执行运行时环境进行训练后,于软件工程任务中取得了显著成就,尤其是在解决GitHub问题方面。然而,此类运行时环境在其他领域,尤其是网络安全领域,往往难以获取,因为挑战配置和执行环境具有短暂性或受限性。我们提出了Cyber-Zero,这是首个无需运行时的框架,旨在合成高质量代理轨迹以训练网络安全领域的LLMs。Cyber-Zero利用公开可得的CTF(Capture The Flag)解题报告,采用角色驱动的LLM模拟技术,逆向工程运行时行为,并在无实际环境的情况下生成逼真、长周期的交互序列。通过Cyber-Zero合成的轨迹,我们训练的基于LLM的代理在三个主要CTF基准测试——InterCode-CTF、NYU CTF Bench和Cybench上,相较于基线模型实现了最高13.1%的绝对性能提升。我们的最佳模型Cyber-Zero-32B,在开源权重模型中确立了新的性能标杆,其能力与DeepSeek-V3-0324和Claude-3.5-Sonnet等专有系统相当,同时提供了更优的成本效益,证明了无需运行时的轨迹合成能有效促进顶尖网络安全代理的普及化发展。
近期,密集三维重建领域的进展虽显著,但实现精确统一的几何预测仍面临重大挑战。现有方法大多局限于从输入图像中预测单一几何量。然而,深度、表面法线及点云图等几何量本质上是相互关联的,孤立地估计它们往往难以保证一致性,从而限制了预测的准确性和实际应用价值。这促使我们探索一种统一框架,该框架显式地建模不同几何属性间的结构耦合,以实现联合回归。本文中,我们提出了Dens3R,一个专为联合几何密集预测设计的三维基础模型,可广泛适应多种下游任务。Dens3R采用两阶段训练框架,逐步构建一个既具普适性又本质不变的点云图表示。具体而言,我们设计了一个轻量级的共享编码器-解码器骨干网络,并引入位置插值旋转位置编码,在保持表达力的同时增强对高分辨率输入的鲁棒性。通过将图像对匹配特征与本质不变性建模相结合,Dens3R能够准确回归表面法线、深度等多种几何量,实现从单视图到多视图输入的一致几何感知。此外,我们还提出了一种支持几何一致多视图推理的后处理流程。大量实验验证了Dens3R在各类密集三维预测任务中的卓越性能,并凸显了其在更广泛应用中的潜力。
确保充分的探索是训练元强化学习(meta-RL)智能体以解决新环境时的核心挑战。传统解决探索与利用困境的方法通过引入显式激励,如随机化、不确定性奖励或内在奖励,来鼓励探索。在本研究中,我们提出假设:仅以最大化贪婪(仅利用)目标训练的智能体,若满足以下三个条件,仍可展现出涌现的探索行为:(1) 循环环境结构,即环境中存在可重复的规律性,使得过去的经验能指导未来选择;(2) 智能体记忆,使智能体能够保留并利用历史交互数据;(3) 长期信用分配,即学习过程在足够长的时间范围内传播回报,使得探索的延迟收益能影响当前决策。通过在随机多臂老虎机和时间扩展的网格世界中的实验,我们观察到,当结构和记忆同时存在时,基于严格贪婪目标训练的策略会表现出信息寻求的探索行为。我们进一步通过控制消融实验证明,若缺乏环境结构或智能体记忆(条件1和2),涌现的探索行为将消失。令人惊讶的是,移除长期信用分配(条件3)并不总是阻止涌现的探索——我们将此结果归因于伪汤普森采样效应。这些发现表明,在适当的先决条件下,探索与利用不必被视为正交目标,而是可以从统一的奖励最大化过程中自然涌现。
测试时扩展(TTS)通过为推理阶段分配额外的计算资源,提升了大型语言模型(LLMs)的性能。然而,现有研究主要探讨了单阶段任务中的TTS;而现实世界中的许多问题属于多阶段复杂任务,由一系列异质子任务构成,每个子任务都需要具备特定能力的LLM。因此,我们研究了一个新颖问题:多阶段复杂任务中的测试时计算最优扩展,旨在为每个子任务选择合适的模型并分配预算,以最大化整体性能。多阶段任务中的TTS引入了两大基础挑战:(i)模型与预算分配的组合搜索空间,加之推理的高昂成本,使得暴力搜索不切实际。(ii)各子任务间最优模型与预算分配相互依赖,增加了计算最优搜索的复杂性。为填补这一空白,我们在六个数据集上的四项任务中开展了广泛的先导实验,得出了三条经验性见解,刻画了LLMs在多阶段复杂任务中的行为特征。基于这些见解,我们提出了AgentTTS,一个基于LLM代理的框架,它通过与执行环境的迭代反馈驱动交互,自主搜索计算最优分配。实验结果表明,AgentTTS在搜索效率上显著优于传统及其他基于LLM的基线方法,并在面对不同训练集规模时展现出更强的鲁棒性,同时提高了可解释性。
在大规模语言模型中,对长上下文建模的需求持续增长,但标准自注意力机制的二次方复杂度往往成为瓶颈。尽管现有的稀疏注意力机制已提升了效率,但仍可能面临静态模式或信息丢失等问题。我们提出了一种可训练的动态掩码稀疏注意力机制——动态掩码注意力(Dynamic Mask Attention, DMA),它有效利用了内容感知与位置感知的稀疏性。DMA通过两大创新实现这一目标:首先,它从值表示中动态生成内容感知的稀疏掩码,使模型能够自适应地识别并聚焦于关键信息;其次,它实施了位置感知的稀疏注意力计算,有效跳过了不必要的计算区域。这种双重稀疏设计使得模型在保留完整信息的同时,显著降低了重要信息的计算复杂度,实现了信息保真度与计算效率之间的优异平衡。我们通过全面实验验证了DMA的性能。对比研究表明,在Chinchilla缩放法则设置下,DMA在困惑度指标上优于多头注意力、滑动窗口注意力、多头潜在注意力及原生稀疏注意力。此外,在具有挑战性的多查询关联召回任务中,DMA同样展现出优于这些方法的性能与效率。尤为关键的是,在1.7B参数模型的评估中,DMA在标准基准性能及极具挑战性的“大海捞针”任务上均显著超越多头注意力。这些实验结果凸显了DMA在平衡模型效率与长上下文建模能力方面的卓越能力。
文本到动作生成(Text-to-Motion, T2M)旨在从自然语言描述中合成出真实且语义对齐的人体运动序列。然而,现有方法面临双重挑战:生成模型(如扩散模型)受限于多样性不足、误差累积及物理不真实性,而检索增强生成(Retrieval-Augmented Generation, RAG)方法则表现出扩散惰性、部分模式崩溃及异步伪影。为克服这些局限,我们提出了ReMoMask,一个融合三项关键创新的统一框架:1)双向动量文本-动作模型通过动量队列解耦负样本规模与批量大小,显著提升跨模态检索精度;2)语义时空注意力机制在部分层级融合中强化生物力学约束,以消除异步伪影;3)RAG-无分类器指导结合少量无条件生成,增强泛化能力。基于MoMask的RVQ-VAE,ReMoMask在极少的步骤内高效生成时间连贯的动作。在标准基准上的大量实验验证了ReMoMask的顶尖性能,相较于前SOTA方法RAG-T2M,在HumanML3D和KIT-ML上的FID分数分别提升了3.88%和10.97%。代码与网站链接如下:https://github.com/AIGeeksGroup/ReMoMask,https://aigeeksgroup.github.io/ReMoMask。
量子支持向量机因高维量子态及硬件限制面临可扩展性挑战。我们提出了一种嵌入感知的量子-经典混合流程,结合了类别平衡的k均值蒸馏与预训练视觉Transformer嵌入。我们的关键发现是:ViT嵌入独特地实现了量子优势,在Fashion-MNIST上相比经典SVM提升了8.02%的准确率,在MNIST上提升了4.42%,而CNN特征则表现出性能下降。通过cuTensorNet进行的16量子比特张量网络模拟,我们首次系统性地证明了量子核优势高度依赖于嵌入选择,揭示了Transformer注意力机制与量子特征空间之间的根本协同效应。这为利用现代神经架构实现可扩展的量子机器学习提供了一条实用路径。
阿拉伯世界丰富的语言景观以现代标准阿拉伯语(MSA)与日常生活中使用的多样化地区方言之间的显著鸿沟为特征。这种双语现象为自然语言处理,尤其是机器翻译,带来了巨大挑战。本文介绍了SHAMI-MT,一个专门设计用于弥合MSA与叙利亚方言之间沟通鸿沟的双向机器翻译系统。我们提出了两个专用模型,一个用于MSA到叙利亚方言的翻译,另一个则相反,两者均基于最先进的AraT5v2-base-1024架构构建。这些模型在全面的Nabra数据集上进行了微调,并在MADAR语料库的未见数据上进行了严格评估。我们的MSA到叙利亚方言模型在OPENAI的GPT-4.1模型评判下,获得了平均4.01分(满分5.0)的卓越质量评分,证明了其不仅能产出准确的翻译,还能保持方言的真实性。这项工作为先前服务不足的语言对提供了一个关键的高保真工具,推动了阿拉伯方言翻译领域的发展,并在内容本地化、文化遗产保护及跨文化交流中具有重要应用价值。
我们探究社会经济指标(如家庭财富)是否会在卫星影像(捕捉物理特征)和互联网文本(反映历史/经济叙事)中留下可恢复的痕迹。利用非洲社区的《人口与健康调查》(DHS)数据,我们将Landsat卫星图像与基于位置/年份生成的大型语言模型(LLM)文本描述,以及由AI搜索代理从网络资源中检索的文本进行配对。我们开发了一个多模态框架,通过五种管道预测家庭财富(国际财富指数):(i) 基于卫星图像的视觉模型,(ii) 仅使用位置/年份的LLM,(iii) AI代理搜索/综合网络文本,(iv) 联合图像-文本编码器,(v) 所有信号的集成。我们的框架带来了三项贡献。首先,融合视觉与代理/LLM文本在财富预测上优于仅依赖视觉的基线(例如,样本外分割的R平方值为0.77对比0.63),其中LLM内部知识比代理检索的文本更为有效,提升了跨国家和跨时间泛化的鲁棒性。其次,我们发现部分表征趋同:视觉与语言模态融合后的嵌入呈现中等相关性(对齐后余弦相似度中位数为0.60),暗示了物质福祉的共享潜在编码,同时保留了互补细节,这与柏拉图表征假说一致。尽管仅使用LLM文本优于代理检索数据,挑战了我们的代理诱导新颖性假说,但在某些分割中结合代理数据带来的微小增益,弱支持了代理收集的信息引入了静态LLM知识未能完全捕捉的独特表征结构的观点。第三,我们发布了一个大规模多模态数据集,包含超过60,000个DHS集群,关联了卫星图像、LLM生成的描述及代理检索的文本。
大型语言模型在复杂数学推理任务中展现了卓越的能力,但在多步解答过程中不可避免地会产生错误。过程级奖励模型(PRMs)通过在每一步中间步骤提供监督和评估,显示出极大的潜力,从而有效提升了模型的推理能力。然而,训练高效的PRMs需要高质量的过程奖励数据,而现有构建此类数据的方法往往劳动密集或效率低下。本文提出了一种基于不确定性的自动化过程奖励数据构建框架,涵盖了PRMs的数据生成和标注过程。此外,我们指出了多数投票和PRMs的局限性,并引入了两种通用的不确定性感知输出聚合方法:混合多数奖励投票和加权奖励频率投票,这两种方法结合了多数投票与PRMs的优势。在ProcessBench、MATH和GSMPlus上的大量实验验证了所提出的PRM数据构建框架的有效性和效率,并证明这两种输出聚合方法进一步提升了多种PRMs的数学推理能力。代码和数据将公开于https://github.com/Jiuzhouh/UnPRM。