每日精选AI研究论文及翻译
在现有模型中融入新知识是人工智能发展的关键环节。本文提出了一种将新语言整合进大规模语言模型(LLM)的创新方法。我们的方法成功地将一种先前未见的目标语言融入现有LLM,且不损害其已有知识。我们通过向一个主要基于英语训练的小型开源模型注入阿拉伯语,训练了一个名为Kuwain、拥有15亿参数的微型模型。该方法在阿拉伯语性能上展现出显著提升,在多项基准测试中平均提高了8%,同时仅需少量原始模型数据即可保留其既有知识。这为同时训练英语和阿拉伯语的全方位模型提供了一种经济高效的替代方案。研究结果凸显了无需大规模重新训练或资源密集型过程,即可实现高效、定向语言模型扩展的潜力。
本文探讨了在无明确标签数据上进行强化学习(Reinforcement Learning, RL)以提升大语言模型(Large Language Models, LLMs)在推理任务中的表现。该问题的核心挑战在于推理过程中缺乏真实信息时的奖励估计。尽管这一情境看似难以捉摸,我们发现测试时缩放(Test-Time Scaling, TTS)中的常见做法,如多数投票,能够产生出人意料的有效奖励,足以驱动RL训练。在本研究中,我们提出了测试时强化学习(Test-Time Reinforcement Learning, TTRL),一种利用未标注数据训练LLMs的新方法。TTRL通过利用预训练模型中的先验知识,实现了LLMs的自我进化。实验表明,TTRL在多种任务和模型上均能持续提升性能。特别地,TTRL仅使用未标注的测试数据,就将Qwen-2.5-Math-7B在AIME 2024上的pass@1性能提升了约159%。此外,尽管TTRL仅受Maj@N指标监督,但其表现不仅持续超越初始模型的上限,还接近了直接使用带真实标签的测试数据训练的模型性能。我们的实验结果验证了TTRL在各类任务中的普遍有效性,并凸显了其在更广泛任务和领域中的潜力。GitHub: https://github.com/PRIME-RL/TTRL
随着大型语言模型(LLMs)在语言能力上的持续进步,稳健的多语言评估已成为推动技术公平发展的关键。本立场文件审视了2021年至2024年间来自148个国家的2000多个多语言(非英语)基准测试,以评估过去、现在及未来的多语言基准实践。研究发现,尽管投入了数千万美元,英语在这些基准中仍显著占据主导地位。此外,大多数基准依赖于原始语言内容而非翻译,且主要来源于中国、印度、德国、英国和美国等高资源国家。进一步对比基准表现与人类判断,揭示了显著差异:STEM相关任务与人类评估呈现强相关性(0.70至0.85),而传统自然语言处理任务如问答(例如XQuAD)则显示出弱得多的相关性(0.11至0.30)。此外,将英语基准翻译成其他语言效果有限,本地化基准与当地人类判断的一致性(0.68)远高于翻译版本(0.47),这强调了创建文化和语言定制化基准的重要性,而非单纯依赖翻译。通过这一全面分析,我们指出了当前多语言评估实践中的六大关键局限,据此提出了有效多语言基准测试的指导原则,并勾勒了推动该领域进展的五大关键研究方向。最后,我们呼吁全球协作,开发以现实应用为导向、与人类判断高度契合的基准测试。
为图像和视频中的特定区域生成详尽且准确的描述,仍然是视觉-语言模型面临的一项基础性挑战。我们提出了“描述万物模型”(Describe Anything Model, DAM),该模型专为精细的局部描述(Detailed Localized Captioning, DLC)而设计。DAM通过两项关键创新,既保留了局部细节又兼顾了全局上下文:一是焦点提示机制,确保对目标区域进行高分辨率编码;二是局部视觉骨干网络,将精确定位与其更广泛的上下文相融合。针对高质量DLC数据稀缺的问题,我们提出了一种基于半监督学习(Semi-supervised Learning, SSL)的数据处理流程(DLC-SDP)。DLC-SDP从现有的分割数据集出发,利用SSL扩展至未标注的网络图像。我们还引入了DLC-Bench,这是一个旨在不依赖参考描述的情况下评估DLC性能的基准测试。DAM在涵盖关键词级别、短语级别及详细多句描述的局部图像与视频描述共7个基准测试中,均创下了新的最优成绩。
推理时计算规模的扩展显著提升了语言模型的推理能力。然而,现有方法存在明显局限:串行化的链式思维方法生成过长的输出,导致延迟增加和上下文窗口耗尽;而并行方法如自洽性则因协调不足,造成冗余计算和性能提升有限。为应对这些不足,我们提出了自适应并行推理(APR),一种新颖的推理框架,使语言模型能够端到端地编排串行与并行计算。APR通过启用基于spawn()和join()操作的自适应多线程推理,泛化了现有推理方法。其核心创新在于端到端的强化学习策略,优化父线程与子线程的推理,无需预定义推理结构即可提升任务成功率。在倒计时推理任务上的实验验证了APR的显著优势:(1) 在相同上下文窗口下性能更高(4k上下文时83.4%对60.0%);(2) 计算量增加时展现出更优的扩展性(总token数20k时80.1%对66.6%);(3) 在同等延迟下准确率提升(约5,000ms时75.2%对57.3%)。APR标志着语言模型通过自适应计算分配自主优化其推理过程的重要一步。
近期,视频大语言模型(Video LLMs)常依赖昂贵的人工标注或专有模型API(如GPT-4o)来生成训练数据,这限制了其大规模训练的可能性。本文探讨了利用低成本自动语音识别(ASR)转录文本进行视频大语言模型的大规模训练。具体而言,我们提出了一种新颖的流式训练方法,该方法根据时间戳密集地交织ASR词汇与视频帧。与以往基于ASR的视觉-语言表示研究相比,我们的方法自然契合ASR的流式特性,从而使模型能够学习时间对齐的细粒度视觉-语言建模。为支持该训练算法,我们引入了一个数据处理流程,用于处理YouTube视频及其隐藏字幕(CC,等同于ASR),生成了用于预训练的Live-CC-5M数据集和用于高质量监督微调(SFT)的Live-WhisperX-526K数据集。值得注意的是,即便不进行SFT,仅通过ASR预训练的LiveCC-7B-Base模型在通用视频问答任务中展现出竞争力,并具备实时视频评论的新能力。为评估此能力,我们精心设计了一个新的LiveSports-3K基准,采用LLM作为评判者来衡量自由形式的评论质量。实验表明,我们的最终模型LiveCC-7B-Instruct在实时模式下,其评论质量甚至超越了先进的72B模型(如Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B)。同时,在VideoMME和OVOBench等流行视频问答基准测试中,该模型在7B/8B规模上取得了最先进的成果,充分证明了我们方法的广泛通用性。本文所有资源已发布于https://showlab.github.io/livecc。
近期,大型语言模型(LLMs)的进展推动了通过多智能体系统进行社会模拟的研究。以往的研究多聚焦于从零构建智能体社会,赋予智能体全新定义的角色。然而,对于已有虚构世界及角色的模拟仍处于探索不足的状态,尽管其具有显著的实用价值。本文中,我们介绍了BookWorld,一个用于构建和模拟基于书籍的多智能体社会的综合系统。BookWorld的设计涵盖了现实世界的复杂细节,包括多样且动态的角色、虚构的世界观、地理限制及其变迁等。该系统支持多种应用场景,如故事生成、互动游戏及社会模拟,为扩展和探索深受喜爱的虚构作品提供了新颖途径。通过大量实验,我们证明BookWorld在保持对原著忠实度的同时,能够创作出富有创意且高质量的故事,以75.36%的胜率超越以往方法。本文代码可在项目页面获取:https://bookworld2025.github.io/。
现有的多模态大语言模型(MLLMs)评估框架主要集中于图像推理或通用视频理解任务,很大程度上忽视了图像上下文在视频理解中的重要作用。为填补这一空白,我们提出了IV-Bench,这是首个用于评估图像引导视频感知与推理的综合基准。IV-Bench包含967个视频,配以2,585个精心标注的图像-文本查询,覆盖13项任务(7项感知任务和6项推理任务)及5个代表性类别。通过对当前最先进的开源(如InternVL2.5、Qwen2.5-VL)和闭源(如GPT-4o、Gemini2-Flash和Gemini2-Pro)MLLMs的广泛评估,我们发现现有模型在图像引导视频感知与推理方面表现显著不足,最高准确率仅为28.9%。进一步分析揭示了影响模型在IV-Bench上表现的关键因素,包括推理模式、帧数和分辨率。此外,通过一种简单的数据合成方法,我们展示了IV-Bench的挑战不仅限于训练过程中数据格式的对齐。这些发现共同为未来研究提供了宝贵的洞见。我们的代码和数据已发布于https://github.com/multimodal-art-projection/IV-Bench。
大型语言模型(LLMs)的成功激发了人们对各类智能体应用的广泛兴趣。一个核心假设是,LLMs通过利用常识和链式思维(CoT)推理,能够有效探索并高效解决复杂领域的问题。然而,研究发现LLM智能体存在探索不足和知行差距的问题,即无法有效运用模型中已有的知识进行行动。在本研究中,我们系统性地探讨了LLMs在决策场景中表现欠佳的原因,特别聚焦于三种常见失效模式:贪婪性、频率偏差及知行差距。我们提出通过基于自生成CoT推理的强化学习(RL)微调来缓解这些不足。在多臂老虎机、上下文老虎机及井字棋等实验中的结果表明,RL微调通过增强探索能力和缩小知行差距,显著提升了LLMs的决策能力。最后,我们研究了经典探索机制(如ε-贪婪策略)和LLM特有方法(如自我修正与自我一致性),以更有效地微调LLMs,提升其决策效能。
近期大型语言模型的进展已证实了训练后长度扩展的有效性,然而其在预训练阶段的潜力仍待深入挖掘。我们提出了并行隐藏解码Transformer(PHD-Transformer),这一新颖框架在保持推理效率的同时,实现了预训练期间的高效长度扩展。PHD-Transformer通过创新的KV缓存管理策略达成此目标,该策略区分了原始令牌与隐藏解码令牌。我们的方法仅保留原始令牌的KV缓存以维持长程依赖关系,并在使用后立即丢弃隐藏解码令牌,从而在保持与标准Transformer相同KV缓存大小的同时,实现了有效的长度扩展。为进一步提升性能,我们引入了两种优化变体:PHD-SWA采用滑动窗口注意力机制以保留局部依赖关系,而PHD-CSWA则实施分块式滑动窗口注意力,消除了预填充时间的线性增长。大量实验表明,该框架在多个基准测试上均取得了持续的性能提升。
我们能否基于大型语言模型(LLMs)构建精确的世界模型?世界模型如何助力LLM智能体?LLMs的先验知识与特定环境动态之间的差距,往往成为其作为世界模型性能提升的瓶颈。为弥合这一差距,我们提出了一种无需训练的“世界对齐”方法,该方法学习与LLMs互补的环境符号知识。这些符号知识涵盖动作规则、知识图谱及场景图,由LLMs从探索轨迹中提取,并编码为可执行代码,用以规范LLM智能体的策略。进一步,我们通过模型预测控制(MPC)框架,提出了一种无需强化学习的模型驱动智能体“WALL-E 2.0”。与经典MPC需在线进行高成本优化不同,我们采用LLM智能体作为未来步骤动作的高效前瞻优化器,通过与神经符号世界模型交互实现。LLM智能体强大的启发式能力使其在MPC中成为高效规划者,而其规划动作的质量也由对齐世界模型的精准预测所保障。二者共同显著提升了在新环境中的学习效率。在火星(类似Minecraft)和ALFWorld(具身室内环境)的开放世界挑战中,WALL-E 2.0显著超越现有方法,例如在火星任务中成功率超出基线16.1%-51.6%,得分至少提高61.7%。在ALFWorld中,仅经过4次迭代便创下98%成功率的新纪录。
个性化图像合成已成为文本到图像生成领域的关键应用,它能够在多样化的场景中创建包含特定主体的图像。尽管扩散模型在这一领域占据主导地位,但自回归模型凭借其统一处理文本和图像的架构,在个性化图像生成方面的潜力尚未得到充分探索。本文研究了优化自回归模型用于个性化图像合成的可能性,利用其固有的多模态能力来执行这一任务。我们提出了一种两阶段训练策略,结合了文本嵌入优化和Transformer层微调。在自回归模型上的实验表明,该方法在主体保真度和提示跟随方面与领先的基于扩散的个性化方法相当。这些结果凸显了自回归模型在个性化图像生成中的有效性,为该领域的未来研究提供了新的方向。
人类能够构建内部世界模型,这些模型编码了常识知识,告诉他们世界如何运作并预测其行为的后果。这一概念在近期的初步研究中已成为建立通用机器学习模型的一个有前景的方向,例如在视觉表示学习领域。本文中,我们提出了CheXWorld,这是首次尝试为放射影像构建自监督世界模型。具体而言,我们的工作开发了一个统一框架,同时模拟了合格放射科医生必备的三大医学知识维度:1)局部解剖结构,描述局部组织的细粒度特征(如结构、形状和纹理);2)全局解剖布局,描述人体的整体组织(如器官和骨骼的布局);3)领域变化,促使CheXWorld建模不同放射影像外观域之间的转换(如因采集医院、设备或患者不同导致的清晰度、对比度和曝光度差异)。通过精心设计的定性与定量分析,我们实证表明,CheXWorld成功捕捉了这三个维度的医学知识。此外,在八项医学图像分类与分割基准测试上的迁移学习实验显示,CheXWorld显著超越了现有的自监督学习方法及大规模医学基础模型。代码与预训练模型可在https://github.com/LeapLabTHU/CheXWorld获取。
近期,文本到图像的扩散模型通过大规模扩展训练数据和模型参数,在视觉质量上取得了令人瞩目的成就,然而在处理复杂场景和精细细节时仍显不足。受大型语言模型中涌现的自我反思能力启发,我们提出了ReflectionFlow,一种推理时框架,使扩散模型能够迭代反思并优化其输出。ReflectionFlow引入了三个互补的推理时扩展维度:(1)噪声级别扩展,以优化潜在初始化;(2)提示级别扩展,实现精确的语义引导;以及最为关键的(3)反思级别扩展,它明确提供可操作的反思,以迭代评估并修正先前的生成结果。为支持反思级别扩展,我们构建了GenRef,一个包含100万组三元组的大规模数据集,每组包含一条反思、一张有缺陷的图像及一张优化后的图像。利用此数据集,我们在顶尖的扩散变换器FLUX.1-dev上高效执行反思调优,通过统一框架内联合建模多模态输入。实验结果表明,ReflectionFlow显著优于单纯的噪声级别扩展方法,为在挑战性任务上实现更高质量的图像合成提供了可扩展且计算高效的解决方案。
人类自然倾向于与所连接的人分享信息,而视频已成为互联网上沟通与表达的主要媒介之一。为了支持高质量大规模视频内容的创作,现代处理流程需要对原始输入材料(如摄像机捕捉的未编辑素材)和编辑组件(如视觉特效)有全面的理解。在视频编辑场景中,模型必须处理多种模态(如视觉、音频、文本),具备深厚的背景知识,并能应对灵活的输入长度(如长达数小时的原始视频),这对传统模型构成了重大挑战。在本报告中,我们介绍了Vidi,一个面向广泛视频理解编辑场景的大型多模态模型(LMM)家族。首次发布聚焦于时间检索,即识别输入视频中与给定文本查询对应的时间范围,这在智能编辑中扮演着关键角色。该模型能够处理长达数小时的视频,具备强大的时间理解能力,例如为特定查询检索时间范围。为了支持现实场景中的全面评估,我们还推出了VUE-TR基准,该基准引入了五项关键改进:1)视频时长:远超现有时间检索数据集;2)音频支持:包含基于音频的查询;3)查询格式:多样化的查询长度与格式;4)标注质量:真实时间范围由人工标注;5)评估指标:改进的IoU指标,支持多时间范围的评估。值得注意的是,Vidi在时间检索任务上显著超越了领先的专有模型,如GPT-4o和Gemini,彰显了其在视频编辑场景中的卓越性能。
可控角色动画仍是一个具有挑战性的问题,尤其是在处理罕见姿态、风格化角色、角色与物体交互、复杂光照以及动态场景方面。针对这些问题,先前的研究主要集中于通过精心设计的旁路网络注入姿态和外观指导,但往往难以泛化到开放世界场景中。本文提出了一种新视角:只要基础模型足够强大,通过简单的模型修改配合灵活的微调策略,就能在很大程度上解决上述挑战,从而向实现真实环境下的可控角色动画迈进一步。具体而言,我们基于Wan-2.1视频基础模型构建了RealisDance-DiT。我们的深入分析表明,广泛采用的参考网络设计对于大规模DiT模型并非最优选择。相反,我们证明对基础模型架构进行最小化修改即可获得出人意料的强大基线。我们进一步提出了低噪声预热和“大批量小迭代”策略,以在微调过程中加速模型收敛,同时最大限度地保留基础模型的先验知识。此外,我们引入了一个新的测试数据集,该数据集捕捉了多样化的现实世界挑战,补充了现有的基准测试(如TikTok数据集和UBC时尚视频数据集),以全面评估所提出的方法。大量实验表明,RealisDance-DiT大幅超越了现有方法。
LLM代理是一种新兴的AI系统形态,其中大型语言模型(LLMs)作为核心组件,利用多样化的工具集来完成用户分配的任务。尽管它们潜力巨大,LLM代理也带来了显著的安全风险。在与外部世界交互时,它们可能遭遇攻击者的恶意指令,导致执行危险操作。解决这一问题的一个有前景的方法是实施最小权限原则:仅允许完成任务所必需的操作,同时阻止不必要的行动。然而,实现这一目标颇具挑战,因为它需要在保障安全与实用性的同时,覆盖多样化的代理场景。 我们推出了Progent,这是首个针对LLM代理的权限控制机制。其核心是一种领域特定语言,用于灵活表达在代理执行过程中应用的权限控制策略。这些策略对工具调用提供细粒度的约束,决定何时允许工具调用,并在不允许时指定备用方案。这使得代理开发者和用户能够为其特定用例定制合适的策略,并确定性地执行这些策略以确保安全。得益于其模块化设计,集成Progent不会改变代理的内部结构,仅需对代理实现进行最小化修改,从而提升了其实用性和广泛采用的潜力。为了自动化策略编写,我们利用LLMs根据用户查询生成策略,随后动态更新这些策略以增强安全性和实用性。我们广泛的评估表明,在AgentDojo、ASB和AgentPoison这三个不同场景或基准测试中,Progent在保持高实用性的同时实现了强大的安全性。此外,我们进行了深入分析,展示了其核心组件的有效性以及自动化策略生成在面对适应性攻击时的韧性。
我们提出MR. Video,一种主动式长视频理解框架,该框架展示了处理长视频时简单却高效的MapReduce原则:(1)Map:独立且密集地感知短视频片段;(2)Reduce:联合聚合所有片段的信息。与序列到序列的视觉语言模型(VLMs)相比,MR. Video能够进行细致的短视频感知,不受上下文长度限制。相较于现有通常依赖顺序关键片段选择的视频代理,Map操作实现了更简单、可扩展性更强的短视频段并行感知。其Reduce步骤则支持更全面的上下文聚合与推理,超越了显式关键片段检索。这一MapReduce原则既适用于VLMs也适用于视频代理,我们利用LLM代理验证了其有效性。 实践中,MR. Video采用两个MapReduce阶段:(A)字幕生成:为短视频片段生成描述(map),随后将重复出现的角色和对象标准化为统一名称(reduce);(B)分析:针对每个用户问题,从单个短视频中分析相关信息(map),并将其整合成最终答案(reduce)。在具有挑战性的LVBench上,MR. Video相比最先进的VLMs和视频代理,实现了超过10%的准确率提升。 代码已发布于:https://github.com/ziqipang/MR-Video
识别和推理被遮挡(部分或完全隐藏)的物体对于理解视觉场景至关重要,因为在现实环境中遮挡现象频繁发生,并成为空间理解的障碍。为了测试模型在推理多个被遮挡物体方面的能力,我们引入了一项新颖的任务——通过不可见区域进行模式计数(CAPTURe),该任务要求模型通过推断模式在遮挡物(遮挡场景部分内容的物体)背后的延续情况来计数按特定模式排列的物体。CAPTURe既需要识别视觉模式又需要推理能力,使其成为评估视觉-语言模型(VLMs)是否理解被遮挡模式及具备空间理解技能的有用测试平台。通过要求模型推理被遮挡物体,CAPTURe还测试了VLMs构建世界模型以填补缺失信息的能力。CAPTURe包含两部分:(1) CAPTURe-real,使用手动筛选的真实物体按模式排列的图像;(2) CAPTURe-synthetic,一个使用生成模式图像进行的受控诊断。我们评估了四种强大的VLMs(GPT-4o、Intern-VL2、Molmo和Qwen2-VL)在CAPTURe上的表现,发现模型在处理被遮挡和未遮挡模式时均存在计数困难。关键的是,我们发现模型在存在遮挡时表现更差,这表明VLMs在推断不可见空间关系方面也存在不足:即使是像GPT-4o这样最强的VLMs也无法在有遮挡的情况下准确计数。相比之下,人类在CAPTURe上的错误率极低。我们还发现,提供被遮挡物体位置的辅助信息能提高模型性能,这进一步证实了模型错误既源于处理遮挡的不足,也源于图像计数的困难。
知识产权(IP)是一个融合技术与法律知识的独特领域,其复杂性和知识密集性不言而喻。随着大语言模型(LLMs)的持续进步,它们在处理知识产权任务方面展现出巨大潜力,能够更高效地分析、理解并生成与知识产权相关的内容。然而,现有数据集和基准要么仅聚焦于专利,要么覆盖知识产权领域的有限方面,与现实场景缺乏契合。为填补这一空白,我们首次提出了全面的知识产权任务分类体系,并构建了一个大规模、多样化的双语基准——IPBench,涵盖8种知识产权机制和20项任务。该基准旨在评估大语言模型在现实世界知识产权应用中的表现,包括理解和生成两方面。我们对16个大语言模型进行了基准测试,从通用模型到领域专用模型均有涉及,发现即使表现最佳的模型准确率也仅为75.8%,显示出显著的改进空间。值得注意的是,开源的知识产权和法律导向模型落后于闭源的通用模型。我们公开了IPBench的所有数据和代码,并将持续更新更多与知识产权相关的任务,以更好地反映知识产权领域的现实挑战。
本研究提出了一种新颖且可解释的模型——DiffVox,用于音乐制作中的人声效果匹配。DiffVox,全称为“可微分人声效果处理”,集成了参数均衡、动态范围控制、延迟和混响,并通过高效的微分实现支持基于梯度的参数优化。人声预设从两个数据集中提取,包括来自MedleyDB的70首曲目和私人收藏的365首曲目。参数相关性分析揭示了效果与参数间的紧密联系,例如高通滤波器和低架滤波器常协同作用以塑造低频部分,而延迟时间则与延迟信号的强度相关联。主成分分析揭示了与McAdams音色维度的关联,其中最重要的成分调节感知的空间感,次要成分则影响频谱亮度。统计测试证实了参数分布的非高斯特性,凸显了人声效果空间的复杂性。这些关于参数分布的初步发现为未来人声效果建模和自动混音研究奠定了基础。我们的源代码和数据集可在https://github.com/SonyResearch/diffvox获取。