每日精选AI研究论文及翻译
我们推出Phi-4-Mini和Phi-4-Multimodal,这两款模型虽紧凑却能力出众,分别专注于语言和多模态任务。Phi-4-Mini是一款拥有38亿参数的语言模型,基于高质量网络数据与合成数据训练而成,在数学和编程等需要复杂推理的任务上,不仅显著超越近期同规模的开源模型,还能与规模为其两倍的模型相媲美。这一成就得益于精心设计的合成数据配方,特别强调高质量的数学与编程数据集。相较于前代Phi-3.5-Mini,Phi-4-Mini将词汇量扩展至20万词元,以更好地支持多语言应用,并采用分组查询注意力机制,提升了长序列生成的效率。Phi-4-Multimodal则是一款多模态模型,将文本、视觉及语音/音频输入模态整合于一体。其创新的模态扩展方法利用LoRA适配器和模态特定路由器,实现了多种模态的无干扰组合推理。例如,尽管其语音/音频模态的LoRA组件仅含4.6亿参数,却已在OpenASR排行榜上位居首位。Phi-4-Multimodal支持(视觉+语言)、(视觉+语音)及(语音/音频)输入场景,在多项任务上超越了更大规模的视觉-语言和语音-语言模型。此外,我们还对Phi-4-Mini进行了进一步训练实验,以增强其推理能力。尽管该实验版模型仅有38亿参数,其推理性能却与DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B等显著更大的模型相当甚至更优。
在大型推理模型(如OpenAI的o1)中,强化微调(Reinforcement Fine-Tuning, RFT)通过对其答案的反馈进行学习,这在微调数据稀缺的应用场景中尤为有效。近期开源项目如DeepSeek-R1表明,带有可验证奖励的强化学习是复现o1模型的关键方向之一。尽管R1风格模型在语言模型领域已展现出成功,但其在多模态领域的应用仍待深入探索。本研究提出了视觉强化微调(Visual-RFT),进一步拓展了RFT在视觉任务中的应用范围。具体而言,Visual-RFT首先利用大型视觉语言模型(LVLMs)为每个输入生成包含推理标记和最终答案的多个响应,随后通过我们提出的视觉感知可验证奖励函数,借助如群体相对策略优化(GRPO)等策略优化算法更新模型。针对不同的感知任务,我们设计了不同的可验证奖励函数,例如用于目标检测的交并比(IoU)奖励。在细粒度图像分类、少样本目标检测、推理定位以及开放词汇目标检测基准测试中,Visual-RFT相较于监督微调(SFT)展现了竞争性的性能和更优的泛化能力。例如,在仅有约100个样本的单样本细粒度图像分类任务中,Visual-RFT较基线模型提升了24.3%的准确率。在少样本目标检测任务中,Visual-RFT在COCO的双样本设置上超出基线21.9分,在LVIS上超出15.4分。我们的Visual-RFT代表了LVLMs微调范式的转变,提供了一种数据高效、奖励驱动的方法,增强了针对特定领域任务的推理能力和适应性。
神经辐射场(NeRF)与3D高斯溅射技术已彻底革新了三维重建及新视角合成任务。然而,从极端新视角实现照片级真实感渲染仍具挑战性,因各类表示方法中仍存在伪影。本研究中,我们提出了Difix3D+,一种创新流程,旨在通过单步扩散模型提升三维重建与新视角合成效果。该方案的核心是Difix,一个单步图像扩散模型,专门训练用于增强并消除由三维表示中欠约束区域导致的渲染新视角中的伪影。Difix在我们的流程中扮演双重关键角色。首先,在重建阶段,它用于清理从重建结果渲染出的伪训练视图,随后这些视图被蒸馏回三维空间,显著增强了欠约束区域,提升了整体三维表示质量。更为重要的是,Difix在推理阶段还充当神经增强器,有效去除因不完善的三维监督及当前重建模型能力限制而产生的残留伪影。Difix3D+作为一种通用解决方案,单一模型即兼容NeRF与3DGS两种表示方式,在保持三维一致性的同时,相较于基线模型,FID分数平均提升了两倍。
测试时推理已成为一种强大的范式,使语言模型能够像熟练的人类专家一样,对复杂挑战进行更长时间、更细致的“思考”。虽然强化学习(RL)可以推动语言模型在可验证任务上的自我提升,但一些模型表现出显著进步,而另一些则迅速达到瓶颈。例如,我们发现,在相同的RL训练下,Qwen-2.5-3B在“倒计时”游戏中的表现远超Llama-3.2-3B。这一差异引发了一个关键问题:哪些内在特性促成了有效的自我提升?我们引入了一个框架,通过分析四种关键认知行为——验证、回溯、子目标设定和逆向链式推理——来探讨这一问题,这些行为既是人类专家问题解决者也是成功语言模型所采用的。我们的研究表明,Qwen自然展现出这些推理行为,而Llama最初则缺乏这些能力。在系统化的行为数据集控制实验中,我们发现,通过向Llama提供包含这些推理行为的示例进行引导,能够在RL过程中实现显著改进,其表现与Qwen相当甚至超越。重要的是,推理行为的存在,而非答案的正确性,被证明是关键因素——使用包含正确推理模式但答案错误的解决方案进行引导的模型,其表现与使用正确解决方案训练的模型相当。最后,利用OpenWebMath数据进行持续预训练,并通过过滤增强推理行为,使Llama模型能够匹配Qwen的自我提升轨迹。我们的研究结果确立了初始推理行为与提升能力之间的基本关系,解释了为何一些语言模型能有效利用额外计算资源而另一些则停滞不前。
利用大型语言模型(LLMs)生成超长序列已成为日益关键的任务,但这一过程依然耗时严重,尤其是对于长达10万标记的序列。尽管存在传统的推测解码方法,但单纯扩展其生成限制不仅无法加速过程,反而可能带来负面影响。通过深入分析,我们识别出阻碍高效生成的三大挑战:频繁的模型重载、动态键值(KV)管理以及重复生成。为解决这些问题,我们引入了TOKENSWIFT,一个旨在显著加速超长序列生成过程的新颖框架,同时保持目标模型的内在质量。实验结果显示,TOKENSWIFT在不同规模(1.5B、7B、8B、14B)和架构(MHA、GQA)的模型上均实现了超过3倍的加速。这一加速效果为超长序列生成节省了数小时的时间,确立了TOKENSWIFT作为在空前长度上可扩展且有效的解决方案。代码可在https://github.com/bigai-nlco/TokenSwift 找到。
近期音乐生成领域的进展引起了广泛关注,但现有方法仍面临关键局限。当前部分生成模型仅能合成人声或伴奏音轨,而一些虽能同时生成人声与伴奏的模型,却通常依赖于精心设计的多阶段级联架构和复杂的数据处理流程,这限制了其可扩展性。此外,多数系统仅限于生成短音乐片段而非完整歌曲。再者,基于语言模型的常用方法存在推理速度慢的问题。为应对这些挑战,我们提出了DiffRhythm,这是首个基于潜在扩散的歌曲生成模型,能够在短短十秒内合成包含人声与伴奏、时长可达4分45秒的完整歌曲,同时保持高音乐性与清晰度。尽管功能卓越,DiffRhythm设计简洁优雅:它摒弃了复杂的数据预处理,采用直观的模型结构,推理时仅需歌词和风格提示。其非自回归结构确保了快速的推理速度,这种简洁性保障了DiffRhythm的可扩展性。此外,我们发布了完整的训练代码及基于大规模数据的预训练模型,以促进研究的可复现性与进一步探索。
近期,基于生成式检索的推荐系统崭露头角,成为一种颇具前景的范式。然而,当前多数推荐系统仍采用“检索-排序”策略,其中生成模型仅作为检索阶段的选择器发挥作用。本文提出OneRec,它摒弃了级联学习框架,转而采用统一的生成模型。据我们所知,这是首个在真实场景中显著超越当前复杂且精心设计的推荐系统的端到端生成模型。具体而言,OneRec包含:1)一个编码器-解码器结构,该结构编码用户的历史行为序列,并逐步解码用户可能感兴趣的视频。我们采用稀疏专家混合模型(MoE)来扩展模型容量,而无需按比例增加计算浮点运算量(FLOPs)。2)一种会话级生成方法。与传统的下一项预测不同,我们提出会话级生成,它比依赖手工规则以恰当组合生成结果的逐点生成更为优雅且上下文连贯。3)结合直接偏好优化(DPO)的迭代偏好对齐模块,以提升生成结果的质量。与自然语言处理中的DPO不同,推荐系统通常仅有一次机会展示每个用户浏览请求的结果,这使得无法同时获取正负样本。为解决这一限制,我们设计了一个奖励模型来模拟用户生成,并定制采样策略。大量实验表明,有限数量的DPO样本即可对齐用户兴趣偏好,并显著提升生成结果的质量。我们将OneRec部署于快手主场景,实现了观看时长1.6%的提升,这一改进意义重大。
不确定性估计对于评估大型语言模型(LLMs)至关重要,尤其是在高风险领域,错误答案可能导致严重后果。众多方法在解决这一问题时,往往聚焦于特定类型的不确定性,而忽视了其他类型。我们探讨了哪些估计方法,特别是基于词元熵和模型自评(MASJ),能够适用于不同主题的多项选择题解答任务。我们的实验涵盖了三种不同规模的LLMs:Phi-4、Mistral和Qwen,参数规模从1.5B到72B不等,涉及14个主题。尽管MASJ的表现与随机错误预测器相似,但响应熵在知识依赖型领域中能有效预测模型错误,并作为问题难度的有效指标:在生物学领域,ROC AUC达到0.73。然而,在推理依赖型领域中,这种相关性消失:对于数学问题,ROC-AUC仅为0.55。更根本地,我们发现熵度量需要一定的推理量。因此,与数据不确定性相关的熵应被整合进不确定性估计框架中,而MASJ则需进一步优化。此外,现有的MMLU-Pro样本存在偏差,应平衡不同子领域所需的推理量,以提供更公平的LLMs性能评估。
采用线性循环建模的Transformer架构提供了线性时间训练和恒定内存推理的优势。尽管这些非标准架构已展现出高效性和性能,但从头开始预训练此类模型仍然成本高昂且风险较大。大型语言模型(LLM)的线性化将预训练的标准模型转化为线性循环结构,从而实现了更高效的部署。然而,当前的线性化方法通常需要引入额外的特征映射模块,这些模块需要大量微调,并且忽视了在顶尖线性循环模型中使用的门控机制。为解决这些问题,本文提出了Liger(线性化LLM至门控循环结构的简称),这是一种将预训练LLM转换为门控线性循环模型的新方法,无需添加额外参数。Liger通过重新利用预训练的关键矩阵权重来构建多样化的门控机制,促进了多种门控循环结构的形成,同时避免了从头训练额外组件的需求。利用低秩适应(LoRA)进行轻量级微调,Liger恢复了线性化门控循环模型的性能,使其与原始LLM相当。此外,我们引入了Liger Attention,一种层内混合注意力机制,在仅使用0.02%预训练令牌的情况下,显著恢复了基于Transformer的LLM 93%的性能,在多个基准测试中取得了竞争性结果,这一成果在1B至8B参数规模的模型上得到了验证。代码已发布于https://github.com/OpenSparseLLMs/Linearization。
扩散模型在生成二维图像方面取得了巨大成功。然而,三维内容生成的质量和泛化能力仍然有限。最先进的方法通常需要大规模的三维资产进行训练,而这些数据难以收集。在本研究中,我们提出了Kiss3DGen(Keep It Simple and Straightforward in 3D Generation,三维生成中的简洁直接框架),这是一个通过重新利用训练有素的二维图像扩散模型进行三维生成、编辑和增强的高效框架。具体而言,我们微调了一个扩散模型以生成“三维捆绑图像”,这是一种由多视角图像及其对应法线图组成的平铺表示。随后,利用法线图重建三维网格,并通过多视角图像提供纹理映射,从而生成完整的三维模型。这一简洁方法有效地将三维生成问题转化为二维图像生成任务,最大限度地利用了预训练扩散模型中的知识。此外,我们展示了Kiss3DGen模型与多种扩散模型技术的兼容性,支持诸如三维编辑、网格与纹理增强等高级功能。通过大量实验,我们验证了该方法的有效性,展示了其高效生成高质量三维模型的能力。
增加测试时的计算量是提升大语言模型(LLMs)响应质量的一种直接方法。尽管“最佳N采样”和“自洽多数投票”简单有效,但它们对每个查询都需要固定次数的采样响应,无论其复杂度如何。这可能导致对简单问题计算资源的浪费,以及对更具挑战性问题探索不足。在本研究中,我们提出利用模型响应的置信度来提高测试时扩展的效率。然而,众所周知,LLMs往往过于自信,提供的置信度估计并不可靠。为解决这一局限,我们引入了自校准技术,通过将自洽性衍生的置信度蒸馏到模型自身,实现在测试时仅需一次前向传播即可获得可靠的置信度估计。随后,我们设计了基于置信度的高效测试时扩展方法,以应对不同难度查询,如“最佳N采样的提前终止”和“基于校准置信度的自洽性”。在三个LLMs和六个数据集上的实验验证了我们方法的有效性。具体而言,将基于置信度的提前终止应用于最佳N采样,在16个响应样本预算下,MathQA的准确率从81.0提升至83.6,证明了推理时基于置信度采样策略的有效性。
大型语言模型(LLMs)在众多任务中展现出卓越性能;然而,其逐令牌自回归生成过程显著拖慢了推理速度。推测式解码提出了一种颇具前景的“先草稿后验证”框架,能在保持输出分布保真度的同时降低生成延迟。尽管如此,草稿模型引入了额外的计算开销,成为性能瓶颈并延长了首令牌生成时间(TTFT)。以往缓解草稿模型开销的方法主要依赖启发式策略,通常难以匹配草稿语言模型的质量。针对这些挑战,我们提出了DuoDecoding,一种新颖的方法,策略性地将草稿模型和目标模型分别部署于CPU和GPU上,实现并行解码的同时保持草稿质量。我们的方法融合了硬件感知的最优草稿预算以最小化空闲时间,并采用动态多序列草稿生成来提升草稿质量。在七项任务上的广泛实验表明,DuoDecoding在生成延迟上实现了最高2.61倍的加速,同时将TTFT降至传统推测式解码的83%。代码已发布于https://github.com/KaiLv69/DuoDecoding。
分析大规模数据集需要响应迅速的查询执行,但在海量数据集上执行SQL查询往往耗时较长。本文探讨了是否可以在用户完成输入前就开始执行查询,从而实现近乎即时的结果呈现。我们提出了SpeQL系统,该系统利用大型语言模型(LLMs),基于数据库模式、用户历史查询及其未完成的查询内容,预测可能的查询。由于精确预测查询不可行,SpeQL通过两种方式对部分查询进行推测:1)预测查询结构,提前编译和规划查询;2)预计算较小的临时表,这些表虽远小于原始数据库,但预计包含回答用户最终查询所需的所有信息。此外,SpeQL实时持续展示推测查询及子查询的结果,助力探索性分析。一项实用性/用户研究表明,SpeQL缩短了任务完成时间,参与者反馈其推测性结果展示帮助他们更快发现数据模式。研究中,SpeQL将用户查询延迟最多降低了289倍,同时将开销控制在每小时4美元的合理范围内。
从大规模数据池中筛选高质量训练数据是指令微调语言模型的关键步骤,因为精心筛选的数据集往往能训练出优于使用更大规模、噪声更多数据集训练的模型。目前,指令微调的自动化数据选择方法通常通过从小规模数据池(约10万至20万样本)中选取少量样本(约1万)进行测试。然而,实际部署中广受欢迎的指令微调模型往往基于数十万至数百万样本进行训练,这些样本是从更为庞大的数据池中抽取的。我们系统性地研究了数据选择方法在这些场景下的扩展能力,从多达580万样本的数据池中选取最多250万样本,并在7项多样化任务上进行了评估。结果显示,许多近期提出的方法在此情境下不仅未能超越随机选择(且计算资源消耗更大),甚至在面对更大数据池时性能反而下降。然而,我们发现一种基于表示的数据选择方法变体(RDS+),它利用预训练语言模型隐藏状态的加权平均池化,在所有测试场景中均稳定优于更复杂的方法,同时计算效率更高。我们的研究强调,应更深入地考察所提出的自动化选择方法的扩展特性。我们已在https://github.com/hamishivi/automated-instruction-selection 公开了代码、数据及模型。
用户生成内容(UGC)社区,尤其是那些包含多模态内容的平台,通过将视觉与文本信息整合至结果(或条目)中,显著提升了用户体验。近年来,在配备搜索与推荐(S&R)服务的复杂系统中优化用户体验的挑战,已引起学术界与工业界的广泛关注。然而,高质量数据集的匮乏限制了多模态S&R研究的进展。为应对开发更优S&R服务的迫切需求,本文推出了一种新颖的多模态信息检索数据集——Qilin。该数据集采集自小红书,一个拥有超过3亿月活跃用户且平均搜索渗透率超70%的流行社交平台。与现有数据集相比,Qilin提供了包含图文笔记、视频笔记、商业笔记及直接答案等异质结果的完整用户会话集合,为跨多种任务场景开发先进的多模态神经检索模型奠定了基础。为更好地建模用户满意度并支持异质用户行为分析,我们还收集了丰富的APP级上下文信号及真实用户反馈。值得注意的是,Qilin包含了触发深度问答(DQA)模块的搜索请求中用户偏爱的答案及其引用结果,这不仅支持检索增强生成(RAG)管道的训练与评估,还便于探索此类模块如何影响用户的搜索行为。通过全面的分析与实验,我们为S&R系统的进一步优化提供了有趣的发现与见解。我们期待Qilin未来能在推动配备S&R服务的多模态内容平台发展方面做出重要贡献。
现有的大型语言模型(LLMs)预训练数据混合方法通常采用领域导向的策略,这是一种自上而下的过程,首先确定各领域的权重,然后在每个领域内进行均匀的数据采样。然而,这些方法忽视了领域间显著的交叉与共性,未能有效控制构建训练数据集的全局多样性。此外,领域内的均匀采样忽略了样本细粒度的特定特征,可能导致数据分布不尽理想。针对这些不足,我们提出了一种基于自下而上范式的新型样本级数据混合方法。该方法通过系统评估每个样本的质量与多样性,实现跨领域的全局采样,从而动态确定最优的领域分布。在多个下游任务及困惑度评估中的全面实验表明,SampleMix超越了现有的基于领域的方法。同时,SampleMix需要1.4倍至2.1倍的训练步数以达到基线性能,这凸显了SampleMix在优化预训练数据方面的巨大潜力。
文本到视频生成模型能够将文字提示转化为动态视觉内容,在电影制作、游戏开发及教育领域展现出广泛的应用潜力。然而,其实际表现常未能满足用户期待,主要原因之一在于这些模型未针对用户期望创作的某些主题进行视频训练。本文提出VideoUFO,这是首个专门围绕用户实际场景关注点精心构建的视频数据集。此外,VideoUFO还具备以下特点:(1)与现有视频数据集的重叠率极低(仅0.29%),(2)所有视频均通过YouTube官方API在Creative Commons许可下搜索获取。这两大特性为未来研究者拓宽训练数据来源提供了更大自由度。VideoUFO包含超过109万条视频片段,每条均配有简短与详细描述两种字幕。具体而言,我们首先通过聚类从百万级真实文本到视频提示数据集VidProM中识别出1,291个用户关注主题,随后基于这些主题从YouTube检索视频,将检索到的视频分割成片段,并为每个片段生成简短与详细描述。经过主题验证后,最终保留约109万条视频片段。实验表明:(1)当前16种文本到视频模型在所有用户关注主题上均未能实现一致性能;(2)在表现最差的主题上,基于VideoUFO训练的简单模型优于其他模型。该数据集已根据CC BY 4.0许可公开于https://huggingface.co/datasets/WenhaoWang/VideoUFO。
大型语言模型(LLMs)通过深度融合其对自然语言与编程语法的卓越理解,重塑了代码生成领域,从而显著提升了开发者的生产力。这些进步催生了大量旨在定量评估其编码能力的研究。然而,诸如基准泄露、数据消散及系统访问受限等持续存在的挑战,仍然阻碍着及时且准确的评估。为应对这些局限,我们推出了CodeArena,一个专为LLM代码生成设计的在线评估框架。其核心创新在于集体评估机制,该机制基于所有参与模型的整体表现动态调整单个模型的评分,有效缓解了因广泛基准泄露导致的评分偏差。此外,CodeArena确保所有提交的解决方案与测试案例的公开访问,并提供自动化友好的API,以简化代码评估流程。我们的主要贡献包括:(1)一个实现无偏评估的集体评估系统,(2)一个公开的解决方案与测试案例库,以及(3)便于自动化集成的API接口。
现有的自动音频生成方法在有效制作类似播客的音频节目方面面临挑战,主要难点在于深度内容生成以及恰当且富有表现力的语音生成。本文提出了PodAgent,一个用于创建音频节目的综合框架。PodAgent通过以下方式实现:1) 设计了一个主持人-嘉宾-撰稿人多智能体协作系统,生成信息丰富的主题讨论内容;2) 构建语音池,实现合适的语音角色匹配;3) 利用LLM增强的语音合成方法,生成富有表现力的对话语音。鉴于缺乏针对播客类音频生成的标准评估准则,我们制定了全面的评估指南,以有效评估模型性能。实验结果表明,PodAgent在主题讨论对话内容生成上显著优于直接使用GPT-4,语音匹配准确率达到87.4%,并通过LLM引导的合成技术生成更具表现力的语音。演示页面:https://podcast-agent.github.io/demo/。源代码:https://github.com/yujxx/PodAgent。
本文探讨了大型语言模型(LLMs)开发用于机器间(M2M)通信的私有音调语言的潜力。受人类双胞胎中出现的隐秘语言现象(影响高达50%的双胞胎出生)以及汉语和越南语等自然音调语言的启发,我们实现了一种精确的字符到频率映射系统,该系统利用音乐半音阶对完整的ASCII字符集(32-126)进行编码。每个字符被赋予一个独特的频率,形成一个从空格(220赫兹)开始到波浪号(50,175.42赫兹)结束的对数级数。这一系统跨越约7.9个八度,较高字符特意映射至超出人类感知范围(>20千赫)的超声波频率。我们实现的软件原型通过可视化、听觉播放及ABC音乐符号展示了这一编码方式,使得信息密度与传输速度的分析成为可能。测试表明,音调编码能在部分超出人类感知边界的情况下,实现超越人类语音的信息传输速率。本工作直接回应了关于AI系统在未来五年内灾难性地发展私有语言的担忧,提供了一个具体的原型软件示例,展示了此类通信可能如何运作,以及其出现、检测与治理所需的技术基础。
大型语言模型(LLMs)已展现出显著的现实应用价值,体现了人工智能实用智能(AUI)。然而,它们在适应性和鲁棒性推理方面的能力——即人工通用智能(AGI)的标志——仍显脆弱。尽管LLMs在常识推理、编程和数学领域看似成功,但在跨新情境推广算法理解方面却面临挑战。我们通过对冷门编程语言中算法任务的实验发现,LLM的推理过程过度拟合训练数据,其迁移能力受限。我们推测,这种有限迁移性的核心问题在于LLM中推理与知识的紧密耦合。 为从AUI迈向AGI,我们提出通过三个关键方向解耦知识与推理:(1)采用从零开始的强化学习(RL)进行预训练,替代广泛使用的下一词预测预训练;(2)利用合成任务课程,简化RL推理先验的学习,进而迁移至自然语言任务;(3)通过小上下文窗口学习更具泛化性的推理函数,减少对词间虚假相关性的依赖。这种推理系统与训练有素的检索系统及作为知识库的大型外部记忆库相结合,能够克服现有架构在应对新场景推理学习时的多项局限。
随着大型语言模型从自然语言领域扩展到数学、多模态理解和具身智能体等领域,token逐渐反映出度量关系而非纯粹的语义内涵。我们提出了DIST2Loss,这是一个距离感知框架,旨在通过利用输出token之间预定义的距离关系来训练自回归离散模型。其核心在于,DIST2Loss将从固有距离度量导出的连续指数族分布转化为离散的、与模型架构兼容的分类优化目标。该方法使模型在生成token时能够学习并保持有意义距离关系,同时保持与现有架构的兼容性。实证评估表明,在视觉定位、机器人操作、生成式奖励建模以及使用向量量化特征的图像生成等多种多模态应用中,该框架均带来了持续的性能提升。这些改进在训练数据有限的情况下尤为显著,凸显了DIST2Loss在资源受限环境中的有效性。
人类读者能够高效理解乱序单词,这一现象被称为Typoglycemia(乱序阅读效应),主要依赖于单词形态;若仅凭单词形态不足以理解,他们还会进一步利用上下文线索进行解读。尽管先进的大型语言模型(LLMs)也展现出类似能力,但其内在机制尚不明确。为探究此问题,我们通过控制实验分析了单词形态与上下文信息在语义重建中的作用,并考察了LLM的注意力模式。具体而言,我们首先提出了SemRecScore,一种量化语义重建程度的可靠指标,并验证了其有效性。运用该指标,我们研究了单词形态和上下文信息如何影响LLMs的语义重建能力,发现单词形态是这一过程中的核心要素。此外,我们分析了LLMs如何利用单词形态,发现它们依赖特定的注意力头来提取和处理单词形态信息,且这一机制在不同程度的单词乱序下保持稳定。LLMs主要聚焦于单词形态的固定注意力模式与人类读者在平衡单词形态与上下文信息时的自适应策略之间的差异,为通过融入类人的、上下文感知机制来提升LLM性能提供了洞见。
尽管基于似然的生成模型,尤其是扩散模型和自回归模型,在视觉生成方面已取得了显著的保真度,但最大似然估计(MLE)目标本身存在一种模式覆盖倾向,这在模型能力有限的情况下限制了生成质量。本研究中,我们提出了直接判别优化(DDO)作为一个统一框架,它桥接了基于似然的生成训练与GAN目标,以绕过这一根本性限制。我们的核心洞见在于,通过利用可学习目标模型与固定参考模型之间的似然比,隐式参数化一个判别器,这与直接偏好优化(DPO)的理念相呼应。与GAN不同,这种参数化方法无需联合训练生成器和判别器网络,从而能够直接、高效且有效地微调已训练好的模型,使其超越MLE的局限,发挥全部潜能。DDO可以以自我博弈的方式迭代进行,逐步优化模型,每一轮所需的预训练周期不到1%。我们的实验验证了DDO的有效性,显著提升了先前SOTA扩散模型EDM的性能,在CIFAR-10/ImageNet-64数据集上将FID分数从1.79/1.58降至新纪录1.30/0.97,并在ImageNet 256×256上持续改善了视觉自回归模型的无引导及CFG增强的FID指标。
大型语言模型(LLMs)在通过语义推理对复杂任务进行层次分解方面展现出卓越能力。然而,其在具身系统中的应用面临确保子任务序列可靠执行及实现长期任务一次性成功的挑战。为应对动态环境中的这些局限,我们提出了闭环具身代理(CLEA)——一种创新架构,集成了四个功能解耦的专用开源LLM,用于闭环任务管理。该框架具备两大核心创新:(1) 交互式任务规划器,基于环境记忆动态生成可执行子任务;(2) 多模态执行评判器,采用评估框架对行动可行性进行概率评估,当环境扰动超出预设阈值时触发层次化重规划机制。为验证CLEA的有效性,我们在真实环境中进行了实验,使用两台异构机器人执行物体搜索、操作及搜索-操作一体化任务。在12次任务试验中,CLEA相较于基线模型,成功率提升了67.3%,任务完成率提高了52.8%。这些结果表明,CLEA显著增强了动态环境中任务规划与执行的鲁棒性。
近期,网络AI代理在应对复杂网页导航任务方面展现出了显著的能力。然而,新兴研究表明,尽管这些代理与独立的大型语言模型(LLMs)均基于相同的安全对齐模型构建,但前者却表现出更高的脆弱性。这一差异尤为令人关注,因为相较于独立的LLMs,网络AI代理具备更大的灵活性,这可能使其面临更广泛的对抗性用户输入。为构建一个解决这些问题的框架,本研究深入探讨了导致网络AI代理脆弱性增加的根本因素。值得注意的是,这种差异源于网络AI代理与独立LLMs之间的多方面差异,以及复杂信号——这些细微差别往往被简单的评估指标(如成功率)所忽视。为应对这些挑战,我们提出了组件级分析和更为细致、系统的评估框架。通过这一精细化的研究,我们识别出加剧网络AI代理脆弱性的三个关键因素:(1) 将用户目标嵌入系统提示中,(2) 多步骤动作生成,以及(3) 观察能力。我们的研究结果强调了在AI代理设计中提升安全性和鲁棒性的迫切需求,并为制定有针对性的防御策略提供了可操作的见解。
由于多视角几何带来的复杂性,从多视角图像进行房间布局估计的研究尚不充分,这通常需要多步骤解决方案,如相机内外参数估计、图像匹配和三角测量。然而,在三维重建领域,近期三维基础模型(如DUSt3R)的进展,已将从传统的多步骤运动恢复结构(Structure-from-Motion)流程转向了端到端的单步方法。为此,我们提出了Plane-DUSt3R,一种利用三维基础模型DUSt3R进行多视角房间布局估计的新方法。Plane-DUSt3R整合了DUSt3R框架,并在房间布局数据集(Structure3D)上进行了微调,调整目标以估计结构平面。通过生成统一且简洁的结果,Plane-DUSt3R仅需一个后处理步骤和二维检测结果即可完成房间布局估计。与以往依赖单视角或全景图像的方法不同,Plane-DUSt3R扩展了处理多视角图像的场景。此外,它提供了一个简化的端到端解决方案,简化了流程并减少了误差累积。实验结果表明,Plane-DUSt3R不仅在合成数据集上超越了现有最先进方法,还在包含不同图像风格(如卡通)的真实数据上展现了其鲁棒性和有效性。我们的代码已公开于:https://github.com/justacar/Plane-DUSt3R。
分层量化是高效压缩大型模型而无需昂贵重训练的关键技术。以往的方法通常通过“均匀”优化所有输出token的层重建损失来量化每一层的权重。然而,本文中我们证明,通过优先从重要token(例如具有较大注意力分数的token)中学习,可以获得量化效果更优的模型。基于这一发现,我们提出了RSQ(旋转、缩放、再量化)方法,该方法(1)对模型应用旋转(正交变换)以缓解异常值(具有异常大数值的token)的影响,(2)根据token的重要性缩放其特征,以及(3)使用GPTQ框架并基于缩放token计算的二阶统计量对模型进行量化。为了计算token的重要性,我们探索了启发式和动态策略。通过对所有方法的深入分析,我们采用注意力集中度(即使用每个token的注意力分数作为其重要性)作为最佳方法。我们证明,RSQ在多个下游任务和三个模型家族(LLaMA3、Mistral和Qwen2.5)中均优于基线方法。此外,使用RSQ量化的模型在长上下文任务中表现出色,进一步凸显了其有效性。最后,RSQ在不同设置下(包括不同模型大小、校准数据集、比特精度和量化方法)均展现出良好的泛化能力。