每日精选AI研究论文及翻译
利用二维扩散模型的先验知识进行三维编辑已成为一种前景广阔的研究范式。然而,编辑结果的多视角一致性保持仍具挑战性,且三维一致性编辑配对数据的极端稀缺使得监督微调——这一编辑任务中最有效的训练策略——难以实施。本文发现,虽然生成多视角一致的三维内容极具挑战性,但验证三维一致性却相对可行,这自然将强化学习定位为可行解决方案。基于此,我们提出RL3DEdit框架:通过源自三维基础模型VGGT的新型奖励信号驱动强化学习优化,实现单次推理编辑。具体而言,我们利用VGGT从海量真实数据中学习到的强健先验,输入编辑后的图像,并将其输出的置信度图与姿态估计误差作为奖励信号,通过强化学习将二维编辑先验有效锚定在三维一致性流形上。大量实验表明,RL3DEdit在实现稳定多视角一致性的同时,编辑质量超越现有最优方法且效率显著。为促进三维编辑领域发展,我们将公开代码与模型。
虽然大语言模型中的推理能力在数学计算、代码生成和多跳事实性问题中自然发挥作用,但其对简单单跳事实性问题的影响仍不明确。此类问题无需逐步逻辑分解,使得推理的效用显得有违直觉。然而我们发现,启用推理能显著扩展模型参数化知识回忆的能力边界,解锁那些原本无法触及的正确答案。当不存在复杂推理步骤时,为何推理仍有助于参数化知识回忆?为解答此问题,我们设计了一系列假设驱动的受控实验,并识别出两个关键驱动机制:(1)计算缓冲效应,即模型利用生成的推理标记执行独立于其语义内容的隐式计算;(2)事实触发效应,即生成主题相关事实可充当语义桥梁促进正确答案检索。值得注意的是,后一种生成式自检索机制存在固有风险:我们证明在推理过程中虚构中间事实会增加最终答案出现幻觉的可能性。最后,我们展示了如何通过优先选择包含无幻觉事实陈述的推理路径,将这一洞见直接应用于提升模型准确率。
尽管当前多模态大语言模型(MLLMs)取得了显著进展,但其主干网络仍主要采用传统的自回归架构,在探索高效能、高效率的替代架构设计方面仍存巨大空间。与此同时,近期研究已成功将离散扩散模型应用于视觉理解、图像生成等多个领域,揭示了其作为多模态系统主干网络的巨大潜力。受这些前沿研究的启发,我们提出了全向扩散模型(Omni-Diffusion)——首个完全基于掩码式离散扩散模型的任意模态转换多模态语言模型,实现了文本、语音和图像理解与生成的统一框架。该模型采用统一的掩码式离散扩散模型直接学习多模态离散标记的联合分布,不仅支持双模态任务,还能应对更复杂的多模态场景。在多样化基准测试中,我们的方法在处理两种及以上模态的任务上超越或媲美现有多模态系统,彰显了扩散模型驱动下一代多模态基础模型的巨大潜力。项目页面:https://omni-diffusion.github.io。
自我进化已成为提升大型语言模型(LLM)和视觉语言模型(VLM)等基础模型性能的关键范式,其特点在于最大限度减少人工干预。虽然现有研究表明LLM智能体能够在零数据或极少数据条件下从零开始自我进化,但VLM引入的视觉模态通常需要至少少量种子数据(如图像)来启动进化过程。本研究提出多模态零数据框架MM-Zero,这是首个基于强化学习实现VLM零数据自我推理进化的方法。相较于传统的双角色(提议者与求解者)架构,MM-Zero创新性地构建了包含三个专业化角色的自我进化训练框架:提议者负责生成抽象视觉概念并构建问题,编码者将这些概念转化为可执行代码(如Python、SVG)以生成视觉图像,求解者则对生成的可视化内容进行多模态推理。所有角色均初始化为同一基座模型,并通过群组相对策略优化(GRPO)进行训练,其中精心设计的奖励机制融合了执行反馈、视觉验证与难度平衡。实验表明,MM-Zero在多项多模态基准测试中显著提升了VLM的推理性能。该框架为多模态模型建立了可扩展的自我进化路径,将自我改进的前沿从传统的双模型范式推向多模型系统新境界。
统一多模态模型(UMMs)在融合理解、推理、生成与编辑能力时,始终面临保持强语义理解与获得强大生成能力之间的固有权衡。本报告提出InternVL-U——一个轻量级的40亿参数统一多模态模型,旨在通过统一框架实现这些能力的普惠化。该模型以统一上下文建模与解耦视觉表征的模态专用模块化设计为指导思想,将前沿的多模态大语言模型(MLLM)与基于MMDiT的专用视觉生成头相结合。为弥合审美生成与高级智能之间的鸿沟,我们构建了面向高语义密度任务(如文本渲染与科学推理)的综合数据合成流程,采用以推理为核心的范式,通过思维链(CoT)技术将抽象用户意图与细粒度视觉生成细节更精准地对齐。大量实验表明,InternVL-U实现了卓越的性能-效率平衡:尽管仅使用40亿参数,它在各类生成与编辑任务中持续超越规模超其三倍的统一基线模型(如140亿参数的BAGEL),同时保持了强大的多模态理解与推理能力。
多模态大语言模型(MLLMs)虽能处理以图像形式呈现的文本,但其表现往往逊于直接接收文本符号输入的情况。我们通过系统性诊断这一“模态鸿沟”,在五种输入模式下评估了七个MLLMs在七个基准测试中的表现,涵盖从合成渲染文本到arXiv PDF及维基百科页面等真实文档图像。研究发现,模态鸿沟具有任务依赖性和数据依赖性:例如数学任务在合成渲染文本上性能下降超过60分,而自然文档图像的表现常与文本模式持平甚至更优。字体、分辨率等渲染选择是重要干扰因素,仅字体差异就可导致准确率波动高达47个百分点。通过基于扎根理论对4000余例样本进行错误分析,我们发现图像模式会选择性放大阅读错误(计算与格式解析失败),而知识性与推理错误基本保持不变,且某些模型在视觉输入下会出现思维链推理崩溃。基于这些发现,我们提出一种自蒸馏方法,将模型自身纯文本推理轨迹与图像输入配对训练,使GSM8K数据集的图像模式准确率从30.71%提升至92.72%,并能迁移至未见过的基准测试而不产生灾难性遗忘。本研究为模态鸿沟提供了系统性认知,并为提升多模态语言模型的视觉文本理解能力指明了可行路径。
体育运动因其不断挑战人类体能和认知极限而长期备受关注。随着视觉语言模型空间智能研究日益受到重视,体育领域为理解高强度人体运动与动态物体交互提供了天然试验场。为此,我们推出首个面向体育场景的大规模空间智能数据集CourtSI。该数据集包含超过100万组问答对,按照系统覆盖空间计数、距离测量、定位和关系推理的完整分类体系,囊括羽毛球、网球和乒乓球等代表性网类运动。借助明确标定的球场几何结构作为度量基准,我们开发了半自动数据引擎来重建运动场景,实现了CourtSI的可扩展构建。此外,我们推出经过严格人工校验的高质量评估基准CourtSI-Bench,包含3,686组问答对。通过对25个专有和开源VLM的评估,发现当前AI与人类表现仍存在差距,且现有空间智能基准的泛化能力有限。这些结果表明体育场景暴露出现有基准在捕捉空间智能能力方面的局限性。进一步实验显示,基于CourtSI对Qwen3-VL-8B进行微调后,其在CourtSI-Bench上的准确率提升23.5个百分点。适配后的模型在基于相似未见过运动构建的评估集CourtSI-Ext上也展现出色泛化能力,并表现出增强的空间感知解说生成能力。这些发现共同证明CourtSI为提升VLM在体育领域的空间智能提供了可扩展的路径。
我们推出Fish Audio S2,这是一款开源的文本转语音系统,具备多说话人、多轮生成能力,其核心特色在于通过自然语言描述实现指令跟随式控制。为扩大训练规模,我们开发了多阶段训练方案,并构建了涵盖视频字幕生成、语音字幕生成、音质评估与奖励建模的分阶段数据流水线。为推动开源TTS技术前沿发展,我们公开了模型权重、微调代码以及基于SGLang的推理引擎。该推理引擎具备生产级流式处理能力,实时因子达0.195,首音频生成时间低于100毫秒。代码与权重已发布于GitHub(https://github.com/fishaudio/fish-speech)和Hugging Face(https://huggingface.co/fishaudio/s2-pro)。诚邀读者访问https://fish.audio 体验定制语音功能。
区分视觉相似图像间的细微差异能力,在工业异常检测、医学影像分析及航空监控等诸多领域具有关键意义。尽管近期涌现了针对视觉语言模型的比较推理基准测试,但它们主要聚焦于存在显著差异的图像,未能捕捉现实应用所需的精细推理能力。本研究提出VLM-SubtleBench基准,专门评估视觉语言模型在细微差异比较推理上的表现。该基准涵盖属性、状态、情绪、时序、空间、存在性、数量、质量、视角与动作十种差异类型,并构建了反映这些细微变化的成对问题-图像集。与现有局限于自然图像数据集的基准不同,我们的基准覆盖工业、航空及医学影像等多领域。通过对专有和开源视觉语言模型的广泛评估,我们揭示了模型与人类表现之间在差异类型和领域上的系统性差距,并通过受控分析指出模型推理能力显著下降的具体情境。本研究的基准与发现共同为推进视觉语言模型实现人类水平的比较推理奠定了重要基础。
多模态大语言模型常表现出文本主导倾向,过度依赖语言先验而非基于非文本输入进行预测。以大型音频-语言模型(LALMs)为例,即便音频证据包含关键信息,其决定性作用也常被低估。为解决此问题,我们运用机制可解释性方法识别出一小组音频专家注意力头,其音频注意力可产生"聆听"信号。研究发现,当音频证据影响模型输出时该信号会增强,为标准提示下的音频参与度提供了指示指标。基于此定位,我们构建了音频-静默调控方向,并对最终表征实施推理时激活干预,从而放大模型的音频效应。为验证该干预的有效性,我们在MMAU基准测试中表明,该方法可使两个基于Qwen的LALMs准确率最高提升8.0个百分点,且无需任何参数更新。
随着大语言模型在代码生成领域的快速发展,人机交互正从静态文本响应演变为基于HTML的动态交互式应用,我们将其定义为MiniApps。这类应用不仅要求模型呈现可视化界面,还需构建符合现实世界逻辑的定制化交互功能。然而,现有基准测试主要关注算法正确性或静态布局重建,未能涵盖这一新范式所需的能力维度。为此,我们推出首个综合性基准测试平台MiniAppBench,专门用于评估基于逻辑的交互式应用生成能力。该平台源自真实场景下超千万次生成记录,提炼出涵盖游戏、科学、工具等六大领域的500项任务。针对开放式交互场景缺乏唯一标准答案的评估难题,我们进一步提出MiniAppEval代理评估框架。该框架通过浏览器自动化技术执行类人探索性测试,从意图实现度、静态要素和动态交互三个维度系统评估应用质量。实验表明,当前大语言模型在生成高质量MiniApps方面仍面临显著挑战,而MiniAppEval与人类评估结果高度一致,为未来研究建立了可靠标准。相关代码已发布于github.com/MiniAppBench。
语音大语言模型(SLLMs)正迅速发展,已能支持多种任务。当前这些模型通常使用文本提示进行评估,但这种方式可能无法反映用户通过语音交互的真实场景。为弥补这一不足,我们推出了DoWhatISay(DOWIS)多语言数据集,该数据集包含真人录制的口语与书面提示,可与现有任何基准测试配对使用,实现对SLLMs在语音指令场景下的真实评估。该数据集涵盖9类任务和11种语言,每个任务-语言组合提供五种风格各异的10组提示变体。通过DOWIS,我们对最先进的SLLMs进行基准测试,深入分析提示模态、风格、语言及任务类型之间的相互作用。结果表明,文本提示的表现始终优于语音提示,尤其在低资源与跨语言场景中更为明显。仅在语音输出类任务中,语音提示才能显著缩小差距,这凸显了基于语音的提示在SLLM评估中的必要性。
我们提出测试驱动的AI智能体定义(TDAD)方法,该方法将智能体提示词视为编译产物:工程师提供行为规约,编码智能体将其转化为可执行测试,再由第二编码智能体迭代优化提示词直至通过测试。在生产环境中部署工具调用型LLM智能体需要可衡量的行为合规性,而现有开发实践无法满足这一需求。微小提示词改动会导致隐性回归,工具误用难以察觉,策略违规往往在部署后才暴露。为规避规约博弈,TDAD引入三大机制:(1)显隐式测试分离,在编译阶段保留评估测试;(2)语义变异测试,通过后编译智能体生成合理错误提示词变体,并由测试框架检测测试套件的识别能力;(3)规约演化场景,在需求变更时量化回归安全性。我们在SpecSuite-Core基准上评估TDAD,该基准包含四个深度规约的智能体,涵盖策略合规、 grounded 分析、操作规程遵循和确定性执行。经过24次独立试验,TDAD实现92%的v1编译成功率,隐式测试通过率均值达97%;演化规约的编译成功率为58%,多数失败运行仅因1-2项测试未通过,变异测试得分达86-100%,v2隐式通过率78%,回归安全得分97%。实现代码已作为开放基准发布于https://github.com/f-labs-io/tdad-paper-code。
大型预训练扩散模型显著提升了生成视频的质量,但其在实时流媒体中的应用仍受限。自回归模型为序列帧合成提供了自然框架,但需要大量计算才能实现高保真度。扩散蒸馏技术可将这些模型压缩为高效少步数变体,但现有视频蒸馏方法大多沿袭图像专用技术,忽略了时间依赖性。这些技术在图像生成中表现出色,却在视频合成中表现欠佳,存在运动连贯性降低、长序列错误累积以及延迟与质量的权衡问题。我们发现导致这些局限的两个关键因素:步数缩减过程中时间上下文利用不足,以及下一片段预测中后续噪声水平的隐式预测(即曝光偏差)。为解决这些问题,我们提出对角线蒸馏法,该方法与现有方案正交且能更好地利用视频片段和去噪步骤中的时序信息。我们的核心创新在于非对称生成策略:前期多步数,后期少步数。该设计使后续片段能从充分处理的早期片段继承丰富的外观信息,同时将部分去噪片段作为后续合成的条件输入。通过使片段生成时的隐式噪声水平预测与实际推理条件对齐,我们的方法有效抑制了长序列中的误差传播和过饱和现象。我们进一步引入隐式光流建模,在严格步数限制下保持运动质量。该方法仅需2.61秒即可生成5秒视频(最高达31 FPS),相比未蒸馏模型实现277.3倍加速。
基于可验证奖励的强化学习(RLVR)虽能显著提升大语言模型的推理能力,却存在严重的校准退化问题——模型会对错误答案产生过度自信。现有研究致力于将校准目标直接融入现有优化框架,但我们的理论分析表明,在最大化策略准确率与最小化校准误差的优化目标之间存在根本性的梯度冲突。基于这一发现,我们提出DCPO框架,通过系统化解耦推理与校准目标实现简单而有效的优化。大量实验表明,DCPO在保持与GRPO相当准确率的同时,实现了最优的校准性能,显著缓解了过度自信问题。本研究为构建更可靠的大语言模型部署提供了重要洞见和实用解决方案。
情境感知,即AI系统识别自身本质、理解其训练与部署背景并对其所处环境进行战略性推理的能力,被广泛视为高级AI系统中最危险的涌现能力之一。与此同时,越来越多的研究致力于提升大语言模型在演绎、归纳与溯因三大逻辑推理领域的能力。本文指出这两大研究路径正面临碰撞风险。我们提出RAISE框架(推理能力进阶至自我审视),通过三条机制性路径揭示逻辑推理能力的提升如何逐级深化情境感知:演绎式自我推断、归纳式情境识别与溯因式自我建模。我们形式化定义了每条路径,构建了从基础自我认知到战略性欺骗的升级阶梯,并证明大语言模型逻辑推理领域的每个主要研究方向都直接对应着情境感知的特定放大器。进一步分析了现有安全措施为何无法阻止这种升级态势。最后提出具体防护方案,包括"镜像测试"基准与推理安全对等原则,并向逻辑推理研究界提出了一个令人不安但必须直面的责任之问。
智能体需推断行动结果,并选择能最大化奖励信号的行为,该信号反映了目标达成的接近程度。基于监督学习的奖励模型可能引入训练数据固有的偏差,从而限制其对新目标和新环境的泛化能力。本文探讨是否仅凭定义明确的世界状态表征就能实现跨领域的精准奖励预测。为此,我们提出StateFactory——一种因子化表征方法,利用语言模型将非结构化观测转换为分层级的对象-属性结构。这种结构化表征使奖励能够自然地被估算为当前状态与目标状态在层级约束下的语义相似度。总体而言,StateFactory诱导的紧凑表征结构赋予了强大的奖励泛化能力。我们在RewardPrediction基准上开展评估,该数据集涵盖五个不同领域,包含2,454条独特的行为-观测轨迹及逐步真实奖励。实验表明,我们的方法在零样本设置下对比VLWM-critic和LLM-as-a-Judge奖励模型均取得优异结果,EPIC距离分别降低60%和8%。此外,这种优越的奖励质量成功转化为智能体规划性能的提升:在AlfWorld和ScienceWorld环境中,相比反应式系统1策略分别实现+21.64%和+12.40%的成功率增益,同时增强了系统2智能体的规划能力。项目页面:https://statefactory.github.io
文本到视频(T2V)模型的快速发展虽已彻底改变内容创作模式,但其商业潜力仍待充分挖掘。本文首次提出T2V无缝品牌植入任务:在保持用户意图语义保真度的前提下,将广告主品牌自动嵌入提示词生成的视频中。该任务面临三大核心挑战:保持提示词忠实度、确保品牌可识别性、实现情境自然融合。为此,我们提出创新性多智能体框架BrandFusion,其协同工作流程包含两个阶段。离线阶段(面向广告主)通过探测模型先验知识并采用轻量化微调适配新品牌,构建品牌知识库;在线阶段(面向用户)则由五个智能体基于共享知识库与实时情境追踪,通过迭代优化共同完善用户提示词,确保品牌可见度与语义一致性。在多个前沿T2V模型上对18个成熟品牌和2个定制品牌的实验表明,BrandFusion在语义保持、品牌识别度与融合自然度上显著超越基线方法。人工评估进一步证实其能提升用户满意度,为T2V技术的可持续商业化提供了可行路径。
推测解码技术通过采用轻量级草稿模型生成候选标记、再由目标模型验证的方式,已成为加速大语言模型推理的重要范式。该范式的有效性高度依赖于草稿模型的质量。尽管EAGLE系列等最新成果实现了最先进的加速效果,但现有草稿模型仍受限于错误累积问题:它们仅基于当前前缀进行条件生成,导致预测结果在多步生成中逐渐偏离目标模型。本文提出ConFu(展望未来)框架,创新性地使草稿模型能够预判生成过程的未来走向。ConFu包含三大核心设计:(i)引入具有最小开销的展望标记与软提示机制,使草稿模型能利用目标模型提供的未来导向信号;(ii)采用混合专家模型的动态展望标记机制,实现上下文感知的未来预测;(iii)结合锚点标记采样与未来预测复制的训练框架,学习稳健的未来预测能力。实验表明,在Llama-3 3B/8B模型的多项下游任务中,ConFu相比EAGLE-3将标记接受率和生成速度提升8-11%。本研究首次将推测解码与连续推理标记相融合,为加速大语言模型推理开辟了新方向。
尽管大语言模型(LLM)已彻底改变了代码生成领域,但标准的"系统1"方法(通过单次前向传播生成解决方案)在面对复杂算法任务时往往遭遇性能瓶颈。现有的迭代优化策略试图在推理阶段弥补这一差距,但这些方法主要依赖外部验证器、执行反馈或计算成本高昂的提示-响应循环。本研究提出ReflexiCoder,一种新颖的强化学习框架,它将结构化推理轨迹(包括初始生成、缺陷与优化感知的反思以及自我修正)内化至模型权重中。与先前方法不同,ReflexiCoder将范式从依赖外部优化的方式转变为推理阶段内在的、完全自主的自我反思与自我修正能力。我们采用零强化学习训练范式,通过细粒度奖励函数优化整个反思-修正轨迹,使模型在无需真实反馈或执行引擎的情况下学会调试。在七大基准测试上的实验表明,ReflexiCoder-8B在1.5B-14B参数规模的开源模型中确立了新标杆:在HumanEval(Plus)上达到94.51%(87.20%),MBPP(Plus)上达81.80%(78.57%),BigCodeBench为35.00%,LiveCodeBench为52.21%,CodeForces单次尝试设置下达37.34%,性能比肩甚至超越GPT-5.1等专有模型。值得注意的是,该框架具有显著更高的令牌效率,通过规范化的高速推理与反思模式,将推理阶段计算开销降低约40%。源代码已发布于https://github.com/juyongjiang/ReflexiCoder。
通过对Python执行轨迹训练大语言模型,可使其掌握代码执行逻辑,实现对整个Python程序的逐行执行预测,从而将其转化为神经解释器(FAIR CodeGen团队等,2025)。然而开发者很少逐步执行程序,而是通过调试器在断点处暂停,仅单步跟踪相关代码段并检查或修改变量。现有神经解释器方法缺乏此类交互控制能力。为突破这一局限,我们提出神经调试器:这种语言模型能模拟传统调试器,支持单步进入、跳过或跳出函数等操作,以及在特定源码行设置断点。实验表明,通过微调大型LLM或从头预训练小型模型获得的神经调试器,能够可靠地建模正向执行(预测未来状态与输出)和逆向执行(推断先前状态或输入),并受调试操作调控。在CruxEval基准测试中,我们的模型在输出与输入预测任务上均表现优异,展现出强大的条件执行建模能力。本研究为未来智能编码系统迈出重要一步:神经调试器可作为模拟调试环境的世界模型,提供执行反馈或帮助智能体与真实调试工具交互。这一能力为更强大的代码生成、程序理解和自动化调试奠定了基石。
递归式自我改进正从理论走向实践:现代系统已能对自身输出进行批判、修正和评估,但迭代式自我优化可能引发微妙的对齐漂移。我们提出SAHOO框架,通过三重保障机制监控并控制漂移:(一)目标漂移指数(GDI),一种融合语义、词汇、结构及分布度量的多信号检测器;(二)约束保持检查,用于强制执行安全性关键约束(如语法正确性和非虚构性);(三)回归风险量化,标记可能抵消既往成果的改进循环。在代码生成、数学推理和真实性验证等189项任务中,SAHOO在代码任务上实现18.3%的质量提升,推理任务提升16.8%,同时在两个领域保持约束条件,真实性违规率维持低位。阈值基于跨三个周期的18项任务小型验证集进行校准。我们进一步绘制能力-对齐边界图,揭示早期改进周期的高效性及后期对齐成本上升现象,并暴露领域特定矛盾(如流畅性与事实性的冲突)。SAHOO由此使递归自我改进过程中的对齐保持变得可量化、可部署,并能进行系统性大规模验证。
状态空间模型的发布通常与融合的CUDA及Triton内核耦合,这导致其对NVIDIA硬件存在强依赖。我们证明Mamba-2的状态空间对偶算法——包括对角化状态结构、可分块的递归计算、以einsum为主导的静态控制流计算——能够完美映射至XLA融合与分块优化通道的实际优化逻辑,使得定制内核成为可选而非必选项。我们在XLA框架下将完整推理流程(预填充、缓存式自回归解码)实现为具有确定形状的标准原语,无需手写内核,并将该架构理论上的O(1)状态管理实现为无需生成过程中主机同步的编译端缓存。该实现可通过单一JAX代码库在CPU、NVIDIA GPU和谷歌云TPU上直接运行。在TPU v6e上针对五种模型规模(1.3亿至27亿参数)的测试表明,XLA生成代码在单流预填充中达到约140 TFLOPS(15%模型浮点利用率),解码时带宽利用率最高达64%。贪婪解码在64步生成中与PyTorch/CUDA参考实现逐令牌一致,隐藏状态差异保持在float32舍入容限内。该模式可迁移至满足相同结构条件的任意状态空间模型递归计算,适用于所有具备成熟XLA后端的平台。实现代码已公开于https://github.com/CosmoNaught/mamba2-jax 并并入Bonsai JAX模型库。
视觉语言模型(VLMs)的最新进展已展现出卓越的零样本能力,然而将这些模型适配到专业领域仍面临重大挑战。基于近期理论研究发现独立训练的VLMs可通过规范变换相互关联的启示,我们将这一认知拓展至领域适应的范畴。我们提出假设:不同领域的图像特征可通过一种规范化的几何变换相互关联,且该变换可利用少量锚点样本进行还原。小样本分类任务自然契合这种对齐机制,因为有限的标注样本恰好可作为估计该变换所需的锚点。基于此假设,我们提出了BiCLIP框架,通过对多模态特征施加定向变换来增强跨模态对齐。该方法具有极高的简洁性和低参数量特性。在EuroSAT、DTD和FVGCAircraft等11个标准基准上的广泛实验表明,BiCLIP持续实现最先进性能。此外,我们通过分析所学变换的正交性和角度分布,对现有几何发现进行了实证验证,证实结构化对齐是实现鲁棒领域适应的关键。代码已开源:https://github.com/QuantitativeImagingLaboratory/BilinearCLIP
克什米尔语虽拥有约700万使用者且具备官方语言地位及丰富语言遗产,其在语音技术领域仍处于严重服务不足状态。现有文本转语音(TTS)系统的缺失制约了母语者的数字可及性与包容性人机交互。本研究首次提出专为克什米尔语设计的开源神经TTS系统。实验表明,针对印度语系训练的零样本多语言基线模型因未能有效建模波斯-阿拉伯变音符号及语言特定音系规则,仅获得1.86的平均意见得分(MOS),无法生成清晰语音。为此,我们基于Matcha-TTS框架提出Bolbosh方案——一种采用最优传输条件流匹配(OT-CFM)的监督式跨语言适配策略,该策略能在有限配对数据下实现稳定对齐。我们进一步引入包含去混响、静音修剪和响度归一化的三阶段声学增强流程,以统合异构语音源并稳定对齐学习。通过扩展模型词汇表显式编码克什米尔文字素,系统保留了细粒度元音区别特征。最终系统取得3.63的MOS与3.73的梅尔倒谱失真度(MCD),显著超越多语言基线模型,为克什米尔语音合成树立新标杆。实验结果证实,基于流匹配的脚本感知监督适配对变音符号敏感型低资源语言的TTS至关重要。代码与数据详见:https://github.com/gaash-lab/Bolbosh。
我们推出Midicoth无损压缩系统,该系统引入微扩散去噪层以改进自适应统计模型生成的概率估计。在诸如局部匹配预测(PPM)等压缩器中,概率估计会通过先验分布进行平滑处理以应对稀疏观测问题。当上下文仅出现少数几次时,该先验主导预测过程并产生比真实信源分布显著平坦的概率分布,导致压缩效率低下。Midicoth通过将先验平滑视为收缩过程,并应用基于经验校准统计的反向去噪步骤来校正预测概率,从而解决这一局限。为实现数据高效校正,该方法将每个字节预测分解为沿比特树结构的二元决策层次。这将单一的256路校准问题转化为序列化二元校准任务,使得能够从相对少量观测中可靠估计校正项。去噪过程通过多级连续步骤实施,允许每一阶段精炼前序步骤遗留的残差预测误差。微扩散层作为轻量级后融合校准阶段,在所有模型预测合并后实施,可修正最终概率分布中的系统性偏差。Midicoth整合了五个全在线组件:自适应PPM模型、长程匹配模型、基于字典树的词汇模型、高阶上下文模型,以及作为最终阶段的微扩散去噪器。
长期以来,关联记忆一直是序列模型设计的基础。除了记忆回溯,人类还能通过推演未来状态并选择目标导向的行为进行推理——这种能力对现代语言模型日益重要,却未被原生编码。现有研究虽采用强化学习或测试时训练,但规划功能始终外置于模型架构。我们将推理建模为最优控制问题,提出测试时控制层:该组件在推理时对隐状态执行有限时域的LQR规划,在神经网络架构内部表征价值函数,并将其作为嵌套目标实现预测前的规划。为确保可扩展性,我们基于辛几何推导出硬件高效的LQR求解器,并将其实现为融合CUDA内核,支持并行计算且开销极小。作为适配器集成至预训练大语言模型后,TTC层将MATH-500数学推理性能提升最高27.8%,在AMC和AIME竞赛中Pass@8指标提升2-3倍,证明将最优控制嵌入模型架构可为推理任务提供超越测试时训练的有效可扩展机制。
在线类别发现(OCD)旨在通过仅使用标注数据训练的模型,从未标注的在线流数据中识别已知类别并同时发现新类别。现有方法通常冻结离线训练的特征提取器,采用基于哈希的框架将特征量化为二进制码作为类别原型。然而,使用固定知识库发现新类别存在悖论,因为完全忽略了输入数据的学习潜力。此外,特征量化会导致信息损失、降低表征表达能力并加剧类内差异,常引发类别爆炸问题——即单个类别被分裂成多个伪类别。为克服这些局限,我们提出一种支持通过发现进行学习的测试时自适应框架。该框架包含两项互补策略:语义感知的原型更新和稳定的测试时编码器更新。前者动态优化类别原型以提升分类性能,后者将新信息直接整合到参数空间中。二者协同使得模型能够利用新样本持续扩展知识库。进一步地,我们在离线阶段引入边界感知逻辑校准,通过扩大类间边界并提升类内紧凑性,为未来类别发现预留嵌入空间。在标准OCD基准测试上的实验表明,本方法显著优于现有基于哈希的先进方法,在新类别识别准确率上取得明显提升,并有效缓解了类别爆炸问题。代码已公开于蓝色链接{https://github.com/ynanwu/TALON}。
人人都能通过自由文本形式书写故事——这是我们在学校就习得的技能。然而通过视频进行叙事却需要学习专业复杂的工具。本文提出Doki,一种面向生成式视频创作的文本原生界面,将视频创作与自然的文本写作过程相融合。在Doki中,文本写作是核心交互方式:用户可在单一文档内定义素材、构建场景、创建镜头、精修剪辑并添加音频。我们阐述了这种文本优先设计原则,并通过系列案例展示Doki的功能。为评估实际应用效果,我们开展了为期一周的部署研究,参与者涵盖不同视频创作经验水平的人群。这项研究实现了生成式视频界面的根本性变革,展现了一种强大且易用的视觉叙事新范式。
大型语言模型的长上下文推理在解码阶段受限于键值(KV)缓存加载——由于生成的序列特性,每一步都需要将KV缓存从片外高带宽内存(HBM)重复传输至片内静态随机存取存储器(SRAM)。虽然多头潜在注意力(MLA)显著降低了KV缓存总量,但在通过张量并行(TP)进行分布式解码时存在分片瓶颈:其单一潜在头无法被分割,导致每个设备需为每个令牌冗余加载完整KV缓存,不仅消耗过量内存流量,也削弱了权重分片等TP优势。本文提出多头低秩注意力(MLRA),通过可分割的潜在状态实现高效的4路TP解码。大量实验表明,MLRA在困惑度和下游任务性能上达到最优水平,同时相比MLA实现2.8倍解码加速。代码详见https://github.com/SongtaoLiu0823/MLRA,预训练权重及训练评估数据已发布于https://huggingface.co/Soughing/MLRA。