每日精选AI研究论文及翻译
大型语言模型(LLMs)在自然语言处理领域取得了显著成就。近期进展催生了一类新型推理LLMs;例如,开源模型DeepSeek-R1通过深度融合思维与复杂推理,实现了业界领先的性能。尽管这些模型展现出令人瞩目的能力,其内部推理机制仍未被充分探索。本研究采用稀疏自编码器(SAEs)方法,旨在学习神经网络潜在表示的稀疏分解,以识别DeepSeek-R1系列模型中驱动推理的特征。首先,我们提出了一种从SAE表示中提取候选“推理特征”的方法。通过实证分析与可解释性方法验证这些特征,我们证明了它们与模型推理能力的直接关联。尤为关键的是,我们展示了系统性地引导这些特征能够提升推理性能,为LLMs中的推理机制提供了首个机制性解释。代码已发布于https://github.com/AIRI-Institute/SAE-Reasoning。
随着训练数据规模、模型体量和计算成本的不断提升,视频生成在数字创作领域取得了令人瞩目的成果,使用户能够在多个领域展现创意。近期,大型语言模型(LLMs)的研究者将扩展能力延伸至测试阶段,通过增加推理时的计算资源,显著提升了LLM的性能。不同于通过高昂训练成本来扩大视频基础模型规模,我们探索了测试时扩展(Test-Time Scaling, TTS)在视频生成中的潜力,旨在解答一个问题:若允许视频生成模型在推理时使用相当数量的计算资源,面对具有挑战性的文本提示,其生成质量能提升多少。在本研究中,我们将视频生成的测试时扩展重新诠释为一个搜索问题,即从高斯噪声空间中采样更优轨迹以逼近目标视频分布。具体而言,我们构建了包含测试时验证器的搜索空间,以提供反馈,并采用启发式算法指导搜索过程。给定一个文本提示,我们首先探索了一种直观的线性搜索策略,即在推理时增加噪声候选。由于全步骤同时去噪所有帧需要巨大的测试时计算成本,我们进一步设计了一种更为高效的视频生成TTS方法,称为“帧之树”(Tree-of-Frames, ToF),该方法以自回归方式自适应地扩展和修剪视频分支。在文本条件视频生成基准上的大量实验表明,增加测试时计算资源持续显著提升了视频质量。项目页面:https://liuff19.github.io/Video-T1
现代游戏开发在创意与成本方面面临重大挑战,这主要源于传统游戏引擎中预设内容的局限性。近期,视频生成模型取得突破性进展,能够合成逼真且互动的虚拟环境,为游戏创作带来了革命性机遇。在本立场文件中,我们提出将交互式生成视频(IGV)作为生成式游戏引擎(GGE)的基础,以实现在下一代游戏中无限新颖内容的生成。GGE充分利用IGV在无限高质量内容合成、物理感知的世界建模、用户可控的交互性、长期记忆能力及因果推理等方面的独特优势。我们详细阐述了GGE的核心模块框架,并提出了一个分层次的成熟度路线图(L0-L4)以指导其发展。本工作为AI时代的游戏开发描绘了新方向,展望了一个由AI驱动的生成系统从根本上重塑游戏创作与体验的未来。
DeepSeek-R1 研究表明,通过基于规则的奖励进行简单强化学习(RL)框架,长链思维(CoT)推理能够自然涌现,其中训练可以直接从基础模型开始——这一范式被称为零RL训练。近期大多数尝试复制零RL训练的研究主要集中在Qwen2.5模型系列上,但我们发现这些基础模型已展现出强大的指令遵循和自我反思能力,因此可能不具备代表性。在本研究中,我们探讨了10种不同基础模型的零RL训练,涵盖了不同家族和规模,包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及从0.5B到32B的所有Qwen2.5模型。通过采用多项关键设计策略——如调整格式奖励和控制查询难度——我们在大多数设置中实现了推理准确性和响应长度的显著提升。然而,通过仔细监控训练动态,我们观察到不同基础模型在训练过程中表现出不同的模式。例如,响应长度的增加并不总是与某些认知行为(如验证,即“顿悟时刻”)的出现相关。值得注意的是,我们首次在非Qwen家族的小型模型中观察到了“顿悟时刻”。我们分享了实现成功零RL训练的关键设计,以及我们的发现和实践。为了促进进一步研究,我们开源了代码、模型和分析工具。
几何重建与生成建模的融合,仍是开发具备类人空间推理能力AI系统的关键挑战。本文提出Aether,一个统一框架,通过联合优化三项核心能力,实现世界模型中的几何感知推理:(1) 四维动态重建,(2) 动作条件视频预测,以及(3) 目标条件视觉规划。通过任务交错的特征学习,Aether在重建、预测与规划目标间实现了协同知识共享。基于视频生成模型,我们的框架展现了前所未有的合成到真实泛化能力,尽管训练过程中从未接触真实世界数据。此外,得益于其内在的几何建模,我们的方法在动作跟随与重建任务中均实现了零样本泛化。值得注意的是,即便没有真实世界数据,其重建性能也远超领域专用模型。同时,Aether利用几何信息化的动作空间,将预测无缝转化为行动,实现了有效的自主轨迹规划。我们期望本工作能激励社区探索物理合理世界建模及其应用的新前沿。
Omnimatte致力于将给定视频分解为具有语义意义的层次,包括背景和独立物体及其相关效果,如阴影和反射。现有方法通常需要大量训练或昂贵的自监督优化。本文中,我们提出了OmnimatteZero,一种无需训练的方法,它利用现成的预训练视频扩散模型来实现omnimatte。该方法能够从视频中移除物体,提取包含其效果的独立物体层,并将这些物体合成到新的视频中。我们通过调整零样本图像修复技术,使其适用于视频物体移除任务,这一任务原本难以直接有效处理。随后,我们展示了自注意力图能够捕捉物体及其痕迹的信息,并利用它们来修复物体的效果,从而留下干净的背景。此外,通过简单的潜在空间运算,物体层可以被隔离并无缝重组到新的视频层中,以生成新的视频。评估结果表明,OmnimatteZero不仅在背景重建方面表现出色,还创下了最快的Omnimatte方法记录,实现了实时性能,且每帧运行时间极短。
科学发现的进步鲜少源于某个单一的“灵光乍现”时刻,而是成百上千位科学家朝着共同目标逐步协作的成果。尽管现有的智能体工作流能够自主开展研究,但它们往往孤立运作,无法持续改进先前的研究成果。为应对这些挑战,我们推出了AgentRxiv——一个框架,它让大型语言模型(LLM)智能体实验室能够在一个共享的预印本服务器上上传和检索报告,以此协作、分享洞见,并迭代地基于彼此的研究成果进行构建。我们委派智能体实验室开发新的推理与提示技术,发现那些能够访问自身先前研究成果的智能体,相较于孤立运作的智能体,实现了更高的性能提升(在MATH-500基准上相对基线提升了11.4%)。我们还发现,表现最佳的策略能够泛化至其他领域的基准测试(平均提升3.3%)。通过AgentRxiv共享研究成果的多个智能体实验室,能够协同向共同目标迈进,其进展速度远超孤立实验室,整体准确率也更高(在MATH-500基准上相对基线提升了13.7%)。这些发现表明,自主智能体未来或能与人类并肩,共同设计AI系统。我们期待AgentRxiv能促进智能体间的研究目标协作,助力研究人员加速科学发现进程。
无分类器引导(Classifier-Free Guidance, CFG)是扩散/流模型中广泛采用的一项技术,旨在提升图像保真度与可控性。本研究首先对CFG在基于高斯混合训练的流匹配模型中的影响进行了理论分析,其中真实流可被精确推导。我们观察到,在训练初期,当流估计尚不准确时,CFG会将样本引向错误的轨迹。基于这一发现,我们提出了CFG-Zero*,一种改进的CFG方法,包含两项创新:(a) 优化尺度,通过优化一个标量来校正速度估计中的误差,故名称中带有*;(b) 零初始化,即在ODE求解器的前几步中置零。在文本到图像(Lumina-Next、Stable Diffusion 3及Flux)和文本到视频(Wan-2.1)生成任务上的实验表明,CFG-Zero*始终优于CFG,凸显了其在引导流匹配模型方面的有效性。(代码已发布于github.com/WeichenFan/CFG-Zero-star)
大型语言模型(LLMs)正越来越多地部署在与外部环境交互的代理系统中。然而,LLM代理在处理不可信数据时容易受到提示注入攻击。本文提出CaMeL,一种在LLM周围构建保护系统层的鲁棒防御机制,即使底层模型可能易受攻击,也能确保其安全。CaMeL通过明确提取(可信)查询中的控制流和数据流来运行;因此,LLM检索到的不可信数据永远不会影响程序流程。为进一步提升安全性,CaMeL依赖能力概念,以防止通过未授权数据流泄露私有数据。我们在AgentDojo [NeurIPS 2024]这一最新的代理安全基准测试中,证明了CaMeL的有效性,成功解决了67%具有可证明安全性的任务。
评估生成式基础模型在开放式多模态理解(MMU)和生成(MMG)任务上的表现,尤其是在跨多种模态(如图像、音频、视频)的复杂交互中,面临着重大挑战。为此,利用多模态大语言模型(MLLMs)作为自动化评判者的想法应运而生,并在视觉-语言理解任务的评估中取得了鼓舞人心的成果。进一步地,本文通过引入两个基准——TaskAnything和JudgeAnything,将MLLM-as-a-Judge的理念扩展至跨模态的统一评估方式,分别用于评估MLLMs在任意到任意模态任务中的整体表现和评判能力。具体而言,TaskAnything评估了15种任意到任意模态类别下的MMU和MMG能力,采用了从知名基准中精选的1,500个查询。此外,JudgeAnything从配对比较和评分评估两个角度,评估了包括GPT-4o和Gemini-2.0-Flash在内的5种先进模型的评判能力,提供了一个融合人类判断与详细评分标准的标准化测试平台。我们的广泛实验表明,尽管这些MLLMs在评估MMU方面展现出潜力(即在配对比较设置中平均达到66.55%,在评分评估设置中平均达到42.79%),但在处理MMG任务时却面临显著挑战(即在配对比较设置中平均仅为53.37%,在评分评估设置中平均仅为30.05%),暴露出跨模态偏见和幻觉问题。针对这些问题,我们推出了OmniArena,一个用于评估全能模型和多模态奖励模型的自动化平台。我们的工作强调了制定更公平的评估协议及加强与人类偏好对齐的必要性。源代码和数据集已公开于:https://urrealhero.github.io/judgeanythingweb/。
我们推出FFN融合技术,这是一种架构优化方法,通过识别并利用自然并行化机会,减少大型语言模型中的顺序计算。我们的核心洞见是,前馈网络(FFN)层序列,特别是在移除特定注意力层后保留的序列,往往可以在最小化精度影响的情况下实现并行化。我们开发了一套系统的方法论,用于识别并融合这些序列,将其转化为并行操作,从而在保持模型行为的同时显著降低推理延迟。将这些技术应用于Llama-3.1-405B-Instruct模型,我们创建了Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base),这是一款高效且即将公开的模型,在保持强劲基准性能的同时,实现了推理延迟1.71倍的加速和每令牌成本35倍的降低。通过对49B至253B参数规模模型的广泛实验,我们证明FFN融合在更大规模上效果愈发显著,并能与量化、剪枝等现有优化技术相辅相成。尤为引人注目的是,我们发现,即使是包含注意力层和FFN层的完整Transformer块,有时也能实现并行化,这为神经网络架构设计开辟了新的方向。
大型视觉语言模型(LVLMs)通常遵循两阶段训练范式——预训练与监督微调。近期,源自语言领域的偏好优化作为一种有效的后训练强化策略,已显现出提升LVLMs能力的潜力。然而,构建高质量的人工标注偏好数据并开发能够模拟这些偏好的鲁棒奖励模型,既成本高昂又极具挑战性。基于这一观察,我们提出了Vision-R1,一种新颖的视觉引导R1类强化学习算法,专为LVLMs设计,通过明确的视觉反馈来奖励模型。该算法仅利用精选的指令数据,无需专门的奖励模型和手工制作的偏好数据集。我们引入了一个标准驱动的奖励函数,进一步整合多维度反馈,依据视觉任务逻辑全面评估模型完成情况。此外,我们提出了一种渐进式规则优化策略,在训练过程中动态调整奖励标准,促进模型持续改进并缓解奖励作弊问题。在分布内与分布外基准上的大量实验表明,使用Vision-R1对7B规模的LVLMs进行微调,能实现一致性的性能提升,最高可达50%的改进,甚至超越了当前最先进的10倍规模模型。
当前生成模型,如自回归和扩散方法,将高维数据分布学习分解为一系列较简单的子任务。然而,在联合优化这些子任务时会出现内在冲突,现有解决方案无法在不牺牲效率或可扩展性的情况下解决此类冲突。我们提出了一种新颖的等变图像建模框架,通过利用自然视觉信号的平移不变性,从根本上对齐子任务间的优化目标。我们的方法引入了(1)增强水平轴平移对称性的列式标记化,以及(2)确保跨位置上下文关系一致性的窗口化因果注意力机制。在256x256分辨率的类别条件ImageNet生成任务上评估,我们的方法在减少计算资源使用的同时,实现了与最先进自回归模型相当的性能。系统分析表明,增强的等变性减少了任务间冲突,显著提升了零样本泛化能力,并支持超长图像合成。本研究首次建立了生成模型中任务对齐分解的框架,为高效参数共享和无冲突优化提供了洞见。代码和模型已公开于https://github.com/drx-code/EquivariantModeling。
大型语言模型(LLMs)在解决数学问题方面展现出了卓越的推理能力。然而,现有方法主要集中于提升正确训练数据的质量,例如从高级模型中提炼高质量的正确解答,却忽视了错误数据中蕴含的价值,这可能会限制模型的反思能力。尽管一些研究尝试利用错误数据,但它们通常涉及复杂的机制,如通过蒙特卡洛树搜索(MCTS)探索错误节点。在本研究中,我们提出通过“从错误中学习以促进数学进步”(LEMMA)来增强LLMs的推理能力。LEMMA构建了包含错误解答、错误步骤及与正确解答反思关联的数据集用于微调。具体而言,我们系统分析了模型生成的错误类型,并引入了一种基于错误类型的错误增强方法,以收集多样且具代表性的错误。正确解答则通过修正错误或重新生成获得。通过模型感知的平滑反思连接,错误解答被转化为正确解答。通过在构建的数据集上进行微调,模型能够在生成过程中自主纠正错误,而无需依赖外部评判模型。实验结果表明,LEMMA相较于其他强基线模型实现了显著的性能提升。
语言模型(LM)预训练的计算规模增长速度已超越人类书写文本的增长,这引发了数据可能成为LM扩展瓶颈的担忧。为了在数据受限的情况下继续推进预训练,我们提出,通过显式建模并推断文本生成过程背后的潜在思维,可以显著提升预训练的数据效率。直观上,我们的方法将网络文本视为冗长人类思维过程的压缩结果,认为潜在思维蕴含了关键上下文知识与推理步骤,这些对于数据高效学习至关重要。我们通过数学领域的数据受限持续预训练,实证展示了该方法的有效性。首先,我们证明采用合成数据方法推断潜在思维能大幅提升数据效率,在相同数量原始数据上的训练效果更优(MATH数据集上准确率从5.7%提升至25.4%)。进一步,我们展示了无需强教师模型的潜在思维推断,其中LM通过EM算法迭代提升自身能力及思维增强预训练数据的质量。实验表明,一个10亿参数的LM能够在至少三次迭代中自举其性能,显著优于基于原始数据训练的基线模型,且在执行E步时,随着推断计算资源的增加,性能提升更为明显。推断规模扩展与EM迭代带来的增益,为数据受限下的预训练扩展开辟了新的机遇。
自然语言转SQL(NL2SQL)技术随着大型语言模型(LLMs)的发展取得了显著进步。然而,这些模型往往依赖于闭源系统和高计算资源,在数据隐私和部署方面面临挑战。相比之下,小型语言模型(SLMs)在处理NL2SQL任务时表现欠佳,性能低下且与现有框架不兼容。为解决这些问题,我们推出了Feather-SQL,一个专为SLMs设计的新型轻量级框架。Feather-SQL通过1)模式剪枝与链接,2)多路径与多候选生成,提升了SQL的可执行性与准确性。此外,我们引入了1+1模型协作范式,将强大的通用聊天模型与经过微调的SQL专家模型配对,结合了强大的分析推理能力与高精度的SQL生成能力。在BIRD数据集上的实验结果表明,Feather-SQL显著提升了SLMs在NL2SQL任务上的性能,对于未经微调的模型,性能提升约10%。所提出的范式将SLMs的准确率上限提升至54.76%,充分证明了其有效性。
3D高斯溅射(3DGS)作为一种强大的表示方法,已广泛应用于实时高性能渲染领域。然而,使用大量显式高斯基元来表示3D场景会带来显著的存储和内存开销。近期研究表明,通过高精度属性表示,可以在大幅减少高斯基元数量的同时实现高质量渲染。尽管如此,现有的3DGS压缩方法仍依赖于相对较多的高斯基元,主要侧重于属性压缩。这是因为较少的高斯基元对属性有损压缩更为敏感,容易导致严重的质量下降。鉴于高斯基元数量直接关联计算成本,有效减少基元数量而非仅优化存储显得尤为重要。本文提出了一种优化最小高斯表示(OMG),在显著降低存储需求的同时,使用最少数量的基元。首先,我们通过区分邻近高斯基元来最小化冗余,且不牺牲质量。其次,我们提出了一种紧凑且精确的属性表示方法,有效捕捉基元间的连续性与不规则性。此外,我们还引入了一种子向量量化技术,以改进不规则性表示,在保持快速训练的同时,代码本大小可忽略不计。大量实验证明,与现有最先进技术相比,OMG将存储需求降低了近50%,并在保持高渲染质量的同时实现了600+ FPS的渲染速度。我们的源代码可在https://maincold2.github.io/omg/获取。
扩散模型在视觉内容生成方面展现了卓越的能力,但由于推理过程中的高计算成本,其部署仍面临挑战。这一计算负担主要源于自注意力机制相对于图像或视频分辨率的二次方复杂度。尽管现有的加速方法往往以牺牲输出质量为代价或需要昂贵的重新训练,我们注意到大多数扩散模型是在较低分辨率下预训练的,这为利用这些低分辨率先验知识进行更高效的推理而不降低性能提供了机会。在本研究中,我们引入了瓶颈采样(Bottleneck Sampling),这是一个无需训练的框架,它利用低分辨率先验知识来减少计算开销,同时保持输出保真度。瓶颈采样遵循高-低-高的去噪工作流程:在初始和最终阶段执行高分辨率去噪,而在中间步骤则以较低分辨率操作。为了减轻混叠和模糊伪影,我们进一步优化了分辨率转换点,并在每个阶段自适应地调整去噪时间步长。我们在图像和视频生成任务上评估了瓶颈采样,大量实验表明,它在图像生成上加速推理高达3倍,在视频生成上加速高达2.5倍,同时在多个评估指标上保持与标准全分辨率采样过程相当的输出质量。代码可在以下网址获取:https://github.com/tyfeld/Bottleneck-Sampling。
近期,大型视频语言模型(LVLMs)的进展凸显了其在多模态理解方面的潜力,然而,评估其在视频情境中的事实准确性仍是一个亟待解决的关键挑战。为填补这一空白,我们推出了Video SimpleQA,这是首个专为LVLMs事实性评估量身定制的综合基准。我们的工作通过以下关键特性与现有视频基准区分开来:1)知识需求:要求整合超越显性叙述的外部知识;2)事实导向问题:针对客观、无争议的事件或关系,避免主观解读;3)明确且简短的答案:答案设计为无歧义且绝对正确的简短形式,便于通过LLM-as-a-judge框架进行自动化评估,评分差异最小化;4)外部来源验证:所有标注均经过与权威外部参考的严格比对,确保可靠性;5)时间推理需求:标注的问题类型涵盖静态单帧理解与动态时间推理,明确评估LVLMs在长上下文依赖下的准确性。我们对41个最先进的LVLMs进行了广泛评估,总结出以下关键发现:1)当前LVLMs在事实遵循方面存在显著不足,尤其是开源模型。表现最佳的Gemini-1.5-Pro模型仅获得54.4%的F分数;2)测试时计算范式带来的性能提升微乎其微,揭示了通过事后计算提升事实性的根本限制;3)检索增强生成(Retrieval-Augmented Generation)虽带来持续改进,但以额外推理时间为代价,呈现出效率与性能之间的关键权衡。
本文介绍了一种名为AlphaSpace的创新方法,旨在增强大型语言模型(LLMs)在三维笛卡尔空间导航中的空间推理能力。AlphaSpace采用基于语义的分词策略,通过专门的语义标记编码高度信息,并主要整合符号化的合成推理数据。该方法使LLMs能够通过将物体定位在特定的[x, y, z]坐标上,精确地操控物体。实验结果表明,AlphaSpace在操作子任务上显著优于现有模型,总体准确率达到66.67%,而GPT-4o和Claude 3.5 Sonnet的准确率分别为37.5%和29.17%。
文本到视频(T2V)生成技术借助扩散模型已取得显著进展。然而,现有方法在准确绑定属性、确定空间关系以及捕捉多主体间复杂动作交互方面仍面临挑战。为应对这些局限,我们提出了MagicComp,一种无需训练的双阶段优化方法,旨在提升组合式T2V生成效果。具体而言,(1)在条件阶段:我们引入了语义锚点消歧技术,通过逐步将语义锚点的方向向量注入原始文本嵌入,强化主体特定语义并解决主体间歧义;(2)在去噪阶段:我们提出了动态布局融合注意力机制,该机制结合了定位先验和模型自适应的空间感知,通过掩码注意力调制灵活地将主体绑定至其时空区域。此外,MagicComp是一种模型无关且多功能的解决方案,能够无缝集成到现有的T2V架构中。在T2V-CompBench和VBench上的大量实验表明,MagicComp超越了当前最先进的方法,展现了其在基于复杂提示和轨迹可控视频生成等应用中的潜力。项目页面:https://hong-yu-zhang.github.io/MagicComp-Page/。
本文提出了Diffusion-4K,一种利用文本到图像扩散模型直接合成超高清图像的新框架。其核心创新包括:(1)Aesthetic-4K基准:针对公开可用的4K图像合成数据集的缺失,我们构建了Aesthetic-4K,一个全面的超高清图像生成基准。我们精心挑选了高质量4K图像,并配以GPT-4o生成的描述,同时引入GLCM评分和压缩比指标来评估细节表现,结合FID、美学评分和CLIPScore等整体指标,实现对超高清图像的全面评估。(2)基于小波的微调:我们提出了一种基于小波的微调方法,可直接用于真实感4K图像的训练,适用于多种潜在扩散模型,展示了其在合成高细节4K图像方面的有效性。因此,Diffusion-4K在高质量图像合成和文本提示遵循方面表现出色,特别是在现代大规模扩散模型(如SD3-2B和Flux-12B)的支持下。我们基准测试的大量实验结果证明了Diffusion-4K在超高清图像合成领域的优越性。
大型语言模型(LLMs)在多个领域取得了显著进展,尤其是在编程、数学推理和逻辑问题解决方面。然而,一个关键问题依然存在:当LLMs面对经过文化适应性调整的数学问题时,这些数学推理能力是否依然有效?具体而言,当LLMs遇到嵌入在主流网络规模AI训练数据中缺乏显著代表性的文化背景中的数学问题时,其表现如何?为探究这一问题,我们从GSM8K——一个广泛用于评估LLMs数学推理能力的基准测试集——中生成了六个合成文化数据集。在保持原GSM8K测试集数学逻辑和数值不变的前提下,我们修改了诸如人名、食品名称、地名等文化元素。这些经过文化适应性调整的数据集为评估LLMs在变化文化背景下的数学推理能力提供了更为可靠的框架。我们的研究发现,尽管数学结构保持不变,LLMs在文化参照发生变化时处理数学问题的能力显著下降。相较于大型模型,小型模型表现出更大的性能降幅。有趣的是,研究结果还表明,文化熟悉度能够增强数学推理能力。即便没有明确数学训练但接触过相关文化背景的模型,有时在解决嵌入文化背景的数学问题时,也能超越那些数学能力强但文化背景不匹配的大型模型。本研究强调了文化背景对LLMs数学推理能力的影响,凸显了在现实世界应用中提升模型鲁棒性所需更多样化和代表性训练数据的必要性。基准数据集及复现结果的脚本可在https://github.com/akarim23131/Lost_in_Cultural_Translation获取。
近期,大型语言模型(LLMs)的指数级增长主要依赖于基于GPU的系统。然而,CPU正逐渐成为一种灵活且成本较低的替代方案,特别是在针对推理和逻辑运算任务时。RISC-V因其开放且厂商中立的指令集架构(ISA),在这一领域迅速获得关注。尽管如此,考虑到特定领域调优的需求,用于LLM工作负载的RISC-V硬件及其相应的软件生态系统尚未完全成熟和优化。本文旨在填补这一空白,重点优化在Sophon SG2042上的LLM推理性能,这是首款具备向量处理能力的商用多核RISC-V CPU。 在针对推理优化的两款最新顶尖LLM——DeepSeek R1 Distill Llama 8B和DeepSeek R1 Distill QWEN 14B上,我们实现了4.32/2.29 token/s的令牌生成速度和6.54/3.68 token/s的提示处理速度,相较于基线性能,分别提升了高达2.9倍和3.0倍。
非事实类问答(NFQA)因其开放性、意图多样性及多维度推理需求而面临重大挑战,这使得包括检索增强生成(RAG)在内的传统事实类问答方法显得力不从心。与事实类问题不同,非事实类问题(NFQs)缺乏明确答案,需综合来自不同来源、跨越多种推理维度的信息。为应对这些局限,我们提出了Typed-RAG,一种在RAG框架内基于类型识别的多维度分解方法,专为NFQA设计。Typed-RAG将NFQs分类为辩论、经验、比较等不同类型,并采用基于维度的分解策略来优化检索与生成过程。通过将多维度NFQs分解为单一维度的子查询并整合结果,Typed-RAG能够生成信息更丰富、上下文更相关的回答。为评估Typed-RAG,我们引入了Wiki-NFQA,一个涵盖多种NFQ类型的基准数据集。实验结果表明,Typed-RAG在性能上超越基线模型,凸显了类型识别分解在NFQA中有效检索与生成的重要性。我们的代码与数据集已公开于https://github.com/TeamNLP/Typed-RAG。
文本到视频(T2V)生成技术因其能够从文本描述中合成逼真视频而备受关注。然而,现有模型在计算效率与高视觉质量之间难以平衡,特别是在资源受限的设备上,如集成显卡和移动电话。大多数先前工作优先考虑视觉保真度,却忽视了开发更小、更高效模型以适应实际部署的需求。为应对这一挑战,我们提出了一种轻量级T2V框架,命名为“蜂鸟”,该框架通过剪枝现有模型并结合视觉反馈学习提升视频质量。我们的方法将U-Net的参数规模从14亿缩减至7亿,显著提高了效率,同时保持了高质量的视频生成能力。此外,我们引入了一种新颖的数据处理流程,利用大型语言模型(LLMs)和视频质量评估(VQA)模型来提升文本提示和视频数据的质量。为支持用户驱动的训练和风格定制,我们公开了完整的训练代码,包括数据处理和模型训练。大量实验表明,我们的方法相比VideoCrafter2等最先进模型实现了31倍的加速,并在VBench上获得了最高综合评分。此外,我们的方法支持生成最多26帧的视频,解决了现有基于U-Net方法在长视频生成上的局限。值得注意的是,整个训练过程仅需四块GPU,却展现出与现有领先方法相媲美的性能。蜂鸟为T2V生成提供了一个实用且高效的解决方案,结合了高性能、可扩展性和实际应用的灵活性。
大型语言模型(LLM)预训练的效果在很大程度上依赖于权重初始化与方差控制策略。尽管初始方差控制在神经网络中的重要性已得到广泛证实,但关于LLM预训练期间初始化及其增长管理的文献相对较少。本文提出了层索引重缩放(LIR)权重初始化方案和目标方差重缩放(TVR)方差控制策略。在拥有10亿参数的LLaMA模型上的实验表明,采用这些技术优化方差管理,显著提升了下游任务性能(在常见预训练基准上最高提升4.6%),并减少了极端激活值,从而缓解了量化与低精度训练相关的挑战。我们的代码已公开于:https://github.com/bluorion-com/weight_rescaling。
我们推出MetaSpatial,这是首个基于强化学习(RL)的框架,旨在提升视觉语言模型(VLMs)的三维空间推理能力,实现无需硬编码优化的实时三维场景生成。MetaSpatial解决了两个核心挑战:(i)VLMs内部缺乏三维空间推理,限制了其生成逼真布局的能力;(ii)传统监督微调(SFT)在布局生成任务中的低效性,因为缺乏完美的真实标注。我们的关键创新在于一种多轮RL优化机制,该机制整合了物理感知约束和渲染图像评估,确保生成的三维布局连贯、物理合理且视觉一致。在方法论上,MetaSpatial引入了一种自适应、迭代的推理过程,VLM通过分析渲染输出在多轮中不断优化空间布局,逐步提升场景的连贯性。实证评估表明,MetaSpatial显著增强了不同规模模型的空间一致性和格式稳定性。训练后,物体放置更加真实、对齐且功能连贯,验证了RL在元宇宙、AR/VR、数字孪生及游戏开发应用中三维空间推理的有效性。我们的代码、数据和训练流程已公开于https://github.com/PzySeere/MetaSpatial。
尽管自然语言指令为自动化图像编辑提供了直观的引导方式,深度学习模型在实现高质量结果方面往往面临挑战,这主要源于构建大规模、高质量训练数据集的困难。以往的研究通常依赖文本到图像(T2I)生成模型来生成原始图像与编辑后图像的配对,以模拟指令引导图像编辑模型的输入输出。然而,由于T2I模型的局限性,这些图像对往往无法与指定的编辑指令精确对应,从而对基于此类数据集训练的模型产生负面影响。为解决这一问题,我们提出了Instruct-CLIP,一种自监督方法,它学习原始图像与编辑图像之间的语义变化,以优化并更好地对齐现有数据集中的指令。此外,我们调整Instruct-CLIP以处理噪声潜在图像和扩散时间步,使其能够用于训练潜在扩散模型(LDMs)[19],并在扩散流程的任何步骤中有效强化编辑指令与潜在空间图像变化之间的对齐。我们利用Instruct-CLIP校正InstructPix2Pix数据集,获得了超过12万条精炼样本,随后基于我们新颖的Instruct-CLIP损失函数指导,对这些样本进行模型微调。最终得到的模型能够生成与给定指令更加契合的编辑效果。我们的代码和数据集已发布于https://github.com/SherryXTChen/Instruct-CLIP.git。
语言模型近期已迈入推理领域,然而,唯有通过多模态推理,我们方能充分释放潜能,实现更为全面、类人的认知能力。本综述系统梳理了最新的多模态推理方法,将其划分为两个层次:以语言为中心的多模态推理与协作式多模态推理。前者涵盖一次性视觉感知与主动视觉感知,其中视觉主要作为语言推理的辅助角色;后者则涉及推理过程中的动作生成与状态更新,促进模态间更为动态的交互。此外,我们剖析了这些方法的技术演进,探讨了其内在挑战,并介绍了评估多模态推理性能的关键基准任务与评价指标。最后,我们从以下两个视角展望了未来研究方向:(i) 从视觉-语言推理迈向全模态推理,以及(ii) 从多模态推理拓展至多模态智能体。本综述旨在提供一个结构化的概览,以期激发多模态推理研究的进一步突破。
离散视觉分词器将图像转化为一系列标记,使得基于标记的视觉生成类似于语言模型。然而,这一过程本身具有挑战性,因为它既需要将视觉信号压缩为紧凑的表示,又需要将其离散化为固定的编码集。传统的离散分词器通常联合学习这两项任务,往往导致训练不稳定、码本利用率低以及重建质量有限。本文提出CODA(连续到离散适应)框架,该框架将压缩与离散化过程解耦。CODA并非从头训练离散分词器,而是通过精心设计的离散化过程,将现成的连续变分自编码器(VAE)——这些VAE已针对感知压缩进行了优化——适应为离散分词器。通过主要聚焦于离散化,CODA确保了训练过程的稳定与高效,同时保持了连续VAE强大的视觉保真度。实验表明,在ImageNet 256×256基准测试中,相较于标准VQGAN,我们的方法仅需六分之一的训练预算,便实现了100%的码本利用率,并在8倍和16倍压缩下分别取得了0.43和1.34的显著重建FID(rFID)成绩。
近期,视频生成技术取得了显著进展,引起了学者们的广泛关注。为了在资源受限的条件下将该技术应用于下游任务,研究者通常基于参数高效调优方法(如Adapter或Lora)对预训练模型进行微调。尽管这些方法能够将知识从源域迁移至目标域,但较少的训练参数导致模型拟合能力不足,且源域知识可能使推理过程偏离目标域。本文提出,在资源受限的情况下,仅使用百万级样本从头训练一个较小的视频生成模型,在下游应用中能够超越对更大模型的参数高效调优:其核心在于数据与课程策略的有效利用。以动画贴纸生成(ASG)为例,我们首先构建了一个适用于低帧率贴纸的离散帧生成网络,确保其参数满足资源受限下的模型训练要求。为了为从头训练的模型提供数据支持,我们提出了一种基于双掩码的数据利用策略,有效提升了有限数据的可用性并扩展了其多样性。为了促进双掩码情况下的模型收敛,我们提出了一种难度自适应的课程学习方法,将样本熵分解为静态与自适应成分,从而循序渐进地获取从易到难的样本。实验表明,我们提出的资源高效双掩码训练框架在定量与定性评估上均优于I2V-Adapter和SimDA等参数高效调优方法,验证了该方法在资源受限条件下应用于下游任务的可行性。代码将公开提供。
大型语言模型及其作为AI代理的应用,显著推动了最先进的代码生成基准,革新了现代软件工程任务。然而,即便采用测试时计算推理模型,这些系统在处理复杂软件工程挑战时仍显不足。本研究提出了CURA,一种通过言语过程监督(VPS)增强的代码理解与推理代理系统,在BigCodeBench等挑战性基准上较基线模型提升了3.65%。此外,CURA与o3-mini模型及VPS技术结合,实现了当前最优性能。这一工作标志着在将推理驱动架构与基于LLM的代码生成相结合方面迈出了重要一步,使语言模型能够通过代理推理解决复杂的软件工程任务。
我们提出了人体运动遗忘任务,旨在防止生成有害动画的同时保持通用文本到运动生成性能。遗忘有害运动具有挑战性,因为这些运动既可能由显式文本提示生成,也可能由安全运动的隐含有害组合产生(例如,“踢腿”是“抬腿并摆动”)。我们通过从大规模且最新的文本到运动数据集HumanML3D和Motion-X中筛选出有害运动,首次建立了运动遗忘基准。我们提出了基线方法,通过将最先进的图像遗忘技术适配于处理时空信号。最后,我们提出了一种基于潜在代码替换的新型运动遗忘模型,简称LCR。LCR无需训练,适用于当前最先进的文本到运动扩散模型的离散潜在空间。LCR方法简洁,在定性和定量评估中均持续优于基线方法。项目页面:https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}。
在多光源场景下的白平衡(WB)校正一直是计算机视觉领域的一个持续挑战。近期的方法探索了基于融合的策略,即通过神经网络线性混合输入图像的多个sRGB版本,每个版本都经过预定义的白平衡预设处理。然而,我们证明这些方法在常见的多光源场景下表现欠佳。此外,现有的融合方法依赖于缺乏专门多光源图像的sRGB白平衡数据集,这限制了训练和评估的效果。为解决这些问题,我们提出了两项关键贡献。首先,我们提出了一种高效的基于Transformer的模型,该模型能有效捕捉sRGB白平衡预设间的空间依赖关系,显著优于线性融合技术。其次,我们引入了一个大规模的多光源数据集,包含超过16,000张采用五种不同白平衡设置渲染的sRGB图像,以及经过白平衡校正的图像。在我们的新多光源图像融合数据集上,我们的方法相比现有技术实现了高达100%的性能提升。
尽管近年来图像超分辨率(SR)技术在不断提升其输出结果的感知质量,但这些技术通常在定量评估中表现不佳。这种不一致性导致了对现有SR评估图像指标的日益不信任。虽然图像评估依赖于指标和参考真实值(GT),但研究人员通常不会检查GT的作用,因为它们普遍被视为“完美”的参考。然而,由于数据收集于早期且忽视了控制其他类型的失真,我们指出现有SR数据集中的GT可能表现出相对较差的质量,从而导致评估偏差。基于这一观察,本文关注以下问题:现有SR数据集中的GT图像是否100%可信用于模型评估?GT质量如何影响这一评估?如果存在不完美的GT,如何进行公平评估?为回答这些问题,本文提出了两项主要贡献。首先,通过系统分析三个真实世界SR数据集上的七种最先进的SR模型,我们展示了低质量GT可以一致地影响SR模型的性能,且当控制GT质量时,模型表现会有显著差异。其次,我们提出了一种新颖的感知质量指标——相对质量指数(RQI),它衡量图像对之间的相对质量差异,从而解决了由不可靠GT引起的评估偏差问题。我们提出的模型在与人主观评价的一致性上取得了显著提升。我们期望这项工作能为SR社区提供关于未来数据集、模型和指标应如何发展的洞见。
大型视觉语言模型(VLMs),如GPT-4,已在多个领域取得了显著成就。然而,关于利用VLMs进行3D室内场景生成的研究却寥寥无几。本文将这一任务视为一个受空间与布局常识约束的规划问题。为借助VLM解决此问题,我们提出了一种新颖的全局-局部树搜索算法。在全局层面,该方法依次放置每个物体,并在每次放置过程中探索多种布局方案,将问题空间表示为树结构。为降低树的深度,我们分层分解场景结构,即房间层级、区域层级、地面物体层级及支撑物体层级。算法独立生成不同区域的地面物体及放置于各地面物体之上的支撑物体。在局部层面,我们同样将每个物体的放置子任务分解为多个步骤。算法在问题空间的树结构中进行搜索。为利用VLM模型生成物体的位置,我们将俯视空间离散化为密集网格,并用多样化的表情符号填充每个单元格,以确保各单元格的独特性。我们向VLM提供表情符号网格作为提示,VLM通过描述使用表情符号名称的位置,为物体生成合理的位置。定量与定性实验结果表明,相较于现有最先进方法,我们的方法生成的3D场景更为逼真。源代码已发布于https://github.com/dw-dengwei/TreeSearchGen。
单目深度估计(MDE)已成为计算机视觉领域的一项关键任务,支撑着众多实际应用。然而,在资源受限的边缘设备,尤其是专用集成电路(ASIC)上部署精确的深度估计模型颇具挑战,这主要源于其高计算与内存需求。尽管基础深度估计技术的最新进展带来了令人瞩目的成果,却进一步加剧了在ASIC上部署的难度。为此,我们提出了QuartDepth,它采用训练后量化技术,结合硬件加速,对MDE模型进行量化处理。我们的方法包括将权重和激活量化为4位精度,从而缩减模型规模并降低计算成本。为减轻性能损失,我们引入了激活精炼与补偿算法,应用于激活量化前后,以及一种权重重建方法,以最小化权重量化中的误差。此外,我们设计了一种灵活且可编程的硬件加速器,通过支持内核融合和定制指令可编程性,提升了吞吐量和效率。实验结果表明,我们的框架在保持竞争力的准确度同时,实现了ASIC上的快速推理与更高能效,弥合了高性能深度估计与实用边缘设备应用之间的鸿沟。代码地址:https://github.com/shawnricecake/quart-depth。
遥感技术的进步提升了卫星影像的空间分辨率,为多样化的解译提供了更精细的视觉表达。然而,现有方法在不同应用场景下的泛化能力有限。尽管一些当代基础模型展现出潜力,但它们受限于跨任务适应性的不足,且主要处理尺寸受限的低分辨率影像,未能充分利用高分辨率数据或挖掘大规模场景语义。关键在于,遥感影像与自然图像存在本质差异,其关键前景目标(如海上物体、人工建筑)通常仅占极小空间比例(约1%),且分布稀疏。从长达约100,000的二维标记中高效建模跨任务可泛化知识,虽极具挑战性,却是遥感影像理解的核心。受人类视觉系统选择性注意机制的启发,我们提出了DynamicVis,一种面向遥感影像的动态视觉感知基础模型。该框架创新性地集成了基于选择性状态空间模型的动态区域感知骨干网络,巧妙平衡了局部细节提取与全局上下文整合,实现了大规模数据的高效编码,同时保持了架构的可扩展性。为增强跨任务知识迁移,我们引入了利用元嵌入表示的多实例学习范式,并在百万级区域标注上进行训练。在九项下游任务上的评估验证了模型的广泛适用性。DynamicVis以卓越的效率实现了多层次特征建模,处理2048x2048像素仅需97毫秒(为ViT的6%),GPU内存占用833MB(为ViT的3%)。