每日精选AI研究论文及翻译
超分辨率(SR)扩散模型虽能生成高质量的视觉结果,但需承担高昂的计算成本。尽管已有多种方法致力于加速基于扩散的SR模型,如SinSR等未能产生逼真的感知细节,而OSEDiff等则可能虚构出不存在的结构。为解决这些问题,我们提出了RSD,一种针对顶尖扩散SR模型ResShift的新蒸馏方法。该方法通过训练学生网络生成图像,使得基于这些图像训练的新伪ResShift模型能与教师模型保持一致。RSD实现了单步恢复,并大幅超越教师模型。我们证明,该蒸馏方法能够超越ResShift的另一蒸馏方法——SinSR,使其与最先进的基于扩散的SR蒸馏方法并驾齐驱。与基于预训练文本到图像模型的SR方法相比,RSD在感知质量上具有竞争力,生成的图像与退化输入图像对齐更佳,且所需参数和GPU内存更少。我们在包括RealSR、RealSet65、DRealSR、ImageNet和DIV2K在内的多种真实世界及合成数据集上提供了实验结果。
基于大语言模型(LLM)的智能体兴起标志着人工智能领域的一次范式转变,使自主系统能够在与动态环境交互时进行规划、推理、工具使用及记忆维护。本文首次全面综述了针对这些日益强大智能体的评估方法。我们系统性地分析了四大关键维度的评估基准与框架:(1)智能体基础能力,包括规划、工具使用、自我反思及记忆;(2)针对网络、软件工程、科学及对话等特定应用场景的基准测试;(3)通用智能体的评估基准;以及(4)智能体评估框架。我们的分析揭示了新兴趋势,如向更真实、更具挑战性且持续更新的评估基准转变。同时,我们也指出了未来研究亟需填补的关键空白——特别是在评估成本效益、安全性与鲁棒性,以及开发细粒度、可扩展的评估方法方面。本综述描绘了智能体评估领域快速演进的图景,揭示了该领域的新兴趋势,识别了当前局限,并为未来研究指明了方向。
大型语言模型(LLMs)在复杂任务中展现了卓越的能力。近期,大型推理模型(LRMs)如OpenAI o1和DeepSeek-R1的进展,通过利用监督微调(SFT)和强化学习(RL)技术来增强链式思维(CoT)推理,进一步提升了在数学和编程等系统2推理领域的性能。然而,尽管更长的CoT推理序列能提高性能,它们也因冗长冗余的输出引入了显著的计算开销,这一现象被称为“过度思考现象”。本文首次提供了结构化调查,系统性地探讨和研究了当前在实现LLMs高效推理方面的进展。总体而言,基于LLMs的内在机制,我们将现有工作归类为几个关键方向:(1)基于模型的高效推理,考虑将全长度推理模型优化为更简洁的推理模型或直接训练高效推理模型;(2)基于推理输出的高效推理,旨在推理过程中动态减少推理步骤和长度;(3)基于输入提示的高效推理,寻求根据输入提示属性(如难度或长度控制)来提升推理效率。此外,我们还介绍了使用高效数据训练推理模型的方法,探索了小语言模型的推理能力,并讨论了评估方法和基准测试。
本研究提出了一种评估框架,用于判断大型语言模型(LLMs)在其参数中编码的事实知识是否多于其输出所表达的内容。尽管已有少数研究暗示了这种可能性,但尚未有研究明确定义或证实这一现象。我们首先对知识进行了形式化定义,将其量化为在给定问题下,正确-错误答案对中正确回答排名更高的比例。这引出了外部知识与内部知识的概念,取决于用于评分单个答案候选的信息来源:或是模型可观测的词汇级概率,或是其中间计算过程。当内部知识超过外部知识时,便产生了隐藏知识。随后,我们通过案例研究,在闭卷问答设置下将此框架应用于三个流行的开源权重LLMs。研究结果表明:(1)LLMs内部编码的事实知识持续多于其外部表达,平均差距达40%。(2)令人惊讶的是,某些知识隐藏得如此之深,以至于模型内部可能完全知晓答案,却在大规模重复采样1000次答案的情况下,一次也未能生成该答案。这揭示了LLMs生成能力的根本局限,(3)从而对闭卷问答中通过重复答案采样扩展测试时计算资源提出了实际限制:由于某些答案实际上从未被采样,尽管一旦被采样我们就能确保将其排在首位,但显著的性能提升仍无法实现。
提升大型语言模型(LLMs)的推理能力通常依赖于庞大的计算资源和海量数据集,这在资源受限的环境中限制了其可及性。本研究探讨了强化学习(RL)在提升小型LLMs推理能力方面的潜力,重点关注一个拥有15亿参数的模型——DeepSeek-R1-Distill-Qwen-1.5B,在严格约束条件下:使用4块NVIDIA A40 GPU(每块48GB显存)在24小时内完成训练。通过调整群体相对策略优化(GRPO)算法并精心构建一个紧凑且高质量的数学推理数据集,我们进行了三项实验以探索模型的行为与性能。结果显示,仅使用7,000个样本和42美元的训练成本,模型在推理能力上取得了快速提升——例如,AMC23准确率从63%升至80%,AIME24达到46.7%,超越了o1-preview模型,而基线模型的训练成本则需数千美元。然而,随着训练时间的延长,优化不稳定性和长度限制等挑战也随之显现。这些发现凸显了基于RL的微调对于小型LLMs的有效性,为大规模方法提供了一种经济高效的替代方案。我们已将代码和数据集作为开源资源发布,深入探讨了权衡取舍,并为在资源有限的环境中构建可扩展、具备推理能力的LLMs奠定了基础。所有资源均可在https://github.com/knoveleng/open-rs获取。
物理AI系统需要感知、理解并在物理世界中执行复杂动作。本文中,我们介绍了Cosmos-Reason1模型,该模型能够理解物理世界,并通过长链思维推理过程生成合适的具身决策(如下一步动作)。我们首先定义了物理AI推理的关键能力,重点关注物理常识与具身推理。为表示物理常识,我们采用了一种层次化本体,捕捉关于空间、时间和物理的基本知识。对于具身推理,我们依赖一个二维本体,该本体能够泛化不同的物理具身形式。基于这些能力,我们开发了两个多模态大语言模型:Cosmos-Reason1-8B和Cosmos-Reason1-56B。我们分四个阶段精心准备数据并训练模型:视觉预训练、通用监督微调(SFT)、物理AI SFT以及作为后训练的物理AI强化学习(RL)。为了评估模型,我们根据本体构建了全面的物理常识与具身推理基准。评估结果表明,物理AI SFT和强化学习带来了显著提升。为推动物理AI的发展,我们将在NVIDIA开放模型许可下,于https://github.com/nvidia-cosmos/cosmos-reason1 公开代码与预训练模型。
尽管人们对多智能体系统(MAS)——即多个大型语言模型(LLM)智能体协作完成任务——的热情日益高涨,但与单智能体框架相比,其在流行基准测试上的性能提升仍微乎其微。这一差距凸显了分析阻碍MAS效能挑战的必要性。 本文中,我们首次对MAS面临的挑战进行了全面研究。我们分析了五个流行的MAS框架,覆盖超过150项任务,并邀请了六位专家级人类标注者参与。我们识别出14种独特的失败模式,并提出了一套适用于多种MAS框架的综合分类体系。该分类体系通过每项研究中三位专家标注者的一致意见迭代形成,Cohen's Kappa得分达到0.88。这些细粒度的失败模式被归为三大类:(i) 规范与系统设计失败,(ii) 智能体间协调失准,以及(iii) 任务验证与终止问题。为支持可扩展的评估,我们将MASFT与“LLM作为评判者”相结合。此外,我们探讨了通过提出两种干预措施——改进智能体角色规范和优化协调策略——是否能够轻易预防已识别的失败。我们的研究结果表明,已识别的失败需要更为复杂的解决方案,这为未来研究指明了清晰的路线图。我们开源了我们的数据集和LLM标注工具。
三维形状生成技术因所谓“原生”三维扩散模型的发展而大放异彩,尤其是向量集扩散模型(VDM)的提出。尽管近期进展在生成高分辨率三维形状方面展现了令人鼓舞的成果,VDM在高速生成上仍面临挑战。这些挑战不仅源于加速扩散采样的困难,还包括VDM中变分自编码器(VAE)解码的瓶颈,这些领域在以往工作中尚未得到充分探索。为应对这些难题,我们推出了FlashVDM,一个旨在加速VDM中VAE与扩散变换器(DiT)的系统框架。针对DiT,FlashVDM实现了仅需5步推理即可完成灵活扩散采样,且质量相当,这得益于我们新引入的渐进流蒸馏技术对一致性蒸馏的稳定作用。对于VAE,我们设计了一款配备自适应键值选择、层次化体积解码及高效网络架构的闪电向量集解码器。通过利用向量集的局部性及体积中形状表面的稀疏性,我们的解码器大幅降低了浮点运算次数,显著减少了整体解码开销。我们将FlashVDM应用于Hunyuan3D-2,从而获得了Hunyuan3D-2 Turbo。经过系统评估,我们的模型在快速三维生成方法中表现卓越,不仅与当前最先进技术性能相当,更在重建和生成任务上分别将推理时间缩短了超过45倍和32倍。代码与模型已发布于https://github.com/Tencent/FlashVDM。
我们提出了SwD,一种面向扩散模型(DMs)的尺度间蒸馏框架,该框架有效利用了下一尺度预测的思想,专为基于扩散的少步生成器设计。具体而言,SwD受到近期将扩散过程与隐式频谱自回归相关联的见解启发。我们假设DMs可以在较低的数据分辨率下启动生成过程,并在每一步去噪过程中逐步上采样样本,而不会牺牲性能,同时显著降低计算成本。SwD巧妙地将这一理念融入现有的基于分布匹配的扩散蒸馏方法中。此外,我们通过引入一种新颖的补丁损失,丰富了分布匹配方法家族,该损失强制实现与目标分布更细粒度的相似性。当应用于最先进的文本到图像扩散模型时,SwD在接近两次全分辨率步骤的推理时间内,显著超越了同等计算预算下的对比方法,这一优势通过自动化指标和人类偏好研究得到了验证。
近期,开放世界环境中基于行动的决策研究引起了广泛关注。视觉语言行动(VLA)模型,通过大规模网络数据集预训练,在决策任务中展现出潜力。然而,以往的研究多集中于行动的后训练阶段,往往忽视了对基础模型本身的改进。为此,我们提出了一种创新方法——视觉语言后训练行动(Act from Visual Language Post-Training),该方法通过视觉与语言的自我监督指导,精炼视觉语言模型(VLMs),从而提升模型在开放世界环境中的世界知识理解、视觉识别及空间定位能力。遵循上述后训练范式,我们首次在《我的世界》中实现了能够执行超过1000种不同原子任务(如制作、冶炼、烹饪、采矿和击杀)的VLA模型,这些模型能够遵循人类指令。实验表明,在非轨迹任务上的后训练,相较于最佳代理基线,在多样化的原子任务集上实现了40%的显著提升。此外,我们的方法超越了基于模仿学习的传统策略,在《我的世界》中达到了业界领先的性能。我们已开源代码、模型及数据集,以促进进一步研究。项目页面详见https://craftjarvis.github.io/JarvisVLA。
实现灵活且高保真度的身份保持图像生成仍具挑战性,尤其是在面对如FLUX等先进的扩散变换器(DiTs)时。我们提出了InfiniteYou(InfU),这是最早利用DiTs完成此任务的稳健框架之一。InfU针对现有方法的显著问题,如身份相似度不足、文本-图像对齐不佳以及生成质量和美学效果低下,提供了解决方案。InfU的核心是InfuseNet,该组件通过残差连接将身份特征注入DiT基础模型,在保持生成能力的同时增强了身份相似性。采用多阶段训练策略,包括预训练和利用合成的单人多样本(SPMS)数据进行监督微调(SFT),进一步提升了文本-图像对齐,改善了图像质量,并缓解了面部复制粘贴现象。大量实验证明,InfU实现了最先进的性能,超越了现有基线。此外,InfU的即插即用设计确保了与多种现有方法的兼容性,为更广泛的社区提供了宝贵的贡献。
从单张图像重建可动画的3D人体是一个极具挑战性的问题,这源于解耦几何、外观和形变时的模糊性。近年来,3D人体重建的进展主要集中在静态人体建模上,而依赖合成3D扫描数据进行训练限制了其泛化能力。相比之下,基于优化的视频方法虽能实现更高保真度,但需要受控的捕捉条件和计算密集型的优化过程。受大规模重建模型在高效静态重建中崭露头角的启发,我们提出了LHM(大规模可动画人体重建模型),通过前馈方式推断以3D高斯溅射表示的高保真虚拟形象。我们的模型采用多模态Transformer架构,利用注意力机制有效编码人体位置特征与图像特征,从而细致保留服装几何与纹理。为进一步增强面部身份保持与细节恢复,我们提出了一种头部特征金字塔编码方案,以聚合头部区域的多尺度特征。大量实验表明,LHM能在数秒内生成逼真的可动画人体,无需对面部和手部进行后处理,在重建精度和泛化能力上均超越了现有方法。
推理型大语言模型正在多个领域快速演进。然而,其在处理复杂金融任务方面的能力仍需深入探索。本文介绍了Fin-R1,一款专为金融领域设计的推理型大语言模型。Fin-R1采用两阶段架构构建,利用基于DeepSeek-R1提炼和处理的金融推理数据集。通过监督微调(SFT)和强化学习(RL)训练,Fin-R1在70亿参数规模下,在一系列金融推理任务中展现出接近DeepSeek-R1的性能。在我们的评估中,Fin-R1在FinQA和ConvFinQA任务上达到了同类大语言模型中的最先进水平(SOTA),并在其他任务中也超越了更大规模的模型。Fin-R1展示了强大的推理与决策能力,为金融领域遇到的各种问题提供了解决方案。我们的代码已发布于https://github.com/SUFE-AIFLM-Lab/Fin-R1。
扩散模型在多种图像生成任务中展现了卓越的成就,但其性能往往受限于对不同条件和噪声水平下输入的统一处理。为解决这一局限,我们提出了一种新颖方法,该方法充分利用了扩散过程固有的异质性。我们的方法——DiffMoE,引入了一个批处理级别的全局令牌池,使得专家在训练期间能够访问全局令牌分布,从而促进专家行为的专业化。为了充分释放扩散过程的潜力,DiffMoE整合了一个容量预测器,该预测器根据噪声水平和样本复杂度动态分配计算资源。通过全面评估,DiffMoE在ImageNet基准测试中实现了扩散模型的最先进性能,显著超越了激活参数数量为其三倍的密集架构以及现有的混合专家(MoE)方法,同时仅保持一倍的激活参数。我们方法的有效性不仅限于类别条件生成,还延伸至更具挑战性的任务,如文本到图像生成,展示了其在不同扩散模型应用中的广泛适用性。项目页面:https://shiml20.github.io/DiffMoE/
我们致力于解决从文本描述生成三维世界的挑战。我们提出了SynCity,一种无需训练和优化的方法,它结合了预训练三维生成模型的几何精度与二维图像生成器的艺术多样性,以创建大规模、高质量的三维空间。尽管大多数三维生成模型以物体为中心,无法生成大规模世界,但我们展示了如何将三维与二维生成器结合,以生成不断扩展的场景。通过基于区块的方法,我们实现了对场景布局和外观的精细控制。世界按区块逐一生成,每个新区块在其世界上下文中生成后与场景融合。SynCity生成引人入胜且细节丰富、多样化的沉浸式场景。
视频大语言模型(VideoLLMs)已展现出处理更长视频输入并实现复杂推理与分析的能力。然而,由于视频帧产生的数千个视觉标记,键值(KV)缓存会显著增加内存需求,成为推理速度和内存使用的瓶颈。KV缓存量化是解决这一问题的常用方法。本文发现,对VideoLLMs进行2位KV量化几乎不会影响模型性能,而更低比特位KV缓存量化的极限尚未被探索。为填补这一空白,我们提出了VidKV,一种即插即用的KV缓存量化方法,将KV缓存压缩至低于2位。具体而言,(1)对于键,我们提出了一种通道维度的混合精度量化策略,对异常通道执行2位量化,而对正常通道则采用1位量化结合快速傅里叶变换(FFT);(2)对于值,我们实施了1.58位量化,同时选择性过滤语义显著的视觉标记以进行针对性保留,从而在精度与模型性能之间取得更好的平衡。重要的是,我们的研究结果表明,VideoLLMs的值缓存应按照每通道而非先前KV缓存量化工作中提出的每标记方式进行量化。实证中,基于LLaVA-OV-7B和Qwen2.5-VL-7B在六个基准测试上的广泛结果显示,VidKV有效地将KV缓存压缩至1.5位和1.58位精度,与FP16版本相比几乎无性能损失。
大型语言模型(LLMs)在数学推理方面展现了显著的进步。尽管数据增强有望提升数学问题解决能力,但当前方法主要局限于实例层面的修改——如重述或生成句法变体——未能捕捉并利用数学知识中固有的关系结构。受人类学习过程的启发,即数学能力通过系统性地接触相互关联的概念而发展,我们引入了MathFusion,一个通过跨问题指令合成来增强数学推理的新框架。MathFusion通过三种融合策略实现这一目标:(1)顺序融合,将相关问题串联以建模解决方案的依赖关系;(2)并行融合,结合类似问题以强化概念理解;(3)条件融合,创建上下文感知的选择性问题以增强推理灵活性。应用这些策略后,我们生成了新的数据集MathFusionQA,并在此基础上微调了模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)。实验结果表明,MathFusion在保持高数据效率的同时,显著提升了数学推理能力,在多样化的基准测试中准确率提高了18.0分,而仅需45K额外的合成指令,相较于传统的单一指令方法实现了显著改进。我们的数据集、模型及代码已公开于https://github.com/QizhiPei/mathfusion。
本文提出了一种基于集合的标记化与分布建模的全新图像生成范式。不同于传统方法将图像序列化为固定位置的潜在编码并采用统一压缩率,我们引入了一种无序的标记集合表示法,能够根据区域语义复杂度动态分配编码容量。这种标记集合(TokenSet)增强了全局上下文聚合能力,并提高了对局部扰动的鲁棒性。针对离散集合建模这一关键挑战,我们设计了一种双向转换机制,将集合双射地转换为具有求和约束的定长整数序列。此外,我们提出了固定和离散扩散(Fixed-Sum Discrete Diffusion)——首个同时处理离散值、固定序列长度与求和不变性的框架,实现了有效的集合分布建模。实验结果表明,我们的方法在语义感知表示与生成质量上均展现出优越性。我们的创新,涵盖新颖的表示与建模策略,推动了视觉生成超越传统的序列标记范式。我们的代码与模型已公开于https://github.com/Gengzigang/TokenSet。
我们提出了3D空间多模态记忆系统(M3),这是一个旨在通过视频源保留中等规模静态场景信息以支持视觉感知的多模态记忆系统。通过将3D高斯泼溅技术与基础模型相结合,M3构建了一个能够跨粒度渲染特征表示的多模态记忆,涵盖了广泛的知识领域。在探索过程中,我们识别出先前特征泼溅研究中的两个关键挑战:(1) 存储每个高斯基元高维特征时的计算限制,以及(2) 蒸馏特征与基础模型特征之间的错位或信息丢失。为解决这些挑战,我们提出了M3,其核心组件包括主场景成分和高斯记忆注意力机制,实现了高效的训练与推理。为验证M3,我们进行了特征相似度和下游任务的全面定量评估,以及定性可视化以突出高斯记忆注意力的像素轨迹。我们的方法涵盖了多种基础模型,包括视觉语言模型(VLMs)、感知模型及大型多模态与语言模型(LMMs/LLMs)。此外,为展示其实际应用价值,我们在四足机器人上部署了M3的特征场于室内场景中。值得注意的是,我们宣称M3是首个解决3D特征蒸馏中核心压缩挑战的工作。
知识编辑(Knowledge Editing, KE)技术能够修正大型语言模型(LLMs)中过时或错误的信息。尽管现有的KE方法可以更新孤立的事实,但在将这些更新推广至依赖于修改后知识的多跳推理任务时却面临挑战。通过分析推理回路——即LLMs用于基于知识推断的神经路径,我们注意到当前局限于单层或少数几层的KE方法,如MEMIT和WISE,难以有效将更新信息融入这些推理路径。针对这一局限,我们提出了CaKE(Circuit-aware Knowledge Editing),一种新颖的方法,旨在更高效地将更新知识整合到LLMs中。CaKE利用基于回路分析精心策划的数据,强制模型使用修改后的知识,激励模型为新整合的知识构建适当的推理回路。实验结果显示,CaKE在相关推理任务中实现了更新知识更准确、一致的应用,相较于现有KE方法,在MQuAKE数据集上的多跳推理准确率平均提升了20%。我们已在https://github.com/zjunlp/CaKE发布了代码和数据。
本文探讨了文本条件流式运动生成这一挑战,该任务要求我们基于可变长度的历史动作和输入的文本预测下一步的人体姿态。现有方法在实现流式运动生成方面存在困难,例如,扩散模型受限于预定义的运动长度,而基于GPT的方法则因离散化的非因果标记化导致响应延迟和误差累积问题。为解决这些问题,我们提出了MotionStreamer,一个创新框架,它将连续的因果潜在空间整合到概率自回归模型中。连续的潜在变量缓解了离散化造成的信息损失,并有效减少了长期自回归生成过程中的误差累积。此外,通过在当前与历史运动潜在变量间建立时间因果依赖关系,我们的模型充分利用可用信息,实现了精确的在线运动解码。实验表明,我们的方法超越了现有技术,同时提供了更多应用场景,包括多轮生成、长期生成及动态运动组合。项目页面:https://zju3dv.github.io/MotionStreamer/
长上下文Transformer模型(LCTMs)在现实应用中至关重要,但由于注意力机制的二次方复杂度,其计算成本高昂。块稀疏注意力通过将计算集中在关键区域来缓解这一问题,然而现有方法因昂贵的块重要性评估而难以在准确性与效率之间取得平衡。本文提出XAttention,一个即插即用的框架,利用稀疏注意力显著加速Transformer模型中的长上下文推理。XAttention的核心创新在于发现注意力矩阵中反对角线值(即从左下到右上)的总和可作为块重要性的强有力代理。这一发现使得能够精确识别并剪除非必要块,从而实现高稀疏度并大幅加速推理。在包括语言领域的RULER和LongBench、视频理解领域的VideoMME以及视频生成领域的VBench等严苛的长上下文基准测试中,XAttention在保持与全注意力相当准确性的同时,带来了显著的计算效率提升。我们展示了注意力计算最高可达13.5倍的加速。这些成果凸显了XAttention在释放块稀疏注意力实际潜力方面的能力,为LCTMs在现实应用中的可扩展且高效部署铺平了道路。代码已发布于https://github.com/mit-han-lab/x-attention。
4D高斯泼溅(4DGS)作为一种动态场景重建方法,近期获得了广泛关注。尽管其重建质量卓越,但4DGS通常需要大量存储空间且渲染速度较慢。本研究深入探讨了这些问题,并识别出两个关键的时间冗余来源:(Q1)短生命周期高斯:4DGS使用大量时间跨度短的高斯函数来表现场景动态,导致高斯函数数量过多。(Q2)非活跃高斯:在渲染时,每一帧仅有一小部分高斯函数实际贡献于画面,然而在光栅化过程中所有高斯函数均被处理,造成了计算冗余。针对这些冗余,我们提出了4DGS-1K,该方案在现代GPU上运行速度超过1000 FPS。针对Q1,我们引入了时空变化评分这一新的剪枝准则,有效剔除短生命周期高斯,同时促使4DGS利用时间跨度更长的高斯函数捕捉场景动态。针对Q2,我们为连续帧中的活跃高斯函数存储掩码,显著减少了渲染中的冗余计算。与原始4DGS相比,我们的方法在复杂动态场景上实现了存储空间减少41倍、光栅化速度提升9倍,同时保持了相当的视觉质量。详情请访问我们的项目页面:https://4DGS-1K.github.io。
扩散模型已成为视觉生成领域的主流框架。基于这一成功,混合专家(MoE)方法的整合在提升模型可扩展性和性能方面展现出潜力。本文提出Race-DiT,一种新颖的MoE模型,专为扩散变换器设计,采用灵活的专家竞赛路由策略。通过让令牌与专家共同竞争并筛选出最优候选,模型能够动态地将专家分配给关键令牌。此外,我们提出了逐层正则化以解决浅层学习中的挑战,以及路由器相似性损失来防止模式崩溃,确保专家得到更有效的利用。在ImageNet上的大量实验验证了我们方法的有效性,展示了显著的性能提升,同时具备良好的扩展性。
近年来,文本到图像的扩散模型取得了显著进展。然而,训练用于生成高分辨率图像的模型仍然面临挑战,尤其是在训练数据和计算资源有限的情况下。本文从数据和参数效率这两个关键视角探讨了这一实际问题,并提出了一套超分辨率适应的核心准则,称为URAE。在数据效率方面,我们通过理论和实验证明,某些教师模型生成的合成数据能显著促进训练收敛。在参数效率方面,我们发现,当缺乏合成数据时,微调权重矩阵的次要组件比广泛使用的低秩适配器表现更优,在保持效率的同时带来了显著的性能提升。此外,对于利用指导蒸馏的模型,如FLUX,我们表明在适应过程中禁用无分类器指导(即将指导尺度设为1)对于获得满意的性能至关重要。大量实验验证,URAE仅用3K样本和2K迭代就实现了与FLUX1.1 [Pro] Ultra等最先进闭源模型相当的2K生成性能,同时为4K分辨率生成设立了新的基准。代码可在https://github.com/Huage001/URAE获取。
本文探讨了是否存在一种可靠的自监督点云模型,该模型能够通过简单的线性探测应用于多样化的3D任务,即便在数据有限且计算资源最小化的情况下。我们发现,现有的3D自监督学习方法在通过线性探测评估表征质量时表现欠佳。我们推测,这一现象源于我们称之为“几何捷径”的问题,它导致表征坍缩至低层次的空间特征。这一挑战为3D领域所独有,源于点云数据的稀疏特性。我们通过两大策略应对此问题:一是模糊空间信息,二是增强对输入特征的依赖,最终通过自蒸馏技术构建了一个包含14万点云的“Sonata”模型。Sonata虽简洁直观,但其学习到的表征却强大可靠:零样本可视化展示了语义分组能力,并通过最近邻关系展现了卓越的空间推理能力。Sonata在参数和数据效率上表现尤为突出,在ScanNet数据集上的线性探测准确率提升了三倍(从21.8%增至72.5%),且仅用1%的数据就使性能几乎翻倍,超越了以往方法。全面微调进一步推动了3D室内外感知任务的SOTA(当前最优)水平。
近期视频生成技术的进步显著提升了视觉质量和时间连贯性。在此基础上,轨迹可控视频生成应运而生,通过明确界定的空间路径实现对物体运动的精确控制。然而,现有方法在处理复杂物体运动及多物体运动控制时面临挑战,导致轨迹跟随不精确、物体一致性差以及视觉质量受损。此外,这些方法仅支持单一格式的轨迹控制,限制了其在多样化场景中的应用。同时,缺乏专门针对轨迹可控视频生成的公开数据集或基准测试,阻碍了模型的稳健训练与系统评估。为解决这些问题,我们推出了MagicMotion,一种新颖的图像到视频生成框架,它通过从密集到稀疏的三个条件层级——掩码、边界框和稀疏框——实现轨迹控制。给定输入图像及轨迹,MagicMotion能够无缝地沿定义轨迹动画化物体,同时保持物体一致性和视觉质量。此外,我们发布了MagicData,一个大规模轨迹控制视频数据集,并配套了自动化标注与过滤流程。我们还引入了MagicBench,一个全面评估不同数量物体下视频质量与轨迹控制准确性的基准测试。大量实验证明,MagicMotion在多项指标上均优于先前方法。我们的项目页面已公开,访问地址为https://quanhaol.github.io/magicmotion-site。
可动画头部虚拟形象的生成通常需要大量数据进行训练。为了减少数据需求,一个自然的解决方案是利用现有的无需数据的静态虚拟形象生成方法,例如采用预训练的扩散模型结合分数蒸馏采样(SDS),这些方法通过将虚拟形象与扩散模型生成的伪真实输出对齐来实现。然而,直接从视频扩散中蒸馏4D虚拟形象往往会导致结果过于平滑,这是由于生成视频中存在空间和时间上的不一致性。为解决这一问题,我们提出了Zero-1-to-A,一种稳健的方法,它利用视频扩散模型合成一个空间和时间一致性的数据集,用于4D虚拟形象重建。具体而言,Zero-1-to-A以渐进方式迭代构建视频数据集并优化可动画虚拟形象,确保在学习过程中虚拟形象的质量平滑且一致地提升。这一渐进学习包含两个阶段:(1)空间一致性学习固定表情并从正面到侧面视角进行学习,(2)时间一致性学习固定视角并从放松到夸张的表情进行学习,以从简单到复杂的方式生成4D虚拟形象。大量实验表明,与现有的基于扩散的方法相比,Zero-1-to-A在保真度、动画质量和渲染速度上均有提升,为逼真虚拟形象的创建提供了解决方案。代码已公开于:https://github.com/ZhenglinZhou/Zero-1-to-A。
本文探讨了生成广阔户外场景的任务,涵盖从城堡到高层建筑的各种场景。与以往主要关注室内场景生成的研究不同,户外场景生成面临独特的挑战,包括场景高度的巨大差异以及需要一种能够快速生成大规模景观的方法。为此,我们提出了一种高效的方法,将场景块编码为统一的向量集,相较于先前方法中使用的空间结构化潜在表示,提供了更好的压缩和性能。此外,我们训练了一个显式的外延生成模型,用于无界生成,与之前基于重采样的修复方案相比,提高了场景的连贯性,同时通过消除额外的扩散步骤加速了生成过程。为了支持这一任务,我们精心制作了NuiScene43,这是一个规模虽小但质量上乘的场景集合,经过预处理以用于联合训练。值得注意的是,当在不同风格的场景上进行训练时,我们的模型能够在同一场景中融合不同的环境,如乡村房屋和城市摩天大楼,这凸显了我们的场景整理过程在利用异构场景进行联合训练方面的潜力。
分类是机器学习的核心任务。近期研究表明,尽管多模态大语言模型(MLLMs)在图像分类任务上初始表现不佳,但通过适量数据的微调能显著提升其性能,使其与当前最先进的分类模型相媲美。然而,获取大规模标注数据成本高昂。本文探讨了少样本MLLM分类微调。我们发现,监督式微调(SFT)会导致严重的过拟合问题,甚至可能使性能低于零样本方法。针对这一挑战,受基于规则的强化学习近期成功的启发,我们提出了CLS-RL,它利用可验证信号作为奖励来微调MLLMs。我们发现,在大多数数据集上,CLS-RL优于SFT,并在基础到新任务及少样本学习设置下展现出更高的平均准确率。此外,我们观察到CLS-RL存在“免费午餐”现象:当模型在特定数据集上微调后,其在其他不同分布和类别名称的数据集上的性能也可能超越零样本模型,这表明基于强化学习的方法有效教授了模型分类的基本原理。最后,受推理时思考最新研究的启发,我们重新审视了视觉分类背景下微调过程中的“思考过程”,这是基于强化学习方法的关键环节。我们质疑此类任务在微调期间是否需要广泛的思考过程,提出这可能反而损害性能。基于此前提,我们引入了No-Thinking-CLS-RL方法,通过设定等准确率奖励,在训练中最小化思考过程。我们的研究结果表明,No-Thinking-CLS-RL方法以更少的微调时间,实现了优于CLS-RL的域内性能和泛化能力。
我们推出BigO(Bench),这是一个新颖的编程基准测试,旨在评估生成式语言模型在理解和生成具有特定时间与空间复杂度代码方面的能力。该基准测试填补了当前评估中的空白,这些评估往往忽视了模型在理解并生成受计算复杂度约束代码方面的能力。BigO(Bench)包含一套工具,能够通过性能分析测量推断任何Python函数的算法复杂度,无论是人类还是大型语言模型(LLM)生成的解决方案。此外,BigO(Bench)还囊括了来自编程竞赛的3,105个编程问题及1,190,250个解决方案,这些方案均附有基于复杂度框架推断出的(合成)时间与空间复杂度标签,以及针对大量输入规模对应的运行时和内存占用值。我们展示了多个顶尖语言模型在此基准测试上的评估结果,揭示了它们在处理复杂度要求时的优势与不足。特别指出的是,基于令牌空间推理的模型在代码生成方面无可匹敌,但在复杂度理解上表现欠佳,暗示它们可能无法很好地泛化到训练时未给予奖励的任务上。
我们推出PORTAL,一个创新框架,旨在开发能够通过语言引导策略生成来玩数千款3D电子游戏的人工智能代理。通过将决策问题转化为语言建模任务,我们的方法利用大型语言模型(LLMs)生成以领域特定语言(DSL)表示的行为树。这一方法消除了传统强化学习方法的计算负担,同时保持了战略深度与快速适应能力。PORTAL框架引入了一种混合策略结构,结合了基于规则的节点与神经网络组件,实现了高层战略推理与精确底层控制的双重能力。通过整合定量游戏指标与视觉-语言模型分析的双重反馈机制,促进了战术与战略层面的迭代策略优化。生成的策略可即时部署、易于人类理解,并能在多样化的游戏环境中泛化。实验结果表明,PORTAL在数千款第一人称射击(FPS)游戏中展现出卓越效能,相较于传统方法,在开发效率、策略泛化及行为多样性方面均有显著提升。PORTAL标志着游戏AI开发的一大进步,为创建能在数千款商业视频游戏中运行、且开发成本极低的复杂代理提供了实用解决方案。有关3D视频游戏的实验结果,请访问https://zhongwen.one/projects/portal 以获得最佳观看体验。
自回归模型通过借鉴语言建模中的序列预测技术,在图像生成领域取得了显著成功。然而,将这些方法应用于图像需要借助如VQ-VAE等向量量化手段将连续的像素数据离散化。为了缓解VQ-VAE中存在的量化误差,近期研究倾向于使用更大的码本。然而,这相应地扩大了词汇表规模,增加了自回归建模的复杂性。本文旨在探索一种既能享受大码本带来的优势,又不增加自回归建模难度的方法。通过实证研究,我们发现具有相似码字表示的标记对最终生成图像的影响也相似,揭示了大码本中存在显著的冗余性。基于这一洞察,我们提出了从粗到细(CTF)的标记预测策略,即通过为相似标记分配相同的粗粒度标签来实现。我们的框架包含两个阶段:(1) 一个自回归模型,依次预测序列中每个标记的粗粒度标签;(2) 一个辅助模型,在给定粗粒度标签的条件下,同时预测所有标记的细粒度标签。在ImageNet上的实验表明,我们的方法在Inception Score上平均提升了59分,显著优于基线模型。值得注意的是,尽管增加了一个推理步骤,我们的方法仍实现了更快的采样速度。
医学图像分割的复杂性要求模型能够专门捕捉细致、领域特定的特征。大型基础模型虽提供了显著的灵活性,但其微调成本仍是一大障碍。参数高效微调(PEFT)方法,如低秩适应(LoRA),通过低秩矩阵高效更新模型权重,但在所选秩不足以捕捉领域特定细节时,可能面临欠拟合问题。相反,基于全秩奇异值分解(SVD)的方法通过修改所有奇异值提供全面更新,却常缺乏灵活性,且在不同数据集上表现不一。我们提出SALT(奇异值适应与低秩变换),该方法利用可训练的缩放和位移参数,选择性地调整最具影响力的奇异值,同时辅以对剩余子空间的低秩更新。这种混合方法结合了LoRA和SVD的优势,实现了无需增加模型规模或深度的有效适应。在涵盖20至1000样本的5个具有挑战性的医学数据集上评估,SALT仅使用3.9%的可训练参数,在Dice系数上比最先进的PEFT(LoRA和SVD)高出2%至5%,展现了在低资源环境下的强大适应能力。SALT的代码已发布于:https://github.com/BioMedIA-MBZUAI/SALT。
大型视觉语言模型(LVLMs)在视觉语言理解与推理任务中展现出了卓越的性能。然而,其视觉理解行为仍待深入探究。一个根本性问题随之而来:LVLMs在多大程度上依赖于视觉输入,以及图像的哪些区域对其响应起到了关键作用?由于LVLMs复杂的视觉架构(如多编码器与多分辨率处理)和可变长度输出,解读其自由形式的生成内容并非易事。本文中,我们扩展了现有的热力图可视化方法(例如iGOS++),以支持LVLMs在开放式视觉问答任务中的应用。我们提出了一种方法,用于筛选出反映生成答案与输入图像之间相关性的视觉相关标记。此外,我们在专门设计需依赖视觉信息作答的基准测试上,对当前最先进的LVLMs进行了全面分析。我们的研究揭示了关于LVLM行为的若干洞见,包括关注区域与答案正确性之间的关系、不同架构间视觉注意力的差异,以及大语言模型规模对视觉理解的影响。相关代码与数据已公开于https://github.com/bytedance/LVLM_Interpretation。
近期,大型语言模型及其多模态扩展的进展展示了通过自回归下一标记预测统一生成与理解的有效性。然而,尽管三维结构生成与理解(3D GU)在科学人工智能中扮演着关键角色,这些任务大多独立发展,自回归方法仍未被充分探索。为弥合这一差距,我们提出了Uni-3DAR,一个通过自回归预测无缝整合3D GU任务的统一框架。Uni-3DAR的核心在于采用了一种新颖的分层标记化方法,利用八叉树压缩三维空间,充分利用三维结构固有的稀疏性。随后,它应用了额外的标记化以捕捉微观三维结构中的精细细节,如原子类型和精确空间坐标等关键属性。我们进一步提出了两项优化以提升效率与效果:一是两级子树压缩策略,可将八叉树标记序列最多减少8倍;二是针对动态变化标记位置设计的掩码下一标记预测机制,显著提升了模型性能。通过结合这些策略,Uni-3DAR成功地将多样化的3D GU任务统一于单一自回归框架内。在包括分子、蛋白质、聚合物和晶体在内的多种微观3D GU任务上的广泛实验验证了其有效性与通用性。值得注意的是,Uni-3DAR大幅超越了之前最先进的扩散模型,实现了高达256%的相对改进,同时推理速度提升了21.8倍。代码已公开于https://github.com/dptech-corp/Uni-3DAR。
三维分子生成在药物发现和材料科学中至关重要,要求模型能够处理复杂的多模态信息,包括原子类型、化学键和三维坐标。一个关键挑战在于整合这些不同形态的模态,同时保持三维坐标的SE(3)等变性。为实现这一目标,现有方法通常为不变性和等变性模态分别维护独立的潜在空间,这降低了训练和采样的效率。在本研究中,我们提出了统一变分自编码器用于三维分子潜在扩散建模(UAE-3D),这是一种多模态VAE,它将三维分子压缩至统一潜在空间中的潜在序列,同时保持近乎零的重构误差。这一统一潜在空间消除了在进行潜在扩散建模时处理多模态性和等变性的复杂性。我们通过采用扩散Transformer——一种无任何分子归纳偏见的通用扩散模型——进行潜在生成,来验证这一点。在GEOM-Drugs和QM9数据集上的大量实验表明,我们的方法在从头生成和条件生成三维分子方面显著设立了新的基准,实现了领先的效率与质量。
主流的视频训练方法主要基于从预设时空网格中采样的固定数量标记进行操作,由于视频本身存在冗余性,导致在精度与计算量之间难以达到最优平衡。此外,这些方法缺乏针对下游任务不同计算预算的适应性,阻碍了最具竞争力模型在现实场景中的应用。为此,我们提出了一种新的测试设置——标记优化,旨在跨预算最大化输入信息,通过从更合适采样的视频中进行标记选择,优化规模受限的输入标记集。为此,我们引入了一种新颖的增强工具,称为Flux。通过使采样网格灵活化并利用标记选择,它能够轻松融入大多数流行的视频训练框架,以几乎无额外成本提升模型鲁棒性。我们将Flux应用于大规模视频预训练中,由此产生的FluxViT在标准成本下,在广泛任务中确立了新的性能标杆。尤为突出的是,仅使用1/4的标记,通过标记优化,它仍能与先前最先进模型的性能相媲美,实现了近90%的资源节省。所有模型和数据均可在https://github.com/OpenGVLab/FluxViT获取。
视觉-语言(VL)模型在多种任务中展现了卓越的性能。然而,这些模型往往依赖特定模态进行预测,导致“主导模态偏差”。这种偏差显著损害了模型性能,尤其是在某一模态受损时。本研究分析了主导模态偏差下的模型行为,并从理论上证明了未对齐的梯度或梯度幅度的差异阻碍了损失的平衡收敛。基于这些发现,我们提出了一种新颖的框架——BalGrad,以减轻主导模态偏差。我们的方法包括跨模态梯度重加权,根据各模态的贡献调整KL散度的梯度,以及跨任务梯度投影,以非冲突的方式对齐任务方向。在UPMC Food-101、Hateful Memes和MM-IMDb数据集上的实验证实,BalGrad有效缓解了预测时对特定模态的过度依赖。
视频身份定制旨在基于用户的参考图像,生成高保真视频,这些视频需保持身份一致性并展现显著的动态特性。然而,现有方法面临两大挑战:视频时长增加导致的身份退化,以及训练过程中动态性减弱,这主要归因于它们依赖传统的静态图像自重建训练。为解决这些问题,我们提出了MagicID,一个旨在直接促进生成符合用户偏好、身份一致且动态丰富的视频的新框架。具体而言,我们建议构建带有明确身份和动态奖励的成对偏好视频数据,以替代传统的自重建方法,进行偏好学习。针对定制偏好数据的限制,我们引入了一种混合采样策略。该方法首先通过利用源自参考图像的静态视频优先保障身份一致性,随后采用基于前沿的采样方法提升生成视频的动态运动质量。通过利用这些混合偏好对,我们优化模型,使其与定制偏好对之间的奖励差异相匹配。大量实验表明,MagicID成功实现了身份一致性和自然动态性,在多项指标上超越了现有方法。
随着视频生成模型(VGMs)的快速发展,开发可靠且全面的自动评估指标对于AI生成视频(AIGVs)至关重要。现有方法要么使用针对其他任务优化的现成模型,要么依赖人工评估数据来训练专门的评估器。这些方法局限于特定的评估维度,难以随着对更细粒度和更全面评估需求的增长而扩展。为解决这一问题,本研究探讨了利用多模态大语言模型(MLLMs)作为AIGVs统一评估器的可行性,充分发挥其强大的视觉感知和语言理解能力。为了评估自动指标在统一AIGV评估中的表现,我们引入了一个名为UVE-Bench的基准。UVE-Bench收集了由最先进VGMs生成的视频,并提供了涵盖15个评估维度的成对人类偏好标注。利用UVE-Bench,我们广泛评估了16个MLLMs。实证结果表明,尽管先进的MLLMs(如Qwen2VL-72B和InternVL2.5-78B)仍落后于人类评估者,但它们在统一AIGV评估中展现出显著潜力,大幅超越了现有的专门评估方法。此外,我们深入分析了影响MLLM驱动评估器性能的关键设计选择,为未来AIGV评估研究提供了宝贵的见解。代码可在https://github.com/bytedance/UVE获取。
我们提出了VideoRFSplat,一种直接文本到3D的模型,利用视频生成模型为无界真实场景生成逼真的3D高斯溅射(3DGS)。为了生成多样化的相机姿态和真实场景的无界空间范围,同时确保对任意文本提示的泛化能力,先前的方法通过微调2D生成模型来联合建模相机姿态和多视角图像。然而,由于模态差异,这些方法在将2D生成模型扩展到联合建模时存在不稳定性,需要额外的模型来稳定训练和推理。在本工作中,我们提出了一种架构和采样策略,在微调视频生成模型时联合建模多视角图像和相机姿态。我们的核心思想是双流架构,通过通信模块将专用的姿态生成模型与预训练的视频生成模型相连,通过独立的流生成多视角图像和相机姿态。这种设计减少了姿态和图像模态之间的干扰。此外,我们提出了一种异步采样策略,使相机姿态的去噪速度比多视角图像更快,允许快速去噪的姿态条件化多视角生成,减少相互模糊并增强跨模态一致性。在多个大规模真实世界数据集(RealEstate10K、MVImgNet、DL3DV-10K、ACID)上训练后,VideoRFSplat在无需通过分数蒸馏采样进行后处理优化的前提下,超越了现有依赖此类优化的文本到3D直接生成方法,取得了更优的结果。
基于深度学习(DL)的代码补全工具通过实现高级代码生成,彻底改变了软件开发流程。这些工具利用在大量代码库上训练的模型,捕捉通用的编码模式。然而,针对特定组织或开发者进行微调以提升其在这些主体上的性能,其影响尚未得到充分探索。本研究填补了这一空白,通过提供坚实的实证证据来回答这一问题。具体而言,我们考察了来自两个组织(Apache和Spring)的136名开发者,两种模型架构(T5和Code Llama),以及三种模型规模(6000万、7.5亿和70亿可训练参数)。T5模型(6000万、7.5亿)在超过2000个开源项目上进行了预训练和微调,排除了目标组织的数据,并与针对组织和开发者特定数据集微调的版本进行了对比。对于Code Llama模型(70亿),我们比较了在线公开的预训练模型与通过参数高效微调方法在组织和开发者特定数据集上微调的同一模型的性能。我们的结果表明,无论是针对组织还是开发者进行额外微调,都能提升预测能力,其中组织特定的微调表现尤为突出。这一发现普遍适用于(i)两个目标组织(即Apache和Spring)以及(ii)规模完全不同的模型(从6000万到70亿可训练参数)。最后,我们展示了对组织特定数据集微调的DL模型,其代码补全性能与直接使用的预训练代码模型相当,而后者规模大约是其10倍,从而在部署和推理成本上实现了显著节约(例如,所需GPU更小)。
图像描述长期以来一直是视觉理解中的核心任务,随着视觉-语言模型(VLMs)的最新进展,生成详细图像描述的能力得到了显著提升。然而,由于过时的评估指标和粗略的标注,详细图像描述的评估仍显不足。本文中,我们引入了DeCapBench及一种专为详细描述任务设计的新指标——DCScore。DCScore通过将响应解构为最小的自足单元,即原始信息单元,并逐一评估,来衡量幻觉和细粒度全面性。我们的评估显示,DCScore比其他基于规则或模型的指标更贴近人类判断。同时,DeCapBench在描述性任务上与VLM竞技场结果高度相关,超越了现有视觉-语言模型的基准。此外,我们提出了一种基于我们先进指标的自动细粒度反馈收集方法——FeedQuill,用于偏好优化,展示了在自动生成偏好数据上的强大泛化能力。在多个VLM上的大量实验表明,我们的方法不仅显著减少了幻觉,还在多个基准上提升了性能,实现了卓越的细节描述表现,并超越了GPT-4o。
本文介绍了欺骗性幽默数据集(Deceptive Humor Dataset, DHD),这是一个用于研究源自虚假声明和误导信息的幽默的新型资源。在虚假信息泛滥的时代,理解幽默如何与欺骗交织至关重要。DHD包含由ChatGPT-4o模型生成的基于虚假叙事的幽默评论,这些评论融入了捏造的声明和操纵的信息。每个实例都标注了讽刺等级,从1级(微妙讽刺)到3级(高度讽刺),并分为五个不同的幽默类别:黑色幽默、讽刺、社会评论、文字游戏和荒诞。该数据集涵盖多种语言,包括英语、泰卢固语、印地语、卡纳达语、泰米尔语及其混合语言变体(Te-En、Hi-En、Ka-En、Ta-En),使其成为一个宝贵的多语言基准。通过引入DHD,我们为分析欺骗性语境中的幽默建立了一个结构化基础,为探索幽默不仅与误导信息互动,还影响其感知和传播的新研究方向铺平了道路。我们为该数据集建立了强大的基线,为未来研究提供了基准,并推动了欺骗性幽默检测模型的发展。
基于下一词预测的自监督预训练使大型语言模型能够捕捉文本的底层结构,并在大规模应用时,在众多任务上取得了前所未有的性能表现。类似地,自动驾驶生成了海量的时空数据,暗示了利用规模学习环境及其随时间演变的几何与语义结构的可能性。沿着这一方向,我们提出了一种几何与语义自监督预训练方法——GASP,该方法通过预测任意查询的未来时空点上的(1)一般占据情况,捕捉三维场景的演变结构;(2)自车占据情况,模拟自车在环境中的路径;以及(3)从视觉基础模型中蒸馏出的高层特征,来学习统一表示。通过建模几何与语义的四维占据场而非原始传感器测量值,模型学习到了环境及其随时间演变的结构化、可泛化表示。我们在多个自动驾驶基准上验证了GASP,展示了在语义占据预测、在线建图和自车轨迹预测方面的显著提升。我们的结果表明,连续的四维几何与语义占据预测为自动驾驶提供了一个可扩展且有效的预训练范式。代码及更多可视化内容,请访问\href{https://research.zenseact.com/publications/gasp/}。
随着生成式AI的兴起,从文本描述合成图形成为一个引人注目的应用。然而,要实现高几何精度和可编辑性,需要将图形表示为如TikZ等图形编程语言中的程序,而与之对齐的训练数据(即带有描述的图形程序)仍然稀缺。与此同时,大量未对齐的图形程序和带有描述的栅格图像则更为易得。我们通过提出TikZero来调和这些不同的数据源,它利用图像表示作为中介桥梁,将图形程序生成与文本理解解耦。这使得图形程序和带描述图像能够独立训练,并在推理时实现零样本的文本引导图形程序合成。我们证明,相较于仅能处理描述对齐图形程序的基线方法,我们的方法表现显著更优。此外,当利用描述对齐的图形程序作为补充训练信号时,TikZero的表现与包括GPT-4o在内的更大规模商业系统相当甚至超越。我们的代码、数据集及精选模型均已公开。
对于慢性病患者而言,遵循既定治疗方案至关重要,以避免高昂或不良的健康后果。针对特定患者群体,强化生活方式干预对提升药物依从性尤为关键。准确预测治疗依从性,能够为开发按需干预工具铺平道路,实现及时且个性化的支持。随着智能手机和可穿戴设备的日益普及,开发并部署智能活动监测系统变得前所未有的便捷。然而,基于可穿戴传感器的有效治疗依从性预测系统仍未广泛普及。我们通过提出“基于机器智能的依从性预测与干预系统”(AIMI)填补了这一空白。AIMI是一个知识引导的依从性预测系统,它利用智能手机传感器及既往用药记录,来估算患者忘记服用处方药物的可能性。我们开展了一项用户研究,涉及27名每日服药以管理心血管疾病的参与者。我们设计并开发了基于CNN和LSTM的预测模型,结合多种输入特征组合,发现LSTM模型能以0.932的准确率和0.936的F1分数预测药物依从性。此外,通过一系列涉及卷积神经网络和循环神经网络架构的消融研究,我们证明了利用未来已知信息及个性化训练能显著提升药物依从性预测的准确性。代码已公开:https://github.com/ab9mamun/AIMI。