每日精选AI研究论文及翻译
图像编辑涉及各种复杂任务,需要高效和精确的操作技术。本文介绍了MagicQuill,这是一个集成的图像编辑系统,能够快速实现创意想法。我们的系统具有简化但功能强大的界面,允许以最少的输入进行编辑操作(例如插入元素、擦除对象、改变颜色)。这些交互由一个多模态大语言模型(MLLM)监控,以实时预测编辑意图,无需明确的提示输入。最后,我们应用了一个强大的扩散先验,通过一个精心学习的双分支插件模块增强,以精确控制处理编辑请求。实验结果表明MagicQuill在实现高质量图像编辑方面的有效性。请访问https://magic-quill.github.io 体验我们的系统。
本研究探讨了扩展大型语言模型(LLMs)的能力,这些模型在文本上进行预训练,以生成3D网格在一个统一模型内。这提供了关键优势,即(1)利用已嵌入在LLMs中的空间知识,源自文本来源如3D教程,以及(2)实现对话式3D生成和网格理解。一个主要挑战是有效地将3D网格数据标记为LLMs可以无缝处理的离散标记。为了解决这个问题,我们引入了LLaMA-Mesh,一种新颖的方法,将3D网格的顶点坐标和面定义表示为纯文本,允许直接与LLMs集成而无需扩展词汇表。我们构建了一个监督微调(SFT)数据集,使预训练的LLMs能够(1)从文本提示生成3D网格,(2)根据需要生成交错的文本和3D网格输出,以及(3)理解和解释3D网格。我们的工作首次证明了LLMs可以被微调以获取用于3D网格生成的复杂空间知识,以文本为基础的格式,有效地统一了3D和文本模态。LLaMA-Mesh在保持强大文本生成性能的同时,实现了与从头开始训练的模型相当的网格生成质量。
随着语言模型的不断扩大,它们的词汇量也在增加。这导致了在训练过程中,LLM 的内存占用不成比例地集中在一个单一层上:交叉熵在损失计算中的作用。交叉熵构建了一个逻辑矩阵,其中包含每对输入标记和词汇项的条目,对于较小的模型而言,其消耗的内存比LLM的其余部分加起来还多一个数量级。我们提出了Cut Cross-Entropy(CCE)方法,该方法在计算交叉熵损失时,不需要将所有标记的逻辑值实体化到全局内存中。相反,CCE 仅计算正确标记的逻辑值,并在计算过程中动态评估所有逻辑值的对数总和指数。我们实现了一个自定义内核,用于在闪存中执行矩阵乘法和词汇表中的对数总和指数减少,从而使交叉熵计算的全局内存消耗变得微不足道。这产生了戏剧性的效果。以 Gemma 2(2B)模型为例,CCE 将损失计算的内存占用从24 GB 减少到 1 MB,并将分类器头部的总训练时内存消耗从28 GB 减少到 1 GB。为了提高 CCE 的吞吐量,我们利用 softmax 的固有稀疏性,并建议跳过对梯度计算贡献微不足道(即低于数值精度)的元素。实验证明,在不牺牲训练速度或收敛性的情况下,成功实现了内存消耗的戏剧性减少。
大型语言模型(LLMs)在医学文本处理任务和医学执照考试方面具有优越的能力,因此对于革新当前临床系统具有巨大潜力。与此同时,传统的机器学习模型,如支持向量机(SVM)和XGBoost,在临床预测任务中仍然被主要采用。一个新兴的问题是,LLMs能否在临床预测中击败传统的机器学习模型?因此,我们建立了一个新的基准测试工具ClinicalBench,全面研究通用型和医学LLMs的临床预测建模能力,并将它们与传统机器学习模型进行比较。ClinicalBench涵盖了三个常见的临床预测任务、两个数据库、14个通用型LLMs、8个医学LLMs和11个传统机器学习模型。通过广泛的实证研究,我们发现,无论是通用型还是医学LLMs,即使在不同的模型规模、不同的提示或微调策略下,仍然无法在临床预测中击败传统的机器学习模型,这揭示了它们在临床推理和决策方面潜在的不足。我们呼吁从业者在临床应用中谨慎使用LLMs。ClinicalBench可以用于弥合LLMs在医疗保健领域发展和实际临床实践之间的差距。
用户活动的视频记录,特别是桌面录制,为理解用户行为和自动化流程提供了丰富的数据来源。然而,尽管视觉语言模型(VLMs)的发展和在视频分析中的日益广泛应用,从桌面录制中提取用户操作仍然是一个未被充分探讨的领域。本文通过提出两种基于VLM的新方法来解决这一问题:直接基于帧的方法(DF),将采样帧直接输入VLMs,以及差分基于帧的方法(DiffF),通过计算机视觉技术检测到的显式帧差异。我们使用一个基本的自定义数据集和一个从先前工作中改编的先进基准来评估这些方法。我们的结果显示,DF方法在识别用户操作方面的准确率达到了70%至80%,提取的操作序列可通过机器人流程自动化进行重播。我们发现,虽然VLMs显示出潜力,但加入显式的用户界面更改可能会降低性能,使DF方法更可靠。这项工作代表了首次将VLMs应用于从桌面录制中提取用户操作序列,为未来研究提供了新的方法、基准和见解。
尽管扩散模型能够生成质量极高的样本,但由于其昂贵的迭代抽样过程,存在固有瓶颈。一致性模型(CMs)最近作为一种有前景的扩散模型蒸馏方法出现,通过在几次迭代中生成高保真度样本来降低抽样成本。一致性模型蒸馏旨在解决由现有扩散模型定义的概率流普通微分方程(ODE)。CMs并非直接经过训练以最小化针对ODE求解器的误差,而是采用更易于计算的客观函数。为了研究CMs如何有效解决概率流ODE以及任何引发的误差对生成样本质量的影响,我们引入了直接CMs,直接最小化这种误差。有趣的是,我们发现与CMs相比,直接CMs减少了ODE求解误差,但也导致生成样本质量显著下降,这引发了对CMs究竟为何起初表现良好的质疑。完整代码可在以下链接找到:https://github.com/layer6ai-labs/direct-cms。
随着移动网络系统日益复杂,推动自动化细胞网络运营的努力也在增加。尽管取得了进展,由于依赖人为干预来对网络行为建模并定义满足目标要求的策略,完全自主目前仍然难以实现。网络数字孪生(NDTs)显示出增强网络智能的潜力,但这项技术的成功实施受到特定用例架构的限制,限制了其在推进网络自主性方面的作用。需要更具能力的网络智能,或者称之为“电信大脑”,以实现对细胞网络的无缝自主管理。大型语言模型(LLMs)已被视为实现这一愿景的潜在推动者,但在网络建模方面面临挑战,尤其是在推理和处理多样数据类型方面。为了解决这些差距,我们引入了Hermes,这是一系列LLM代理的链,通过结构化和可解释的逻辑步骤使用“蓝图”来构建NDT实例。Hermes实现了对多样化用例和配置进行自动、可靠和准确的网络建模,从而标志着朝着完全自主网络运营迈出了一步。