每日精选AI研究论文及翻译
尽管当代文本到图像生成模型在生成视觉吸引力强的图像方面取得了显著突破,但其在生成精确且灵活的排版元素,尤其是非拉丁字母方面,能力仍显不足。针对这些限制,我们从一个朴素假设出发,即文本理解仅是文本渲染的充分条件,而非必要条件。基于此,我们提出了RepText,旨在赋能预训练的单语文本到图像生成模型,使其能够准确渲染,更确切地说是复制,用户指定字体的多语言视觉文本,而无需真正理解这些文本。具体而言,我们借鉴了ControlNet的设置,并额外集成了语言无关的字形和渲染文本的位置信息,以生成协调的视觉文本,允许用户根据需求自定义文本内容、字体及位置。为提高准确性,我们在扩散损失之外还采用了文本感知损失。此外,为稳定渲染过程,在推理阶段,我们直接以带噪的字形潜变量初始化,而非随机初始化,并采用区域掩码将特征注入限制在文本区域,以避免背景失真。我们进行了大量实验,验证了RepText相较于现有工作的有效性,我们的方法超越了现有的开源方法,并达到了与原生多语言闭源模型相当的效果。为更加公正,我们也在最后详尽讨论了其局限性。
全球医疗保健服务提供者正在探索利用大型语言模型(LLMs)为公众提供医疗建议。目前,LLMs在医疗执照考试中几乎取得了满分,但这并不必然意味着其在现实场景中的表现同样准确。我们在一项包含1,298名参与者的对照研究中,测试了LLMs能否帮助公众识别潜在病情并选择处理方案(处置方式),涉及十种医疗情境。参与者被随机分配接受LLM(GPT-4o、Llama 3、Command R+)或自选来源(对照组)的协助。单独测试时,LLMs能准确完成情境,平均正确识别病情达94.9%,处置方式正确率为56.3%。然而,使用相同LLMs的参与者识别相关病情的情况不到34.5%,选择处置方式的正确率低于44.2%,均未优于对照组。我们指出,用户交互是LLMs应用于医疗建议部署中的一大挑战。现有的医学知识标准测试和模拟患者互动并不能预测我们在人类参与者中发现的失败案例。展望未来,我们建议在医疗保健领域的公开部署前,进行系统化的人类用户测试,以评估其交互能力。
随着大型语言模型(LLMs)的迅速崛起,手机自动化技术经历了革命性的变革。本文系统回顾了LLM驱动的手机图形用户界面(GUI)代理,重点阐述了其从基于脚本的自动化向智能、自适应系统的演进过程。我们首先阐述了关键挑战:(一)通用性有限,(二)维护成本高,(三)意图理解能力弱,并展示了LLMs如何通过高级语言理解、多模态感知和稳健的决策能力来解决这些问题。随后,我们提出了一种分类法,涵盖基本代理框架(单代理、多代理、先计划后执行)、建模方法(提示工程、基于训练的方法)以及关键数据集和基准测试。此外,我们详细介绍了连接用户意图与GUI操作的任务特定架构、监督微调和强化学习策略。最后,我们探讨了开放挑战,如数据集多样性、设备端部署效率、以用户为中心的适应性和安全问题,为该快速发展的领域提供了前瞻性见解。通过提供结构化概述并指出紧迫的研究空白,本文为研究人员和从业者利用LLMs设计可扩展、用户友好的手机GUI代理提供了权威参考。
大型语言模型(LLMs)在生成上下文连贯的回应方面展现了卓越能力,但其固定的上下文窗口在维持长时间多轮对话一致性方面存在根本性挑战。我们提出了Mem0,一种可扩展的以记忆为中心的架构,通过动态提取、整合和检索对话中的关键信息来解决这一问题。在此基础上,我们进一步提出了一种增强版本,该版本利用基于图的记忆表示来捕捉对话元素间复杂的关联结构。通过在LOCOMO基准上的全面评估,我们系统地将我们的方法与六类基线进行了比较:(i)已建立的记忆增强系统,(ii)采用不同分块大小和k值的检索增强生成(RAG),(iii)处理整个对话历史的完整上下文方法,(iv)开源记忆解决方案,(v)专有模型系统,以及(vi)专用记忆管理平台。实证结果表明,我们的方法在四类问题(单跳、时序、多跳和开放域)上均优于所有现有记忆系统。值得注意的是,Mem0在LLM-as-a-Judge指标上相对于OpenAI实现了26%的相对提升,而带有图记忆的Mem0则比基础配置整体得分高出约2%。除了准确率提升外,与完整上下文方法相比,我们还显著降低了计算开销。特别是,Mem0实现了91%的p95延迟降低,并节省了超过90%的token成本,在高级推理能力与实际部署限制之间提供了引人注目的平衡。我们的研究结果强调了结构化、持久记忆机制在长期对话连贯性中的关键作用,为开发更可靠、高效的LLM驱动AI代理铺平了道路。
评估大型语言模型(LLM)逐步推理的可靠性,如思维链(Chain-of-Thought),由于获取高质量步骤级监督的难度和成本,仍然具有挑战性。本文提出了一种名为自我对抗批评者(Self-Play Critic, SPC)的新方法,其中批评者模型通过对抗性自我博弈游戏逐步提升其评估推理步骤的能力,从而无需手动进行步骤级标注。SPC方法涉及微调基础模型的两个副本,分别扮演两个角色:一个是“狡猾生成器”,故意生成难以检测的错误步骤;另一个是“批评者”,负责分析推理步骤的正确性。这两个模型进行对抗性博弈,生成器旨在欺骗批评者,而批评者模型则努力识别生成器的错误。基于博弈结果的强化学习使得模型迭代改进;每次对抗的胜者获得正向奖励,败者获得负向奖励,推动持续自我进化。在三个推理过程基准测试(ProcessBench、PRM800K、DeltaBench)上的实验表明,我们的SPC逐步提升了其错误检测能力(例如,在ProcessBench上的准确率从70.8%提升至77.7%),并超越了包括蒸馏R1模型在内的强基线。此外,将SPC应用于指导多种LLM的测试时搜索,显著提升了它们在MATH500和AIME2024上的数学推理性能,超越了当前最先进的进程奖励模型。
大型语言模型(LLMs)已展现出卓越的能力,特别是在推理方面的最新进展,如o1和o3,不断突破人工智能的边界。尽管在数学和编程领域取得了令人瞩目的成就,LLMs在需要密码学专业知识的领域中的推理能力仍未被充分探索。本文介绍了CipherBank,一个旨在评估LLMs在密码解密任务中推理能力的综合基准。CipherBank包含2,358个精心设计的问题,涵盖5个领域和14个子领域的262个独特明文,重点关注需要加密的隐私敏感和现实世界场景。从密码学角度来看,CipherBank整合了3大类加密方法,涵盖9种不同的算法,从古典密码到自定义密码技术。我们在CipherBank上评估了最先进的LLMs,如GPT-4o、DeepSeek-V3,以及专注于推理的尖端模型如o1和DeepSeek-R1。我们的研究结果揭示了通用聊天LLMs与专注于推理的LLMs之间在推理能力上的显著差距,同时也揭示了当前专注于推理的模型在应用于古典密码解密任务时的表现不足,凸显了这些模型在理解和操作加密数据方面面临的挑战。通过详细分析和错误调查,我们提供了几个关键观察,揭示了LLMs在密码推理中的局限性和潜在改进领域。这些发现强调了持续提升LLM推理能力的必要性。
近期,大型视觉语言模型(LVLMs)的进展显著提升了其整合视觉与语言信息的能力,在物体识别、图像描述及视觉问答等任务上达到了接近人类的水平。然而,当前的基准测试多聚焦于知识导向的评估,侧重于衡量特定领域的专业知识,往往忽视了模型在基础数学元素与视觉概念推理上的核心能力。我们识别出在评估依赖明确视觉关联的基础数学问题方面存在空白,这类问题要求模型能够辨别、整合并跨多幅图像进行推理,同时融入常识知识,这些能力对于推动更广泛的通用人工智能(AGI)发展至关重要。为填补这一空白,我们推出了VCBENCH,一个针对具有明确视觉依赖性的多模态数学推理的全面基准。VCBENCH包含跨越六个认知领域的1,720道题目,涉及6,697张图像(平均每道题3.9张),以确保多图像推理的需求。我们对26个顶尖的LVLMs在VCBENCH上进行了评估,结果显示性能差异显著,即便是表现最佳的模型准确率也未能超过50%。我们的研究结果凸显了视觉与数学整合方面持续存在的挑战,并为未来LVLMs的发展指明了方向。
下采样层是卷积神经网络(CNN)架构中的关键构建模块,它们有助于扩大感受野以学习高层次特征,并减少模型的内存/计算量。在本研究中,我们探讨了均匀下采样层在群等变架构(如G-CNNs)中的泛化应用。具体而言,我们的目标是在一般有限群上对信号(特征图)进行抗混叠下采样。这包括以下内容:(a) 给定一个有限群和一个下采样率,我们提出了一种算法来选择合适的子群。(b) 给定一个群及其子群,我们研究了带限概念,并提出了如何进行抗混叠的方法。值得注意的是,我们的方法基于经典采样理论,推广了下采样的概念。当信号位于循环群(即周期性)上时,我们的方法恢复了一个理想低通滤波器后接子采样操作的标准下采样过程。最后,我们在图像分类任务上进行了实验,结果表明,将所提出的下采样操作融入G等变网络后,不仅提高了准确率,更好地保持了等变性,还减小了模型规模。
长上下文能力与视觉理解的融合为视觉语言模型(VLMs)开启了前所未有的潜力。然而,预填充阶段的二次注意力复杂度仍是实际部署中的重大障碍。为克服这一限制,我们引入了MMInference(多模态百万令牌推理),一种动态稀疏注意力方法,旨在加速长上下文多模态输入的预填充阶段。首先,我们的分析揭示,视频输入的时间与空间局部性导致了独特的稀疏模式——网格模式。同时,VLMs在不同模态间展现出显著不同的稀疏分布。我们提出了一种基于排列的方法,以利用这一独特的网格模式并处理模态边界问题。通过离线搜索每个头的最优稀疏模式,MMInference根据输入动态构建稀疏分布。我们还提供了优化的GPU内核,以实现高效的稀疏计算。值得注意的是,MMInference无需任何模型修改或微调,即可无缝集成到现有的VLM流程中。在多模态基准测试(包括视频问答、字幕生成、VisionNIAH及混合模态NIAH)上,结合最先进的长上下文VLMs(LongVila、LlavaVideo、VideoChat-Flash、Qwen2.5-VL)的实验表明,MMInference在1M令牌规模下,预填充阶段加速最高可达8.3倍,同时保持准确性。我们的代码公开于https://aka.ms/MMInference。
现有的视觉-语言-动作(VLA)模型在零样本场景中展现了卓越的性能,表现出令人印象深刻的任务执行与推理能力。然而,视觉编码的局限性带来了重大挑战,可能导致诸如物体抓取等任务失败。此外,这些模型通常因规模庞大(参数往往超过70亿)而面临高计算开销。尽管这些模型在推理与任务规划方面表现出色,但其带来的巨大计算开销使其难以适用于实时机器人环境,而后者对速度和效率有着极高要求。为应对现有VLA模型的局限,我们提出了NORA,一个拥有30亿参数的模型,旨在降低计算开销的同时保持强大的任务性能。NORA采用Qwen-2.5-VL-3B多模态模型作为其主干,利用其卓越的视觉语义理解能力来增强视觉推理与动作定位。此外,我们的模型在97万次真实世界机器人演示数据上进行训练,并配备了FAST+分词器,以实现高效的动作序列生成。实验结果表明,NORA在显著减少计算开销的同时,任务性能优于现有的大规模VLA模型,使其成为实时机器人自主性更为实用的解决方案。
歌曲生成技术致力于依据多样化的提示创作出可控且高质量的歌曲。然而,现有方法在基于提示控制生成人声与伴奏,并确保两者精准对齐方面面临挑战,同时亦难以支持多种任务需求。为应对这些难题,我们推出了VersBand,一个多任务歌曲生成框架,旨在合成高质量、对齐良好且可基于提示控制的歌曲。VersBand主要由以下核心模型构成:1) VocalBand,一个解耦模型,采用流匹配方法生成演唱风格、音高及梅尔频谱图,实现快速、高质量且风格可控的人声生成。2) AccompBand,基于流的Transformer模型,集成Band-MOE机制,通过选择合适专家提升质量、对齐度及控制性,该模型能够生成与歌声对齐、可控且高质量的伴奏。3) 两个生成模型,LyricBand负责歌词创作,MelodyBand专注于旋律生成,共同构建了一个全面的多任务歌曲生成系统,支持基于多重提示的广泛控制。实验结果显示,VersBand在多项歌曲生成任务中,无论是客观指标还是主观评价,均优于基线模型。音频样本可在https://VersBand.github.io获取。
数学几何问题求解(GPS)通常需要有效整合多模态信息并确保逻辑推理的可验证性。尽管大语言模型在通用问题解决方面发展迅速,但在方法论和基准测试方面仍存在未解难题,尤其是考虑到现有的合成GPS基准往往无法自我验证,且因大语言模型的幻觉而包含噪声和自相矛盾的信息。本文提出了一种名为TrustGeoGen的可扩展数据引擎,用于问题生成,并通过形式化验证提供原则性基准,我们相信这将为GPS方法的进一步发展奠定基础。该引擎通过四项关键创新合成几何数据:1)多模态对齐的图表、文本描述及分步解答生成;2)确保推理路径符合规则的形式化验证;3)通过递归状态生成实现复杂度提升的引导机制;4)我们设计的GeoExplore系列算法同时生成多解变体及自我反思的回溯轨迹。通过形式逻辑验证,TrustGeoGen生成了保证模态完整性的GeoTrust-200K数据集及GeoTrust-test测试集。实验表明,当前最先进的模型在GeoTrust-test上仅达到49.17%的准确率,证明了其评估的严格性。重要的是,在GeoTrust上训练的模型在GeoQA上实现了分布外泛化,显著减少了相对于OpenAI-o1伪标注的逻辑不一致性。我们的代码可在https://github.com/Alpha-Innovator/TrustGeoGen获取。
近期研究表明,上下文学习(In-Context Learning, ICL)以双重模式运作,即任务检索(从预训练中回忆已学模式)与任务学习(通过演示在推理时进行“学习”)。然而,区分这两种模式仍是一个具有挑战性的目标。我们引入了ICL CIPHERS,这是一类基于经典密码学中替换密码的任务重构方法。在此方法中,上下文输入中的部分词汇被替换为其他(无关的)词汇,使得英文句子对人类而言难以理解。但设计上,这种替换存在一个潜在的固定模式,使其可逆。这种双射(可逆)密码确保了任务在某种抽象意义上仍是一个定义明确的任务,尽管经过了变换。一个有趣的问题是,大语言模型(LLMs)能否通过双射映射解决ICL CIPHERS,这需要破译潜在的密码。我们展示出,相较于非双射(不可逆)基线,LLMs在解决具有双射映射的ICL CIPHERS时表现更优,为量化ICL中的“学习”提供了一种新颖途径。尽管这一差距微小,但在四个数据集和六个模型上均保持一致。最后,我们探究了LLMs的内部表征,并发现了它们能够解码加密输入的证据。
随着领域专用架构(DSA)需求的日益增长,敏捷硬件开发方法学(AHDM)应运而生。诸如Chisel等硬件构造语言(HCL)凭借其高层次抽象特性,成为HCL导向型AHDM的理想选择。尽管大型语言模型(LLMs)在代码生成任务中表现卓越,但在Chisel生成方面仍面临挑战,特别是在语法正确性和设计多样性上。近期,推理模型通过测试时扩展技术显著提升了代码生成能力。然而,我们发现未经领域适应的推理模型无法为Chisel代码生成任务带来显著效益。本文提出ChiseLLM解决方案,涵盖数据处理与转换、提示引导的推理轨迹合成及领域适应模型训练。我们从公开的RTL代码资源中构建高质量数据集,并通过提示增强方法引导模型采用结构化思维模式。实验表明,我们的ChiseLLM-7B和ChiseLLM-32B模型在基础模型之上分别提升了18.85%和26.32%的语法正确性,同时相较于基线推理模型,设计多样性能力提高了47.58%。我们的数据集和模型已公开,为HCL导向型AHDM提供了高性能、成本效益高的模型,并为未来研究设立了有效基准。GitHub仓库地址:https://github.com/observerw/ChiseLLM。