每日精选AI研究论文及翻译
稀疏自编码器(SAEs)已成为逆向工程大型语言模型(LLMs)的核心要素。对于LLMs,它们已被证明可以将通常无法直接解释的中间表示分解为可解释特征的稀疏总和,有助于更好地控制和随后的分析。然而,对于文本到图像模型,类似的分析和方法却缺乏。我们调查了使用SAEs学习可解释特征的可能性,用于几步文本到图像扩散模型,如SDXL Turbo。为此,我们在SDXL Turbo的去噪U-net中训练SAEs,以学习变压器块执行的更新。我们发现它们学到的特征是可解释的,对生成过程产生因果影响,并揭示了块之间的专业化。特别是,我们发现一个块主要处理图像构图,一个主要负责添加局部细节,另一个负责颜色、照明和风格。因此,我们的工作是更好地理解生成式文本到图像模型(如SDXL Turbo)内部机制的重要第一步,展示了SAEs学到的特征在视觉领域的潜力。 代码可在https://github.com/surkovv/sdxl-unbox找到。
在LLM后训练中有何不同?我们通过梯度的视角调查了大型语言模型(LLMs)不同层的训练模式,这些模型在使用不同响应和初始模型进行训练时。我们特别关注快速思考与慢速思考对层间梯度的影响,鉴于最近在推理路径(如思维链和过程奖励)上训练LLMs变得流行。在我们的研究中,没有思维链的快速思考导致更大的梯度和跨层梯度差异比详细思维链(Detailed CoT)的慢速思考更大,表明后者带来的学习稳定性。此外,预训练的LLMs受快速思考的不稳定性影响较少,而经过指导调整的LLMs受影响较大。此外,我们研究了梯度模式是否能反映在使用慢速和快速思维路径训练不同LLMs时响应的正确性。结果显示,慢速思考的梯度可以区分正确和无关的推理路径。作为比较,我们在非推理知识学习任务上进行类似的梯度分析,然而,简单增加响应长度并不会导致慢速思考的类似行为。我们的研究加强了对LLM训练的基本理解,并为其效率和稳定性提供了新的见解,为构建可推广的System-2代理铺平了道路。我们的代码、数据和梯度统计可在以下链接找到:https://github.com/MingLiiii/Layer_Gradient。
在面向任务的对话系统中,意图检测对于解释用户查询并提供适当回应至关重要。现有研究主要解决了单一意图的简单查询,缺乏处理具有多个意图和提取不同意图范围的复杂查询的有效系统。此外,缺乏多语言、多意图数据集也是一个显著问题。本研究解决了三个关键任务:从查询中提取多个意图范围、检测多个意图以及开发多语言多标签意图数据集。我们引入了一个新颖的多标签多类别意图检测数据集(MLMCID-dataset),从现有基准数据集中精心筛选而来。我们还提出了一个基于指针网络的架构(MLMCID),以六元组的形式提取意图范围并检测多个意图,标签包括粗粒度和细粒度。全面的分析表明,相对于各种数据集上的基准方法,我们基于指针网络的系统在准确性和F1分数方面表现出优越性。
指令调优是一种监督微调方法,显著提高了大型语言模型(LLMs)遵循人类指令的能力。我们提出了SelfCodeAlign,这是第一个完全透明且允许的自我对齐流程,无需大量人工注释或蒸馏即可对齐代码LLMs。SelfCodeAlign在整个数据生成过程中都使用相同的基础模型进行推断。它首先从高质量种子代码片段中提取多样的编码概念以生成新任务。然后对每个任务采样多个响应,将每个响应与测试用例配对,并在沙盒环境中验证它们。最后,选取通过的示例进行指令调优。在我们的主要实验中,我们使用SelfCodeAlign与CodeQwen1.5-7B生成了一个包含74k指令-响应对的数据集。在这个数据集上微调会得到一个模型,在HumanEval+上达到了67.1的pass@1,超过了CodeLlama-70B-Instruct,尽管规模小了十倍。在所有基准测试中,这个微调模型始终优于使用OctoPack训练的原始版本,OctoPack是之前用于指令调优而无需人工注释或蒸馏的最先进方法。此外,我们展示了SelfCodeAlign在各种规模的LLMs上都是有效的,从3B到33B,并且基础模型可以更多地从与其自身数据分布的对齐中受益。我们进一步验证了我们流程中每个组件的有效性,表明SelfCodeAlign优于直接从GPT-4o蒸馏以及领先的基于GPT-3.5的蒸馏方法,如OSS-Instruct和Evol-Instruct。SelfCodeAlign还导致了StarCoder2-Instruct的创建,这是第一个完全透明、许可宽松且自我对齐的代码LLM,实现了最先进的编码性能。
大型语言模型(LLMs)已经彻底改变了许多应用,但它们的部署仍受到本地设备内存限制的挑战。尽管缩放定律增强了LLM的功能,但主要瓶颈已经从能力转变为可用性,强调了对高效内存管理的需求。传统的压缩方法,如量化,通常需要预定义的压缩比和针对每种设置的单独压缩过程,使其在可变内存环境中的部署变得复杂。在本文中,我们介绍了BitStack,这是一种新颖的、无需训练的权重压缩方法,可以在内存使用量和模型性能之间实现兆字节级的权衡。通过利用权重分解,BitStack可以动态调整模型大小,实现在运行内存和存储设备之间的最小传输。我们的方法在考虑每个参数的重要性的同时,迭代地分解权重矩阵,导致每次分解迭代中每个参数残差块约为1比特。这些块被排序并堆叠在存储中作为基本传输单元,根据当前内存可用性加载不同数量。通过在各种任务上进行广泛实验,我们证明,尽管提供了精细的尺寸控制,BitStack始终能够与强大的量化基线相匹配甚至超越,特别是在极端压缩比下。据我们所知,这是第一个有效地弥合了与量化等实用压缩技术之间差距的基于分解的方法。代码可在https://github.com/xinghaow99/BitStack找到。
大型语言模型(LLMs)在遵循具有复杂约束条件的指令(如格式、长度等)方面存在困难。根据传统的指令调整实践,先前的研究通过将复杂指令输入到先进的LLMs中生成复杂指令-响应对,然后进行后训练。然而,即使是先进的LLMs也无法很好地遵循复杂指令,从而限制了生成数据的质量。在本研究中,我们发现现有数据集本质上包含隐含的复杂约束条件,并提出了一种新颖的数据生成技术,约束反向翻译。具体而言,我们采用现有数据集中的高质量指令-响应对,并仅采用先进的LLMs向指令添加响应已满足的复杂约束条件,从而自然降低成本和数据噪音。在实验中,我们采用Llama3-70B-Instruct来反向翻译约束并创建一个高质量的复杂指令-响应数据集,命名为CRAB。我们展示了在CRAB上进行后训练可以提高多个骨干LLMs的复杂指令遵循能力,评估了广泛的指令遵循基准。我们进一步发现,约束反向翻译也可以作为后训练中有用的辅助训练目标。我们将发布代码、数据和模型以促进未来研究。
最近对大型语言模型(LLMs)的进展显著增强了它们处理长文本的能力,但在生成长且对齐的输出方面仍存在显著差距。这一限制源自训练中的差距,即预训练缺乏长文本生成的有效指导,而后训练数据主要包括短查询-响应对。当前的方法,如指导回译和行为模仿,面临数据质量、版权问题以及专有模型使用限制等挑战。本文介绍了一种创新的迭代训练框架,名为Self-Lengthen,它仅利用LLMs的内在知识和技能,无需辅助数据或专有模型。该框架由生成器和扩展器两个角色组成。生成器生成初始响应,然后由扩展器分割和扩展。这一过程产生了一个新的、更长的响应,用于迭代地训练生成器和扩展器。通过这一过程,模型逐渐被训练以处理越来越长的响应。在基准测试和人类评估实验中,我们发现当应用于Qwen2和LLaMA3等顶尖开源LLMs时,Self-Lengthen在长文本生成方面优于现有方法。我们的代码可以在https://github.com/QwenLM/Self-Lengthen 上公开获取。
当使用更多参数时,神经网络的性能会提高。然而,在训练和推断期间,模型大小受可用的设备内存限制。尽管应用诸如量化等技术可以缓解这种限制,但它们会导致性能下降。在这项工作中,我们介绍了一种名为NeuZip的新的权重压缩方案,该方案基于神经网络中浮点数的熵。通过NeuZip,我们能够实现内存高效的训练和推断,而不会牺牲性能。值得注意的是,我们将训练Llama-3 8B模型的内存占用从31GB显著减少到不到16GB,同时保持训练动态完全不变。在推断中,我们的方法可以将内存使用量减少一半以上,同时保持接近无损的性能。我们的代码已公开发布。
本文展示了可以从合成视频和自然图像中学习到有用的视频表示,而无需在训练中加入自然视频。我们提出了一系列通过简单生成过程合成的视频数据集,这些数据集模拟了一系列自然视频属性(如运动、加速度和形状变换)的增长。在这些生成数据集上预训练的视频模型的下游性能随着数据集的进展逐渐提高。在我们的合成视频上预训练的VideoMAE模型在UCF101动作分类中,将从头开始训练和自监督预训练自然视频之间的性能差距缩小了97.2%,并且在HMDB51上胜过了预训练模型。在预训练阶段引入静态图像的裁剪结果表现类似于UCF101预训练,并且在UCF101-P的14个分布之外的数据集中有11个胜过了UCF101预训练模型。通过分析数据集的低级属性,我们确定了帧多样性、帧与自然数据的相似性以及下游性能之间的相关性。我们的方法为视频数据的预训练提供了一个更可控和透明的替代方案,而不需要进行数据筛选过程。
许多研究已经评估了人工智能系统的熟练程度,特别是大型语言模型(LLMs),在促进诸如电子邮件撰写、问题回答和创意内容生成等日常任务方面的作用。然而,研究人员在利用LLMs进行自身工作时面临着独特的挑战和机遇,例如构思研究思路、设计实验以及撰写或审阅论文。在本研究中,我们介绍了AAAR-1.0,这是一个旨在评估LLM在三项基础、专业密集型研究任务中的表现的基准数据集:(i)EquationInference,根据论文提交中的上下文信息评估方程式的正确性;(ii)ExperimentDesign,设计实验以验证研究思路和解决方案;(iii)PaperWeakness,识别论文提交中的弱点;以及(iv)REVIEWCRITIQUE,识别人类审阅中每个部分是否存在缺陷。AAAR-1.0在两个关键方面与先前的基准数据集不同:首先,它明确以研究为导向,任务需要深入的领域专业知识;其次,它以研究人员为导向,反映了研究人员日常主要活动。对开源和专有LLMs的评估揭示了它们在进行复杂研究任务中的潜力以及局限性。我们将继续将AAAR-1.0迭代至新版本。
大型语言模型(LLMs)的兴起彻底改变了用户与基于知识的系统的互动方式,使聊天机器人能够综合大量信息并协助处理复杂的探索性任务。然而,基于LLM的聊天机器人在提供个性化支持方面经常遇到困难,特别是当用户提出模糊查询或缺乏足够的上下文信息时。本文介绍了协作式个性化探索助手(CARE),这是一个旨在通过将多智能体LLM框架与结构化用户界面相结合,以增强探索性任务个性化的系统。CARE的界面包括聊天面板、解决方案面板和需求面板,实现了迭代式查询优化和动态解决方案生成。多智能体框架合作识别用户的显性和隐性需求,提供量身定制的可操作解决方案。在一项涉及22名参与者的被试研究中,CARE始终优于基准LLM聊天机器人,用户赞扬其减轻认知负担、激发创造力和提供更贴心解决方案的能力。我们的研究结果突显了CARE将LLM系统从被动信息检索者转变为主动参与个性化问题解决和探索的潜力。
医学视觉语言预训练(MedVLP)展现了从成对和无配对医学图像和报告中学习可泛化和可转移的视觉表示的潜力。MedVLP能够为下游任务提供有用的特征,并有助于使用更少示例将特定任务模型调整到新设置中。然而,现有的MedVLP方法在数据集、预处理和微调实现方面常常存在差异。这在评估MedVLP方法在各种临床相关任务中的泛化能力时带来了巨大挑战,因为缺乏统一、标准化和全面的基准。为填补这一空白,我们提出了BenchX,一个统一的基准框架,可以使用公共胸部X射线数据集进行MedVLP方法之间的对比和系统分析。具体而言,BenchX由三个组成部分组成:1)涵盖九个数据集和四个医学任务的全面数据集;2)基准套件,用于标准化数据预处理、训练-测试分割和参数选择;3)统一的微调协议,可容纳异构的MedVLP方法,以在分类、分割和报告生成等方面实现一致的任务适应。利用BenchX,我们为九种最先进的MedVLP方法建立了基线,并发现一些早期的MedVLP方法的性能可以提升,超越更近期的方法,促使重新审视MedVLP先前工作中的发展和结论。我们的代码可在https://github.com/yangzhou12/BenchX 上找到。
从单目视频中跟踪密集的3D运动仍然具有挑战性,特别是在追求长序列中像素级精度时。我们引入了一种名为\Approach 的新方法,能够高效地跟踪3D空间中的每个像素,实现整个视频的准确运动估计。我们的方法利用了联合全局-局部注意机制进行降分辨率跟踪,然后通过基于Transformer的上采样器实现高分辨率预测。与现有方法不同,这些方法受到计算效率低下或稀疏跟踪的限制,\Approach 在规模上提供了密集的3D跟踪,比以往方法运行速度快8倍,同时实现了最先进的准确性。此外,我们探讨了深度表示对跟踪性能的影响,并确定对数深度作为最佳选择。大量实验证明了\Approach 在多个基准测试中的优越性,在2D和3D密集跟踪任务中取得了新的最先进结果。我们的方法为需要在3D空间中进行细粒度、长期运动跟踪的应用提供了强大的解决方案。
在现实场景中,对于具有实体的代理来说,利用人类语言获取明确或隐含知识以进行学习任务是可取的。尽管最近取得了一些进展,但大多数先前的方法采用简单的低级指令作为语言输入,这可能无法反映自然的人类交流。如何整合丰富的语言使用以促进任务学习尚不清楚。为了解决这个问题,本文研究了不同类型的语言输入在促进强化学习(RL)实体代理中的作用。更具体地,我们考察了语言信息量的不同级别(即,对过去行为的反馈和对未来指导)以及多样性(即,语言表达的变化)如何影响代理学习和推理。基于四个RL基准的实证结果表明,接受多样化和信息丰富的语言反馈训练的代理能够实现增强的泛化能力,并快速适应新任务。这些发现突显了语言在教导具有实体的代理在开放世界中学习新任务中的关键作用。项目网站:https://github.com/sled-group/Teachable_RL
本文研究了一种新颖的损失压缩框架,其在对数损失下运行,旨在处理重建分布与源分布不一致的情况。该框架特别适用于需要联合压缩和检索的应用程序,以及涉及由于处理而导致分布偏移的场景。我们展示了所提出的公式通过集成瓶颈扩展了经典的最小熵耦合框架,从而允许在耦合中控制一定程度的随机性。我们探讨了最小熵耦合与瓶颈(MEC-B)的分解为两个不同的优化问题:编码器的熵约束信息最大化(EBIM)和解码器的最小熵耦合(MEC)。通过广泛的分析,我们提供了一种具有保证性能的贪婪算法用于EBIM,并表征了在功能映射附近的最优解,为这一问题的结构复杂性提供了重要的理论见解。此外,我们通过在速率限制下的马尔可夫编码游戏(MCGs)中的实验展示了MEC-B的实际应用。这些游戏模拟了马尔可夫决策过程中的通信场景,其中一个代理必须通过其动作将压缩消息从发送方传输到接收方。我们的实验突显了在各种压缩率下MDP奖励和接收方准确性之间的权衡,展示了我们的方法相对于传统压缩基准的有效性。
随着预训练语言模型的出现,特别是对这些模型的缩放规律的发现,对大型文本语料库的需求日益增加。大多数现有语料库仅具有足够的数据,适用于拥有庞大主导社区的语言。然而,目前尚无可用的语料库同时满足以下条件:(i)覆盖广泛的少数语言;(ii)由开源可重现的流程生成;以及(iii)经过严格清理,去除噪音,使其可靠可用。我们提出了GlotCC,这是一个干净的、文档级别的、2TB通用领域语料库,源自CommonCrawl,涵盖1000多种语言。我们向研究社区提供了GlotCC及用于生成它的系统,包括流程、语言识别模型和过滤器。语料库版本1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1,流程版本3.0 https://github.com/cisnlp/GlotCC。