每日精选AI研究论文及翻译
本文介绍了SaulLM-54B和SaulLM-141B,这是专为法律领域定制的两个大型语言模型(LLMs)。这两个模型分别具有540亿和1410亿参数的架构,基于Mixtral架构。SaulLM-54B和SaulLM-141B的开发受大规模领域自适应的指导,分为三个策略:(1)利用持续预训练,包括超过5400亿法律标记的基础语料库,(2)实施专门的法律指令遵循协议,以及(3)将模型输出与法律解释中的人类偏好进行对齐。在第二和第三步中整合合成生成的数据增强了模型在解释和处理法律文本方面的能力,有效地实现了最先进的性能,并在LegalBench-Instruct上胜过了先前的开源模型。本研究探讨了在这一规模上涉及的领域特定自适应的权衡,提供了可能对使用强解码器模型进行领域自适应的未来研究提供见解。在SaulLM-7B的基础上,本研究完善了这一方法,以生成一个更适合法律任务的LLM。我们在MIT许可下发布了SaulLM-54B和SaulLM-141B的基础、指令和对齐版本,以促进重复使用和协作研究。
主要抑郁障碍(MDD)是一种普遍存在的精神健康状况,影响全球3亿人。本研究提出了一种新颖的基于BiLSTM的三模态模型级融合架构,用于从临床访谈录音中对抑郁进行二元分类。所提出的架构结合了梅尔频率倒谱系数、面部动作单位,并使用基于两阶段学习的GPT-4模型来处理文本数据。这是首个将大型语言模型纳入多模态架构进行此任务的研究。它在DAIC-WOZ AVEC 2016挑战赛交叉验证分割和Leave-One-Subject-Out交叉验证分割上取得了令人印象深刻的成果,超过了所有基准模型和多个最先进模型。在Leave-One-Subject-Out测试中,准确率达到91.01%,F1分数为85.95%,精确度为80%,召回率为92.86%。
大型语言模型(LLMs)展现出在各种任务上的显著能力,然而它们的发展主要集中在高资源语言如英语和中文,导致低资源语言得不到充分的支持。为了解决这种不平等,我们提出了SeaLLMs 3,这是SeaLLMs模型系列的最新版本,专为东南亚语言定制。这个地区以其丰富的语言多样性而闻名,却缺乏足够的语言技术支持。SeaLLMs 3的目标是通过涵盖该地区使用的一系列语言,包括英语、中文、印尼语、越南语、泰语、他加禄语、马来语、缅甸语、高棉语、老挝语、泰米尔语和爪哇语,来弥合这一差距。利用高效的语言增强技术和特别构建的指导调整数据集,SeaLLMs 3显著降低了训练成本,同时保持高性能和多功能性。我们的模型在世界知识、数学推理、翻译和指令遵循等任务中表现出色,达到了同等规模模型中的最先进性能。此外,我们优先考虑了安全性和可靠性,解决了通用和文化特定考虑,并加入了减少幻觉的机制。这项工作强调了包容性人工智能的重要性,表明先进的LLM能力可以惠及被忽视的语言和文化社区。
视频扩散模型在各种视频生成应用中取得了显著进展。然而,为长视频生成任务训练模型需要大量的计算和数据资源,这对开发长视频扩散模型构成了挑战。本文研究了一种简单且无需训练的方法,用于扩展现有的短视频扩散模型(例如,在16帧视频上预训练)以实现一致的长视频生成(例如,128帧)。我们的初步观察发现,直接将短视频扩散模型应用于生成长视频可能导致严重的视频质量下降。进一步的研究表明,这种下降主要是由于长视频中高频组件的失真所致,其特征是空间高频组件减少,而时间高频组件增加。受此启发,我们提出了一种名为FreeLong的新颖解决方案,用于在去噪过程中平衡长视频特征的频率分布。FreeLong将全局视频特征的低频组件(涵盖整个视频序列)与局部视频特征的高频组件(聚焦于较短的帧子序列)相融合。这种方法既保持了全局一致性,又融入了来自局部视频的多样且高质量的时空细节,增强了长视频生成的一致性和保真度。我们在多个基础视频扩散模型上评估了FreeLong,并观察到了显著的改进。此外,我们的方法支持连贯的多提示生成,确保视觉连贯性和场景之间的无缝过渡。
基于视觉的机器人策略学习将视觉输入映射到动作,需要对多样化的视觉任务有全面的理解,超越了单一任务需求,如分类或分割。受此启发,我们引入了Theia,这是一个用于机器人学习的视觉基础模型,它提炼了在不同视觉任务上训练过的多个现成视觉基础模型。Theia的丰富视觉表示编码了多样化的视觉知识,增强了下游机器人学习。大量实验证明,Theia在使用更少的训练数据和更小的模型尺寸的情况下优于其教师模型和先前的机器人学习模型。此外,我们量化了预训练视觉表示的质量,并假设特征范数分布中的较高熵会导致改善的机器人学习性能。代码和模型可在https://github.com/bdaiinstitute/theia获取。
信息搜索和整合是一项复杂的认知任务,耗费大量时间和精力。受到大型语言模型(LLMs)的显著进展的启发,最近的研究尝试通过将LLMs和搜索引擎结合来解决这一任务。然而,由于三个挑战,这些方法仍然表现不佳:(1)复杂请求通常无法被搜索引擎准确完整地检索,(2)要整合的相应信息分布在多个网页上,伴随着大量噪音,(3)大量内容较长的网页可能很快超出LLMs的最大上下文长度。受到人类解决这些问题时的认知过程的启发,我们引入MindSearch来模仿人类在网络信息搜索和整合中的思维,这可以通过一个简单而有效的基于LLMs的多智能体框架来实现。WebPlanner将多步信息搜索的人类思维建模为动态图构建过程:它将用户查询分解为图中的原子子问题节点,并根据WebSearcher的搜索结果逐步扩展图。WebSearcher负责每个子问题,通过搜索引擎进行分层信息检索,并为WebPlanner收集有价值的信息。MindSearch的多智能体设计使整个框架能够在3分钟内并行地从更大规模(例如超过300个)的网页中搜索和整合信息,相当于人类3小时的努力。MindSearch在深度和广度方面在封闭集和开放集QA问题上显著提高了响应质量。此外,基于InternLM2.5-7B的MindSearch的响应被人类更偏好于ChatGPT-Web和Perplexity.ai应用,这意味着MindSearch已经能够为专有AI搜索引擎提供具有竞争力的解决方案。
最近大型语言模型(LLMs)的进展增加了对全面基准的需求,以评估它们作为类人代理的能力。现有的基准虽然有用,但通常侧重于特定应用场景,强调任务完成,但未能剖析驱动这些结果的基本技能。这种缺乏细致度使得深入辨别失败原因变得困难。此外,设置这些环境需要相当大的努力,尤其是在交互任务中,有时会出现不可靠性和可重现性问题。为了解决这些限制,我们引入了 Massive Multitask Agent Understanding(MMAU)基准,包括全面的离线任务,消除了复杂环境设置的需求。它评估了模型在五个领域的表现,包括工具使用、有向无环图(DAG)问答、数据科学和机器学习编码、比赛级编程和数学,并涵盖了五个基本能力:理解、推理、规划、解决问题和自我纠正。MMAU共包含20个精心设计的任务,涵盖了超过3K个不同提示,为评估LLM代理的优势和局限性提供了全面的框架。通过在MMAU上测试18个代表性模型,我们提供了深入而有见地的分析。最终,MMAU不仅揭示了LLM代理的能力和局限性,还增强了其性能的可解释性。MMAU的数据集和评估脚本发布在 https://github.com/apple/axlearn/docs/research/mmau。
对比语言-图像预训练(CLIP)擅长在跨领域和模态之间抽象开放世界表示,已成为各种视觉和多模态任务的基础。然而,最近的研究揭示了CLIP存在严重的视觉缺陷,几乎无法区分方向、数量、颜色、结构等。这些视觉缺陷也限制了构建在CLIP基础上的多模态大语言模型(MLLMs)的感知能力。主要原因可能是用于训练CLIP的图像-文本对在本质上存在偏见,因为文本的独特性和图像的多样性不足。在这项工作中,我们提出了一种简单的后训练方法,用于通过自监督扩散过程在很大程度上克服CLIP的视觉缺陷。我们介绍了DIVA,它将扩散模型作为CLIP的视觉助手。具体来说,DIVA利用文本到图像扩散模型的生成反馈来优化CLIP表示,只使用图像(没有相应文本)。我们证明DIVA提高了CLIP在具有挑战性的MMVP-VLM基准上的性能,该基准在很大程度上评估了细粒度视觉能力(例如,3-7%),并增强了MLLMs和视觉模型在多模态理解和分割任务上的性能。对29个图像分类和检索基准的广泛评估证实了我们的框架保留了CLIP强大的零样本能力。代码将在https://github.com/baaivision/DIVA 上提供。
视觉媒体(图像和视频)自然包含大量信息冗余,因此提供了在处理中提高效率的绝佳机会。虽然基于视觉Transformer(ViT)的模型能够有效扩展到大数据范畴,但它们未能充分利用这种固有冗余,导致更高的计算成本。专家混合(MoE)网络展示了可扩展性,同时保持相同的推理时间成本,但它们具有更大的参数占用量。我们提出了嵌套专家混合(MoNE),它利用专家的嵌套结构,其中各个专家落在逐渐增加的计算-准确性曲线上。在给定计算预算的情况下,MoNE学会动态选择以优先顺序处理令牌,因此冗余令牌通过更便宜的嵌套专家进行处理。利用这一框架,我们实现了与基准模型相当的性能,同时将推理时间的计算量减少了一倍以上。我们在标准图像和视频数据集上验证了我们的方法 - ImageNet-21K、Kinetics400和Something-Something-v2。我们进一步强调了MoNE的适应性,展示了它在视频上在不同推理时间计算预算下保持强大性能的能力,仅使用单个训练模型。
数学推理任务的语言模型(LMs)的有效训练需要高质量的监督微调数据。除了从人类专家那里获得注释之外,一个常见的替代方法是从更大更强大的LMs中抽样。然而,这种知识蒸馏方法可能成本高且不稳定,特别是当依赖像GPT-4这样的闭源专有LMs时,其行为常常难以预测。在这项工作中,我们展示了通过自训练可以增强小规模LMs的推理能力,这是一种模型从自身输出中学习的过程。我们还表明,传统的自训练可以通过一种称为直接偏好优化(DPO)的偏好学习算法进一步增强。通过将DPO整合到自训练中,我们利用偏好数据来引导LMs朝着更准确和多样化的思维链推理。我们使用不同的基础模型在各种数学推理任务上评估了我们的方法。我们的实验证明,与依赖大型专有LMs相比,这种方法不仅提高了LMs的推理性能,而且提供了一种更具成本效益和可扩展性的解决方案。
最近的3D大型重建模型通常采用两阶段过程,首先通过多视角扩散模型生成多视角图像,然后利用前馈模型将图像重建为3D内容。然而,多视角扩散模型经常会产生质量低下且不一致的图像,从而对最终3D重建的质量产生不利影响。为解决这一问题,我们提出了一个统一的3D生成框架称为Cycle3D,该框架在多步扩散过程中循环利用基于2D扩散的生成模块和前馈3D重建模块。具体而言,2D扩散模型用于生成高质量纹理,而重建模型则保证多视角一致性。此外,2D扩散模型可以进一步控制生成的内容,并为未见视角注入参考视角信息,从而增强在去噪过程中3D生成的多样性和纹理一致性。大量实验证明,与最先进的基准方法相比,我们的方法能够以高质量和一致性创建3D内容。
想象观察到有人挠胳膊;要理解其原因,需要额外的背景信息。然而,如果附近发现了一只蚊子,立即就能为这人的不适提供一个可能的解释,从而减轻了进一步信息的需求。这个例子说明了微妙的视觉线索如何挑战我们的认知能力,并展示了解释视觉场景的复杂性。为了研究这些技能,我们提出了“视觉谜题”,这是一个旨在测试视觉和语言模型在需要常识和世界知识的视觉谜题上的基准。该基准包括400个视觉谜题,每个谜题都包含一个由各种文本到图像模型创建的独特图像、问题、地面真实答案、文本提示和归因。人类评估表明,现有模型明显落后于人类表现,人类表现的准确率为82%,Gemini-Pro-1.5领先,准确率为40%。我们的基准配备了自动评估任务,以使评估具有可扩展性。这些发现强调了“视觉谜题”作为一个有价值的资源,可以增强视觉和语言模型在解释复杂视觉场景方面的能力。
3D多模态问答(MQA)在场景理解中发挥关键作用,使智能体能够在3D环境中理解周围环境。虽然现有研究主要集中在室内家庭任务和室外道路自主驾驶任务上,但对于城市级别场景理解任务的探索有限。此外,现有研究在理解城市场景方面面临挑战,因为缺乏城市级别的空间语义信息和人-环境交互信息。为了解决这些挑战,我们从数据集和方法两个角度研究3D MQA。从数据集角度,我们引入了一个名为City-3DQA的新颖3D MQA数据集,用于城市级别场景理解,这是第一个在城市中融入场景语义和人-环境交互任务的数据集。从方法角度,我们提出了一种名为场景图增强城市级理解方法(Sg-CityU),利用场景图引入空间语义。我们报告了一个新的基准,我们提出的Sg-CityU在City-3DQA的不同设置中分别达到了63.94%和63.76%的准确率。与室内3D MQA方法和使用先进大型语言模型(LLMs)的零样本相比,Sg-CityU在鲁棒性和泛化性能方面展现出最先进的表现。
古典阿拉伯语代表了一个重要的时代,涵盖了阿拉伯文化、哲学和科学文学的黄金时期。对于将这些文学作品翻译成丰富知识传播跨社区的重要性有着广泛共识,大型语言模型(LLMs)和翻译系统的出现提供了有希望的工具来促进这一目标的实现。然而,我们发现古典阿拉伯语的翻译数据集稀缺,通常在范围和主题上受限,阻碍了高质量翻译系统的发展。作为回应,我们提出了ATHAR数据集,包括了6.6万个高质量的古典阿拉伯语到英语的翻译样本,涵盖了科学、文化和哲学等广泛领域。此外,我们评估了当前最先进的LLMs在不同设置下的性能,得出结论当前系统需要这样的数据集。我们的研究结果突显了模型如何可以从微调或将该数据集纳入其预训练流程中受益。该数据集可以在HuggingFace Data Hub上公开获取,链接为https://huggingface.co/datasets/mohamed-khalil/ATHAR。
大型语言模型(LLMs)正在许多领域迅速超越人类知识。虽然传统上改进这些模型依赖于昂贵的人类数据,但最近的自我奖励机制(Yuan等,2024年)表明,LLMs可以通过评判自己的响应来改进,而不是依赖于人类标注者。然而,现有方法主要集中在改进模型响应而非判断能力上,导致在迭代训练过程中迅速饱和。为解决这一问题,我们引入了一个新颖的元奖励步骤到自我改进过程中,模型评判自己的判断并利用该反馈来完善其判断技能。令人惊讶的是,这种无监督方法提高了模型判断和遵循指令的能力,如Llama-3-8B-Instruct在AlpacaEval 2上的胜率从22.9%提高到39.4%,在Arena-Hard上从20.6%提高到29.1%。这些结果强烈暗示了无需人类监督即可实现自我改进模型的潜力。
生成模型,如扩散模型(DMs),变分自动编码器(VAEs)和生成对抗网络(GANs),能够生成具有接近真实照片和艺术作品水准的图像。尽管这种能力对许多行业都有益,但识别合成图像的困难使在线媒体平台容易受到冒充和误导的攻击。为了支持防御方法的发展,我们引入了ImagiNet,这是一个用于合成图像检测的高分辨率和平衡数据集,旨在减轻现有资源中潜在的偏见。该数据集包含20万个示例,涵盖四个内容类别:照片、绘画、人脸和未分类。合成图像是使用开源和专有生成器生成的,而相同内容类型的真实对应图像则来自公共数据集。ImagiNet的结构允许建立一个双轨评估系统:i)分类为真实或合成图像,ii)识别生成模型。为建立基准,我们针对每个轨道使用自监督对比目标(SelfCon)训练了一个ResNet-50模型。该模型在已建立的基准测试中表现出最先进的性能和高推理速度,实现了高达0.99的AUC和在86%至95%之间的平衡准确率,即使在涉及压缩和调整大小的社交网络条件下也是如此。我们的数据和代码可在https://github.com/delyan-boychev/imaginet 获取。
情感分析是自然语言处理(NLP)领域中一个广泛研究的领域,由于自动化解决方案的出现,它吸引了广泛的兴趣。尽管如此,由于语言的固有复杂性和情感的主观性,这项任务仍然具有挑战性。对于立陶宛语等较少研究和资源较少的语言来说,情况更加具有挑战性。我们对现有的立陶宛语NLP研究进行的审查表明,传统的机器学习方法和分类算法对这一任务的效果有限。在这项工作中,我们致力于处理来自多个领域的基于五星评级的立陶宛在线评论的情感分析,我们对其进行了收集和清洗。我们首次将变压器模型应用于这一任务,探索了预训练的多语言大型语言模型(LLMs)的能力,特别是着重于对BERT和T5模型进行微调。鉴于任务的固有困难性,经过微调的模型表现相当不错,特别是当情感本身不太模糊时:对于最受欢迎的一星和五星评论,测试识别准确率分别为80.74%和89.61%。它们明显优于当前商业最先进的通用LLM GPT-4。我们将我们的经过微调的LLMs公开分享在网上。
为个人创建逼真的头像传统上需要使用复杂昂贵的设备,如LightStage系统进行大量捕捉会话。尽管最近神经表示方面取得了进展,使得可以从快速手机扫描生成逼真且可动画的3D头像,但这些头像在捕捉时的光照已固定,缺乏面部细节,并且在耳朵后方等区域存在缺失。因此,它们在质量上不及工作室捕捉的头像。在本文中,我们提出了一种方法,通过从短暂的单眼手机捕捉生成类似工作室的照明纹理贴图,以弥合这一差距。我们通过使用StyleGAN2的W^+空间对手机纹理贴图进行参数化,实现接近完美的重建。然后,我们通过对W^+参数化空间进行采样,使用少量工作室捕捉的纹理作为对抗性训练信号,对StyleGAN2进行微调。为了进一步增强面部细节的逼真度和准确性,我们通过精心设计的扩散模型对StyleGAN2的输出进行超分辨率处理,该模型受手机捕捉的纹理贴图的图像梯度引导。一旦训练完成,我们的方法在从普通单眼智能手机视频中生成类似工作室的面部纹理贴图方面表现出色。展示了其能力,我们展示了从单眼手机捕捉生成逼真、均匀照明、完整头像的生成过程。您可以在此处找到项目页面:http://shahrukhathar.github.io/2024/07/22/Bridging.html。
我们提出了一种新方法,用于独立于角色形态和骨骼结构的情况下理解运动数据集的周期性结构和语义。与现有方法使用过于稀疏的高维潜变量不同,我们提出了一个包含多个闭合曲线的相位流形,每个曲线对应一个潜在振幅。通过我们提出的矢量量化周期自动编码器,我们学习了一个共享的相位流形,适用于多个角色,如人类和狗,而无需任何监督。这是通过利用离散结构和浅层网络作为瓶颈来实现的,从而使语义上相似的运动被聚类到流形的同一曲线中,并且同一组件内的运动通过相位变量在时间上对齐。结合改进的运动匹配框架,我们展示了该流形在多个应用中进行时间和语义对齐的能力,包括运动检索、转移和风格化。本文的代码和预训练模型可在https://peizhuoli.github.io/walkthedog 上找到。
领域泛化是深度学习模型的一个关键方面,因为它决定了模型在未见领域数据上表现良好的能力。然而,针对视觉-语言任务的深度学习模型领域泛化的研究仍然有限,主要是因为缺乏所需的数据集。为了解决这些挑战,我们提出了VolDoGer:用于领域泛化的视觉-语言数据集,这是一个专门设计用于领域泛化的数据集,涵盖图像字幕生成、视觉问答和视觉蕴涵三个视觉-语言任务。我们通过将基于LLM的数据注释技术扩展到视觉-语言任务,构建了VolDoGer,从而减轻了招募人类标注者的负担。我们通过VolDoGer评估了各种模型的领域泛化能力,这些模型包括微调模型和最近的多模态大型语言模型。
本文介绍了TAPTRv2,这是基于TAPTR构建的一种基于Transformer的方法,用于解决跟踪任意点(TAP)任务。TAPTR借鉴了DEtection TRansformer(DETR)的设计,并将每个跟踪点形式化为一个点查询,从而可以利用DETR类算法中经过深入研究的操作。TAPTRv2通过解决一个关于其依赖成本体积的关键问题来改进TAPTR,这种依赖会污染点查询的内容特征,并对可见性预测和成本体积计算产生负面影响。在TAPTRv2中,我们提出了一种新颖的基于注意力的位置更新(APU)操作,并使用键感知可变注意力来实现。对于每个查询,该操作使用键感知注意力权重来组合它们对应的可变采样位置,以预测一个新的查询位置。这种设计基于这样一个观察:局部注意力本质上与成本体积相同,两者都是通过查询与周围特征之间的点积计算得出的。通过引入这种新操作,TAPTRv2不仅消除了成本体积计算的额外负担,还实现了显著的性能改进。TAPTRv2超越了TAPTR,在许多具有挑战性的数据集上实现了最先进的性能,展示了其优越性。