每日精选AI研究论文及翻译
大推理模型(LRMs)如OpenAI-o1已经通过大规模强化学习展示了令人印象深刻的长步骤推理能力。然而,它们的延伸推理过程经常因知识不足而遭受频繁的不确定性和潜在错误。为了解决这一局限性,我们引入了Search-o1,这是一个框架,通过一个带有检索增强生成(RAG)机制和一个用于细化检索文档的文档内推理模块,增强了LRMs。Search-o1将主动检索工作流程整合到推理过程中,使LRMs在遇到不确定的知识点时能够动态检索外部知识。此外,由于检索文档的冗长性质,我们设计了一个单独的文档内推理模块,在将其注入推理链之前深入分析检索到的信息,以最小化噪音并保持连贯的推理流程。在科学、数学和编码的复杂推理任务以及六个开放领域问答基准测试上进行的大量实验表明了Search-o1的强大性能。这种方法增强了LRMs在复杂推理任务中的可信度和适用性,为更可靠和多功能的智能系统铺平了道路。代码可在https://github.com/sunnynexus/Search-o1找到。
有一种广泛流传的说法认为生成对抗网络(GANs)难以训练,文献中的GAN架构充斥着经验性技巧。我们提供证据反驳这一说法,并以更加原则性的方式构建了现代GAN基准线。首先,我们推导出一个行为良好的正则化相对论GAN损失,解决了以往通过一堆临时技巧来应对的模式丢失和不收敛问题。我们对我们的损失进行数学分析,并证明它具有局部收敛保证,这与大多数现有的相对论损失不同。其次,我们的新损失使我们能够放弃所有临时技巧,并用现代架构替换常见GAN中使用的过时骨干结构。以StyleGAN2为例,我们提出了一种简化和现代化的路线图,形成了一种新的极简基准线——R3GAN。尽管简单,我们的方法在FFHQ、ImageNet、CIFAR和Stacked MNIST数据集上均超越了StyleGAN2,并且与最先进的GAN和扩散模型相比表现优异。
本文探讨了如何使大型语言模型(LLMs)更加接近人类的进展。我们关注增强人工智能系统中自然语言理解、对话连贯性和情感智能的技术。研究评估了各种方法,包括利用多样化数据集进行微调、融入心理学原理,以及设计更好模拟人类推理模式的模型。我们的研究结果表明,这些改进不仅提高了用户交互体验,还为人工智能在不同领域的应用开辟了新的可能性。未来的工作将解决这些人类化特征引入的伦理影响和潜在偏见。
我们通过实证研究来自视频的自回归预训练。为了进行我们的研究,我们构建了一系列自回归视频模型,称为Toto。我们将视频视为视觉标记序列,并训练变压器模型自回归地预测未来的标记。我们的模型在包含超过1万亿视觉标记的多样化视频和图像数据集上进行了预训练。我们探索了不同的架构、训练和推断设计选择。我们在一系列下游任务上评估了学习到的视觉表示,包括图像识别、视频分类、物体跟踪和机器人技术。我们的结果表明,尽管具有最少的归纳偏差,自回归预训练在所有基准测试中都表现出竞争力。最后,我们发现,扩展我们的视频模型会导致类似于语言模型中所见的扩展曲线,尽管增长速率不同。更多详细信息请参阅https://brjathu.github.io/toto/。
最近视觉语言模型(VLMs)的进展引起了人们对其在自动驾驶中的应用的兴趣,特别是通过自然语言生成可解释的驾驶决策。然而,认为VLMs固有地提供视觉上有根据、可靠和可解释的驾驶解释的假设仍然未经充分检验。为了弥补这一空白,我们引入了DriveBench,一个基准数据集,旨在评估VLM在17个设置(清晰、损坏和仅文本输入)中的可靠性,包括19,200帧、20,498个问答对、三种问题类型、四种主流驾驶任务以及共计12种热门VLMs。我们的研究结果显示,VLMs通常生成的合理回答源自于一般知识或文本线索,而非真正的视觉基础,特别是在受损或缺失视觉输入的情况下。这种行为被数据集不平衡和评估指标不足所掩盖,对于像自动驾驶这样的安全关键场景构成了重大风险。我们进一步观察到,VLMs在多模态推理方面存在困难,并且对输入损坏表现出更高的敏感性,导致性能的不一致性。为了解决这些挑战,我们提出了精细化的评估指标,重视稳健的视觉基础和多模态理解。此外,我们强调利用VLMs对损坏的感知潜力,以增强它们的可靠性,为在真实世界的自动驾驶环境中开发更值得信赖和可解释的决策系统提供了路线图。该基准工具包是公开可访问的。
迄今为止,大多数大规模视觉-语言模型(LVLMs)主要在英语数据上进行训练,这使它们难以理解非英语输入并无法生成所需目标语言的输出。现有的努力通过添加多语言训练数据来缓解这些问题,但这种做法在很大程度上是临时的,缺乏对不同训练组合如何影响不同语言群体的洞察。在这项工作中,我们对大规模多语言LVLMs的训练策略进行了全面调查。首先,我们进行了一系列跨越13个下游视觉-语言任务和43种语言的多阶段实验,系统地研究:(1)可以包含多少训练语言而不降低英语性能,以及(2)预训练的最佳语言分布以及(3)指导微调数据。此外,我们(4)研究了如何改进多语言文本-图像理解,并引入了该任务的新基准。令人惊讶的是,我们的分析显示,可以(i)同时包含多达100种训练语言(ii),只需25-50\%的非英语数据,就能大大提高多语言性能,同时保持强大的英语性能。我们进一步发现,(iii)在预训练和指导微调中包含非英语OCR数据对于改进多语言文本-图像理解至关重要。最后,我们将所有发现汇总,并训练了Centurio,一个包含100种语言的LVLM,在涵盖14个任务和56种语言的评估中提供了最先进的性能。
大型语言模型(LLMs)展现出在各种复杂任务上的显著熟练度。LLMs的一个重要应用是解决软件工程挑战,特别是通过修复基于用户报告的问题来解决GitHub上的实际任务。然而,许多当前方法依赖于专有LLMs,这限制了可重现性、可访问性和透明性。LLMs在解决软件工程问题中的关键组成部分以及如何有效增强其能力仍不清楚。为了解决这些挑战,我们引入了SWE-Fixer,这是一个新颖的开源LLM,旨在有效高效地解决GitHub问题。SWE-Fixer包括两个关键模块:一个代码文件检索模块和一个代码编辑模块。检索模块采用BM25和一个轻量级LLM模型实现粗到细的文件检索。随后,代码编辑模块利用另一个LLM模型为识别的文件生成补丁。然后,为了缓解公开可用数据集的缺乏,我们编制了一个包括11万个GitHub问题及其相应补丁的广泛数据集,并分别训练了SWE-Fixer的两个模块。我们在SWE-Bench Lite和Verified基准上评估了我们的方法,在开源模型中取得了23.3%和30.2%的最先进性能得分。这些结果突显了我们方法的功效。我们将在https://github.com/InternLM/SWE-Fixer 上公开提供我们的模型、数据集和代码。
最近,视觉自回归(VAR)模型在图像生成领域引入了一项突破性进展,通过粗到精的“下一尺度预测”范式提供了一种可扩展的方法。然而,VAR模型在[Tian, Jiang, Yuan, Peng和Wang,NeurIPS 2024]中的最新算法需要O(n^4)的时间,这在计算上效率低下。在这项工作中,我们通过细粒度复杂度视角分析了VAR模型的计算限制和效率标准。我们的主要贡献是确定了VAR计算可以实现次二次时间复杂度的条件。具体而言,我们建立了用于VAR注意机制中输入矩阵范数的临界阈值。在超过此阈值时,假设来自细粒度复杂度理论的强指数时间假设(SETH),VAR模型的次四次时间算法是不可能的。为了证实我们的理论发现,我们提出了利用与推导标准一致的低秩逼近的高效构造。这项工作从理论角度开始研究VAR模型的计算效率。我们的技术将有助于推动VAR框架中可扩展且高效的图像生成。
专有语言模型的普及引发了关键的隐私问题,迫使隐私推理(PI)取得进展,其中计算直接在加密数据上执行,而不会泄露用户的敏感信息。虽然PI提供了一个有前途的解决方案,但其实际部署受到了大量通信和延迟开销的阻碍,主要源自非线性操作。为了解决这个问题,我们引入了一个信息论框架,用于表征解码器专用语言模型中非线性的作用,为优化适应PI需求的Transformer架构奠定了基础。 通过利用香农熵作为定量衡量标准,我们揭示了以前未曾探索的非线性的双重重要性:除了确保训练稳定性外,它们对于保持注意力头多样性至关重要。具体而言,我们发现它们的移除会触发两种关键的失败模式:深层中的“熵坍塌”会破坏训练稳定性,而早期层中的“熵过载”会导致多头注意力(MHA)表示能力的未充分利用。 我们提出了一个以熵为导向的注意力机制,配合一种新颖的熵正则化技术,以减轻熵过载。此外,我们探讨了适用于PI的替代层归一化方法,用于防止熵坍塌并稳定具有减少非线性的LLM的训练。我们的研究弥合了信息论与架构设计之间的差距,将熵动态确立为开发高效PI架构的原则指南。代码和实现可在https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}找到。
本文介绍了历史土耳其语自然语言处理(NLP)的基础资源和模型,这是计算语言学领域中尚未充分探索的领域。我们提出了第一个命名实体识别(NER)数据集 HisTR 和第一个通用依存树库 OTA-BOUN,用于土耳其语历史形式的转换器模型训练,这些模型用于命名实体识别、依存句法分析和词性标注任务。此外,我们介绍了奥斯曼文本语料库(OTC),这是一个干净的转录历史土耳其文本语料库,涵盖了广泛的历史时期。我们的实验结果显示,在历史土耳其语的计算分析方面取得了显著进展,在需要理解历史语言结构的任务中取得了令人期待的结果。它们还突出了现有的挑战,如领域适应和不同历史时期的语言变化。所有提出的资源和模型都可在 https://huggingface.co/bucolin 上获取,以成为历史土耳其语NLP未来进展的基准。