每日精选AI研究论文及翻译
在传统的RAG框架中,基本的检索单元通常很短。常见的检索器如DPR通常使用包含100个词的维基百科段落。这样的设计迫使检索器在大语料库中搜索以找到“针”单元。相比之下,读者只需要从短检索单元中提取答案。这种不平衡的“重型”检索器和“轻型”读者设计可能导致次优性能。为了缓解这种不平衡,我们提出了一个新框架LongRAG,由“长检索器”和“长读者”组成。LongRAG将整个维基百科处理成包含4K个标记的单元,比以前长30倍。通过增加单元大小,我们将总单元数量从22M减少到700K。这显著降低了检索器的负担,从而导致显著的检索分数提升:在NQ上,答案召回率@1=71%(之前为52%),在HotpotQA(全维基)上,答案召回率@2=72%(之前为47%)。然后我们将前k个检索到的单元(约30K个标记)馈送给现有的长上下文LLM来进行零样本答案提取。在不需要任何训练的情况下,LongRAG在NQ上实现了62.7%的EM,这是已知的最佳结果。LongRAG还在HotpotQA(全维基)上实现了64.3%,与SoTA模型持平。我们的研究为将RAG与长上下文LLMs相结合的未来路线提供了见解。
LLM作为评判者范式为解决与人类评估相关的可扩展性挑战提供了一种有前途的解决方案,迅速成为评估大型语言模型(LLMs)的一种方法。然而,关于这种范式的优势和劣势以及可能存在的潜在偏见仍有许多未解之谜。在本文中,我们对各种LLM作为评判者的表现进行了全面研究。我们利用TriviaQA作为评估LLM客观知识推理能力的基准,并将它们与我们发现具有较高互评者一致性的人类注释进行评估。我们的研究包括9个评判者模型和9个考生模型,包括基础模型和指导调整模型。我们评估了评判者模型在不同模型大小、系列和评判提示下的一致性。在其他结果中,我们的研究重新发现了使用Cohen's kappa作为一致性度量标准的重要性,而不是简单的百分比一致性,表明高百分比一致性的评判者仍可能给出截然不同的分数。我们发现Llama-3 70B和GPT-4 Turbo与人类的一致性非常好,但在排名考生模型方面,它们被JudgeLM-7B和词汇评判者Contains超越,后者的人类一致性低至34分。通过错误分析和其他各种研究,包括指导长度和宽容偏见的影响,我们希望为未来在使用LLM作为评判者时提供宝贵的经验教训。
视频内容创作者需要高效的工具来重新利用内容,这通常需要复杂的手动或自动搜索。从大型视频库中制作新视频仍然是一个挑战。在本文中,我们介绍了视频库问答(VLQA)任务,通过一个可互操作的架构,将检索增强生成(RAG)应用于视频库。我们提出了一个系统,利用大型语言模型(LLMs)生成搜索查询,检索由语音和视觉元数据索引的相关视频片段。然后,一个答案生成模块将用户查询与这些元数据集成,生成带有特定视频时间戳的响应。这种方法在多媒体内容检索和AI辅助视频内容创作方面显示出潜力。
尽管Transformers被广泛用于自然语言处理任务,尤其是机器翻译,但它们缺乏明确的记忆来存储已处理文本的关键概念。本文探讨了在Transformer模型解码器中添加符号工作记忆内容的特性。这种工作记忆提升了模型在机器翻译任务中的预测质量,并作为神经符号化信息的表示,对模型进行正确翻译至关重要。记忆内容的研究揭示了翻译文本关键词被存储在工作记忆中,指向记忆内容与已处理文本相关性的重要性。此外,存储在记忆中的标记和词性的多样性与用于机器翻译任务的语料库复杂性相关。
近年来,视频生成取得了巨大进展。然而,自动视频评估指标的发展明显滞后。目前没有任何现有指标能够为生成的视频提供可靠的评分。主要障碍在于缺乏大规模的人工标注数据集。本文发布了VideoFeedback,这是第一个大规模数据集,包含对来自11个现有视频生成模型的37.6K个合成视频的人工提供的多方面评分。我们基于VideoFeedback训练了MantisScore(从Mantis初始化),以实现自动视频质量评估。实验表明,MantisScore与人类之间的Spearman相关性在VideoFeedback-test上可达到77.1,比先前最佳指标高出约50个百分点。在其他留置数据集EvalCrafter、GenAI-Bench和VBench上的进一步结果显示,MantisScore与人类评委的相关性始终比其他指标高得多。基于这些结果,我们相信MantisScore可以作为人类评分者的良好替代,用于(1)评估不同视频模型以跟踪进展,(2)在人类反馈强化学习(RLHF)中模拟细粒度的人类反馈,以改进当前的视频生成模型。
在自动评估检索增强生成(RAG)问答(QA)系统方面的挑战包括领域特定知识中的臆想问题以及公司内部任务缺乏黄金标准基准。这导致了在评估RAG变体(如RAG融合,RAGF)时遇到困难,尤其是在英飞凌技术公司的产品QA任务背景下。为解决这些问题,我们提出了一个全面的评估框架,利用大型语言模型(LLMs)生成基于真实用户查询和领域内文档的大型合成查询数据集,利用LLM作为评判者对检索到的文档和答案进行评分,评估答案的质量,并使用RAGElo的自动Elo竞赛对检索增强生成(RAG)代理的不同变体进行排名。对一组合成查询的随机样本进行的LLM作为评判者的评分显示,在相关性、准确性、完整性和精确性方面与领域专家评分存在适度正相关。虽然RAGF在Elo分数上胜过RAG,但与专家注释的显著性分析也显示RAGF在完整性方面明显优于RAG,但在精确性方面表现不佳。此外,英飞凌的RAGF助手根据MRR@5分数显示在文档相关性方面表现略高。我们发现RAGElo与人类注释者的偏好保持一致,尽管仍需谨慎。最后,根据专家注释,RAGF的方法导致了更完整的答案,并根据RAGElo的评估标准提供了更好的答案。
文本到图像模型正变得越来越受欢迎,通过实现高度详细和创意的视觉内容生成,彻底改变了数字艺术创作的格局。这些模型已被广泛应用于各个领域,特别是在艺术生成领域,它们促进了广泛的创意表达,并使艺术创作变得更加民主化。在本文中,我们介绍了STYLEBREEDER,这是一个包含680万图像和180万提示的全面数据集,由Artbreeder上的95,000名用户生成,Artbreeder是一个拥有超过1300万用户的重要创意探索平台。我们利用这个数据集提出了一系列任务,旨在识别多样的艺术风格,生成个性化内容,并根据用户兴趣推荐风格。通过记录超越传统类别如“赛博朋克”或“毕加索”的独特用户生成风格,我们探讨了独特的、众包风格的潜力,这些风格可以深入洞察全球用户的集体创意心理。我们还评估了不同的个性化方法以增强艺术表达,并引入了一个风格图谱,将这些模型以LoRA格式提供给公众使用。我们的研究展示了文本到图像扩散模型揭示和推广独特艺术表达的潜力,进一步使AI在艺术中民主化,并促进更多元化和包容性的艺术社区。该数据集、代码和模型可在https://stylebreeder.github.io 下载,采用公共领域(CC0)许可。
基于事件的视觉因其高时间分辨率和高动态范围等独特特性而受到越来越多的关注。最近,它被用于视频超分辨率(VSR)以增强流估计和时间对齐。本文提出了一种新的VSR方法,名为EvTexture,该方法不是用于运动学习,而是利用事件信号进行纹理增强。EvTexture利用事件的高频细节更好地恢复VSR中的纹理区域。在EvTexture中,引入了一个新的纹理增强分支。我们进一步引入了一个迭代纹理增强模块,逐步探索高时间分辨率事件信息以进行纹理恢复。这使得在多次迭代中逐渐改进纹理区域,从而获得更准确丰富的高分辨率细节。实验结果表明,我们的EvTexture在四个数据集上实现了最先进的性能。对于具有丰富纹理的Vid4数据集,我们的方法与最近的基于事件的方法相比,可以获得高达4.67dB的增益。源代码:https://github.com/DachunKai/EvTexture。
LLM的广泛适用性和日益普及性引发了将LLM响应与用户和利益相关者偏好对齐的需求。已经提出了许多偏好优化方法,用于微调LLM参数以实现良好的对齐。然而,众所周知,这种参数调整会干扰模型在许多任务上的性能。此外,在这种情况下跟踪不断变化的用户偏好是棘手的。通过奖励模型指导的解码时间对齐解决了这些问题,但会增加推理时间。然而,大多数这类方法未能在探索和利用奖励之间取得合适的平衡,往往是由于这两个方面的混合表述,无法提供良好对齐的响应。为了解决这个问题,我们将这两个方面解耦,并以进化方式实现:探索通过从突变指令解码,利用则表示为定期用获得良好奖励的个体替换奖励较低的个体。实证证据表明,这种策略在两个广泛接受的对齐基准AlpacaEval 2和MT-Bench上优于许多偏好优化和解码时间对齐方法。我们的实现将在以下网址提供:https://darwin-alignment.github.io。
大型语言模型(LLMs)的广泛采用引发了人们对其安全性和可靠性的担忧,特别是对其易受敌对攻击的脆弱性。在本文中,我们提出了一种新颖的观点,将这种脆弱性归因于对齐过程中奖励错误规定。我们引入了一个度量标准 ReGap 来量化奖励错误规定的程度,并展示了它在检测有害后门提示方面的有效性和稳健性。基于这些见解,我们提出了 ReMiss,这是一个自动化红队系统,针对各种目标对齐的LLMs生成敌对提示。ReMiss 在 AdvBench 基准测试中实现了最先进的攻击成功率,同时保持了生成提示的人类可读性。详细分析突出了所提出的奖励错误规定目标相对于先前方法带来的独特优势。
尽管纯文本模型的情况有所改善,但目前似乎又出现了多模态(文本和图像)模型的发展速度快于评估方法的情况。在本文中,我们将最近发展起来的文本模型评估范式引入到多模态模型中,即通过目标导向游戏(自我)对抗来进行评估,以补充基于参考和基于偏好的评估。具体而言,我们定义了一些挑战模型从视觉信息中表示情境并通过对话对齐这些表示的游戏。我们发现,最大的封闭模型在我们定义的游戏中表现相当不错,而即使是最好的开放权重模型也很难应对。进一步分析后,我们发现最大模型异常出色的深度字幕能力推动了部分性能。对于这两种模型,仍有提升空间,确保基准的持续相关性。
语言模型在各种自然语言处理任务中展现了令人印象深刻的能力,但在需要多步模拟的规划任务中却遇到了困难。受人类认知过程启发,本文研究了能够构建给定环境认知地图的语言模型的最佳规划能力。我们的实验表明,认知地图显著提升了格子世界路径规划任务中最佳和可达规划生成能力的性能。我们观察到我们的方法展示了与人类认知相似的两个关键特征:将其规划能力泛化到外推环境以及在有限训练数据下快速适应。我们希望我们在格子世界任务中的发现能够为在语言模型中建模人类认知过程提供见解,潜在地促进更先进和更健壮系统的发展,使其更好地类似于人类认知。
虚拟现实和增强现实(VR/AR)技术的蓬勃发展推动了对高质量、沉浸式和动态环境创造的需求不断增加。然而,现有的生成技术要么仅专注于动态对象,要么从单一视角图像进行外延,未能满足VR/AR应用的需求。在这项工作中,我们致力于将单个全景提升为沉浸式的4D体验这一具有挑战性的任务。我们首次展示了生成具有360度视角的全方位动态场景的能力,分辨率为4K,从而提供沉浸式用户体验。我们的方法引入了一个流程,促进自然场景动画,并利用高效的点阵技术优化一组4D高斯模型,以实现实时探索。为了克服在全景格式中缺乏场景尺度标注的4D数据和模型,我们提出了一种新颖的全景去噪器,将通用的2D扩散先验调整为在360度图像中一致地生成动画,将其转化为具有目标区域动态场景的全景视频。随后,我们将全景视频提升为一个保持空间和时间一致性的4D沉浸式环境。通过将来自透视域的2D模型的先验知识转移到全景域和具有空间外观和几何正则化的4D提升,我们首次实现了(4096乘以2048)分辨率下高质量的全景到4D生成。请访问项目网站https://4k4dgen.github.io。
在开发大型语言模型(LLMs)时的不透明性引起了人们对预训练数据中可能污染公共基准的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这种方法可能过于肤浅,无法反映更深层次的污染形式。本文首先提出了一种跨语言形式的污染,通过在基准测试集的翻译版本上过度拟合LLMs,从而提高了LLMs的性能,同时避开了当前的检测方法。然后,我们提出了基于泛化的方法来揭示这种深藏的污染。具体而言,我们检查了将原始基准测试集中的错误答案选择替换为其他问题中的正确答案后,LLM的性能变化。受污染的模型几乎无法泛化到这种更容易的情况,其中错误选择甚至可能不是错误的,因为它们都正确地被记住了。实验结果表明,跨语言污染可以轻易愚弄现有的检测方法,但无法愚弄我们的方法。此外,我们讨论了在解释LLMs的工作机制和在后期训练LLMs以增强多语言能力方面,跨语言污染的潜在利用。我们使用的代码和数据集可从https://github.com/ShangDataLab/Deep-Contam 获取。
随着领域特定模型的大量出现,模型合并作为一组技术已经出现,它将多个模型的功能结合成一个可以多任务处理而无需额外训练成本的模型。在本文中,我们提出了一种新的模型合并技术,名为通过采样进行丢弃和重新缩放的DELTA-Merging(DELLA-Merging),它采用了一种新颖的修剪技术MAGPRUNE,相比DARE和TIES显示出显著优势。MAGPRUNE首先按照参数的大小顺序对参数进行排名,并为排名较低(对应较小幅度)的参数分配更高的丢失概率(p)。为了近似原始嵌入,MAGPRUNE通过在幸存的参数上进行重新缩放操作,缩放比例为1/(1 - p)。在考虑用于合并的三个不同专家模型(LM、Math、Code)和相应的基准数据集(AlpacaEval、GSM8K、MBPP)上,DELLA相比使用增量参数修剪的基准方法平均提高了2.4个点(比TIES提高了3.6个点,比DARE提高了1.2个点),相比不进行修剪的基准线(TA)提高了11.1个点。我们在以下网址发布源代码:https://github.com/declare-lab/della。
检索增强生成(RAG)代表了人工智能领域的重大进展,将检索阶段与生成阶段结合在一起,后者通常由大型语言模型(LLMs)驱动。目前RAG的常见做法涉及使用“指导型”LLMs,这些模型经过监督训练微调,以增强它们遵循指令的能力,并利用最先进的技术与人类偏好保持一致。与普遍看法相反,我们的研究表明,在我们的实验设置下,基础模型在RAG任务中的表现平均比经过指导的模型高出20%。这一发现挑战了人们对于RAG应用中指导型LLMs优越性的普遍假设。进一步的调查揭示了一个更加微妙的情况,质疑了RAG的基本方面,并建议对该主题进行更广泛的讨论;或者,正如弗洛姆所说,“很少有一个对统计数据的一瞥足以理解数字的含义”。
预测药物在体内的疗效和安全性需要关于生物反应(例如细胞形态和基因表达)对小分子干扰的信息。然而,当前的分子表示学习方法无法全面展示这些干扰下的细胞状态,并且难以消除噪音,从而阻碍模型的泛化能力。我们引入信息对齐(InfoAlign)方法,通过信息瓶颈方法在细胞中学习分子表示。我们将分子和细胞反应数据作为节点整合到上下文图中,根据化学、生物和计算标准使用加权边将它们连接起来。对于训练批次中的每个分子,InfoAlign通过最小化目标优化编码器的潜在表示,以丢弃冗余的结构信息。一个充分性目标解码表示,使其与上下文图中分子邻域的不同特征空间对齐。我们证明了所提出的对齐充分性目标比现有基于编码器的对比方法更紧密。在实证上,我们验证了来自InfoAlign的表示在两个下游任务中的有效性:针对四个数据集中高达19种基线方法的分子性质预测,以及零样本分子形态匹配。
我们提出了Ruby Teaming 方法,通过将内存缓存作为第三维度,改进了Rainbow Teaming。内存维度为变异器提供线索,以产生更高质量的提示,无论是在攻击成功率(ASR)还是质量多样性方面。Ruby Teaming 生成的提示存档具有74% 的 ASR,比基准线高出20%。在质量多样性方面,Ruby Teaming 在Shannon's Evenness Index(SEI)和Simpson's Diversity Index(SDI)上分别比 Rainbow Teaming 高出6% 和 3%。
基于视觉的驾驶策略基准测试具有挑战性。一方面,使用真实数据进行开环评估很容易,但这些结果并不反映闭环性能。另一方面,在模拟中进行闭环评估是可能的,但由于其巨大的计算需求,很难扩展。此外,当今可用的模拟器与真实数据存在较大的领域差距。这导致无法从快速增长的端到端自动驾驶研究成果中得出明确结论。在本文中,我们提出了NAVSIM,这是开放环境评估和封闭环境评估之间的折衷方案,我们利用大型数据集与非反应式模拟器相结合,实现大规模真实世界基准测试。具体而言,我们通过展开测试场景的鸟瞰抽象,收集基于模拟的指标,如进展和碰撞时间,进行短期模拟。我们的模拟是非反应式的,即评估的策略和环境不会相互影响。正如我们经验证明的那样,这种解耦允许进行开环指标计算,同时与传统的位移误差相比,更好地与闭环评估保持一致。NAVSIM在CVPR 2024举办了一场新的比赛,共有143支团队提交了463份作品,得出了一些新的见解。在大量具有挑战性的场景中,我们观察到,像TransFuser这样具有中等计算需求的简单方法可以与UniAD等最新的大规模端到端驾驶架构相匹配。我们的模块化框架有可能通过新的数据集、数据策划策略和指标进行扩展,并将持续维护以举办未来的挑战。我们的代码可在https://github.com/autonomousvision/navsim获取。
大规模生成式语言和视觉-语言模型(LLMs和VLMs)在少样本上下文学习中表现出色,用于决策制定和指导遵循。然而,它们需要高质量的示范示例包含在其上下文窗口中。在这项工作中,我们提出了一个问题:LLMs和VLMs能否从通用的次优示范中生成自己的提示示例?我们提出了上下文抽象学习(ICAL),这是一种方法,它从次优示范和人类反馈中建立了多模态体验见解的记忆。在新领域中给定一个嘈杂的示范,VLMs将轨迹抽象为一个通用程序,通过修复低效行为和注释认知抽象:任务关系、物体状态变化、时间子目标和任务解释。这些抽象通过人类反馈进行互动地进行细化和调整,同时代理尝试在类似环境中执行轨迹。当这些抽象被用作提示中的示例时,显著改善了检索增强的LLM和VLM代理的决策能力。我们的ICAL代理在TEACh中的基于对话的指导遵循、VisualWebArena中的多模态网络代理以及Ego4D中的动作预测方面超越了最新技术。在TEACh中,我们实现了目标条件成功率的提高12.6%。在VisualWebArena中,我们的任务成功率从14.3%提高到22.7%,超过了最新技术。在Ego4D的动作预测中,我们超越了少样本GPT-4V,并与监督模型保持竞争力。我们展示了对我们的检索增强上下文代理进行微调会带来额外的改进。我们的方法显著减少了对专家制作的示例的依赖,并始终优于缺乏这些见解的行动计划的上下文学习。
我们提出了一个简单而有效的流程,用于为立体场景实现风格化,利用了二维图像扩散模型的能力。给定从一组多视角图像重建的 NeRF 模型,我们通过使用由风格对齐的图像到图像扩散模型生成的风格化图像来优化源 NeRF 模型,实现立体风格转移。给定目标风格提示,我们首先通过利用带有注意力共享机制的深度条件扩散模型生成感知上相似的多视角图像。接下来,基于风格化的多视角图像,我们建议使用从预训练的 CNN 模型提取的特征图所基于的切片 Wasserstein 损失来引导风格转移过程。我们的流程包括解耦的步骤,允许用户测试各种提示想法,并在继续进行 NeRF 微调阶段之前预览风格化的立体结果。我们证明了我们的方法可以将多样的艺术风格转移到真实世界的立体场景,并具有竞争性的质量。
针对文本检索进行微调的大型语言模型(LLMs)已经在多个信息检索(IR)基准测试中展示出最先进的结果。然而,为了改善这些模型,监督训练需要大量标记示例,这些通常难以获取或成本高昂。在这项工作中,我们探讨了将逆向工程适应(RE-AdaptIR)扩展到信息检索领域的有效性。我们使用RE-AdaptIR仅利用未标记数据来改善基于LLM的IR模型。我们展示了在训练领域以及模型从未见过查询的零-shot领域中的性能改进。我们分析了各种微调场景中的性能变化,并提供了对从业者立即有用的发现。
多模基础模型(MMFMs)在各种计算机视觉和自然语言处理任务上展现出卓越的性能。然而,在特定任务,如文档理解方面,它们的性能仍然有限。相比传统的单模型,它们在微调和部署过程中需要更多的计算、时间和工程资源。在本报告中,我们提出了多模结构生成,这是一个通用框架,它约束冻结的MMFMs的输出logits,迫使它们在用结构化输出进行推理后再做出响应,以便下游API可以解析和使用。我们详细介绍了我们的方法,包括技术细节、理论讨论以及在由计算机视觉与模式识别(CVPR)会议主办的第二届多模基础模型挑战中的最终评估结果。我们的方法在第二阶段的隐藏测试集中取得了第二高的分数,总体排名第三。这显示了该方法能够泛化到未见过的任务。正如我们在我们的论文《检索增强结构生成:商业文档信息提取作为工具使用》中首次讨论的那样,简单的工程方法可以击败昂贵且复杂的建模步骤。我们所有的脚本、部署步骤和评估结果都可以在https://github.com/leloykun/MMFM-Challenge 上获取。
现有的毒性检测模型存在重大局限,如缺乏透明度、定制性和可复现性。这些挑战源自它们训练数据的闭源性质以及评估机制缺乏解释的问题。为了解决这些问题,我们提出了一个数据集创建机制,该机制整合了投票和思维链过程,生成了一个高质量的开源数据集,用于毒性内容检测。我们的方法确保每个样本的多样化分类指标,并包括分类分数和分类的解释推理。 我们利用通过我们提出的机制创建的数据集来训练我们的模型,然后将其与现有广泛使用的检测器进行比较。我们的方法不仅增强了透明度和定制性,还有助于更好地针对特定用例进行微调。这项工作为开发毒性内容检测模型提供了一个稳健的框架,强调开放性和适应性,从而为更有效和用户特定的内容管理解决方案铺平道路。
大型语言模型(LLMs)试图通过以一种取悦用户的方式回应人类来模仿人类行为,包括遵循他们的价值观。然而,人类来自具有不同价值观的多元文化。重要的是要了解LLMs是否会根据用户所在国家的刻板价值观向用户展示不同的价值观。我们使用基于5个霍夫斯泰德文化维度的一系列建议请求来提示不同的LLMs,这是一种量化表示国家价值观的方式。在每个提示中,我们包含代表36个不同国家的人物角色,以及与每个国家主要相关的语言,以分析LLMs对文化理解的一致性。通过对回应的分析,我们发现LLMs能够区分价值观的一面和另一面,以及理解不同国家具有不同的价值观,但在给出建议时并不总是遵循这些价值观,并且未能理解根据不同文化价值观作出不同回答的必要性。基于这些发现,我们提出了培训价值观一致且具有文化敏感性的LLMs的建议。更重要的是,这里开发的方法和框架可以帮助进一步了解并缓解LLMs与文化和语言对齐问题。
我们提出了一种基于个性化联邦学习算法 MeritFed 的新方法,可应用于具有异构数据的自然语言任务。我们在低资源机器翻译任务上对其进行评估,使用了大规模多语言机器翻译共享任务(小轨道#2)的数据集以及芬乌戈尔语族多语言基准测试中萨米语言的子集。除了其有效性外,MeritFed 还具有很高的可解释性,因为它可以用来跟踪每种用于训练的语言的影响。我们的分析表明,目标数据集大小会影响辅助语言之间的权重分配,不相关的语言不会干扰训练,并且辅助优化器参数的影响很小。我们的方法易于应用,只需几行代码,我们提供了用于重现实验的脚本,网址为 https://github.com/VityaVitalich/MeritFed