每日精选AI研究论文及翻译
我们介绍 phi-4,这是一个拥有 140 亿参数的语言模型,其训练配方主要关注数据质量。与大多数语言模型不同,其预训练主要基于诸如网络内容或代码等有机数据源的模型不同,phi-4 在整个训练过程中策略性地融入了合成数据。虽然 Phi 系列中以往的模型主要提炼了教师模型(具体来说是 GPT-4)的能力,但 phi-4 在面向 STEM 领域的问答能力上显著超越了其教师模型,这证明了我们的数据生成和后训练技术超越了简单提炼。尽管 phi-4 在架构上的改变很少,但由于改进的数据、训练课程以及后训练方案的创新,phi-4 相对于其规模取得了强大的性能,尤其是在侧重推理的基准测试上。
创建能够与环境长时间交互的人工智能系统,类似于人类认知,一直是一个长期的研究目标。最近在多模态大型语言模型(MLLMs)方面取得的进展在开放世界理解方面取得了重大进展。然而,连续和同时的流式感知、记忆和推理挑战仍然大部分未被探索。当前的MLLMs受限于它们的序列到序列架构,这限制了它们处理输入和生成响应的能力,类似于在感知时无法思考。此外,依赖长上下文存储历史数据对于长期交互来说是不切实际的,因为保留所有信息变得昂贵且低效。因此,与其依赖单一基础模型执行所有功能,这个项目从专业通用人工智能的概念中汲取灵感,并引入了分离的流式感知、推理和记忆机制,实现了与流式视频和音频输入的实时交互。所提出的框架InternLM-XComposer2.5-OmniLive(IXC2.5-OL)包括三个关键模块:(1)流式感知模块:实时处理多模态信息,将关键细节存储在记忆中,并在响应用户查询时触发推理。(2)多模态长期记忆模块:整合短期和长期记忆,将短期记忆压缩成长期记忆,以便高效检索和提高准确性。(3)推理模块:响应查询并执行推理任务,与感知和记忆模块协调。这个项目模拟了类人认知,使多模态大型语言模型能够随时间提供持续和适应性服务。
近年来,多模态大型语言模型(MLLMs)取得了快速进展,但仍然在低层次视觉感知(LLVP)方面存在困难,尤其是准确描述图像的几何细节的能力。这种能力对于机器人技术、医学图像分析和制造业等领域的应用至关重要。本文首先介绍了Geoperception,这是一个旨在评估MLLM准确从图像转录2D几何信息能力的基准。利用这一基准,我们展示了主流MLLM的局限性,然后进行了全面的实证研究,探讨改进它们在几何任务上性能的策略。我们的研究结果突出了某些模型架构、训练技术和数据策略的优势,包括使用高保真度合成数据和采用数据课程的多阶段训练。值得注意的是,我们发现数据课程使模型能够学习那些它们无法从头开始学习的具有挑战性的几何理解任务。利用这些见解,我们开发了Euclid,这是一系列专门针对强大的低层次几何感知进行优化的模型。尽管仅在合成多模态数据上进行训练,Euclid表现出对新颖几何形状的强大泛化能力。例如,在某些Geoperception基准任务上,Euclid的表现超过了最佳闭源模型Gemini-1.5-Pro高达58.56%,在所有任务平均上超过10.65%。
随着多模态大型语言模型(MLLMs)的发展,扩展到超越单一领域能力是满足对更多功能齐全和高效人工智能需求的关键。然而,先前的全模态模型未充分探索语音,忽视了其与多模态整合的重要性。我们介绍了Lyra,一种高效的MLLM,增强了多模态能力,包括高级长篇语音理解、声音理解、跨模态效率和无缝语音交互。为了实现高效和以语音为中心的能力,Lyra采用了三种策略:(1)利用现有的开源大型模型和提出的多模态LoRA来降低训练成本和数据需求;(2)使用潜在的多模态正则化器和提取器来加强语音与其他模态之间的关系,从而增强模型性能;(3)构建一个高质量、广泛的数据集,包括150万个多模态(语言、视觉、音频)数据样本和1.2万个长篇语音样本,使Lyra能够处理复杂的长篇语音输入,并实现更强大的全认知能力。与其他全方法相比,Lyra在各种视觉-语言、视觉-语音和语音-语言基准测试中实现了最先进的性能,同时利用更少的计算资源和更少的训练数据。
多模态生成模型需要一种统一的方法来处理离散数据(例如文本和代码)和连续数据(例如图像、音频、视频)。在这项工作中,我们提出了潜在语言建模(LatentLM),它通过因果Transformer 无缝地集成连续和离散数据。具体来说,我们采用变分自编码器(VAE)来表示连续数据为潜在向量,并引入下一个令牌扩散用于这些向量的自回归生成。此外,我们开发了sigma-VAE 来解决方差坍缩的挑战,这对于自回归建模至关重要。大量实验证明了LatentLM 在各种模态下的有效性。在图像生成方面,LatentLM 在性能和可扩展性上均超越了Diffusion Transformers。当集成到多模态大型语言模型中时,LatentLM 提供了一个统一多模态生成和理解的通用接口。实验结果表明,与Transfusion 和向量量化模型相比,在扩大训练令牌的设置下,LatentLM 实现了有利的性能。在文本转语音合成方面,LatentLM 在说话者相似度和鲁棒性方面优于最先进的VALL-E 2 模型,同时需要更少的解码步骤。这些结果确立了LatentLM 作为推进大型多模态模型的高效且可扩展的方法。
图形用户界面(GUI)代理在自动化跨多样数字环境中的复杂任务方面具有巨大潜力,从Web应用到桌面软件。然而,这类代理的开发受制于缺乏高质量的、多步轨迹数据,这些数据对有效训练至关重要。现有方法依赖昂贵且劳动密集的人工标注,使其在规模上难以持续。为解决这一挑战,我们提出AgentTrek,一个可扩展的数据合成流水线,通过利用Web教程生成高质量的GUI代理轨迹。我们的方法自动从互联网收集类似教程的文本,将其转化为具有逐步说明的任务目标,并利用视觉语言模型代理在真实数字环境中模拟其执行。基于VLM的评估器确保生成轨迹的正确性。我们证明,使用这些合成轨迹训练GUI代理显著提高了它们的基础和规划性能,超过了当前模型。此外,与传统的人工标注方法相比,我们的方法更具成本效益。这项工作强调了通过Web教程进行引导重放作为大规模GUI代理训练的可行策略的潜力,为更具能力和自主性的数字代理铺平了道路。
现有的文本到图像(T2I)扩散模型面临着几个限制,包括庞大的模型尺寸、运行速度慢以及在移动设备上生成质量低的问题。本文旨在通过开发一个极小且快速的T2I模型来解决所有这些挑战,该模型能够在移动平台上生成高分辨率和高质量的图像。我们提出了几种技术来实现这一目标。首先,我们系统地研究了网络架构的设计选择,以减少模型参数和延迟,同时确保高质量的生成。其次,为了进一步提高生成质量,我们采用了跨架构知识蒸馏的方法,从一个规模更大的模型中进行多层次的引导,指导我们的模型从头开始训练。第三,我们通过将对抗引导与知识蒸馏相结合,实现了少步生成。我们的模型 SnapGen 首次在移动设备上展示了在大约1.4秒内生成1024x1024像素图像的能力。在ImageNet-1K上,我们的模型仅具有3.72亿参数,在256x256像素生成中实现了2.06的FID。在T2I基准测试中(如GenEval和DPG-Bench),我们的模型仅具有3.79亿参数,超越了拥有数十亿参数的大规模模型,而且体积明显更小(例如,比SDXL小7倍,比IF-XL小14倍)。
个性化扩散模型的重要进展已经取得。传统的无调整方法主要通过对多个参考图像的图像嵌入进行平均来作为注入条件,但这种与图像无关的操作无法在图像之间进行交互以捕捉多个参考图像中的一致视觉元素。虽然基于调整的低秩适应(LoRA)可以通过训练过程有效地提取多个图像中的一致元素,但它需要为每个不同的图像组进行特定的微调。本文介绍了EasyRef,一种新颖的即插即用适应方法,使扩散模型能够根据多个参考图像和文本提示进行条件化。为了有效利用多个图像中的一致视觉元素,我们利用多模态大语言模型(MLLM)的多图像理解和遵循指令能力,促使其根据指令捕捉一致的视觉元素。此外,通过适配器将MLLM的表示注入到扩散过程中,可以轻松泛化到未见领域,挖掘未见数据中的一致视觉元素。为了减少计算成本并增强细粒度细节保留,我们引入了一种高效的参考聚合策略和渐进式训练方案。最后,我们介绍了MRBench,一个新的多参考图像生成基准。实验结果表明,EasyRef超越了像IP-Adapter这样的无调整方法和像LoRA这样的基于调整的方法,实现了卓越的美学质量和在不同领域之间的稳健零样本泛化。
鉴于生成式人工智能的快速发展,迫切需要系统地比较和选择众多可用的模型和配置。这些评估的规模和多样性使得使用基于大型语言模型的评判者成为解决这一挑战的引人注目的方案。至关重要的是,这种方法首先需要验证LLM评判者本身的质量。先前的工作侧重于基于实例的LLM评判者评估,其中评判者在一组响应或响应对上进行评估,而对它们的来源系统保持不可知。我们认为,这种设置忽略了影响系统级排名的关键因素,比如评判者对某些系统的正面或负面偏好。为填补这一空白,我们进行了首次大规模研究,将LLM评判者作为系统排名者。系统得分是通过对多个系统输出的评分进行汇总生成的,评估评判者的质量是通过将得到的系统排名与基于人类的排名进行比较来进行的。除了整体评判者评估外,我们的分析还提供了对评判者行为的细致刻画,包括他们的果断性和偏见。
从单个图像中恢复对象的几何和材质是具有不完全约束性质的,因此具有挑战性。本文介绍了一种名为神经光照调控(Neural LightRig)的新颖框架,通过利用来自2D扩散先验的辅助多光照条件,提升内在估计能力。具体来说,1)我们首先利用大规模扩散模型中的光照先验,在具有专门设计的合成重照数据集上构建了我们的多光照扩散模型。该扩散模型生成多个一致的图像,每个图像由不同方向的点光源照明。2)通过利用这些多样的光照图像来减少估计不确定性,我们使用具有U-Net骨干的大型G-buffer模型进行训练,准确预测表面法线和材质。大量实验证实了我们的方法明显优于最先进的方法,实现了准确的表面法线和PBR材质估计,并具有生动的重照效果。代码和数据集可在我们的项目页面https://projects.zxhezexin.com/neural-lightrig 上获取。
利用神经网络逼近偏微分方程(PDE)的方法已经在物理信息神经网络(PINNs)中取得了显著进展。尽管PINNs具有直观的优化框架和实现各种PDE的灵活性,但由于多层感知器(MLPs)的谱偏差,它们往往精度有限,难以有效学习高频和非线性成分。最近,参数化网格表示结合神经网络被研究作为消除神经网络归纳偏见的一种有前途的方法。然而,它们通常需要非常高分辨率的网格和大量的共轭点才能实现高精度,同时避免过拟合问题。此外,网格参数的固定位置限制了它们的灵活性,使得准确逼近复杂PDE变得具有挑战性。为了克服这些限制,我们提出了物理信息高斯模型(PIGs),它使用高斯函数结合轻量级神经网络来组合特征嵌入。我们的方法使用可训练参数来调整每个高斯分布的均值和方差,允许在训练过程中动态调整它们的位置和形状。这种适应性使我们的模型能够最佳地逼近PDE解,不同于具有固定参数位置的模型。此外,所提出的方法保持了PINNs中使用的相同优化框架,使我们能够从它们的优秀特性中受益。实验结果表明,我们的模型在各种PDE上表现出竞争力,展示了其作为解决复杂PDE的强大工具的潜力。我们的项目页面位于https://namgyukang.github.io/Physics-Informed-Gaussians/。
现代传感器产生越来越丰富的高分辨率数据流。由于资源限制,机器学习系统通过降低分辨率丢弃了绝大部分这些信息。压缩域学习使模型能够在紧凑的潜在表示上运行,从而在相同预算下实现更高的有效分辨率。然而,现有的压缩系统并非理想的压缩学习工具。线性变换编码和端到端学习的压缩系统可以减少比特率,但并未均匀降低维度;因此,它们并未实质性地提高效率。生成式自编码器可以降低维度,但其对抗性或感知目标会导致重要信息的丢失。为了解决这些限制,我们引入了WaLLoC(Wavelet Learned Lossy Compression),这是一种神经编解码器架构,结合了线性变换编码和非线性降维自编码器。WaLLoC在可逆小波包变换之间夹入了一个浅层、非对称的自编码器和熵瓶颈。在几个关键指标上,WaLLoC优于最先进的潜在扩散模型中使用的自编码器。WaLLoC不需要感知或对抗性损失来表示高频细节,可与RGB图像和立体声音频之外的模态兼容。WaLLoC的编码器几乎完全由线性操作组成,使其异常高效且适用于移动计算、远程感知以及直接从压缩数据中学习。我们展示了WaLLoC在多个任务中的压缩域学习能力,包括图像分类、着色、文档理解和音乐源分离。我们的代码、实验以及预训练音频和图像编解码器可在https://ut-sysml.org/walloc获取。
本研究提出了一种基于扩散反演的新图像超分辨率(SR)技术,旨在利用大型预训练扩散模型中包含的丰富图像先验信息来提高SR性能。我们设计了一种部分噪声预测策略,用于构建扩散模型的中间状态,作为起始采样点。我们方法的核心是一个深度噪声预测器,用于估计前向扩散过程的最佳噪声图,一经训练,该噪声预测器可用于沿着扩散轨迹部分初始化采样过程,生成理想的高分辨率结果。与现有方法相比,我们的方法提供了一种灵活高效的采样机制,支持从一到五个任意数量的采样步骤。即使只有一个采样步骤,我们的方法也展示出优越或可比较的性能,超过了最近的最新方法。代码和模型可在https://github.com/zsyOAOA/InvSR 上公开获取。
随着视觉语言模型(VLMs)的日益普及和能力增强,对捕捉真实用户-VLMs交互的基准测试的需求日益迫切。为此,我们创建了VisionArena数据集,其中包含23万个用户与VLMs之间的真实对话。这些对话是从Chatbot Arena收集而来的,这是一个开源平台,用户可以与VLMs进行交互并提交偏好投票。VisionArena涵盖了7.3万个独特用户、45个VLMs和138种语言。我们的数据集包含三个子集:VisionArena-Chat,包括20万个用户与VLM之间的单轮和多轮对话;VisionArena-Battle,包括3万个比较两个匿名VLMs并进行用户偏好投票的对话;以及VisionArena-Bench,一个自动基准测试,包含500个多样的用户提示,有效地模拟了实时Chatbot Arena模型排名。此外,我们还强调了用户提出的问题类型、回复风格对偏好的影响,以及模型经常失败的领域。我们发现,像字幕和幽默这样的开放式任务高度依赖于风格,而当前的VLMs在空间推理和规划任务方面表现不佳。最后,我们展示了在VisionArena-Chat上微调相同基础模型优于Llava-Instruct-158K,在MMMU上提高了17个百分点,在WildVision基准测试上提高了46个百分点。数据集链接:https://huggingface.co/lmarena-ai
开发当代MLLM的标准做法是将视觉编码器的特征输入LLM,并使用自然语言监督进行训练。在这项工作中,我们提出了一个被忽视的优化机会,即通过视觉角度(目标)优化中间LLM表示,即仅使用自然语言监督对于MLLM的视觉理解能力来说是次优的。为此,我们提出了OLA-VLM,这是第一种从一组目标视觉表示中提炼知识到LLM的隐藏表示的方法。首先,在MLLM的预训练阶段,我们将目标形式化为对预测性视觉嵌入和下一个文本标记预测的耦合优化。其次,我们研究了仅使用自然语言监督训练的MLLM,并确定了这些模型中视觉表示质量与它们下游性能之间的正相关性。此外,在探究我们的OLA-VLM时,我们观察到由于嵌入优化而导致表示质量的提高。第三,我们证明了我们的OLA-VLM优于单编码器和多编码器基线,证实了我们的方法优于明确将相应特征输入LLM的方法。特别是,OLA-VLM在各种基准测试中将性能提升了平均高达2.5%,在CV-Bench的深度任务中有显著的8.7%改进。我们的代码在https://github.com/SHI-Labs/OLA-VLM上开源。
本文介绍了RuleArena,这是一个新颖且具有挑战性的基准,旨在评估大型语言模型(LLMs)在推理中遵循复杂真实世界规则的能力。RuleArena涵盖了三个实际领域——航空公司行李费、NBA交易和税收法规——评估LLMs处理需要长上下文理解、逻辑推理和准确数学计算的复杂自然语言指令的能力。RuleArena与传统基于规则推理基准的两个关键特点有所不同:(1)它超越了标准的一阶逻辑表示,(2)它基于真实的实际场景,为LLMs在实际应用中的适用性和可靠性提供了见解。我们的研究结果揭示了LLMs存在几个显著局限性:(1)它们难以识别和应用适当的规则,经常被相似但不同的法规所困扰,(2)即使正确识别相关规则,它们也无法始终执行准确的数学计算,(3)总体而言,在基准测试中表现不佳。这些结果突显了在推进LLMs在现实应用中的规则引导推理能力方面面临的重大挑战。
在训练生成语言模型时使用受版权保护的材料引发了重要的法律和伦理问题。本文提出了一个框架,并通过实证评估受版权材料对挪威大型语言模型(LLMs)性能的影响的结果。我们发现,当模型在多样化的挪威基准上进行评估时,书籍和报纸都对模型有积极贡献,而虚构作品可能会导致性能下降。我们的实验可以为那些作品对AI发展有贡献的作者制定一种补偿方案提供信息。
词义消歧(WSD)是将给定上下文中的单词与一组可能的候选含义中的最合适含义关联的任务。尽管最近这一任务再次引起了人们的兴趣,系统的性能已经超过了估计的标注者间一致性,但在撰写本文时,该任务仍然难以找到下游应用。我们认为导致这一困难的原因之一是将WSD应用于纯文本的困难。事实上,在标准的表述中,模型工作的假设是a)所有需要消歧的跨度已经被识别出来,以及b)每个跨度的所有可能候选含义都已提供,这两者都是远非微不足道的要求。在这项工作中,我们提出了一个名为词义链接(WSL)的新任务,在给定输入文本和参考含义库的情况下,系统必须同时识别要消歧的跨度,并将它们链接到最合适的含义。我们提出了一个基于Transformer架构的任务,并对其性能以及针对WSL进行缩放的最先进WSD系统的性能进行了彻底评估,逐步放宽了WSD的假设。我们希望我们的工作将促进词汇语义更容易地整合到下游应用中。
归一化流(NFs)是针对连续输入的基于似然的模型。它们在密度估计和生成建模任务上展现出有希望的结果,但近年来受到相对较少的关注。在这项工作中,我们展示了NFs比以往认为的更强大。我们提出了TarFlow:一个简单且可扩展的架构,可以实现高性能的NF模型。TarFlow可以被视为基于Transformer的Masked Autoregressive Flows(MAFs)的变体:它由一堆自回归Transformer块组成,应用于图像块,交替地在层之间改变自回归方向。TarFlow易于端到端训练,能够直接对像素进行建模和生成。我们还提出了三种关键技术来提高样本质量:训练过程中的高斯噪声增强,训练后的去噪过程,以及适用于有条件和无条件设置的有效引导方法。将这些技术结合起来,TarFlow在图像的似然估计方面取得了新的最先进结果,大幅超过以往最佳方法,并生成了与扩散模型相媲美的质量和多样性样本,这是首次使用独立的NF模型。我们在https://github.com/apple/ml-tarflow上提供了我们的代码。
最近在文本到图像定制方面取得的进展实现了高保真度、上下文丰富的个性化图像生成,使得特定概念能够出现在各种场景中。然而,当前方法在合并多个个性化模型时存在困难,通常导致属性纠缠或需要单独训练以保持概念的独特性。我们提出了LoRACLR,一种新颖的多概念图像生成方法,将多个LoRA模型(每个模型都经过微调以适应不同概念)合并为单一的统一模型,无需额外的个别微调。LoRACLR使用对比目标来对齐和合并这些模型的权重空间,确保兼容性的同时最小化干扰。通过为每个概念强制执行独特而连贯的表示,LoRACLR实现了高效、可扩展的模型组合,用于高质量、多概念图像合成。我们的结果突显了LoRACLR在准确合并多个概念方面的有效性,推动了个性化图像生成的能力。
现有的稀疏视图重建模型严重依赖准确的已知相机姿势。然而,从稀疏视图图像中推导相机外参和内参存在重大挑战。在这项工作中,我们提出了FreeSplatter,这是一个高度可扩展的前馈重建框架,能够从未校准的稀疏视图图像中生成高质量的3D高斯模型,并在短短几秒内恢复它们的相机参数。FreeSplatter建立在一个简化的变换器架构之上,包括顺序自注意力模块,促进多视图图像标记之间的信息交换,并将它们解码为逐像素的3D高斯基元。预测的高斯基元位于统一的参考框架中,实现高保真度的3D建模,并利用现成的求解器进行即时相机参数估计。为了满足物体中心和场景级重建的需求,我们在大量数据集上训练了FreeSplatter的两个模型变体。在两种情况下,FreeSplatter在重建质量和姿势估计准确性方面均优于最先进的基线模型。此外,我们展示了FreeSplatter在增强下游应用程序(如文本/图像到3D内容创建)生产力方面的潜力。
可控人类图像动画旨在利用驱动视频从参考图像生成视频。由于稀疏引导(例如骨架姿势)提供的控制信号有限,最近的研究尝试引入额外的密集条件(例如深度图)以确保运动对齐。然而,当参考人物的身体形状与驱动视频明显不同时,这种严格的密集引导会损害生成视频的质量。在本文中,我们提出DisPose,以挖掘更具普适性和有效性的控制信号,而无需额外的密集输入,将人类图像动画中的稀疏骨架姿势解开为运动场引导和关键点对应。具体而言,我们从稀疏运动场和参考图像生成密集运动场,提供区域级的密集引导,同时保持稀疏姿势控制的普适性。我们还从参考图像中提取对应于姿势关键点的扩散特征,然后将这些点特征转移到目标姿势,提供独特的身份信息。为了无缝集成到现有模型中,我们提出了一个即插即用的混合ControlNet,提高了生成视频的质量和一致性,同时冻结现有模型参数。大量的定性和定量实验证明了DisPose相比当前方法的优越性。源代码:https://github.com/lihxxx/DisPose。
传统的固定测试集在评估基础模型的开放式能力方面存在不足。为了解决这一问题,我们提出了ONEBench(OpeN-Ended Benchmarking),这是一种新的测试范式,将各个评估数据集整合到一个统一的、不断扩展的样本池中。ONEBench允许用户从该样本池中生成定制的开放式评估基准,以对应特定感兴趣的能力。通过跨测试集聚合样本,ONEBench使得能够评估超出原始测试集覆盖范围的多样能力,同时减轻过拟合和数据集偏差。最重要的是,它将模型评估框架为选择和聚合样本级测试的集体过程。 从特定任务基准转向ONEBench引入了两个挑战:(1)异质性和(2)不完整性。异质性指的是对多样度指标的聚合,而不完整性描述了在不同数据子集上评估模型的比较。为了解决这些挑战,我们探索算法将稀疏测量聚合为可靠的模型分数。我们的聚合算法确保可识别性(渐近地恢复地面真实分数)和快速收敛,从而使得在较少数据下能够准确地对模型进行排名。在同质数据集上,我们展示了我们的聚合算法提供的排名与平均分数产生的排名高度相关。我们还展示了对大约95%的缺失测量值的稳健性,将评估成本降低了最多20倍,而模型排名几乎没有变化。我们引入了ONEBench-LLM用于语言模型和ONEBench-LMM用于视觉-语言模型,统一了这些领域的评估。总的来说,我们提出了一种针对开放式评估的技术,可以聚合不完整、异质的样本级测量,使基准不断增长,与快速发展的基础模型一起。
学术领域中学习指导的视觉导航通常可分为高级别类别特定搜索和低级别语言引导导航,取决于语言指导的粒度,前者强调探索过程,而后者集中于遵循详细的文本命令。尽管这些任务的重点不同,但解释指令、理解环境和推断行动决策的基本要求保持一致。本文将各种导航任务整合到一个统一且通用的框架中——我们研究了在学习导航中共享通用知识和利用任务特定能力的核心困难,并提出了一种新颖的状态自适应专家混合(SAME)模型,有效地使代理能够根据不同粒度的语言和动态观察推断决策。借助SAME的支持,我们提出了一个多才多艺的代理,能够同时处理七个导航任务,其表现优于或与任务特定代理的表现高度可比。
我们解决凝视目标估计问题,旨在预测一个人在场景中看向何处。预测一个人的凝视目标需要对人的外观和场景内容进行推理。先前的研究已经为凝视目标估计开发了越来越复杂的手工设计流水线,精心融合了来自独立场景编码器、头部编码器和用于深度和姿势等信号的辅助模型的特征。受通用特征提取器在各种视觉任务上取得成功的启发,我们提出了 Gaze-LLE,这是一个新颖的变压器框架,通过利用来自冻结的 DINOv2 编码器的特征简化了凝视目标估计。我们为场景提取单个特征表示,并应用一个特定于人的位置提示来使用轻量级模块解码凝视。我们展示了在几个凝视基准测试中的最先进性能,并提供了广泛的分析来验证我们的设计选择。我们的代码可在以下网址获取:http://github.com/fkryan/gazelle。
神经机器翻译(NMT)模型通常在对科学、技术和教育领域了解有限的数据集上进行训练。因此,翻译模型通常在涉及科学理解或技术术语的任务上表现不佳。对于资源稀缺的印度语言,它们的表现甚至更差。寻找一个特别关注这些领域的翻译数据集构成了一个困难的挑战。在本文中,我们通过创建一个包含超过280万行英译印度语和印度语之间高质量翻译对的多语言平行语料库来解决这个问题,涵盖了8种印度语言。我们通过挖掘人工翻译的NPTEL视频讲座的双语文本,实现了这一目标。我们还利用这一语料库对NMT模型进行微调和评估,在领域内任务中超越了所有其他公开可用的模型。我们还展示了通过在Flores+基准测试中将基线提高超过2个BLEU分数,提高了这些印度语言的平均翻译质量,从而在领域外翻译任务中泛化的潜力。我们很高兴通过以下链接发布我们的模型和数据集:https://huggingface.co/SPRINGLab。