每日精选AI研究论文及翻译
阿拉伯文档的光学字符识别(OCR)因其连笔书写、多样字体、变音符号以及从右至左的书写方向而始终面临挑战。尽管现代多模态大语言模型(MLLMs)在高资源语言的文档理解方面取得了进展,但在阿拉伯语上的表现仍显不足。本研究推出了Baseer,一个专门针对阿拉伯文档OCR进行微调的视觉-语言模型。通过结合合成与真实世界文档的大规模数据集,Baseer采用仅解码器的微调策略,在保留通用视觉特征的同时,对预训练的MLLM进行适配。我们还介绍了Misraj-DocOCR,这是一个高质量、经专家验证的基准测试集,旨在严格评估阿拉伯语OCR系统。实验结果表明,Baseer显著超越了现有的开源及商业解决方案,实现了0.25的单词错误率(WER),在阿拉伯文档OCR领域树立了新的技术标杆。我们的研究结果凸显了针对特定领域对通用MLLMs进行适配的优势,并为阿拉伯语等形态丰富语言的高精度OCR建立了坚实的基线。
计算资源呈指数级增长与高质量文本数据有限增长之间的差距日益扩大,如今制约了大型语言模型(LLMs)的传统扩展方法。为应对这一挑战,我们引入了预训练数据上的强化学习(Reinforcement Learning on Pre-Training data, RLPT),这是一种新的训练时扩展范式,旨在优化LLMs。与以往主要通过监督学习扩展训练的方法不同,RLPT使策略能够自主探索有意义的轨迹,从预训练数据中学习,并通过强化学习(RL)提升其能力。尽管现有的RL策略,如基于人类反馈的强化学习(RLHF)和可验证奖励的强化学习(RLVR),依赖人工标注构建奖励,RLPT则通过直接从预训练数据中提取奖励信号,消除了这一依赖。具体而言,它采用下一段推理目标,奖励策略在给定前文条件下准确预测后续文本片段的能力。这一公式化使得RL能够在预训练数据上扩展,鼓励在更广泛的上下文中探索更丰富的轨迹,从而培养更具普适性的推理技能。在多个模型上对通用领域和数学推理基准进行的广泛实验验证了RLPT的有效性。例如,应用于Qwen3-4B-Base时,RLPT在MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24和AIME25上分别实现了3.0、5.1、8.1、6.0、6.6和5.3的绝对提升。结果进一步展示了良好的扩展行为,预示着随着计算资源的增加,持续增益的潜力巨大。此外,RLPT为扩展LLMs的推理边界和提升RLVR性能奠定了坚实基础。
基于模仿学习的视觉运动策略已广泛应用于机器人操控领域,通常结合视觉观测与本体感知状态以实现精确控制。然而,本研究发现,这一常规做法导致策略过度依赖本体感知状态输入,从而对训练轨迹产生过拟合,造成空间泛化能力不足。为此,我们提出“无状态策略”,摒弃本体感知状态输入,仅依据视觉观测预测动作。该策略构建于相对末端执行器动作空间,并确保获取完整的任务相关视觉观测,此处通过双广角腕部摄像头实现。实证结果表明,无状态策略在空间泛化能力上显著优于基于状态的策略:在现实世界的任务中,如拾取放置、具有挑战性的衣物折叠及复杂的全身操控,跨越多种机器人形态,其高度泛化的平均成功率从0%提升至85%,水平泛化从6%提升至64%。此外,该策略在数据效率和跨形态适应方面也展现出优势,增强了其在实际部署中的实用性。
多模态大语言模型(MLLMs)正经历快速发展,代表着人工智能领域的前沿。然而,其训练与推理效率已成为提升MLLMs普及性和可扩展性的核心瓶颈。为应对这些挑战,我们推出了MiniCPM-V 4.5,这是一款拥有80亿参数的高效高性能模型。我们在模型架构、数据策略及训练方法上引入了三大核心改进:采用统一的三维重采样器模型架构,实现对图像和视频的高度紧凑编码;提出无需繁重数据工程的文档知识与文本识别统一学习范式;以及采用混合强化学习策略,确保模型在短程与长程推理模式中均表现优异。在OpenCompass评估中的全面实验结果显示,MiniCPM-V 4.5不仅超越了广泛使用的专有模型如GPT-4o最新版,还显著优于规模更大的开源模型如Qwen2.5-VL 72B。尤为值得一提的是,这一卓越性能是在极高效率下实现的。例如,在广泛采用的VideoMME基准测试中,MiniCPM-V 4.5在30B规模以下的模型中达到了顶尖性能,仅消耗了Qwen2.5-VL 7B 46.7%的GPU内存和8.7%的推理时间。
理解和推理整个软件仓库是智能软件工程工具的一项核心能力。尽管现有的基准测试如CoSQA和CodeQA推动了该领域的发展,但它们主要集中于小型、自包含的代码片段。这些设置未能捕捉到现实世界仓库的复杂性,其中有效的理解和推理往往需要跨多个文件导航、理解软件架构,并将答案建立在长距离代码依赖之上。本文中,我们提出了SWE-QA,一个仓库级别的代码问答(QA)基准,旨在促进在真实代码环境中自动化QA系统的研究。SWE-QA包含576个高质量的问题-答案对,涵盖多种类别,包括意图理解、跨文件推理和多跳依赖分析。为构建SWE-QA,我们首先从11个热门仓库中爬取了77,100个GitHub问题。基于从这些问题中提取的自然发生的开发者提问分析,我们开发了一个两级分类的仓库级别问题分类体系,并为每个类别构建了一组种子问题。针对每个类别,我们手动筛选并验证了问题,并收集了相应的答案。作为原型应用,我们进一步开发了SWE-QA-Agent,一个代理框架,其中LLM代理通过推理和行动自动寻找答案。我们在多种上下文增强策略下评估了六种先进的LLM在SWE-QA上的表现。实验结果凸显了LLM,特别是我们的SWE-QA-Agent框架,在处理仓库级别QA方面的潜力,同时也揭示了开放挑战并指明了未来的研究方向。
视觉空间推理(Visual Spatial Reasoning, VSR)是人类核心认知能力之一,也是推动具身智能与自主系统发展的关键需求。尽管视觉-语言模型(Vision-Language Models, VLMs)近期取得了显著进展,但由于三维空间表示与推理的复杂性,实现人类水平的VSR仍面临巨大挑战。本文对VLMs中的VSR进行了系统性研究,涵盖了输入模态、模型架构、训练策略及推理机制等方面现有方法的综述。此外,我们将空间智能划分为三个能力层次,即基础感知、空间理解与空间规划,并构建了SIBench——一个包含近20个开源数据集、覆盖23种任务场景的空间智能基准。通过对当前最先进VLMs的实验分析,我们发现模型在感知与推理之间存在显著差距:模型在基础感知任务上表现尚可,但在理解与规划任务上持续表现不佳,特别是在数值估计、多视角推理、时间动态及空间想象等方面。这些发现凸显了实现空间智能所面临的重大挑战,同时为未来研究提供了系统性的路线图与全面的基准。本研究的相关资源可通过https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/访问。
近期,在基础模型强化学习领域,如群体相对策略优化(GRPO)等技术的进展,显著提升了基础模型在推理任务中的表现。值得注意的是,优势函数在GRPO中作为核心机制,用于评估轨迹的重要性。然而,现有研究面临优势反转和优势镜像问题,这阻碍了不同查询样本间合理的优势分配。本研究中,我们提出了一种简便而有效的GRPO策略——混合优势策略优化(MAPO)。我们发现轨迹呈现不同的确定性,并针对高确定性轨迹样本提出了优势百分比偏差的概念。此外,我们根据轨迹确定性的变化动态调整优势函数的权重,从而自适应地配置优势函数,以考虑样本的特定特性。与相关最先进方法的对比,以及对不同优势变体的消融研究,均验证了我们方法的有效性。
前馈式三维高斯泼溅(3DGS)已成为新视角合成的高效解决方案。现有方法主要依赖于像素对齐的高斯预测范式,即每个二维像素映射到一个三维高斯分布。我们重新审视了这一广泛采用的公式,并识别出几个固有局限:它使得重建的三维模型严重依赖输入视角的数量,导致视角偏向的密度分布,并在源视角存在遮挡或低纹理时引入对齐误差。为应对这些挑战,我们提出了VolSplat,一种新的多视角前馈范式,用体素对齐的高斯分布取代了像素对齐。通过直接从预测的三维体素网格中预测高斯分布,它克服了像素对齐对易出错的二维特征匹配的依赖,确保了鲁棒的多视角一致性。此外,它还能基于三维场景复杂度自适应控制高斯密度,生成更忠实的高斯点云,提升几何一致性,并增强新视角渲染质量。在RealEstate10K和ScanNet等广泛使用的基准测试上的实验表明,VolSplat实现了最先进的性能,同时生成了更逼真且视角一致的高斯重建。除了卓越的结果外,我们的方法建立了一个更具扩展性的前馈三维重建框架,提供了更密集、更鲁棒的表征,为更广泛社区的研究铺平了道路。视频结果、代码及训练模型可在我们的项目页面获取:https://lhmd.top/volsplat。
大型推理模型(LRMs)在测试时耗费大量计算资源于冗长的思维链(CoT)追踪上,然而,何种特性构成有效的CoT仍不明确。尽管先前的研究报告称,通过延长CoT和增加回顾(即重新审视早期步骤)——借助附加的“等待”标记——可带来性能提升,但近期研究却表明,较短的思考过程可能优于较长的追踪。因此,我们针对数学与科学推理领域,对十种LRMs进行了系统性评估。与“越长越好”的普遍观点相反,我们发现,无论是简单的CoT延长还是增加回顾,均与准确率的*降低*相关联。 随着CoT逐步展开,基于标记级别的度量标准可能会将冗长与过程质量混为一谈。为此,我们引入了一种CoT的图结构视图,以提取其结构并识别出一个单一统计量——*失败步骤比例(FSF)*,即被放弃分支中步骤所占的比例——该指标在预测模型正确性方面,持续优于长度和回顾比例。为了探究因果关系,我们设计了两项干预措施。首先,在测试时根据各指标对候选CoT进行排序,其中FSF带来了最大的pass@1增益;其次,我们编辑CoT以移除失败分支,此举显著提高了准确率,表明失败分支会干扰后续推理。综合这些结果,我们总结出有效CoT的特征在于*失败更少*,并支持在测试时进行*结构感知*的扩展,而非不加选择地生成长CoT。
生成虚拟环境的能力对于从游戏到物理AI领域(如机器人、自动驾驶和工业AI)的各类应用至关重要。当前基于学习的三维重建方法依赖于获取真实世界的多视角数据,而这些数据并非总是易于获得。尽管视频扩散模型的最新进展展现了卓越的想象力,但其二维特性限制了其在需要机器人导航与环境交互的仿真应用中的使用。本文提出了一种自蒸馏框架,旨在将视频扩散模型中隐含的三维知识蒸馏为显式的三维高斯溅射(3DGS)表示,从而无需多视角训练数据。具体而言,我们在常规的RGB解码器基础上增加了一个3DGS解码器,该解码器由RGB解码器的输出进行监督。通过这种方法,3DGS解码器可以仅使用视频扩散模型生成的合成数据进行训练。在推理阶段,我们的模型能够根据文本提示或单张图像实时渲染生成三维场景。此外,我们的框架还扩展至从单目输入视频生成动态三维场景。实验结果表明,该框架在静态和动态三维场景生成方面均达到了业界领先水平。
统一多模态模型近期因其在联合理解与生成多样化内容方面的卓越能力而备受关注。然而,随着上下文整合了日益增多的交错多模态标记,扩散去噪和自回归解码的迭代过程带来了显著的计算开销。为此,我们提出了Hyper-Bagel,一个旨在同时加速多模态理解与生成任务的统一加速框架。我们的方法采用分而治之的策略,利用推测性解码进行下一标记预测,并通过多阶段蒸馏过程优化扩散去噪。该框架实现了显著的性能提升,在多模态理解任务中获得了超过2倍的加速。对于生成任务,我们提出的无损6-NFE模型在文本到图像生成上实现了16.67倍的加速,在图像编辑上实现了22倍的加速,同时保持了原模型的高质量输出。此外,我们还开发了一个高效的1-NFE模型,支持近乎实时的交互式编辑与生成。通过将先进的对抗蒸馏与人类反馈学习相结合,该模型达到了极致的成本效益和响应速度,使得复杂的多模态交互变得流畅且即时。
在大型语言模型(LLM)的思维链(CoT)推理阶段,采用连续而非离散的token近来引起了关注,其背后的直觉在于,连续混合的离散token能够模拟多条推理路径的叠加。理论成果已正式证明,连续token具有更强的表达能力,并能更高效地解决特定问题。然而,连续token的实际应用因训练难度大而受限:先前的研究要么仅在预训练的离散token模型上进行推理时使用连续token,要么必须从真实的离散CoT中蒸馏出连续CoT,并面临计算成本高的问题,导致CoT仅限于极少数token。 本研究首次引入了一种通过强化学习(RL)学习连续CoT的可扩展方法,无需从参考的离散CoT中蒸馏。我们采用“软”token:即token的混合体与输入嵌入上的噪声相结合,以提供RL探索。计算开销极小,使我们能够学习包含数百个token的连续CoT。在Llama和Qwen模型(最高达8B)的数学推理基准测试中,使用连续CoT训练在pass@1指标上与离散token CoT持平,并在pass@32指标上超越后者,显示出更高的CoT多样性。在系统比较中,表现最佳的场景是使用连续CoT token进行训练,然后在推理时使用离散token,这意味着“软”模型可以以标准方式部署。最后,我们展示了连续CoT RL训练能更好地保留基础模型在域外任务上的预测,从而对基础模型施加了更为温和的影响。
近期,3D高斯泼溅(3DGS)作为一种强大的替代方案崭露头角,它通过可优化的显式3D高斯模型,实现了实时高质量的新视角合成。然而,3DGS因依赖每个高斯的参数来模拟视角依赖效应和各向异性形状,而面临显著的内存开销问题。尽管近期研究提出了利用神经场压缩3DGS的方法,但这些方法难以捕捉高斯属性中的高频空间变化,导致精细细节的重建质量下降。我们提出了混合辐射场(HyRF),这是一种新颖的场景表示方法,它结合了显式高斯与神经场的优势。HyRF将场景分解为两部分:(1) 一组紧凑的显式高斯,仅存储关键的高频参数;(2) 基于网格的神经场,用于预测其余属性。为了增强表示能力,我们引入了一种解耦的神经场架构,分别建模几何(尺度、不透明度、旋转)和视角依赖的颜色。此外,我们提出了一种混合渲染方案,将高斯泼溅与神经场预测的背景相结合,解决了远距离场景表示的局限性。实验表明,HyRF在实现最先进渲染质量的同时,模型大小相比3DGS减少了20倍以上,并保持了实时性能。我们的项目页面位于https://wzpscott.github.io/hyrf/。
方言作为人类文化的重要组成部分,遍布世界各地。在德国,超过40%的人口使用地区方言(Adler和Hansen,2022)。然而,尽管方言具有文化价值,方言使用者却常遭遇负面的社会刻板印象。本研究探讨了此类刻板印象是否在大语言模型(LLMs)中有所体现。我们借鉴了社会语言学关于方言感知的研究,分析了与方言使用者普遍关联的特质。基于这些特质,我们通过两项任务——关联任务与决策任务,评估了LLMs所展现的方言命名偏见及方言使用偏见。为衡量模型的方言使用偏见,我们构建了一个新颖的评估语料库,其中包含七种德国地区方言(如阿勒曼尼语和巴伐利亚语)与标准德语句子的配对。研究发现:(1)在关联任务中,所有评估的LLMs均对德国方言使用者表现出显著的方言命名与使用偏见,体现为负面形容词的关联;(2)所有模型在其决策过程中均再现了这些方言命名与使用偏见;(3)与先前研究表明明确提及人口统计信息时偏见最小不同,我们发现明确标注语言人口统计信息——德国方言使用者——相较于方言使用等隐含线索,反而加剧了偏见。
条件生成建模旨在从包含数据-条件对的样本中学习条件数据分布。为此,基于扩散和流的方法已取得了引人注目的成果。这些方法利用一个学习到的(流)模型,将初始的标准高斯噪声(忽略条件)传输到条件数据分布。因此,模型需要同时学习质量传输和条件注入。为了减轻模型的学习负担,我们提出了条件感知重参数化流匹配(CAR-Flow)——一种轻量级的学习偏移,用于对源分布、目标分布或两者进行条件化处理。通过重新定位这些分布,CAR-Flow缩短了模型必须学习的概率路径,从而在实践中加速了训练。在低维合成数据上,我们可视化和量化了CAR的效果。在高维自然图像数据(ImageNet-256)上,为SiT-XL/2配备CAR-Flow将FID从2.07降至1.68,同时仅引入不到0.6%的额外参数。
数据稀缺性仍然是制约机器人技术发展的主要瓶颈之一。然而,现实世界中可用的机器人数据正呈指数级增长,这为大规模数据利用创造了新的机遇。可靠的时间任务完成预测有助于自动标注和规模化整理这些数据。最近提出的生成式价值学习(GVL)方法,通过利用视觉-语言模型(VLMs)中嵌入的知识,从视觉观察中预测任务进度。在GVL的基础上,我们提出了OpenGVL,这是一个全面的基准测试,用于评估涉及机器人和人体操作的各种复杂任务中的任务进度。我们评估了公开可用的开源基础模型的能力,结果显示开源模型家族在时间进度预测任务上的表现显著落后于闭源模型,仅达到后者约70%的性能。此外,我们展示了OpenGVL如何作为自动化数据整理和过滤的实用工具,实现对大规模机器人数据集的高效质量评估。我们在github.com/budzianowski/opengvl{OpenGVL}发布了该基准测试及其完整代码库。
近期,多模态大语言模型(MLLMs)的进展显著提升了视频理解能力,为实际应用开辟了新天地。然而,当前的视频基准测试主要集中于室内场景或短距离户外活动,对长距离旅行相关的挑战则鲜有涉猎。掌握延展的地理时空轨迹对于下一代MLLMs至关重要,它是实现诸如具身AI规划与导航等现实任务的基础。为填补这一空白,我们推出了VIR-Bench,一个包含200段旅行视频的创新基准测试,将行程重建设定为一项挑战性任务,旨在评估并推动MLLMs的地理时空智能。实验结果显示,包括专有模型在内的最先进MLLMs在应对跨越广阔时空尺度的视频时,难以取得高分,凸显了处理此类视频的难度。此外,我们开展了一项深入案例研究,开发了一个原型旅行规划代理,该代理充分利用了从VIR-Bench中获得的洞见。该代理在行程推荐上的显著改进验证了我们的评估协议不仅有效基准化了模型,还转化为面向用户应用的具体性能提升。
近年来,利用辐射场重建精确表面取得了显著进展。然而,当前主流方法主要基于高斯泼溅技术,正日益受到表示瓶颈的限制。本文提出GeoSVR,一种显式的基于体素的框架,探索并拓展了稀疏体素在实现精确、细致且完整表面重建方面尚未充分挖掘的潜力。稀疏体素的优势在于支持保持覆盖完整性和几何清晰度,但同时也因缺乏场景约束和局部表面细化而面临挑战。为确保场景正确收敛,我们首先提出了一种体素不确定性深度约束,该约束在最大化单目深度线索效果的同时,引入体素导向的不确定性以避免质量下降,从而实现有效且鲁棒的场景约束,同时保持高度精确的几何形状。随后,设计了稀疏体素表面正则化,以增强微小体素的几何一致性,并促进基于体素的锐利且精确表面的形成。大量实验表明,在多种具有挑战性的场景中,我们的方法相较于现有技术展现出卓越性能,在几何精度、细节保留和重建完整性方面表现优异,同时保持了高效率。代码可在https://github.com/Fictionarry/GeoSVR获取。
同步语音到文本翻译(SimulST)系统需要在翻译质量与延迟——即语音输入与翻译输出之间的时间差——之间取得平衡。尽管质量评估已有成熟方法,但精确测量延迟仍是一大挑战。现有指标往往产生不一致或误导性的结果,尤其是在广泛使用的短格式场景中,语音被人为预先分割。本文首次对跨语言对、系统以及短格式与长格式场景下的SimulST延迟指标进行了全面分析,揭示了当前指标中与分割相关的结构性偏差,这一偏差影响了公平且有意义的比较。为解决此问题,我们引入了YAAL(Yet Another Average Lagging),一种在短格式场景下提供更准确评估的改进延迟指标。我们将YAAL扩展为LongYAAL以适用于未分割音频,并提出SoftSegmenter,一种基于词级对齐的新型重分割工具。实验表明,YAAL和LongYAAL在延迟指标上优于流行方法,而SoftSegmenter提升了长格式评估中的对齐质量,共同为SimulST系统提供了更可靠的评估手段。
本文介绍了CommonForms,一个用于表单字段检测的网络规模数据集。该研究将表单字段检测问题转化为目标检测任务:给定页面图像,预测表单字段的位置和类型(文本输入、选择按钮、签名)。数据集通过筛选Common Crawl中具有可填写元素的PDF文件构建而成。从800万份文档出发,经过筛选过程最终得到约55,000份文档,包含超过450,000页。分析显示,该数据集涵盖了多种语言和领域;其中三分之一的页面为非英语内容,在14个分类领域中,没有任何一个领域占数据集总量的25%以上。 此外,本文提出了一系列表单字段检测器——FFDNet-Small和FFDNet-Large,它们在CommonForms测试集上达到了极高的平均精度。每个模型的训练成本均低于500美元。消融实验结果表明,高分辨率输入对于高质量的表单字段检测至关重要,且清洗过程相较于直接使用Common Crawl中所有含可填写字段的PDF文件,显著提高了数据效率。定性分析显示,这些模型在性能上超越了市面上流行的、具备表单准备功能的PDF阅读器。与最受欢迎的商用解决方案不同,FFDNet不仅能预测文本和签名字段,还能预测复选框。据我们所知,这是首个公开发布的大规模表单字段检测数据集,同时也是首个开源模型。数据集、模型及代码将在https://github.com/jbarrow/commonforms 发布。
多光谱影像在土地分类、环境监测和城市规划等遥感应用中扮演着至关重要的角色。这类影像之所以被广泛采用,是因为其额外的光谱波段与地面上的物理物质(如冰、水和植被)有着强烈的相关性,从而实现了更精确的识别。同时,来自Sentinel-2和Landsat等任务的公开可用性进一步提升了其价值。目前,这类数据的自动分析主要依赖于专门为多光谱输入训练的机器学习模型,这些模型的训练和支持成本高昂。此外,尽管这些额外输入为遥感提供了诸多便利,却无法与强大的通用大型多模态模型结合使用,后者虽能解决多种视觉问题,却无法理解专门的多光谱信号。 为此,我们提出了一种无需训练的方法,以零样本模式将新的多光谱数据引入仅基于RGB输入训练的通用多模态模型。我们的方法利用多模态模型对视觉空间的理解,提出调整输入以适应该空间,并将领域特定信息作为指令注入模型。我们以Gemini2.5模型为例,展示了这一理念,并在土地覆盖和土地利用分类的流行遥感基准上观察到了显著的零样本性能提升,证明了Gemini2.5对新输入的易适应性。这些成果凸显了地理空间专业人士在处理非标准专业输入时,能够轻松利用如Gemini2.5这样的强大多模态模型,加速工作进程,并受益于其基于专业传感器数据的丰富推理和上下文理解能力。
机器人操作策略往往难以实现泛化,因为它们需要同时学习关注何处、采取何种动作以及如何执行这些动作。我们认为,关于“何处”与“何物”的高层次推理可以交由视觉-语言模型(VLMs)处理,让策略专注于“如何”行动。我们提出了PEEK(策略无关的关键点提取),它通过微调VLMs来预测一个统一的基于点的中间表示:1. 指定采取何种动作的末端执行器路径,以及2. 指示关注何处的任务相关掩码。这些标注直接叠加在机器人观测上,使得该表示既与策略无关,又能在不同架构间迁移。为了实现可扩展的训练,我们引入了一个自动标注流程,在涵盖9种实体形态的20多个机器人数据集上生成标注数据。在现实世界的评估中,PEEK持续提升了零样本泛化能力,包括仅通过模拟训练的3D策略在现实中实现了41.4倍的性能提升,以及大型VLAs和小型操作策略分别获得了2至3.5倍的增益。通过让VLMs吸收语义和视觉的复杂性,PEEK为操作策略提供了所需的最小提示——何处、何物及如何。访问我们的网站:https://peek-robot.github.io/。
我们推出RadEval,一个统一的开源框架,用于评估放射学文本。RadEval整合了多样化的评估指标,从经典的n-gram重叠度(BLEU、ROUGE)和上下文相关度量(BERTScore),到基于临床概念的评分(F1CheXbert、F1RadGraph、RaTEScore、SRR-BERT、TemporalEntityF1),以及先进的基于大语言模型的评估器(GREEN)。我们对实现进行了优化和标准化,扩展了GREEN以支持多种成像模态,采用更轻量级的模型,并预训练了一个特定领域的放射学编码器,展示了强大的零样本检索性能。同时,我们发布了一个包含超过450个临床重要错误标签的专家标注数据集,并展示了不同指标与放射科医生判断之间的相关性。最后,RadEval提供了统计测试工具和跨多个公开数据集的基线模型评估,促进了放射学报告生成领域的可重复性和稳健基准测试。
我们推出DRISHTIKON,这是首个专注于印度文化的多模态、多语言基准测试,旨在评估生成式AI系统的文化理解能力。与现有具有通用或全球视野的基准不同,DRISHTIKON深入细致地覆盖了印度多元化的地区,涵盖15种语言,覆盖所有邦和中央直辖区,并整合了超过64,000组对齐的文本-图像对。该数据集捕捉了丰富的文化主题,包括节日、服饰、美食、艺术形式及历史遗产等众多方面。我们评估了广泛的视觉-语言模型(VLMs),包括开源的小型与大型模型、专有系统、专门用于推理的VLMs以及面向印度语言的模型,在零样本和思维链设置下进行测试。我们的结果揭示了当前模型在处理基于文化的多模态输入,尤其是低资源语言和较少文献记载的传统方面,存在关键局限性。DRISHTIKON填补了包容性AI研究中的一项重要空白,为推进具备文化意识、多模态能力的语言技术提供了一个强有力的测试平台。