每日精选AI研究论文及翻译
多模态基础模型,如GPT-4o,近期取得了显著进展,但这些模型在视觉理解方面的确切水平尚不明确。本文中,我们基于标准计算机视觉任务(语义分割、目标检测、图像分类、深度及表面法线预测),利用已建立的数据集(如COCO、ImageNet及其变体等),对主流多模态基础模型(GPT-4o、o4-mini、Gemini 1.5 Pro与Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2)进行了性能基准测试。 执行此测试面临的主要挑战包括:1)多数模型训练以输出文本为主,无法原生表达如分割或3D几何等多样化领域;2)许多领先模型为专有性质,仅能通过API访问,即无法获取权重进行适配。我们通过将标准视觉任务转化为等效的文本提示任务,并利用提示链技术创建标准化基准测试框架,以应对这些挑战。 我们的观察结果如下:1)这些模型在任何任务上均未接近最先进的专用模型水平。然而,2)它们作为通用模型表现尚可,这一点尤为引人注目,因为它们可能主要基于图像-文本任务进行训练。3)在语义任务上的表现明显优于几何任务。4)尽管提示链技术影响性能,但更优模型对提示变化的敏感性较低。5)在非推理模型中,GPT-4o表现最佳,在六项任务中四项位居榜首。6)推理模型,如o3,在几何任务上显示出改进。7)对具备原生图像生成能力的模型(如最新GPT-4o)的初步分析表明,它们存在幻觉和空间错位等异常现象。
扩散模型在推理阶段的高昂计算成本阻碍了其作为快速物理模拟器的应用。在图像和视频生成领域,这一计算瓶颈已通过在自编码器的潜在空间而非像素空间进行生成得到解决。本研究中,我们探讨了类似策略能否有效应用于动态系统的模拟,以及其代价如何。我们发现,潜在空间模拟的准确性对广泛的压缩率(高达1000倍)表现出惊人的鲁棒性。我们还证明,基于扩散的模拟器在准确性上持续优于非生成式模型,并通过预测的多样性更好地补偿了不确定性。最后,我们讨论了从架构到优化器等实际设计选择,这些选择对于训练潜在空间模拟器至关重要。
大型语言模型(LLMs)的快速发展,加剧了对超越英语中心基准、满足如印度等多语言地区需求的评估框架的需求。我们推出EKA-EVAL,一个统一且可直接用于生产的评估框架,它整合了超过35个基准测试,其中包括10个针对印度语言的特定数据集,覆盖推理、数学、工具使用、长上下文理解及阅读理解等多个类别。与现有的印度语言评估工具相比,EKA-EVAL提供了更广泛的基准覆盖,内置支持分布式推理、量化及多GPU使用。通过系统比较,EKA-EVAL被定位为首个面向全球及印度LLMs的端到端、可扩展评估套件,显著降低了多语言基准测试的门槛。该框架已开源,公开访问地址为https://github.com/lingo-iitgn/eka-eval,并作为EKA计划(https://eka.soket.ai)的一部分,旨在扩展至超过100个基准测试,为LLMs构建一个强大的多语言评估生态系统。
评估大型语言模型(LLMs)生成的创意写作仍具挑战性,因为开放式叙事缺乏明确的标准答案。在缺乏高效自动化评估方法的情况下,现成的(OTS)语言模型被用作零样本评判者,但其在此情境下的可靠性尚不明确。为了实现对创意写作的稳健评估,我们推出了LitBench,这是首个用于创意写作验证的标准化基准及配套数据集,包含从Reddit提取的2,480个去偏、人工标注的故事对比测试集,以及一个包含43,827对人工偏好标签的训练语料库。利用LitBench,我们(i)对零样本LLM评判者进行基准测试,(ii)训练了Bradley Terry和生成式奖励模型,并(iii)开展了一项在线人类研究,以验证奖励模型在最新LLM生成故事上的排名。我们的基准测试显示,Claude-3.7-Sonnet作为现成评判者表现最佳,与人类偏好的一致性达到73%;在训练后的奖励模型中,Bradley-Terry和生成式奖励模型均实现了78%的准确率,超越了所有现成评判者。一项在线人类研究进一步证实,我们训练的奖励模型在新颖的LLM生成故事中持续与人类偏好保持一致。我们在https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461发布了LitBench及奖励模型,为创意写作系统的可靠自动化评估与优化提供了经过验证的资源。