每日精选AI研究论文及翻译
我们推出Bielik v3系列,这是一组专为波兰语处理优化的参数高效生成文本模型(1.5B和4.5B)。这些模型证明,经过精心优化的小型架构能够达到与更大规模模型相媲美的性能,同时显著减少计算资源需求。我们的方法融合了多项关键创新:定制波兰语分词器(APT4)显著提升了分词效率,加权指令交叉熵损失平衡了不同类型指令的学习,以及自适应学习率根据训练进度动态调整。这些模型在精心筛选的2920亿个令牌、涵盖3.03亿份文档的语料库上训练,在多个基准测试中表现卓越,包括Open PL LLM排行榜、复杂波兰语文本理解基准、波兰EQ-Bench及波兰医学排行榜。其中,4.5B参数模型取得了与规模为其2-3倍的模型相竞争的结果,而1.5B模型虽极度紧凑,仍展现出强劲性能。这些进展为在较少被代表的语言中实现参数高效的语言建模设立了新标杆,使得高质量波兰语AI在资源受限的应用中更加触手可及。
我们推出Bielik 11B v2,这是一款专为波兰语文本处理优化的尖端语言模型。该模型基于Mistral 7B v0.2架构,通过深度扩展技术扩展至110亿参数,在波兰语基准测试中展现出卓越性能,同时保持了强大的跨语言能力。我们引入了两项关键技术创新:加权指令交叉熵损失,通过为训练样本分配基于质量的权重来优化跨多种指令类型的学习;以及自适应学习率,根据上下文长度动态调整。在多个基准测试中的全面评估表明,Bielik 11B v2超越了众多参数规模是其2至6倍的更大模型,并在从语言理解到复杂推理的各项任务上显著优于其他专门针对波兰语的模型。该模型的参数效率及广泛的量化选项使其能够部署于多种硬件配置,推动了波兰语AI能力的发展,并为资源受限语言中的高效语言建模设立了新标杆。
通用型机器人应能在多种环境中高效运作。然而,现有方法大多依赖大规模动作标注数据来提升能力,因此往往局限于单一物理规格,难以在不同实体和环境间迁移学习知识。为应对这些局限,我们提出了UniVLA,一个学习跨实体视觉-语言-动作(VLA)策略的新框架。我们的核心创新在于通过潜在动作模型从视频中提取任务中心化的动作表示,从而能够利用广泛实体和视角下的海量数据。为减少任务无关动态的影响,我们整合了语言指令,并在DINO特征空间内建立了潜在动作模型。通过互联网规模视频学习,这一通用策略可通过高效的潜在动作解码部署到各类机器人上。我们在多个操作与导航基准测试及实际机器人部署中取得了最先进的成果。UniVLA以不到OpenVLA 1/20的预训练计算量和1/10的下游数据量,实现了更优的性能。随着训练管道中引入异构数据,包括人类视频,持续的性能提升得以显现。这些结果凸显了UniVLA在促进可扩展且高效的机器人策略学习方面的潜力。
评估用户界面(UI)设计效果不仅关乎美学,更在于影响用户行为,这是设计说服力的核心理念。A/B测试是确定哪些UI变体能带来更高用户参与度的主要方法,但其成本高昂且耗时。尽管近期的视觉-语言模型(VLMs)能够处理自动化的UI分析,但现有方法多聚焦于孤立的设计属性,而非比较性的说服力——优化用户互动的关键因素。为此,我们推出了WiserUI-Bench,一个专为成对UI设计说服力评估任务设计的基准,包含300对真实世界的UI图像,并附有A/B测试结果及专家解析。此外,我们提出了G-FOCUS,一种新颖的推理时策略,通过减少位置偏差并提升评估准确性,增强了基于VLM的说服力评估。实验结果表明,在成对UI评估的一致性和准确性上,G-FOCUS超越了现有的推理策略。通过推动VLM驱动的UI说服力评估,我们的工作为补充A/B测试提供了一种途径,推动了可扩展UI偏好建模与设计优化的进步。代码与数据将公开发布。
近期,大型语言模型(LLMs)的发展重心已从预训练规模扩展转向了训练后及测试阶段的规模扩展。在这一系列进展中,一个核心的统一范式逐渐显现:奖励学习,其中奖励信号如同指引之星,引导着LLM的行为。这一范式支撑了众多主流技术,如强化学习(应用于RLHF、DPO和GRPO)、奖励导向的解码以及事后校正。尤为关键的是,该范式实现了从静态数据的被动学习向动态反馈的主动学习的转变,赋予LLMs以对齐的偏好和深层次的推理能力。在本综述中,我们全面概述了奖励学习这一范式,将其在训练、推理及推理后各阶段的策略进行了分类与分析。此外,我们还探讨了奖励模型的基准测试及其主要应用领域。最后,我们指出了当前面临的挑战与未来研究方向。相关论文合集持续更新于https://github.com/bobxwu/learning-from-rewards-llm-papers。
随着大型语言模型(LLMs)的广泛普及,深入理解其在特定领域内的知识对于实际应用的成功至关重要。这一点在公共卫生领域尤为关键,因为未能检索到相关、准确且最新的信息可能会对英国居民产生重大影响。然而,目前关于LLMs对英国政府公共卫生信息掌握程度的研究尚不多见。为解决这一问题,本文引入了一个新的基准测试——PubHealthBench,包含超过8000个问题,用于评估LLMs在多项选择题解答(MCQA)及自由形式回答公共卫生查询方面的表现,该基准通过自动化流程创建。同时,我们发布了一个新数据集,包含用于构建PubHealthBench的英国政府公共卫生指导文件提取文本。通过对24个LLMs在PubHealthBench上的评估,我们发现最新的私有LLMs(如GPT-4.5、GPT-4.1及o1)展现出较高知识水平,在MCQA设置中得分超过90%,并优于仅进行简单搜索引擎查询的人类。然而,在自由回答设置中,所有模型的表现均未超过75%。因此,尽管有迹象表明最先进的(SOTA)LLMs正成为越来越准确的公共卫生信息来源,但在提供公共卫生主题的自由形式回答时,可能仍需额外的保障措施或工具。
OpenAI的GPT-4o模型,在自回归架构中整合了多模态输入与输出,已在图像生成领域展现出前所未有的性能。本研究探讨了其对图像修复领域的潜在影响,并首次系统性地评估了GPT-4o在多种修复任务中的表现。实验表明,尽管GPT-4o生成的修复图像在视觉上颇具吸引力,但与真实图像相比,常存在像素级结构保真度不足的问题,如图像比例变化、物体位置与数量偏移以及视角改变等。针对这些问题,我们以图像去雾、去雨及低光增强为例,展示了GPT-4o输出作为强大视觉先验的潜力,显著提升了现有去雾网络的性能。本研究提供了实用指南及基础框架,旨在促进GPT-4o融入未来图像修复流程。我们期望对GPT-4o图像修复的研究能加速图像生成领域的创新进程。为支持进一步研究,我们将公开GPT-4o修复的来自10余个广泛使用的图像修复数据集的图像。
点云刚性配准是三维计算机视觉中的一个基础问题。在多视角场景下,我们的目标是找到一组6D位姿以对齐多个物体。基于成对配准的方法依赖于后续的同步算法,这使得它们在视图数量增加时扩展性较差。生成式方法克服了这一限制,但基于高斯混合模型并使用期望最大化算法,因此不太适合处理大范围的变换。此外,大多数现有方法无法应对高度退化的情况。本文中,我们提出了POLAR(POint cloud LAtent Registration,点云潜在配准),这是一种多视角配准方法,能够高效处理大量视图,同时对高度退化和大初始角度具有鲁棒性。为此,我们将配准问题转换到预训练自编码器的潜在空间中,设计了一种考虑退化的损失函数,并开发了一种高效的多起点优化策略。我们提出的方法在合成数据和真实数据上均显著优于现有最先进方法。POLAR可在github.com/pypolar/polar获取,或作为独立包通过pip install polaregistration安装。