AI研究論文每日精選

每日精選AI研究論文及翻譯

Bielik v3 小型版：技術報告
Bielik v3 Small: Technical Report

May 5

ByKrzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej

我們推出Bielik v3，這是一系列專為波蘭語處理優化的參數高效生成文本模型（1.5B和4.5B）。這些模型展示了經過良好優化的較小架構能夠在顯著減少計算資源需求的同時，實現與更大模型相媲美的性能。我們的方法融合了多項關鍵創新：一個顯著提升標記效率的定制波蘭語分詞器（APT4）、用於平衡各類指令學習的加權指令交叉熵損失，以及根據訓練進度動態調整的自適應學習率。這些模型基於精心挑選的2920億標記、涵蓋3.03億份文件的語料庫進行訓練，在多個基準測試中表現卓越，包括Open PL LLM Leaderboard、Complex Polish Text Understanding Benchmark、Polish EQ-Bench和Polish Medical Leaderboard。其中，4.5B參數模型的成績可與其規模2-3倍的模型競爭，而1.5B模型則在極其緊湊的配置下仍展現出強勁性能。這些進展為在代表性不足的語言中進行參數高效語言建模設立了新標杆，使得高質量的波蘭語AI技術更易於在資源受限的應用中普及。

Bielik 11B v2 技術報告
Bielik 11B v2 Technical Report

May 5

ByKrzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas

我們推出Bielik 11B v2，這是一款專為波蘭語文本處理優化的尖端語言模型。該模型基於Mistral 7B v0.2架構，並通過深度擴展技術擴展至11B參數，在波蘭語基準測試中展現出卓越性能，同時保持強大的跨語言能力。我們引入了兩項關鍵技術創新：加權指令交叉熵損失，通過為訓練樣本分配基於質量的權重來優化多樣化指令類型的學習；以及自適應學習率，根據上下文長度動態調整。在多重基準測試中的全面評估表明，Bielik 11B v2超越了許多參數量多達2-6倍的更大模型，並在從語言理解到複雜推理的任務上顯著優於其他專門的波蘭語模型。該模型的參數效率及廣泛的量化選項使其能夠部署於多種硬件配置，推動了波蘭語AI能力的發展，並為資源受限語言中的高效語言建模設立了新基準。

UniVLA：以任務為核心的潛在動作學習，實現無處不在的行動能力
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

May 9

ByQingwen Bu, Yanting Yang, Jisong Cai, Shenyuan Gao, Guanghui Ren, Maoqing Yao, Ping Luo, Hongyang Li

通用型機器人應能在各種環境中高效運作。然而，現有方法大多依賴於擴展帶有動作標註的數據來提升其能力，這導致它們通常局限於單一的物理規格，難以在不同實體和環境間學習可遷移的知識。為應對這些限制，我們提出了UniVLA，一個用於學習跨實體視覺-語言-動作（VLA）策略的新框架。我們的核心創新在於從視頻中提取任務中心化的動作表示，通過潛在動作模型實現。這使得我們能夠利用廣泛的數據，涵蓋多種實體和視角。為了減輕任務無關動態的影響，我們整合了語言指令，並在DINO特徵空間內建立了潛在動作模型。通過從互聯網規模的視頻中學習，這一通用策略可通過高效的潛在動作解碼部署到各類機器人上。我們在多個操作和導航基準測試以及實際機器人部署中取得了領先的成果。UniVLA以不到OpenVLA 1/20的預訓練計算量和1/10的下游數據量，實現了更優的性能。隨著異構數據（甚至包括人類視頻）被納入訓練流程，我們觀察到持續的性能提升。這些結果凸顯了UniVLA在促進可擴展且高效的機器人策略學習方面的潛力。

G-FOCUS：邁向評估用戶界面設計說服力的穩健方法
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

May 8

ByJaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu

評估用戶界面（UI）設計的有效性不僅限於美學層面，更關鍵的是影響用戶行為，這一原則正是設計說服力的核心。A/B測試是確定哪些UI變體能帶來更高用戶參與度的主要方法，但其成本高昂且耗時。儘管近期的視覺-語言模型（VLMs）能夠處理自動化的UI分析，但現有方法主要關注孤立的設計屬性，而非比較性的說服力——這是優化用戶交互的關鍵因素。為解決這一問題，我們引入了WiserUI-Bench，這是一個專為成對UI設計說服力評估任務設計的基準，包含300組真實世界的UI圖像對，並標註了A/B測試結果和專家解釋。此外，我們提出了G-FOCUS，一種新穎的推理時策略，通過減少位置偏差和提高評估準確性，增強了基於VLM的說服力評估。實驗結果表明，在成對UI評估的一致性和準確性方面，G-FOCUS超越了現有的推理策略。通過推動VLM驅動的UI說服力評估，我們的工作提供了一種補充A/B測試的方法，推動了可擴展的UI偏好建模和設計優化的進展。代碼和數據將公開發布。

航行於星辰之間的人工智慧：大型語言模型在訓練後與測試時獎勵學習的擴展研究綜述
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5

ByXiaobao Wu

近期大型语言模型（LLMs）的发展已从预训练规模扩展转向了训练后及测试时的规模扩展。在这一系列发展中，一个关键的统一范式应运而生：奖励学习，其中奖励信号如同指引方向的北极星，引导LLM的行为。这一范式支撑了众多主流技术，如强化学习（在RLHF、DPO和GRPO中）、奖励引导的解码以及事后校正。尤为重要的是，该范式实现了从静态数据的被动学习向动态反馈的主动学习的转变，从而赋予LLMs以对齐的偏好和深层次的推理能力。在本综述中，我们全面概述了奖励学习这一范式，将其在训练、推理及推理后阶段所采用的策略进行了分类与分析。此外，我们还探讨了奖励模型的基准测试及其主要应用领域。最后，我们指出了当前面临的挑战与未来的研究方向。我们维护了一个相关论文的集合，地址为https://github.com/bobxwu/learning-from-rewards-llm-papers。

健康的大型語言模型？評估LLM對英國政府公共衛生資訊的掌握程度
Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

May 9

ByJoshua Harris, Fan Grayson, Felix Feldman, Timothy Laurence, Toby Nonnenmacher, Oliver Higgins, Leo Loman, Selina Patel, Thomas Finnie, Samuel Collins, Michael Borowitz

随着大型语言模型（LLMs）的广泛普及，深入理解其在特定领域内的知识对于实际应用的成功至关重要。这一点在公共卫生领域尤为关键，因为未能检索到相关、准确且最新的信息可能会对英国居民产生重大影响。然而，目前关于LLMs对英国政府公共卫生信息的了解知之甚少。为解决这一问题，本文引入了一个新的基准测试——PubHealthBench，包含超过8000个问题，用于评估LLMs在公共卫生查询上的多项选择题回答（MCQA）和自由形式回答，这些问题通过自动化流程生成。我们还发布了一个新的数据集，包含用于PubHealthBench的英国政府公共卫生指导文档的提取文本。通过对24个LLMs在PubHealthBench上的评估，我们发现最新的私有LLMs（GPT-4.5、GPT-4.1和o1）具有高度的知识掌握，在MCQA设置中得分超过90%，并且优于仅使用搜索引擎进行粗略搜索的人类。然而，在自由形式回答设置中，我们观察到较低的性能，没有模型的得分超过75%。因此，尽管有迹象表明最先进的（SOTA）LLMs正成为越来越准确的公共卫生信息来源，但在提供公共卫生主题的自由形式回答时，可能仍需要额外的保障措施或工具。

GPT-4o在圖像修復上的初步研究
A Preliminary Study for GPT-4o on Image Restoration

May 8

ByHao Yang, Yan Yang, Ruikun Zhang, Liyuan Pan

OpenAI的GPT-4o模型，在自回归架构中整合了多模态输入与输出，已在图像生成领域展现出前所未有的性能。本研究探讨了其对图像修复社区的潜在影响。我们首次对GPT-4o在多种修复任务上进行了系统性评估。实验表明，尽管GPT-4o生成的修复结果在视觉上颇具吸引力，但与真实图像相比，常在像素级结构保真度上存在不足，常见问题包括图像比例变化、物体位置与数量偏移以及视角改变。为解决这一问题，我们以图像去雾、去雨及低光增强为代表性案例，展示了GPT-4o输出可作为强大的视觉先验，显著提升现有去雾网络的性能。本研究提供了实用指南与基础框架，以促进GPT-4o在未来图像修复流程中的整合。我们期望关于GPT-4o图像修复的研究能加速图像生成领域更广泛的创新。为支持进一步研究，我们将发布来自10多个广泛使用的图像修复数据集的GPT-4o修复图像。

多視角點雲配準：基於自編碼器潛在空間的優化方法
Multiview Point Cloud Registration via Optimization in an Autoencoder Latent Space

Apr 30

ByLuc Vedrenne, Sylvain Faisan, Denis Fortun

點雲剛性配準是三維計算機視覺中的一個基礎問題。在多視角情況下，我們的目標是找到一組六維姿態來對齊一組物體。基於成對配準的方法依賴於後續的同步算法，這使得它們在視角數量增加時的可擴展性較差。生成式方法克服了這一限制，但它們基於高斯混合模型並使用期望最大化算法，因此不太適合處理大規模變換。此外，大多數現有方法無法應對高度退化情況。本文中，我們提出了POLAR（POint cloud LAtent Registration），這是一種多視角配準方法，能夠高效處理大量視角，同時對高度退化和大初始角度具有魯棒性。為實現這一點，我們將配準問題轉移到預訓練自編碼器的潛在空間中，設計了一種考慮退化的損失函數，並開發了一種高效的多起點優化策略。我們提出的方法在合成數據和真實數據上顯著優於現有最先進的方法。POLAR可在github.com/pypolar/polar獲取，或作為獨立包通過pip install polaregistration安裝。

AI研究論文每日精選

每日精選AI研究論文及翻譯

航行於星辰之間的人工智慧：大型語言模型在訓練後與測試時獎勵學習的擴展研究綜述
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models

May 5

ByXiaobao Wu