每日精選AI研究論文及翻譯
阿拉伯文件的光學字符識別(OCR)由於其連筆書寫、多樣字體、變音符號以及從右至左的書寫方向,仍然是一項具有挑戰性的任務。儘管現代多模態大型語言模型(MLLMs)在高資源語言的文檔理解方面取得了進展,但對阿拉伯語的表現仍有限。在本研究中,我們介紹了Baseer,這是一個專門針對阿拉伯文件OCR進行微調的視覺-語言模型。利用結合合成與真實世界文件的大規模數據集,Baseer通過僅解碼器的微調策略進行訓練,以適應預訓練的MLLM,同時保留一般視覺特徵。我們還提出了Misraj-DocOCR,這是一個高質量、經專家驗證的基準,旨在嚴格評估阿拉伯OCR系統。我們的實驗表明,Baseer顯著優於現有的開源和商業解決方案,達到了0.25的詞錯誤率(WER),並在阿拉伯文件OCR領域建立了新的技術標準。我們的結果強調了對通用MLLMs進行領域特定適應的優勢,並為像阿拉伯語這樣形態豐富的語言的高精度OCR建立了堅實的基準。
計算資源的指數級增長與高質量文本數據的有限增長之間日益擴大的差距,現已制約了大型語言模型(LLMs)傳統的擴展方法。為應對這一挑戰,我們引入了基於預訓練數據的強化學習(Reinforcement Learning on Pre-Training data, RLPT),這是一種新的訓練時擴展範式,旨在優化LLMs。與以往主要通過監督學習來擴展訓練的方法不同,RLPT使策略能夠自主探索有意義的軌跡,從預訓練數據中學習,並通過強化學習(RL)提升其能力。現有的RL策略,如基於人類反饋的強化學習(RLHF)和基於可驗證獎勵的強化學習(RLVR),依賴於人類標註來構建獎勵信號,而RLPT則消除了這一依賴,直接從預訓練數據中提取獎勵信號。具體而言,它採用了下一段推理目標,獎勵策略在給定前文的情況下準確預測後續文本片段的能力。這一公式化使得RL能夠在預訓練數據上進行擴展,鼓勵在更廣泛的上下文中探索更豐富的軌跡,從而培養更具泛化性的推理能力。在多個模型上進行的廣泛實驗,涵蓋通用領域和數學推理基準,驗證了RLPT的有效性。例如,當應用於Qwen3-4B-Base時,RLPT在MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24和AIME25上分別帶來了3.0、5.1、8.1、6.0、6.6和5.3的絕對提升。結果進一步展示了良好的擴展行為,表明隨著計算資源的增加,持續增益的潛力巨大。此外,RLPT為LLMs的推理邊界提供了堅實的基礎,並提升了RLVR的性能。
基於模仿學習的視覺運動策略已廣泛應用於機器人操作中,通常結合視覺觀測和本體感知狀態以實現精確控制。然而,本研究發現,這種常見做法會使策略過度依賴本體感知狀態輸入,導致對訓練軌跡的過擬合,並造成空間泛化能力不佳。相反,我們提出了無狀態策略(State-free Policy),移除本體感知狀態輸入,僅基於視覺觀測預測動作。無狀態策略建立在相對末端執行器動作空間中,並應確保完整的任務相關視覺觀測,這裡由雙廣角腕部相機提供。實驗結果表明,無狀態策略在空間泛化能力上顯著優於基於狀態的策略:在真實世界的任務中,如拾取放置、具有挑戰性的衣物摺疊以及複雜的全身操作,涵蓋多種機器人實體,其平均成功率在高度泛化上從0%提升至85%,在水平泛化上從6%提升至64%。此外,它們在數據效率和跨實體適應性方面也展現出優勢,增強了其在實際部署中的實用性。
多模態大型語言模型(MLLMs)正經歷快速發展,代表了人工智慧領域的前沿。然而,其訓練與推理效率已成為提升MLLMs可及性與可擴展性的核心瓶頸。為應對這些挑戰,我們推出了MiniCPM-V 4.5,這是一個擁有80億參數的模型,專為高效能與強勁表現而設計。我們在模型架構、數據策略及訓練方法上引入了三大核心改進:針對圖像與視頻高度壓縮編碼的統一3D-Resampler模型架構、無需繁重數據工程的文檔知識與文本識別統一學習範式,以及適用於短長推理模式的混合強化學習策略。OpenCompass評估中的全面實驗結果顯示,MiniCPM-V 4.5超越了廣泛使用的專有模型如GPT-4o-latest,以及規模顯著更大的開源模型如Qwen2.5-VL 72B。值得注意的是,這一強勁表現是在極高效率下實現的。例如,在廣為採用的VideoMME基準測試中,MiniCPM-V 4.5在30B規模以下的模型中達到了頂尖性能,僅消耗了Qwen2.5-VL 7B 46.7%的GPU記憶體成本與8.7%的推理時間。
理解並推理整個軟件倉庫是智能軟件工程工具的一項核心能力。儘管現有的基準測試如CoSQA和CodeQA已推動了該領域的發展,但它們主要集中於小型、自包含的代碼片段。這些設置未能捕捉到現實世界倉庫的複雜性,在這些環境中,有效的理解和推理通常需要跨越多個文件、理解軟件架構,並將答案建立在長距離代碼依賴的基礎上。本文中,我們提出了SWE-QA,一個倉庫級別的代碼問答(QA)基準測試,旨在促進在真實代碼環境中自動化QA系統的研究。SWE-QA包含576個高質量的問答對,涵蓋多樣化的類別,包括意圖理解、跨文件推理和多跳依賴分析。為構建SWE-QA,我們首先從11個熱門倉庫中爬取了77,100個GitHub問題。基於從這些問題中提取的自然發生的開發者問題的分析,我們開發了一個兩級分類的倉庫級問題分類法,並為每個類別構建了一組種子問題。對於每個類別,我們手動整理並驗證了問題,並收集了其對應的答案。作為原型應用,我們進一步開發了SWE-QA-Agent,這是一個代理框架,其中LLM代理通過推理和行動自動尋找答案。我們在多種上下文增強策略下評估了六種先進的LLM在SWE-QA上的表現。實驗結果凸顯了LLM,特別是我們的SWE-QA-Agent框架,在解決倉庫級QA問題上的潛力,同時也揭示了開放性挑戰並指明了未來的研究方向。
視覺空間推理(Visual Spatial Reasoning, VSR)是人類核心的認知能力,也是推動具身智能與自主系統發展的關鍵需求。儘管視覺-語言模型(Vision-Language Models, VLMs)近期取得了進展,但由於三維空間表示與推理的複雜性,實現人類水平的VSR仍然極具挑戰性。本文系統性地探討了VLMs中的VSR,涵蓋了對現有方法論的全面回顧,包括輸入模態、模型架構、訓練策略及推理機制。此外,我們將空間智能劃分為三個能力層級,即基礎感知、空間理解與空間規劃,並構建了SIBench——一個涵蓋近20個開源數據集、跨越23種任務設置的空間智能基準。通過對最先進VLMs的實驗,我們發現感知與推理之間存在顯著差距:模型在基礎感知任務中表現出色,但在理解與規劃任務中持續表現不佳,特別是在數值估計、多視角推理、時間動態與空間想像方面。這些發現凸顯了實現空間智能所面臨的重大挑戰,同時為該領域的未來研究提供了系統性的路線圖與全面的基準。本研究的相關資源可於https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/ 獲取。
近期,在基礎模型的強化學習領域,如群體相對策略優化(GRPO),取得了顯著進展,大幅提升了基礎模型在推理任務上的表現。值得注意的是,優勢函數在GRPO中作為核心機制,用於排序軌跡的重要性。然而,現有研究面臨優勢反轉和優勢鏡像問題,這阻礙了不同查詢樣本間合理的優勢分配。在本研究中,我們提出了一種簡單但有效的GRPO策略,即混合優勢策略優化(MAPO)。我們揭示了軌跡呈現出不同的確定性,並針對高確定性軌跡的樣本提出了優勢百分比偏差。此外,我們根據軌跡確定性的變化動態重新加權優勢函數,從而自適應地配置優勢函數以考慮樣本特定特性。與相關的最新方法進行比較,以及對不同優勢變體的消融研究,驗證了我們方法的有效性。
前馈式三维高斯泼溅(3DGS)已成为新视角合成中的一项高效解决方案。现有方法主要依赖于像素对齐的高斯预测范式,即每个二维像素被映射到一个三维高斯分布。我们重新审视了这一广泛采用的公式,并识别出若干固有局限:它使得重建的三维模型严重依赖输入视角的数量,导致视角偏差的密度分布,并在源视角存在遮挡或低纹理时引入对齐误差。为应对这些挑战,我们提出了VolSplat,一种新的多视角前馈范式,用体素对齐的高斯分布取代了像素对齐。通过直接从预测的三维体素网格中预测高斯分布,它克服了像素对齐对易出错的二维特征匹配的依赖,确保了鲁棒的多视角一致性。此外,它还能基于三维场景复杂度自适应控制高斯密度,生成更忠实的高斯点云,提升几何一致性,并增强新视角渲染质量。在包括RealEstate10K和ScanNet在内的广泛使用的基准测试中,实验表明VolSplat实现了最先进的性能,同时生成了更合理且视角一致的高斯重建。除了卓越的结果外,我们的方法建立了一个更具扩展性的前馈三维重建框架,提供了更密集且更稳健的表示,为更广泛社区中的进一步研究铺平了道路。视频结果、代码及训练模型可在我们的项目页面上获取:https://lhmd.top/volsplat。
大型推理模型(LRMs)在测试时花费大量计算资源于冗长的思维链(CoT)追踪上,然而,何种特性构成有效的CoT仍不明确。尽管先前的研究报告称,通过延长CoT和增加回顾(即重新审视早期步骤)——通过附加的*等待*标记——能带来收益,但近期的研究却表明,较短的思考过程可能优于较长的追踪。因此,我们针对数学和科学推理领域,对十种LRMs进行了系统性评估。与“越长越好”的普遍观点相反,我们发现,无论是简单的CoT延长还是增加回顾,均与*更低*的准确率相关联。 随着CoT逐步展开,基于标记层面的指标可能会将冗长与过程质量混为一谈。我们引入了一种CoT的图结构视角,以提取其结构并识别出一个单一统计量——*失败步骤比例(FSF)*,即被放弃分支中步骤所占的比例——该统计量在预测模型正确性方面,持续优于长度和回顾比率。为了探究因果关系,我们设计了两项干预措施。首先,在测试时根据各指标对候选CoT进行排序,其中FSF带来了最大的pass@1增益;其次,我们编辑CoT以移除失败分支,此举显著提高了准确率,表明失败分支会干扰后续推理。综合这些结果,我们得出有效CoT的特征在于其*失败更少*,并支持在测试时进行*结构感知*的扩展,而非盲目生成冗长的CoT。
生成虛擬環境的能力對於從遊戲到物理人工智慧領域(如機器人技術、自動駕駛和工業人工智慧)的應用至關重要。當前基於學習的三維重建方法依賴於捕捉到的真實世界多視角數據的可用性,而這些數據並非總是易於獲取。近年來,視頻擴散模型的進展展現了卓越的想像能力,但其二維特性限制了在模擬中的應用,尤其是在機器人需要導航並與環境互動的場景中。本文提出了一種自我蒸餾框架,旨在將視頻擴散模型中的隱式三維知識蒸餾成顯式的三維高斯濺射(3DGS)表示,從而消除對多視角訓練數據的需求。具體而言,我們在典型的RGB解碼器基礎上增加了3DGS解碼器,並以RGB解碼器的輸出作為監督信號。通過這種方式,3DGS解碼器可以僅使用視頻擴散模型生成的合成數據進行訓練。在推理階段,我們的模型能夠根據文本提示或單張圖像實時合成三維場景。此外,我們的框架還進一步擴展到從單目輸入視頻生成動態三維場景的能力。實驗結果表明,我們的框架在靜態和動態三維場景生成方面達到了最先進的性能。
統一多模態模型近期因其在聯合理解與生成多樣化內容方面的卓越能力而備受關注。然而,隨著上下文整合了越來越多交織的多模態標記,擴散去噪和自迴歸解碼的迭代過程帶來了顯著的計算開銷。為解決這一問題,我們提出了Hyper-Bagel,這是一個旨在同時加速多模態理解與生成任務的統一加速框架。我們的方法採用分而治之的策略,利用推測解碼進行下一標記預測,並通過多階段蒸餾過程實現擴散去噪。該框架帶來了顯著的性能提升,在多模態理解任務中實現了超過2倍的加速。對於生成任務,我們最終的無損6-NFE模型在文本到圖像生成中實現了16.67倍的加速,在圖像編輯中實現了22倍的加速,同時保持了原始模型的高質量輸出。我們進一步開發了一種高效的1-NFE模型,能夠實現近乎實時的交互式編輯與生成。通過將先進的對抗蒸餾與人類反饋學習相結合,該模型達到了極致的成本效益和響應速度,使複雜的多模態交互變得無縫且即時。
在大型語言模型(LLM)的思維鏈(Chain-of-Thought, CoT)推理階段,使用連續而非離散的token最近引起了廣泛關注。這一做法基於一種直覺,即連續的離散token混合可以模擬多條推理路徑的疊加。理論研究已正式證明,連續token具有更高的表達能力,並且能更高效地解決特定問題。然而,連續token的實際應用因訓練難度大而受限:先前的研究要么僅在預訓練的離散token模型上於推理時使用連續token,要么必須從真實的離散CoT中蒸餾出連續CoT,並面臨計算成本高企的問題,這限制了CoT只能使用極少數的token。 本研究首次引入了一種可擴展的方法,通過強化學習(RL)來學習連續CoT,而無需從參考的離散CoT中蒸餾。我們使用“軟”token:即token的混合體,並在輸入嵌入中加入噪聲以提供RL探索。計算開銷極小,使我們能夠學習包含數百個token的連續CoT。在Llama和Qwen模型(最高8B)的數學推理基準測試中,使用連續CoT進行訓練在pass@1上與離散token CoT持平,並在pass@32上超越後者,顯示出更高的CoT多樣性。在系統性比較中,表現最佳的場景是使用連續CoT token進行訓練,然後在推理時使用離散token,這意味著“軟”模型可以以標準方式部署。最後,我們展示了連續CoT RL訓練能更好地保留基礎模型在域外任務上的預測,從而為基礎模型提供了更為溫和的調整。
近期,3D高斯泼溅(3DGS)作为一种强大的替代方案崭露头角,它通过显式、可优化的3D高斯实现了实时、高质量的新视角合成。然而,3DGS因其依赖每个高斯的参数来建模视角依赖效应和各向异性形状,而面临显著的内存开销问题。尽管最近的研究提出了利用神经场压缩3DGS的方法,但这些方法难以捕捉高斯属性中的高频空间变化,导致精细细节的重建质量下降。我们提出了混合辐射场(HyRF),这是一种新颖的场景表示方法,它结合了显式高斯和神经场的优势。HyRF将场景分解为:(1)一组紧凑的显式高斯,仅存储关键的高频参数;(2)基于网格的神经场,用于预测其余属性。为了增强表示能力,我们引入了一种解耦的神经场架构,分别建模几何(尺度、不透明度、旋转)和视角依赖的颜色。此外,我们提出了一种混合渲染方案,将高斯泼溅与神经场预测的背景相结合,解决了远距离场景表示的局限性。实验表明,HyRF在实现最先进渲染质量的同时,将模型大小相比3DGS减少了超过20倍,并保持了实时性能。我们的项目页面可在https://wzpscott.github.io/hyrf/访问。
方言作為人類文化的重要組成部分,遍佈於世界各地。在德國,超過40%的人口使用地區方言(Adler和Hansen,2022年)。然而,儘管方言具有文化重要性,使用方言的個體往往面臨負面的社會刻板印象。我們探討此類刻板印象是否也反映在大型語言模型(LLMs)中。我們借鑑社會語言學中關於方言感知的文獻,分析通常與方言使用者相關的特質。基於這些特質,我們通過兩項任務——關聯任務和決策任務——評估LLMs表現出的方言命名偏見和方言使用偏見。為評估模型的方言使用偏見,我們構建了一個新穎的評估語料庫,該語料庫將七種德國地區方言(如阿勒曼尼語和巴伐利亞語)的句子與其標準德語對應句配對。我們發現:(1)在關聯任務中,所有評估的LLMs均對德國方言使用者表現出顯著的方言命名和方言使用偏見,這體現在負面形容詞的關聯上;(2)所有模型在決策過程中都複製了這些方言命名和方言使用偏見;(3)與先前研究表明在明確提及人口統計特徵時偏見最小不同,我們發現明確標記語言人口統計特徵——德國方言使用者——比方言使用等隱含線索更能放大偏見。
條件生成建模旨在從包含數據-條件對的樣本中學習條件數據分佈。為此,基於擴散和流的方法已取得了令人信服的成果。這些方法使用一個學習到的(流)模型,將初始的標準高斯噪聲(忽略條件)轉移到條件數據分佈。因此,模型需要同時學習質量傳輸和條件注入。為了減輕模型的負擔,我們提出了條件感知重參數化流匹配(CAR-Flow)——一種輕量級的學習偏移,用於對源分佈、目標分佈或兩者進行條件化。通過重新定位這些分佈,CAR-Flow縮短了模型必須學習的概率路徑,從而實現了更快的實際訓練。在低維合成數據上,我們可視化並量化了CAR的效果。在高維自然圖像數據(ImageNet-256)上,為SiT-XL/2配備CAR-Flow將FID從2.07降低到1.68,同時引入的額外參數不到0.6%。
數據稀缺性仍然是推動機器人技術進步的主要限制因素之一。然而,現實世界中可用的機器人數據量正在呈指數級增長,為大規模數據利用創造了新的機遇。可靠的時序任務完成預測可以幫助自動化地大規模註釋和整理這些數據。最近提出的生成式價值學習(Generative Value Learning, GVL)方法,利用視覺-語言模型(Vision-Language Models, VLMs)中嵌入的知識,從視覺觀察中預測任務進度。基於GVL,我們提出了OpenGVL,這是一個全面的基準,用於評估涉及機器人和人體操作的多樣化且具挑戰性的任務進度。我們評估了公開可用的開源基礎模型的能力,結果顯示開源模型家族在時序進度預測任務上的表現顯著落後於閉源模型,僅達到其性能的約70%。此外,我們展示了OpenGVL如何作為自動化數據整理和過濾的實用工具,實現對大規模機器人數據集的高效質量評估。我們在github.com/budzianowski/opengvl{OpenGVL}上發布了該基準以及完整的代碼庫。
近期,多模态大语言模型(MLLMs)的显著进展极大地提升了视频理解能力,为实际应用开辟了新的可能性。然而,当前的视频基准测试主要集中于室内场景或短距离户外活动,使得与长途旅行相关的挑战在很大程度上未被探索。掌握延长的地理时空轨迹对于下一代MLLMs至关重要,这是实现具身AI规划和导航等现实世界任务的基础。为了填补这一空白,我们提出了VIR-Bench,这是一个由200个旅行视频组成的新颖基准测试,它将行程重建设计为一项挑战性任务,旨在评估并推动MLLMs的地理时空智能。实验结果显示,包括专有模型在内的最先进MLLMs在应对跨越广阔空间和时间尺度的视频时,难以取得高分,突显了处理此类视频的难度。此外,我们进行了一项深入的案例研究,开发了一个原型旅行规划代理,该代理利用了从VIR-Bench中获得的洞见。该代理显著改进的行程推荐验证了我们的评估协议不仅有效地基准测试了模型,还转化为面向用户应用中的具体性能提升。
近年來,基於輻射場的精確表面重建取得了顯著進展。然而,主要依賴於高斯潑濺的主流方法,其表現能力正日益受到瓶頸限制。本文提出GeoSVR,一種顯式的基於體素的框架,旨在探索並拓展稀疏體素在實現精確、細緻且完整表面重建方面尚未充分挖掘的潛力。稀疏體素的優勢在於支持保持覆蓋完整性和幾何清晰度,但同時也因缺乏場景約束和局部表面細化而面臨挑戰。為確保場景的正確收斂,我們首先提出了一種體素不確定性深度約束,該約束在最大化單目深度線索效應的同時,引入體素導向的不確定性以避免質量下降,從而實現有效且魯棒的場景約束,同時保持高度精確的幾何形態。隨後,設計了稀疏體素表面正則化,以增強微小體素的幾何一致性,並促進基於體素的銳利且精確表面的形成。大量實驗表明,在多樣化的挑戰性場景中,相較於現有方法,我們的方法在幾何精度、細節保留和重建完整性方面均表現出卓越性能,同時保持高效性。代碼可在https://github.com/Fictionarry/GeoSVR獲取。
同步語音到文本翻譯(SimulST)系統必須在翻譯質量與延遲——即語音輸入與翻譯輸出之間的時間差——之間取得平衡。雖然質量評估已相當成熟,但精確的延遲測量仍是一大挑戰。現有的度量標準往往產生不一致或誤導性的結果,特別是在廣泛使用的短格式設置中,其中語音被人為地預先分段。本文首次對跨語言對、系統以及短格式和長格式情境下的SimulST延遲度量進行了全面分析。我們揭示了當前度量標準中與分段相關的結構性偏見,這損害了公平且有意義的比較。為解決這一問題,我們引入了YAAL(Yet Another Average Lagging),這是一種改進的延遲度量,能在短格式情境下提供更準確的評估。我們將YAAL擴展為LongYAAL,用於未分段音頻,並提出了SoftSegmenter,這是一種基於詞級對齊的新型重分段工具。我們的實驗表明,YAAL和LongYAAL在性能上超越了流行的延遲度量標準,而SoftSegmenter則提升了長格式評估中的對齊質量,共同促成了對SimulST系統更為可靠的評估。
本文介紹了CommonForms,一個用於表單欄位檢測的網絡規模數據集。該研究將表單欄位檢測問題視為目標檢測任務:給定頁面圖像,預測表單欄位的位置和類型(文本輸入、選擇按鈕、簽名)。數據集通過過濾Common Crawl來構建,以尋找包含可填寫元素的PDF文件。從800萬份文檔開始,經過過濾過程最終得到約55,000份文檔的數據集,這些文檔包含超過450,000頁。分析顯示,該數據集涵蓋了多種語言和領域的混合;三分之一的頁面為非英語,在14個分類領域中,沒有任何一個領域佔據數據集的25%以上。 此外,本文提出了一系列表單欄位檢測器,FFDNet-Small和FFDNet-Large,它們在CommonForms測試集上達到了非常高的平均精度。每個模型的訓練成本低於500美元。消融實驗結果表明,高分辨率輸入對於高質量的表單欄位檢測至關重要,並且清理過程相比直接使用Common Crawl中所有包含可填寫欄位的PDF文件,提高了數據效率。定性分析顯示,這些模型在性能上超越了市面上流行的、能夠處理表單的PDF閱讀器。與市面上最流行的商業解決方案不同,FFDNet除了能夠預測文本和簽名欄位外,還能預測複選框。據我們所知,這是首個針對表單欄位檢測發布的大規模數據集,也是首個開源模型。數據集、模型和代碼將發佈於https://github.com/jbarrow/commonforms。
多光譜影像在土地用途分類、環境監測及都市規劃等多種遙感應用中扮演著關鍵角色。這類影像之所以被廣泛採用,是因為其額外的光譜波段與地面上的物理材料(如冰、水及植被)具有強烈的相關性,從而實現更精確的識別。此外,像Sentinel-2和Landsat等任務提供的公開可用性,更增添了其價值。目前,這類數據的自動分析主要依賴於專門針對多光譜輸入訓練的機器學習模型,這些模型的訓練與維護成本高昂。儘管這些額外輸入在遙感領域提供了大量實用性,但它們無法與強大的通用大型多模態模型結合使用,這些模型雖能解決許多視覺問題,卻無法理解專門的多光譜信號。 為解決這一問題,我們提出了一種無需訓練的方法,該方法以零樣本模式引入新的多光譜數據,作為僅接受RGB輸入的通用多模態模型的輸入。我們的方法利用多模態模型對視覺空間的理解,提出適應該空間的輸入,並將領域特定信息作為指令注入模型。我們以Gemini2.5模型為例,展示了這一理念,並觀察到該方法在土地覆蓋和土地利用分類的流行遙感基準測試中顯著的零樣本性能提升,同時證明了Gemini2.5對新輸入的易適應性。這些結果凸顯了地理空間專業人士在處理非標準專門輸入時,能夠輕鬆利用如Gemini2.5等強大的多模態模型來加速工作,並受益於其基於專門傳感器數據的豐富推理與上下文理解能力。
機器人操作策略往往難以泛化,因為它們必須同時學習關注何處、採取何種動作以及如何執行這些動作。我們認為,關於「何處」和「何種」的高層次推理可以交由視覺語言模型(VLMs)處理,讓策略專注於「如何」行動。我們提出了PEEK(策略無關的關鍵點提取),它通過微調VLMs來預測一個統一的基於點的中間表示:1. 指定「何種」動作的末端執行器路徑,以及2. 指示「何處」關注的任務相關遮罩。這些註解直接疊加在機器人觀測上,使得該表示與策略無關,並可跨架構轉移。為了實現可擴展的訓練,我們引入了一個自動註解管道,在涵蓋9種實體的20多個機器人數據集上生成標記數據。在現實世界的評估中,PEEK持續提升了零樣本泛化能力,包括僅在模擬中訓練的3D策略在現實世界中提升了41.4倍,以及大型VLAs和小型操作策略分別提升了2-3.5倍。通過讓VLMs吸收語義和視覺的複雜性,PEEK為操作策略提供了所需的最小提示——何處、何種以及如何。網站位於https://peek-robot.github.io/。
我们推出RadEval,一个统一的开源框架,用于评估放射学文本。RadEval整合了多样化的评价指标,从经典的n-gram重叠度(BLEU、ROUGE)和上下文相关度量(BERTScore),到基于临床概念的评分(F1CheXbert、F1RadGraph、RaTEScore、SRR-BERT、TemporalEntityF1),以及先进的基于大型语言模型的评估器(GREEN)。我们对实现进行了优化与标准化,扩展了GREEN以支持多种成像模式,并采用更轻量级的模型,同时预训练了一个特定领域的放射学编码器,展示了强大的零样本检索性能。此外,我们发布了一个包含超过450个临床显著错误标签的专家标注数据集,并展示了不同指标与放射科医生判断之间的相关性。最后,RadEval提供了统计测试工具及在多个公开可用数据集上的基线模型评估,促进了放射学报告生成领域的可重复性与稳健基准测试。
我们推出DRISHTIKON,这是一项首创的多模态、多语言基准测试,专注于印度文化,旨在评估生成式人工智能系统的文化理解能力。与现有具有通用性或全球视野的基准测试不同,DRISHTIKON提供了对印度多样地区深入且细致的覆盖,涵盖15种语言,覆盖所有邦和联邦属地,并整合了超过64,000组对齐的文本-图像对。该数据集捕捉了丰富的文化主题,包括节日、服饰、美食、艺术形式及历史遗产等众多方面。我们评估了广泛的视觉-语言模型(VLMs),包括开源的小型和大型模型、专有系统、专门用于推理的VLMs以及专注于印度语言的模型,在零样本和思维链设置下进行测试。我们的结果揭示了当前模型在处理基于文化的多模态输入,特别是低资源语言和较少文献记载的传统时,存在关键局限性。DRISHTIKON填补了包容性人工智能研究中的一个重要空白,为推进具有文化意识、多模态能力的语言技术提供了一个强有力的测试平台。