每日精選AI研究論文及翻譯
在少樣本情況下,神經輻射場(Neural Radiance Fields,NeRF)面臨著重大挑戰,主要是由於過度擬合和高保真渲染的長時間訓練。現有方法,如FreeNeRF和SparseNeRF,使用頻率正則化或預先訓練的先驗,但在複雜的調度和偏差方面存在困難。我們引入了FrugalNeRF,這是一種新穎的少樣本NeRF框架,它利用跨多個尺度共享權重的體素來有效表示場景細節。我們的主要貢獻是一種跨尺度幾何適應方案,根據跨尺度的投影錯誤選擇虛擬地面真實深度。這在訓練過程中引導,而無需依賴外部學習的先驗,實現了對訓練數據的充分利用。它還可以集成預先訓練的先驗,提高質量而不會減慢收斂速度。在LLFF、DTU和RealEstate-10K上的實驗表明,FrugalNeRF優於其他少樣本NeRF方法,同時顯著減少訓練時間,使其成為高效準確的三維場景重建的實用解決方案。
Segment Anything Model 2(SAM 2)已成為圖像和視頻中物體分割的強大基礎模型,為各種下游視頻應用鋪平了道路。SAM 2 在視頻分割的關鍵設計是其記憶模塊,該模塊從先前幀中提取對當前幀預測有意義的記憶。然而,其貪婪選擇記憶設計存在“錯誤累積”問題,即一個錯誤或遺漏的遮罩將連鎖影響後續幀的分割,這限制了 SAM 2 對於複雜長期視頻的性能。為此,我們引入 SAM2Long,一種改進的無需訓練的視頻物體分割策略,該策略考慮每幀內的分割不確定性,並以受限樹搜索方式從多個分割路徑中選擇視頻級最優結果。在實踐中,我們在整個視頻中保持固定數量的分割路徑。對於每一幀,基於現有路徑提出多個遮罩,創建各種候選分支。然後,我們選擇具有較高累積分數的相同固定數量的分支作為下一幀的新路徑。在處理最後一幀後,選擇具有最高累積分數的路徑作為最終的分割結果。由於其啟發式搜索設計,SAM2Long 對遮擋和物體再出現具有魯棒性,能夠有效地分割和跟踪複雜的長期視頻中的物體。值得注意的是,SAM2Long 在所有 24 個頭對頭比較中實現了平均 3.0 分的改進,並在長期視頻物體分割基準測試(如 SA-V 和 LVOS)中 J&F 方面取得高達 5.3 分的增益。代碼已發布在 https://github.com/Mark12Ding/SAM2Long。
高效且準確的評估對於持續改進大型語言模型(LLMs)至關重要。在各種評估方法中,主觀評估因其與現實使用情境和人類偏好的卓越一致性而受到重視。然而,基於人類的評估成本高昂且缺乏可重複性,這使得精確的自動評估者(評判者)在此過程中至關重要。在本報告中,我們介紹了CompassJudger-1,這是第一個開源的全能評判者LLM。 CompassJudger-1是一個通用型LLM,展示出卓越的多功能性。它能夠:1. 作為獎勵模型進行單一評分和雙模型比較;2. 根據指定格式進行評估;3. 生成評論;4. 執行像一般LLM那樣的多樣任務。為了在統一環境中評估不同評判者模型的評估能力,我們還建立了JudgerBench,這是一個新的基準測試,包含各種主觀評估任務並涵蓋廣泛的主題。CompassJudger-1提供了一個全面的解決方案,適用於各種評估任務,同時保持適應各種需求的靈活性。CompassJudger和JudgerBench均已釋出,並可供研究社區使用,網址為https://github.com/open-compass/CompassJudger。我們相信通過開源這些工具,我們可以促進合作,加速LLM評估方法的進展。
隨著開源模型的進步,對自定義數據集進行模型訓練(或微調)已成為開發針對特定工業或開源應用的解決方案的重要部分。然而,目前尚無一個工具能簡化跨不同類型模態或任務的訓練過程。我們介紹 AutoTrain(又稱 AutoTrain Advanced)-- 一個開源的、無代碼工具/庫,可用於訓練(或微調)不同類型任務的模型,包括:大型語言模型(LLM)微調、文本分類/回歸、標記分類、序列到序列任務、句子轉換器微調、視覺語言模型(VLM)微調、圖像分類/回歸,甚至在表格數據上進行分類和回歸任務。AutoTrain Advanced 是一個提供在自定義數據集上訓練模型的最佳實踐的開源庫。該庫可在 https://github.com/huggingface/autotrain-advanced 上找到。AutoTrain 可以在完全本地模式或雲端機器上使用,並與 Hugging Face Hub 上共享的數以萬計的模型及其變體一起使用。
最近在多模態基礎模型方面取得了顯著進展,對於視覺-語言理解方面有了重大突破。最初的嘗試還探索了多模態大型語言模型(MLLMs)在視覺內容生成方面的潛力。然而,現有的研究尚未充分解決統一MLLM範式中不同圖像生成任務的不同粒度需求問題 - 從文本到圖像生成所需的多樣性,到圖像操作中所需的精確可控性。在這項工作中,我們提出了PUMA,即用多粒度視覺生成賦能統一MLLM。PUMA將多粒度視覺特徵統一為MLLM的輸入和輸出,優雅地應對統一MLLM框架中各種圖像生成任務的不同粒度要求。在多模態預訓練和任務特定指導調整之後,PUMA展現了在各種多模態任務中的熟練能力。這項工作代表了邁向真正統一MLLM的重要一步,該模型能夠適應各種視覺任務的粒度需求。代碼和模型將在https://github.com/rongyaofang/PUMA 上發布。
我們介紹了白川對齊(Baichuan Alignment),對白川系列模型中使用的對齊技術進行了詳細分析。這代表了行業首次對對齊方法論的全面闡述,為推進人工智慧研究提供了寶貴見解。我們研究了增強模型性能的關鍵組件,在對齊過程中包括優化方法、數據策略、能力增強和評估過程。該過程涵蓋三個關鍵階段:提示擴充系統(PAS)、監督微調(SFT)和偏好對齊。所遇到的問題、應用的解決方案和所做的改進都有詳細記錄。 通過與眾所周知的基準測試的比較,我們突出了白川對齊所啟用的技術進步。白川指導(Baichuan-Instruct)是一個內部模型,而Qwen2-Nova-72B和Llama3-PBM-Nova-70B是Qwen2-72B和Llama-3-70B基礎模型的指導版本,通過白川對齊進行了優化。白川指導展示了核心能力的顯著改進,用戶體驗提升範圍從17%到28%,在專業基準測試中表現優異。在開源基準評估中,無論是Qwen2-Nova-72B還是Llama3-PBM-Nova-70B,它們都在幾乎所有數據集上持續優於各自的官方指導版本。本報告旨在澄清對齊過程背後的關鍵技術,促進社區對此的更深入理解。 Llama3-PBM-Nova-70B模型可在以下網址找到:https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B。
監督微調(SFT)在調整大型語言模型(LLMs)以適應特定領域或任務中至關重要。然而,在實際應用中僅有有限量的標記數據可用,這對於 SFT 產生令人滿意的結果構成嚴峻挑戰。因此,迫切需要一個能夠充分利用標記和未標記數據進行 LLM 微調的高效框架。為此,我們引入了一個名為 SemiEvol 的半監督微調框架,以傳播和選擇方式進行 LLM 適應。對於知識傳播,SemiEvol 採用雙層方法,通過權重內和內容方法從標記數據傳播知識到未標記數據。對於知識選擇,SemiEvol 融入協作學習機制,選擇高質量的虛擬回應樣本。我們在七個通用或特定領域數據集上使用 GPT-4o-mini 和 Llama-3.1 進行實驗,展示了模型在目標數據上性能顯著提升。此外,我們將 SemiEvol 與 SFT 和自我演化方法進行比較,突出了其在混合數據情境中的實用性。
儘管多模式大型語言模型(MLLMs)近年來取得了重大進展,但其發展主要集中在英語和西方為中心的數據集和任務上,導致世界上大多數語言和多元文化背景得不到充分代表。本文介紹了Pangea,一種多語言多模式LLM,其在PangeaIns上進行訓練,該數據集包含39種語言的多樣化600萬條指令。PangeaIns具有以下特點:1)高質量的英語指令,2)經過精心機器翻譯的指令,以及3)具有文化相關性的多模式任務,以確保跨文化覆蓋。為了嚴格評估模型的能力,我們引入了PangeaBench,這是一個全面的評估套件,包括14個數據集,涵蓋47種語言。結果顯示,Pangea在多語言環境和多元文化背景下明顯優於現有的開源模型。消融研究進一步揭示了英語數據比例、語言流行度以及多模式訓練樣本數對整體性能的重要性。我們完全開源我們的數據、代碼和訓練檢查點,以促進包容性和強大的多語言MLLMs的發展,推動在更廣泛的語言和文化範疇中實現公平和可及性。
在技術領域中,獎勵模型在諸如從人類反饋中進行強化學習(RLHF)和推理擴展定律等技術中至關重要,它們引導語言模型的對齊並選擇最佳回應。儘管其重要性,現有的獎勵模型基準往往通過要求模型區分由不同能力模型生成的回應來評估模型。然而,這種方法無法評估獎勵模型對微妙但關鍵的內容變化和風格變化的敏感性,導致其與策略模型性能之間的相關性較低。為此,我們引入了RM-Bench,一個新穎的基準,旨在評估獎勵模型對微妙內容差異的敏感性和對風格偏見的抵抗力。大量實驗表明,RM-Bench與策略模型性能密切相關,使其成為選擇有效對齊語言模型的獎勵模型的可靠參考。我們在RM-Bench上評估了近40個獎勵模型。我們的結果顯示,即使是最先進的模型在面對風格偏見干擾時,平均性能也僅達到46.6%,低於隨機水平準確度(50%)。這些發現突顯了當前獎勵模型有很大改進空間。相關代碼和數據可在https://github.com/THU-KEG/RM-Bench找到。
檢索增強生成(RAG)作為大型語言模型(LLMs)的一個可行補充,通常忽略了其流程中文本分塊的關鍵方面,這影響了知識密集任務的質量。本文介紹了“元分塊”概念,指的是句子和段落之間的一種細粒度,由段落內具有深層語言邏輯聯繫的句子集合組成。為實現元分塊,我們設計了兩種基於LLMs的策略:邊界抽樣分塊和困惑度分塊。前者利用LLMs對連續句子是否需要分割進行二元分類,根據邊界抽樣獲得的概率差異做出決策。後者通過分析困惑度分佈的特徵來精確識別文本分塊邊界。此外,考慮到不同文本的固有複雜性,我們提出了一種將元分塊與動態合併結合以實現細粒度和粗粒度文本分塊平衡的策略。在十一個數據集上進行的實驗表明,元分塊可以更有效地提高基於RAG的單跳和多跳問答的性能。例如,在2WikiMultihopQA數據集上,它的表現優於相似性分塊1.32,同時僅消耗45.8%的時間。我們的代碼可在https://github.com/IAAR-Shanghai/Meta-Chunking找到。
知識蒸餾(KD)旨在將知識從大型教師模型轉移至較小的學生模型。先前在大型語言模型(LLMs)領域應用KD的研究通常集中於後訓練階段,學生LLM直接從教師模型生成的指令和對應回應中學習。本文將KD擴展至LLMs的預訓練階段,稱為預訓練蒸餾(PD)。我們首先通過使用GLM-4-9B作為教師LLM,對一個包含1.9B參數的學生LLM進行蒸餾的初步實驗,驗證了PD的有效性。考慮到蒸餾的關鍵影響因素,我們系統性地探索了預訓練蒸餾的設計空間,涵蓋四個方面:logits處理、損失選擇、縮放定律以及離線或在線logits。我們進行了大量實驗,探索了預訓練蒸餾的設計空間,找到了更好的配置和有趣的結論,例如較大的學生LLMs通常更能從預訓練蒸餾中受益,而較大的教師LLM並不一定能保證更好的結果。我們希望我們對設計空間的探索能夠為未來的預訓練蒸餾實踐提供信息。
撰寫正式證明即使對經驗豐富的專家來說也是具有挑戰性的。最近神經定理證明(NTP)的進展顯示了加速這一過程的潛力。然而,網絡上可用的正式語料庫相對於一般文本來說有限,這為NTP帶來了重大的數據稀缺挑戰。為了解決這個問題,本研究提出了Alchemy,一個通用的數據合成框架,通過符號變異構建正式定理。具體來說,對於Mathlib中的每個候選定理,我們識別所有可調用的定理,可以對其進行重寫或應用。隨後,我們通過用等價形式或前提替換陳述中的相應術語來變異候選定理。因此,我們的方法將Mathlib中的定理數量增加了一個數量級,從110k增加到6M。此外,我們對這個擴充語料庫進行了持續的預訓練和監督微調以供大型語言模型使用。實驗結果顯示了我們方法的有效性,在Leandojo基準測試中實現了5%的絕對性能提升。此外,我們的合成數據在超出分佈的miniF2F基準測試中實現了2.5%的絕對性能增益。為了提供更多見解,我們對合成數據組成和訓練範式進行了全面分析,為發展強大的定理證明器提供了有價值的指導。
大型語言模型(LLMs)已經革新了自然語言處理,但將它們應用於基於語音的任務仍然具有挑戰性,這是由於整合音頻和文本模態的複雜性。本文介紹了Ichigo,一種混合模態模型,可以無縫處理交錯的語音和文本序列。利用一種基於標記化的早期融合方法,Ichigo將語音量化為離散標記,並為語音和文本模態都採用統一的基於Transformer的架構。這種方法使得跨模態的聯合推理和生成成為可能,而無需單獨的適配器。我們提出了一種全面的訓練方法,包括在多語言語音識別數據集上進行預訓練,並在經過精心策劃的指令數據集上進行微調。Ichigo在語音問答基準測試中展現了最先進的性能,優於現有的開源語音語言模型,並實現了與級聯系統可比的結果。值得注意的是,Ichigo僅需111毫秒生成第一個標記的延遲時間明顯低於當前模型。我們的方法不僅推動了多模態人工智慧領域的發展,還為較小的研究團隊提供了一個有效貢獻開源語音語言模型的框架。
大型語言模型(LLM)新興的零樣本能力已導致它們在自然語言處理任務之外的領域中的應用。在強化學習中,雖然LLM在基於文本的環境中被廣泛使用,但它們與連續狀態空間的整合仍未受到充分研究。本文探討了預訓練的LLM如何被利用來在上下文中預測連續馬爾可夫決策過程的動態。我們確定處理多變數數據和將控制信號納入其中是限制LLM在這種設置中部署潛力的關鍵挑戰,並提出了「分離上下文學習」(DICL)來應對這些挑戰。我們在兩個強化學習設置中提出了概念驗證應用:基於模型的策略評估和數據增強的離線策略強化學習,並通過對所提出方法的理論分析加以支持。我們的實驗進一步證明了我們的方法產生了良好校準的不確定性估計。我們在https://github.com/abenechehab/dicl 上發布了代碼。
對於有效處理具有極長內容的指令的大型語言模型的擴展尚未得到充分的探討。主要障礙在於構建一個為長篇內容對齊而設計的高質量長指令跟隨數據集。現有研究已嘗試通過合成長指令跟隨樣本來擴大可用數據量。然而,若沒有確定的策略來確保數據質量,盲目增加數據量可能會引入低質量樣本並限制最終性能。為彌合這一差距,我們旨在應對長篇內容對齊的獨特挑戰,即建模處理指令和冗長輸入內容的長距離依賴性。我們提出了GATEAU,一個新穎的框架,旨在通過利用精心設計的同源模型引導(HMG)和上下文感知度量(CAM)來識別富含長距離依賴關係的具有影響力和高質量樣本。具體而言,HMG 試圖通過使用具有不同上下文窗口的兩個同源模型的回應困惑分數來衡量由於長距離依賴性而生成相應回應的困難程度。此外,CAM 的作用是通過評估模型的注意力是否集中在重要部分,來衡量由於長距離依賴性而理解長輸入內容的困難程度。基於這兩種提出的方法,我們選擇最具挑戰性的樣本作為具有影響力的數據,以有效地構建長距離依賴性,從而實現LLM的更好性能。全面的實驗表明,GATEAU 能夠有效識別富含長距離依賴關係的樣本,並且在這些選定樣本上訓練的模型表現出更好的指令跟隨和長篇內容理解能力。
文本到圖像模型是使用從互聯網上爬取的圖像-文本對數據集進行訓練的。這些數據集通常包含私人、受版權保護和許可的材料。在這些數據集上訓練模型使其能夠生成具有此類內容的圖像,這可能違反版權法和個人隱私。這種現象被稱為模仿,即生成具有與其訓練圖像具有可識別相似性的內容的圖像。在這項工作中,我們研究了概念在訓練數據集中的頻率與模型模仿該概念的能力之間的關係。我們試圖確定模型在訓練了足夠多實例以模仿一個概念時的點,即模仿閾值。我們將這個問題提出為一個新問題:尋找模仿閾值(FIT),並提出一種有效的方法,該方法估計模仿閾值,而無需費心地從頭訓練多個模型。我們在兩個領域進行實驗,即人臉和藝術風格,我們創建了四個數據集,並評估了三個文本到圖像模型,這些模型是在兩個預訓練數據集上訓練的。我們的結果顯示,這些模型的模仿閾值在200-600張圖像的範圍內,具體取決於領域和模型。模仿閾值可以為版權侵權索賠提供實證依據,並作為遵守版權和隱私法律的文本到圖像模型開發者的指導原則。我們在https://github.com/vsahil/MIMETIC-2.git 上發布了代碼和數據,項目網站托管在https://how-many-van-goghs-does-it-take.github.io。
我們提出了Agent-to-Sim(ATS)框架,用於從日常長期視頻收集中學習3D代理的互動行為模型。與依賴基於標記的跟踪和多視角攝像頭的先前作品不同,ATS通過在單一環境中長時間記錄的視頻觀察,非侵入性地學習動物和人類代理的自然行為。建模代理的3D行為需要在長時間內持續進行3D跟踪(例如,了解哪個點對應於哪個點)。為了獲取這樣的數據,我們開發了一種從粗到細的配准方法,通過一個規範的3D空間隨時間跟踪代理和攝像機,從而產生完整且持久的時空4D表示。然後,我們使用從4D重建中查詢的代理感知和運動的配對數據來訓練一個生成模型的代理行為。ATS實現了從代理的視頻記錄到互動行為模擬器的實時轉換。我們展示了對寵物(例如貓、狗、兔子)和人類的結果,這些結果是通過智能手機拍攝的單眼RGBD視頻。
當前患者需求與現有的心理健康支援之間存在顯著差距。本文旨在深入探討使用大型語言模型(LLMs)協助專業心理治療的潛力。為此,我們提出一個新的基準,即CBT-BENCH,用於系統評估認知行為治療(CBT)輔助。CBT-BENCH包括三個層次的任務:I:基本CBT知識獲取,包括多項選擇題任務;II:認知模型理解,包括認知扭曲分類、主要核心信念分類和細粒度核心信念分類任務;III:治療反應生成,包括在CBT治療會話中生成對患者言語的回應任務。這些任務涵蓋了CBT的關鍵方面,可能透過AI輔助得以增強,同時概述了能力需求的等級制度,從基本知識背誦到參與真實治療對話。我們在我們的基準上評估了代表性的LLMs。實驗結果表明,雖然LLMs在背誦CBT知識方面表現良好,但在需要深入分析患者認知結構並生成有效回應的複雜現實情境中表現不佳,暗示了潛在的未來工作。
傳統的Transformer模型通常會為每個輸入標記分配固定的計算資源,導致計算效率低下且存在不必要的計算。為了解決這個問題,引入了混合深度(MoD),以動態調整計算深度,跳過較不重要的層。儘管MoD的前景看好,但目前的方法仍未得到充分探索,並面臨兩個主要挑戰:(1)由於需要訓練整個模型以及確定要跳過哪些層的路由器,導致高昂的訓練成本,以及(2)當重要層被跳過時,性能下降的風險。針對第一個問題,我們提出了Router-Tuning方法,僅在小型數據集上微調路由器,從而大幅降低與完整模型訓練相關的計算開銷。針對第二個挑戰,我們提出了MindSkip,採用具有動態深度的注意力機制。該方法在顯著提高計算和記憶效率的同時保持了模型的性能。大量實驗表明,我們的方法提供了競爭力強的結果,同時顯著提高了計算效率,例如提速21%,僅有0.2%的性能下降。程式碼已在https://github.com/CASE-Lab-UMD/Router-Tuning 釋出。
最近在語音語言模型方面取得的進展顯著提高了語音標記化和合成的效果。然而,將語音的複雜多維屬性有效映射為離散標記仍然具有挑戰性。這個過程需要聲學、語義和上下文信息以精確表示語音。現有的語音表示通常可分為兩類:來自音頻編解碼器的聲學標記和來自語音自監督學習模型的語義標記。儘管最近的努力統一了聲學和語義標記以提高性能,但它們忽略了上下文表示在全面語音建模中的關鍵作用。我們的實證研究顯示,缺乏上下文表示導致語音轉錄中的詞錯誤率(WER)和詞信息損失(WIL)分數升高。為了解決這些限制,我們提出了兩種新的精煉方法:(1)一種以語言模型(LM)為指導的精煉方法,將上下文信息納入其中,以及(2)一種結合LM和自監督語音模型(SM)為指導的精煉技術,有效將多模態表示(聲學、語義和上下文)精煉為全面的語音標記器,稱為DM-Codec。DM-Codec架構採用了簡化的編碼器-解碼器框架,並配備了一個剩餘向量量化器(RVQ),在訓練過程中整合了LM和SM。實驗表明,DM-Codec明顯優於最先進的語音標記化模型,將WER降低了高達13.46%,WIL降低了9.82%,並將語音質量提高了5.84%,可讀性提高了1.85%,在LibriSpeech基準數據集上。代碼、樣本和模型檢查點可在https://github.com/mubtasimahasan/DM-Codec找到。
機器學習的目標是泛化。雖然「沒有免費午餐」定理指出,在沒有進一步假設的情況下,我們無法為泛化獲得理論保證,但實際上我們觀察到解釋訓練數據的簡單模型泛化效果最佳:這是一個被稱為奧卡姆剃刀的原則。儘管需要簡單模型,但目前大多數機器學習方法僅最小化訓練誤差,最多通過正則化或架構設計間接促進簡單性。在這裡,我們建立了奧卡姆剃刀與上下文學習之間的聯繫:這是某些序列模型(如Transformer)在推論時從過去觀察到的序列中學習的一種新興能力。具體而言,我們展示了用於訓練上下文學習者的下一個標記預測損失直接等效於一種名為預測編碼的數據壓縮技術,並且最小化這種損失相當於聯合最小化從上下文中隱式學習的模型的訓練誤差和複雜性。我們的理論和用於支持它的實驗不僅提供了上下文學習的規範說明,還闡明了當前上下文學習方法的缺點,並提出了改進方法。我們在https://github.com/3rdCore/PrequentialCode 上提供我們的代碼。
隨著大型語言模型(LLMs)在各行業中的部署日益增加,對其可靠性的擔憂也日益增加,特別是由於幻覺-輸出結果在事實上不準確或與用戶輸入無關。我們的研究調查了訓練過程與幻覺出現之間的關係,以解決現有研究中的一個關鍵缺口,該研究主要集中在事後檢測和緩解策略。我們使用Pythia套件中的模型(70M-12B參數)和多個幻覺檢測指標,分析訓練過程中的幻覺趨勢,並探索LLM內部動態。我們引入了一種名為SEnsitive Neuron Dropout(SeND)的新型訓練協議,旨在通過在訓練過程中減少變異來緩解幻覺。SeND通過在數據集上具有顯著變異性的神經元,即敏感神經元,來確定性地丟棄神經元來實現這一目標。此外,我們開發了一種無監督幻覺檢測指標,即Efficient EigenScore(EES),它以2倍速度近似傳統的EigenScore。這種高效的指標被整合到我們的協議中,使SeND在計算上既可擴展又能有效減少幻覺。我們的實證評估表明,與正常訓練相比,我們的方法在測試時將LLM的可靠性提高了高達40%,同時還提供了一種有效的方法,可以在將LLM適應於維基百科和醫學數據集等領域時提高事實準確性。
在自然語言處理中,評估機器生成的文本仍然是一個重要挑戰,尤其對於非英語語言而言。目前的方法包括自動評量、人工評估和基於LLM的評估,主要集中在英語上,顯示了多語言評估框架中存在的重大差距。我們引入了跨語言自動評估(CIA)套件,這是一個可擴展的框架,包括評估LLMs(Hercule)和一個專門為多語言評估設計的新型測試集(Recon)。我們的測試集包含了500個人工標註的指令,涵蓋各種任務能力,以及跨六種語言的人工評分。這將使通用多語言LLMs的基準測試成為可能,並促進評估LLMs的元評估。所提出的模型Hercule是一個跨語言評估模型,通過學習根據英語中輕鬆獲得的參考答案為回應分配分數,解決了目標語言中參考答案稀缺的問題。我們的實驗表明,與專有模型相比,Hercule與人類判斷更為接近,展示了這種跨語言評估在資源匱乏情況下的有效性。此外,它在看不見的語言上的零-shot評估中也很有效。這項研究是使用LLMs進行跨語言評估的第一次全面考察,提出了一種可擴展且有效的多語言評估方法。所有代碼、數據集和模型將公開提供,以促進這一重要領域的進一步研究。