你的LLM能夠穩定推理嗎?Are Your LLMs Capable of Stable Reasoning?
大型語言模型(LLMs)的快速發展展示了在複雜推理任務中取得的顯著進展。然而,在基準性能與實際應用之間仍存在顯著差異。我們認為這一差距主要源於當前的評估協議和指標,無法充分捕捉LLM能力的全部範疇,尤其是在複雜推理任務中,準確性和一致性同樣重要。本研究有兩個主要貢獻。首先,我們引入了G-Pass@k,一個新穎的評估指標,可跨越多次取樣試驗持續評估模型表現,量化模型的最高性能潛力和穩定性。其次,我們提出了LiveMathBench,一個動態基準,包含挑戰性的當代數學問題,旨在在評估過程中最小化數據泄漏風險。通過在最先進的LLMs上使用G-Pass@k和LiveMathBench進行廣泛實驗,我們全面了解了它們的最大能力和運行一致性。我們的研究顯示LLMs在“實際”推理能力方面仍有很大改進空間,突顯了對更強大的評估方法的需求。基準和詳細結果可在以下網址找到:https://github.com/open-compass/GPassK。