每日精選AI研究論文及翻譯
我們介紹了Cambrian-1,這是一系列以視覺為中心設計的多模式語言模型(MLLMs)。儘管更強大的語言模型可以增強多模式能力,但對於視覺組件的設計選擇往往未受足夠探索,並與視覺表示學習研究脫節。這種差距阻礙了在現實場景中的準確感官基礎。我們的研究使用LLMs和視覺指導調整作為一個界面,評估各種視覺表示,提供對不同模型和架構的新見解,根據對超過20個視覺編碼器進行的實驗,包括自監督、強監督或其組合。我們對現有的MLLM基準進行了批判性檢查,解決了整合和解釋來自各種任務結果的困難,並引入了一個新的以視覺為中心的基準,CV-Bench。為了進一步改善視覺基礎,我們提出了空間視覺聚合器(SVA),這是一個動態且具有空間感知的連接器,將高分辨率視覺特徵與LLMs整合在一起,同時減少標記數。此外,我們討論了從公開可用來源中精心挑選高質量的視覺指導調整數據,強調了數據來源平衡和分配比例的重要性。總的來說,Cambrian-1不僅實現了最先進的性能,還作為一本全面的、開放的指導調整MLLMs的食譜。我們提供模型權重、代碼、支持工具、數據集,以及詳細的指導調整和評估配方。我們希望我們的發布將激發並加速多模式系統和視覺表示學習的進步。
個性化圖像生成在協助人們日常工作和生活方面具有巨大潛力,因為它在創造性生成個性化內容方面具有出色的功能。然而,目前的評估要麼是自動化的,但與人類不一致,要麼需要耗時且昂貴的人工評估。在這項工作中,我們提出了DreamBench++,這是一個由先進的多模態GPT模型自動化的與人類一致的基準。具體來說,我們系統地設計提示,讓GPT既與人類一致又自我一致,並賦予任務強化的能力。此外,我們構建了一個包含多樣圖像和提示的全面數據集。通過對7種現代生成模型進行基準測試,我們展示了DreamBench++在顯著提高與人類一致的評估方面的成果,有助於推動社區獲得創新性發現。
近年來,大型語言模型(LLMs)在程式設計方面的最新進展極大地推動了自動化軟體工程。雖然目前的基準測試顯示LLMs能夠執行各種軟體工程任務,如同人類開發者一樣,但它們的評估大多僅限於短小且獨立的演算任務。要解決具有挑戰性和實際性的程式設計任務,需要具備利用各種函數呼叫作為工具,以有效實現資料分析和網頁開發等功能的能力。此外,使用多個工具解決一個任務需要進行組合推理,準確理解複雜的指令。實現這兩個特點對LLMs來說可能是一大挑戰。為了評估LLMs解決具有挑戰性和實際性的程式設計任務的能力,我們引入了Bench,一個基準測試,挑戰LLMs從139個庫和7個領域中選擇多個函數呼叫作為工具,解決1,140個細粒度程式設計任務。為了嚴謹評估LLMs,每個程式設計任務包含5.6個測試案例,平均分支覆蓋率達99%。此外,我們提出了Bench的自然語言導向變體Benchi,將原始文件字串自動轉換為僅包含基本信息的簡短指令。我們對60個LLMs進行了廣泛評估,結果顯示LLMs尚未能夠準確遵循複雜指令使用函數呼叫,得分最高僅為60%,遠低於人類的97%。這些結果強調了在這一領域進一步進展的必要性。
檢索模型通常在部分標註的資料集上進行評估。每個查詢都會映射到一些相關文本,而其餘的語料庫則被假定為不相關的。因此,在評估中,成功檢索到偽陰性的模型會受到懲罰。不幸的是,為每個查詢完全標註所有文本並不具備資源效率。在這項工作中,我們展示了在評估中使用部分標註的資料集可能呈現扭曲的情況。我們精心編輯了一個來自維基百科的段落檢索評估集D-MERIT,旨在包含每個查詢的所有相關段落。查詢描述了一個群體(例如,“有關語言學的期刊”),而相關段落則是表明實體屬於該群體的證據(例如,一段指出語言是一本關於語言學的期刊的證據)。我們展示了在僅包含部分相關段落標註的資料集上進行評估可能導致檢索系統排名的誤導,並且隨著評估集中包含更多相關文本,排名會收斂。我們提出我們的資料集作為評估的資源,並將我們的研究建議作為在為文本檢索標註評估集時在資源效率和可靠評估之間取得平衡的建議。
影片序列提供寶貴的時間資訊,但現有的大型多模型(LMMs)在理解極長影片方面存在不足。許多研究通過使用視覺重採樣器來減少視覺標記數量來解決這個問題。相反,在本文中,我們從語言模型的角度來解決這個問題。通過簡單地擴展語言主幹的上下文長度,我們使LMMs能夠理解數量級更多的視覺標記,而無需進行任何影片訓練。我們稱這種現象為長上下文轉移,並仔細剔除其特性。為了有效衡量LMMs在視覺模態中對長上下文的泛化能力,我們開發了V-NIAH(Visual Needle-In-A-Haystack),這是一個純合成的長視覺基準,靈感來自語言模型的NIAH測試。我們提出的長影片助手(LongVA)可以處理2000幀或超過200K的視覺標記,而無需額外的複雜性。通過其擴展的上下文長度,LongVA在Video-MME中實現了7B規模模型中的最先進性能,通過密集採樣更多的輸入幀。我們的工作在https://github.com/EvolvingLMMs-Lab/LongVA上開源。
擴散模型最近在影片生成方面取得了顯著的成果。儘管表現令人鼓舞,生成的影片通常受限於少數幀,導致片段僅持續幾秒鐘。製作更長影片的主要挑戰包括龐大的記憶體需求和在單個 GPU 上需要的延長處理時間。一個直接的解決方案是將工作負載分散到多個 GPU 上,然而這導致兩個問題:(1) 確保所有 GPU 有效通信以共享時間和上下文信息,以及 (2) 修改現有的影片擴散模型,這些模型通常在短序列上訓練,以生成更長的影片而無需額外訓練。為了應對這些問題,在本文中我們介紹了Video-Infinity,這是一個分佈式推理流程,可實現跨多個 GPU 的並行處理,用於長格式影片生成。具體來說,我們提出了兩個一致的機制:片段並行性和雙範圍注意力。片段並行性優化了跨 GPU 收集和共享上下文信息,從而最小化通信開銷,而雙範圍注意力調節了時間自注意力,以在設備間有效平衡本地和全局上下文。這兩種機制共同努力分配工作負載,實現快速生成長影片。在8 x Nvidia 6000 Ada GPU(48G)配置下,我們的方法在約5分鐘內生成長達2,300幀的影片,使得長影片生成速度比先前方法快100倍。
最近在多模式大型語言模型(MLLMs)方面取得的進展已將其能力擴展到視頻理解。然而,這些模型常常受到「幻覺」的困擾,即生成與實際視頻內容偏離的不相關或荒謬內容。本研究介紹了VideoHallucer,這是第一個針對大型視頻語言模型(LVLMs)中幻覺檢測的全面基準。VideoHallucer將幻覺分為兩種主要類型:內在和外在,並提供進一步的子類別進行詳細分析,包括對象關係、時間、語義細節、外在事實和外在非事實幻覺。我們採用對抗性二元VideoQA方法進行全面評估,其中精心製作了基本問題和幻覺問題的配對。通過在VideoHallucer上評估十一個LVLMs,我們揭示了:i)目前大多數模型存在幻覺問題;ii)儘管擴展數據集和參數可以提高模型檢測基本視覺線索和反事實的能力,但對於檢測外在事實幻覺的效益有限;iii)現有模型更擅長檢測事實而非識別幻覺。作為副產品,這些分析進一步指導了我們的自我PEP框架的開發,在所有模型架構上實現了平均5.38%的幻覺抵抗力改善。
從人類反饋中進行強化學習(RLHF)通過鼓勵大型語言模型(LLMs)生成高獎勵的內容,使用在人類偏好上訓練的獎勵模型來對齊它們。為了防止預訓練知識的遺忘,RLHF通常包含KL正則化;這迫使策略保持接近其監督微調初始化,儘管這會阻礙獎勵優化。為了應對KL和獎勵之間的權衡,本文介紹了一種名為加權平均獎勵策略(WARP)的新對齊策略。WARP在三個不同階段在權重空間中合併策略。首先,它使用策略的指數移動平均作為KL正則化中的動態錨點。其次,它應用球面插值將獨立微調的策略合併為一個新的增強策略。第三,它在這個合併模型和初始化之間進行線性插值,以恢復來自預訓練的特徵。然後,這個程序被迭代應用,每次迭代的最終模型被用作下一次的高級初始化,逐步優化KL-獎勵帕累托前緣,實現在固定KL下獲得更優獎勵。通過GEMMA策略的實驗驗證了WARP改善了它們的質量和對齊,勝過其他開源LLMs。
對於大型語言模型的線性複雜度模型的興趣正在增加,儘管它們的擴展能力仍然不確定。在這項研究中,我們提出了線性複雜度語言模型的擴展定律,以建立它們可擴展性的基礎。具體而言,我們研究了三種高效的線性架構的擴展行為。這些包括具有資料獨立衰減的線性注意力模型 TNL;具有資料依賴衰減的線性 RNN 的 HGRN2;以及沒有衰減的線性注意力模型 cosFormer2。我們還將 LLaMA 作為基準架構,用於軟最大值注意力進行比較。這些模型在 300B 個標記的語料庫上,使用從 70M 到 7B 參數的六種變體進行訓練,並通過對各種下游任務的 1,376 個中間檢查點進行評估。這些任務包括驗證損失、常識推理、信息檢索和生成。研究表明,現有的線性複雜度語言模型展現出與傳統基於變壓器的模型類似的擴展能力,同時還表現出卓越的語言能力和知識保留。
大型語言模型(LLMs)已經革新了自然語言處理並擴展了它們在各種商業應用中的應用範圍。然而,在多語言環境中,這些模型的部署受到推論時間過長的限制。為了解決這一挑戰,本文探討了一種輔助模型在推測解碼中的訓練方法,這些方法被用來起草,然後其未來的標記由目標LLM驗證。我們展示了通過針對性的預訓練和微調策略優化的特定語言起草模型,相對於以前的方法,顯著提高了推論時間。我們在各種語言中驗證了這些模型的推論時間、跨領域加速和GPT-4o評估。
持續預訓練已逐漸成為調整大型語言模型(LLMs)以適應新領域的主要方法。此過程涉及使用來自新領域的語料庫更新預先訓練的LLM,導致訓練分佈的變化。為了研究LLMs在這種轉變期間的行為,我們在整個持續預訓練過程中測量了模型的表現。我們觀察到在開始時有一段暫時的表現下降,隨後進入一個恢復階段,這種現象被稱為“穩定性差距”,先前在對新類別進行分類的視覺模型中已有所記錄。為了解決這個問題並增強LLM在固定計算預算內的性能,我們提出了三種有效策略:(1)持續對LLM進行多個時期的子集預訓練,其大小適中,使性能恢復比在單個時期對LLM進行大語料庫預訓練更快;(2)僅在高質量子語料庫上對LLM進行預訓練,迅速提升領域性能;以及(3)使用與預訓練數據類似的數據混合以減少分佈差距。我們對Llama家族模型進行了各種實驗,以驗證我們策略在醫學持續預訓練和指導調整中的有效性。例如,我們的策略將OpenLlama-3B模型的平均醫學任務表現從36.2%提升至40.7%,僅使用原始訓練預算的40%,並增強了平均通用任務表現而不會導致遺忘。此外,我們將我們的策略應用於Llama-3-8B模型。結果模型Llama-3-Physician在當前開源模型中實現了最佳的醫學表現,並在幾個醫學基準測試中表現優於甚至與GPT-4相當。我們在https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct 上釋出了我們的模型。
在自回歸Transformer中有效地處理長序列,特別是在擴展的上下文窗口內,由於自注意機制中的二次計算複雜度和大量KV記憶體需求,會帶來顯著挑戰。在這項研究中,我們介紹了SPARSEK Attention,一種新穎的稀疏注意機制,旨在克服這些計算和記憶體障礙,同時保持性能。我們的方法整合了一個評分網絡和一個可微的top-k遮罩運算子SPARSEK,以選擇每個查詢的恆定數量的KV對,從而實現基於梯度的優化。因此,SPARSEK Attention提供了線性時間複雜度和生成過程中的恆定記憶體占用。實驗結果顯示,SPARSEK Attention優於先前的稀疏注意方法,在訓練和推理過程中提供了顯著的速度改進,特別是在語言建模和下游任務中。此外,我們的方法可以無縫集成到預訓練的大型語言模型(LLMs)中,只需進行最少的微調,為有效管理各種應用中的長距離依賴性提供了實用解決方案。
我們提出了語義熵探針(SEPs),這是一種廉價且可靠的方法,用於大型語言模型(LLMs)中的不確定性量化。幻覺是指聽起來合理但事實不正確且任意的模型生成,對LLMs的實際應用提出了重大挑戰。Farquhar等人(2024年)最近的研究提出了語義熵(SE),它可以通過估計一組模型生成物中語義含義空間的不確定性來檢測幻覺。然而,與SE計算相關的計算成本增加了5到10倍,這阻礙了實際應用。為了解決這個問題,我們提出了SEPs,它們可以直接從單個生成物的隱藏狀態中近似SE。SEPs易於訓練,並且在測試時不需要對多個模型生成物進行抽樣,將語義不確定性量化的開銷幾乎降低到零。我們展示了SEPs在幻覺檢測方面保持高性能,並且比直接預測模型準確性的先前探測方法更好地推廣到分布之外的數據。我們跨模型和任務的結果表明,模型的隱藏狀態捕獲了SE,我們的消融研究進一步深入瞭解了這種情況的標記位置和模型層。
隨著大型語言模型(LLMs)日益滲透到日常生活中,對模擬人類對話的即時互動需求不斷增加。傳統的基於LLMs的交替式聊天系統阻止用戶在系統生成回應時進行口頭交流。為了克服這些限制,我們將現有的LLMs調整為雙工模型,使這些LLMs在生成輸出的同時能夠聆聽用戶並動態調整自身以提供用戶即時反饋,例如對於中斷的回應。具體而言,我們將對話的查詢和回應劃分為多個時間片段,然後採用時間分割多路復用(TDM)編碼解碼策略來虛擬同時處理這些片段。此外,為了使LLMs足夠熟練以應對實時對話,我們構建了一個微調數據集,其中包含交替的查詢和回應時間片段,並涵蓋即時交互中的典型反饋類型。我們的實驗表明,儘管對話的查詢和回應被劃分為不完整的片段進行處理,但在我們的數據集上進行少量微調步驟後,LLMs可以保持其在標準基準上的原始性能。自動和人工評估表明,雙工模型使用戶與AI的互動更加自然和類似人類,並且與普通LLMs相比,大大提高了用戶滿意度。我們的雙工模型和數據集將會釋出。
由於多語言大型語言模型(LLMs)的全球使用不斷增加,對其進行排毒已變得至關重要。在這項工作中,我們探索了在排毒LLMs時的零樣本跨語言泛化偏好調整。與先前顯示其他安全任務的跨語言泛化有限的研究不同,我們證明只使用英文數據進行直接偏好優化(DPO)訓練可以顯著降低多語言開放式生成中的有害性。例如,在訓練後,mGPT-1.3B生成有害延續的概率從46.8%降至3.9%,跨越17種不同語言。我們的結果還適用於其他多語言LLMs,如BLOOM、Llama3和Aya-23。通過使用因果干預和激活分析等機械解釋工具,我們確定了LLMs中MLP層的雙多語性特性,這解釋了DPO的跨語言泛化。最後,我們展示了雙語句子檢索可以預測DPO偏好調整的跨語言可轉移性。
儘管大型語言模型(LLMs)變得日益強大,但仍然存在顯著而微妙的弱點,例如在遵循指示或編碼任務中出現的錯誤。由於這些意外錯誤可能導致實際部署中的嚴重後果,因此有必要系統地研究LLMs的限制。傳統的基準測試方法無法徹底指出特定模型的缺陷,而手動檢查成本高且不具擴展性。在本文中,我們介紹了一個統一的框架AutoDetect,用於自動揭示LLMs在各種任務中的弱點。受教育評估過程的啟發,該AutoDetect包括三個由LLM驅動的代理人:Examiner、Questioner和Assessor。這三個代理人之間的合作旨在實現全面和深入的弱點識別。我們的框架在揭示缺陷方面取得了顯著成功,在ChatGPT和Claude等知名模型中的識別成功率超過30%。更重要的是,這些識別出的弱點可以引導特定模型的改進,證明比像Self-Instruct這樣的非針對性數據增強方法更有效。我們的方法已經在流行的LLMs中實現了顯著的增強,包括Llama系列和Mistral-7b,將它們在多個基準測試中的性能提高了超過10%。代碼和數據可在https://github.com/thu-coai/AutoDetect 公開獲取。
儘管大型語言模型(LLMs)被廣泛使用,但這些模型在表示和調節下一個標記預測中的不確定性的機制仍然大多未被探索。本研究探討了兩個被認為影響這種不確定性的關鍵組件:最近發現的熵神經元和我們稱之為標記頻率神經元的一組新組件。熵神經元的特徵是具有異常高的權重範數,並影響最終層規範化(LayerNorm)的比例以有效地降低對數。我們的研究表明,熵神經元通過寫入未嵌入的空間來運作,使它們能夠對剩餘流範數產生最小的直接影響,而對對數本身的影響很小。我們觀察到熵神經元存在於各種模型中,甚至達到 70 億個參數。另一方面,我們首次發現並描述的標記頻率神經元,根據其對數頻率,增強或抑制每個標記的對數比例,從而將輸出分佈移向或遠離單詞分佈。最後,我們提出了一個詳細的案例研究,其中熵神經元在歸納設置中積極管理信心,即檢測和繼續重複的子序列。
一個優秀的大型語言模型(LLM)有何特質?它在相關基準測試中表現出色,這些測試希望能夠合理地評估模型在真實應用中所面臨的挑戰。但是,是什麼讓模型表現出色?是什麼賦予模型其能力?我們採用了最近引入的一種基準測試,旨在通過對話遊戲的自我對弈,在目標導向、主動代理的情境中挑戰能力,並分析模型特徵(如參數數量或訓練類型)對性能發展的影響。我們發現,雖然參數數量與性能之間存在明顯關係,但在特定大小範圍內仍存在性能點的廣泛分佈,這需要通過訓練參數(如微調數據質量和方法)來解釋。從更實際的角度來看,我們還發現,不同存取方法的性能存在一定程度的不可預測性,可能是由於未暴露的抽樣參數,並且在推論期間至少對中等權重量化具有非常歡迎的性能穩定性。
從文字生成高保真度的3D服裝對於數位化身創建來說是令人渴望但具有挑戰性的。最近基於得分蒸餾取樣(SDS)的擴散式方法開啟了新的可能性,但要麼與人體緊密結合,要麼難以重複使用。我們介紹了ClotheDreamer,一種基於3D高斯方法的生成可穿戴、可投入生產的3D服裝資產的方法,以文字提示為基礎。我們提出了一種新穎的表示方法,即解耦服裝高斯飛濺(DCGS),以實現分開優化。DCGS將穿著的數位化身表示為一個高斯模型,但凍結身體高斯飛濺。為了提高質量和完整性,我們結合了雙向SDS,分別監督穿著的數位化身和服裝RGBD渲染,並提出了一種針對寬鬆服裝的新修剪策略。我們的方法還可以支持自定義服裝模板作為輸入。由於我們的設計,合成的3D服裝可以輕鬆應用於虛擬試穿,並支持物理精確的動畫。大量實驗展示了我們方法優越且具有競爭力的性能。我們的項目頁面位於https://ggxxii.github.io/clothedreamer。
大型語言模型(LLMs),即使專門訓練以處理長輸入內容,仍然難以捕捉位於其輸入中間的相關信息。這種現象被稱為“迷失在中間”問題。在這項工作中,我們做出三項貢獻。首先,我們致力於理解導致這種現象的因素。在這樣做的過程中,我們建立了“迷失在中間”與LLMs固有的注意力偏見之間的聯繫:LLMs表現出U形的注意力偏見,即其輸入開頭和結尾的標記獲得更高的注意力,無論其相關性如何。其次,我們通過一種校準機制“發現在中間”來減輕這種位置偏見,該機制允許模型根據其相關性忠實地關注上下文,即使它們位於中間位置。第三,我們展示“發現在中間”不僅在定位長上下文中的相關信息方面取得更好的性能,而且最終導致改進的檢索增強生成(RAG)性能跨越各種任務,超越現有方法高達15個百分點。這些發現開啟了理解LLM注意力偏見及其潛在後果的未來方向。
在現實世界中,可擴展的機器人學習受到真實機器人的成本和安全問題的限制。此外,在現實世界中推出機器人軌跡可能耗時且費力。本文提出學習交互式真實機器人動作模擬器作為替代方案。我們引入一種新方法 IRASim,利用生成模型的威力生成機器人手臂執行給定動作軌跡的極其逼真的視頻,從初始給定幀開始。為驗證我們方法的有效性,我們基於三個真實機器人數據集創建了一個新的基準 IRASim 基準,並在該基準上進行了大量實驗。結果顯示,IRASim 優於所有基準方法,在人類評估中更受青睞。我們希望 IRASim 能夠作為增強現實世界中機器人學習的有效且可擴展的方法。為促進生成式真實機器人動作模擬器的研究,我們在 https://gen-irasim.github.io 上開源代碼、基準和檢查點。
語音理解作為更通用的視頻理解的一部分,利用音視覺大型語言模型(av-LLMs)是一個至關重要但鮮有研究的方面。本文提出了video-SALMONN,一個端到端的av-LLM,用於視頻處理,不僅可以理解視覺幀序列、音頻事件和音樂,還可以理解語音。為了獲得語音理解所需的細粒度時間信息,同時保持對其他視頻元素的高效性,本文提出了一種新穎的多分辨率因果Q-Former(MRC Q-Former)結構,用於連接預先訓練的音視覺編碼器和主幹大型語言模型。此外,提出了專門的訓練方法,包括多樣性損失和非配對音視覺混合訓練方案,以避免幀或模態的主導。在引入的語音-音視覺評估基準上,video-SALMONN在視頻問答任務上實現了超過25%的絕對準確度改進,並在包含人類語音的音視覺問答任務上實現了超過30%的絕對準確度改進。此外,video-SALMONN在其他音視覺大型語言模型無法實現的任務上展示出卓越的視頻理解和推理能力。我們的訓練代碼和模型檢查點可在\url{https://github.com/bytedance/SALMONN/}上找到。
儘管大型語言模型(LLMs)近年來取得了顯著進展,但在涉及長文本內容的任務上,它們的表現仍然不盡理想。在上下文學習(ICL)中使用少量示例可能是增強LLM在這種情況下表現的一個吸引人的解決方案;然而,單純地添加具有長文本內容的ICL示例會帶來挑戰,包括為每個少量示例增加大量標記開銷以及示範和目標查詢之間的上下文不匹配。在這項工作中,我們提出通過回收上下文來自動生成長文本內容問答任務的少量示例。具體而言,給定一個長輸入上下文(1-3k標記)和一個查詢,我們從給定的上下文中生成額外的查詢-輸出對作為少量示例,同時僅引入上下文一次。這確保示範利用與目標查詢相同的上下文,同時僅向提示添加少量標記。我們進一步通過指示模型明確識別答案之前的相關段落來增強每個示範,這樣做既提高了性能,又為答案來源提供了細緻的歸因。我們將這種方法應用於多個LLMs,並在各種具有長上下文的問答數據集上實現了顯著的改進(在各模型上平均+23%),特別是當答案位於上下文中間時。令人驚訝的是,儘管僅引入單躍ICL示例,LLMs也成功地通過我們的方法推廣到多躍長上下文問答。
分數蒸餾抽樣一直是將擴散模型整合到生成複雜視覺中的關鍵。儘管取得了令人印象深刻的結果,但卻存在模式崩潰和缺乏多樣性的問題。為了應對這一挑戰,我們利用分數蒸餾的梯度流解釋提出了排斥式分數蒸餾(RSD)。具體而言,我們提出了一個基於粒子集合的排斥變分框架,以促進多樣性。通過一個包含粒子之間耦合的變分逼近,排斥顯示為一種簡單的正則化,允許基於它們的相對成對相似性進行粒子之間的交互作用,例如通過基於半徑的核方法進行度量。我們設計了適用於無限制和受限制抽樣情況的 RSD。對於受限制抽樣,我們專注於潛在空間中的反問題,這導致一個擴充的變分公式,可以在計算、質量和多樣性之間取得良好平衡。我們對文本到圖像生成和反問題進行了廣泛實驗,結果表明,與最先進的替代方案相比,RSD在多樣性和質量之間實現了卓越的平衡。
在這份報告中,我們提出以下問題:根據奧林匹克競技場(一個奧運級、多學科、多模態的超智能AI基準測試),迄今為止,誰是最聰明的AI模型?我們專注於最近發布的模型:Claude-3.5-Sonnet、Gemini-1.5-Pro和GPT-4o。我們首次提議使用奧運獎牌榜方法來排名AI模型,根據它們在各種學科上的綜合表現。實證結果顯示:(1)Claude-3.5-Sonnet在整體表現上高度競爭,甚至在某些科目(即物理、化學和生物學)上超越了GPT-4o。(2)Gemini-1.5-Pro和GPT-4V在排名上緊隨GPT-4o和Claude-3.5-Sonnet之後,但它們之間存在明顯的表現差距。(3)來自開源社區的AI模型表現顯著落後於這些專有模型。(4)這些模型在這個基準測試中的表現仍然不盡人意,表明在實現超智能之前,我們還有很長的路要走。我們致力於持續追蹤和評估最新強大模型在這個基準測試上的表現(可在https://github.com/GAIR-NLP/OlympicArena找到)。