每日精選AI研究論文及翻譯
多模態基礎模型,如GPT-4o,近期取得了顯著進展,但這些模型在視覺理解方面的具體表現尚不明確。本文中,我們基於標準計算機視覺任務(語義分割、物體檢測、圖像分類、深度及表面法線預測),利用已建立的數據集(如COCO、ImageNet及其變體等),對流行的多模態基礎模型(GPT-4o、o4-mini、Gemini 1.5 Pro與Gemini 2.0 Flash、Claude 3.5 Sonnet、Qwen2-VL、Llama 3.2)進行了性能基準測試。 執行此項測試的主要挑戰在於:1)大多數模型被訓練以輸出文本,無法原生表達多樣化的領域,如分割或三維幾何;2)許多領先模型為專有模型,僅能通過API層面訪問,即無法獲取權重以進行適應性調整。我們通過將標準視覺任務轉化為可通過文本提示鏈接並與API兼容的任務,創建了一個標準化的基準測試框架,以應對這些挑戰。 我們觀察到:1)這些模型在任何任務上均未接近當前最先進的專業模型。然而,2)它們作為通用模型表現尚可,這點尤為值得注意,因為它們可能主要基於圖像-文本任務進行訓練。3)它們在語義任務上的表現明顯優於幾何任務。4)雖然提示鏈接技術影響性能,但更好的模型對提示變化的敏感性較低。5)在非推理模型中,GPT-4o表現最佳,在六項任務中佔據了四項的榜首位置。6)推理模型,如o3,在幾何任務上顯示出改進。7)對具備原生圖像生成能力的模型(如最新版GPT-4o)的初步分析顯示,它們存在如幻覺和空間錯位等異常現象。
擴散模型在推理階段的高昂計算成本阻礙了其作為快速物理模擬器的應用。在圖像和視頻生成的背景下,這一計算缺陷已通過在自動編碼器的潛在空間而非像素空間中生成內容得到解決。在本研究中,我們探討了類似策略是否能夠有效應用於動力系統的模擬,以及其代價幾何。我們發現,潛在空間模擬的精度對於廣泛的壓縮率(高達1000倍)表現出驚人的穩健性。我們還展示了基於擴散的模擬器在精度上始終優於非生成式模型,並通過更高的多樣性來補償其預測中的不確定性。最後,我們討論了從架構到優化器等實際設計選擇,這些選擇對於訓練潛在空間模擬器至關重要。
大型語言模型(LLMs)的快速發展,加劇了對超越以英語為中心的基準評估框架的需求,並需滿足如印度等語言多樣化地區的要求。我們推出了EKA-EVAL,這是一個統一且可直接投入使用的評估框架,整合了超過35個基準測試,其中包括10個針對印度語言的特定數據集,涵蓋推理、數學、工具使用、長上下文理解及閱讀理解等類別。與現有的印度語言評估工具相比,EKA-EVAL提供了更廣泛的基準覆蓋範圍,並內建支援分散式推理、量化及多GPU使用。我們的系統性比較表明,EKA-EVAL是首個為全球及印度LLMs量身定制的端到端、可擴展評估套件,大幅降低了多語言基準測試的門檻。該框架為開源項目,公開於https://github.com/lingo-iitgn/eka-eval,並作為持續進行的EKA計劃(https://eka.soket.ai)的一部分,旨在擴展至超過100個基準測試,建立一個堅固的多語言LLMs評估生態系統。
评估由大型语言模型(LLMs)生成的创意写作仍具挑战性,因为开放式叙事缺乏明确的标准答案。在缺乏高效自动化评估方法的情况下,现成的(OTS)语言模型被用作零样本评判者,然而其在此情境下的可靠性尚不明确。为了实现对创意写作的稳健评估,我们引入了LitBench,这是首个用于创意写作验证的标准化基准及配套数据集,包含从Reddit提取的2,480个去偏、人工标注的故事对比测试集,以及一个包含43,827对人工偏好标签的训练语料库。利用LitBench,我们(i)对零样本LLM评判者进行基准测试,(ii)训练了Bradley Terry和生成式奖励模型,以及(iii)开展了一项在线人类研究,以验证奖励模型在最新LLM生成故事上的排名。我们的基准测试显示,Claude-3.7-Sonnet作为现成评判者表现最佳,与人类偏好的一致性达到73%;在训练后的奖励模型中,Bradley-Terry和生成式奖励模型均达到了78%的准确率,超越了所有现成评判者。在线人类研究进一步证实,我们训练的奖励模型在新颖的LLM生成故事中持续与人类偏好保持一致。我们在https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461发布了LitBench及奖励模型,为创意写作系统的可靠自动化评估与优化提供了经过验证的资源。