每日精選AI研究論文及翻譯
讓LLMs透過更多的測試時間計算來改善其輸出是建立通常自我改進代理人的重要一步,這樣的代理人可以在開放式自然語言上運作。本文研究LLMs在推理時間計算的擴展,重點是回答以下問題:如果一個LLM被允許使用固定但非微不足道的推理時間計算量,它在一個具有挑戰性的提示上可以提高多少性能?回答這個問題不僅對LLMs的可達性性能有影響,還對LLM預訓練的未來以及如何權衡推理時間和預訓練計算有所影響。儘管這很重要,但很少有研究試圖了解各種測試時間推理方法的擴展行為。此外,目前的工作在許多這些策略上主要提供了負面結果。在這項工作中,我們分析了兩種主要機制來擴展測試時間計算:(1)針對密集的基於過程的驗證器獎勵模型進行搜索;以及(2)根據測試時間的提示自適應地更新模型對回應的分佈。我們發現,在這兩種情況下,不同方法對於擴展測試時間計算的有效性在很大程度上取決於提示的困難程度。這一觀察促使應用“計算最佳化”擴展策略,該策略可根據提示自適應地分配測試時間計算。使用這種計算最佳化策略,我們可以將測試時間計算的效率提高超過4倍,與最佳N基線相比。此外,在FLOPs匹配的評估中,我們發現在較小基本模型取得某種非微不足道成功率的問題上,測試時間計算可以用來勝過14倍大的模型。
對於大型視覺語言模型(LVLMs)來說,處理多個影像的能力至關重要,以發展對場景更全面且細緻的理解。最近的多影像LVLMs已開始應對這一需求。然而,它們的評估並未跟上發展的步伐。為填補這一空白,我們引入了多模態多影像理解(MMIU)基準,這是一個全面的評估套件,旨在評估LVLMs在各種多影像任務上的表現。MMIU 包括7種類型的多影像關係、52個任務、77K 張影像和11K 精心策劃的多選問題,使其成為同類型中最廣泛的基準。我們對24個流行的LVLMs進行評估,包括開源和專有模型,揭示了在多影像理解方面存在顯著挑戰,特別是涉及空間理解的任務。即使是最先進的模型,如GPT-4o,在MMIU 上僅達到55.7% 的準確性。通過多方面的分析實驗,我們確定了關鍵的性能差距和限制,為未來模型和數據改進提供了寶貴的見解。我們的目標是通過MMIU 推進LVLM 研究和開發的前沿,使我們朝著實現複雜的多模態多影像用戶互動邁進。
我們提出 LLaVA-OneVision,這是一系列開放式大型多模型(LMMs),通過整合我們在 LLaVA-NeXT 博客系列中對數據、模型和視覺表示的見解而開發的。我們的實驗結果表明,LLaVA-OneVision 是第一個能夠同時推動開放式 LMMs 在三個重要的計算機視覺場景中性能邊界的單一模型:單圖像、多圖像和視頻場景。LLaVA-OneVision 的設計允許在不同模態/場景之間進行強大的遷移學習,產生新的新興能力。特別是,通過從圖像到視頻的任務轉移展示了強大的視頻理解和跨場景能力。
我們提出了一種新方法,通過一種稱為「物件影像」的表示來生成具有 UV 地圖的逼真 3D 模型。這種方法將表面幾何、外觀和補丁結構封裝在一個 64x64 像素的影像中,有效地將複雜的 3D 形狀轉換為更易處理的 2D 格式。通過這樣做,我們解決了多邊形網格中固有的幾何和語義不規則性所帶來的挑戰。這種方法使我們能夠直接將像擴散變壓器這樣的影像生成模型應用於 3D 形狀生成。在 ABO 數據集上評估時,我們生成的具有補丁結構的形狀實現了與最近的 3D 生成模型相當的點雲 FID,同時自然支持 PBR 材質生成。
本文介紹了MedTrinity-25M,這是一個全面的、大規模的醫學多模態數據集,涵蓋了超過2500萬張圖像,包括10種模態,並對65多種疾病進行了多層次的標註。這些豐富的標註涵蓋了全球文本信息,如疾病/病變類型、模態、特定區域描述和區域間關係,以及對感興趣區域(ROI)的詳細局部標註,包括邊界框和分割遮罩。與現有方法不同,現有方法受到圖像文本對的可用性限制,我們開發了第一個自動化流程,通過生成多層次的視覺和文本標註(以圖像-ROI-描述三元組的形式)來擴展多模態數據,而無需任何配對的文本描述。具體而言,我們收集、預處理了來自90多個不同來源的數據,並使用特定領域的專家模型來識別與異常區域相關的ROI。然後,我們構建了一個全面的知識庫,並提示多模態大型語言模型根據識別的ROI執行檢索增強生成,從而產生多層次的文本描述。與現有數據集相比,MedTrinity-25M提供了最豐富的標註,支持一系列多模態任務,如標題生成和報告生成,以及視覺中心任務,如分類和分割。在MedTrinity-25M上進行預訓練後,我們的模型在VQA-RAD和PathVQA上實現了最先進的性能,超越了多模態大型語言模型和其他代表性的最先進方法。這個數據集還可以用於支持大規模的多模態醫學AI模型的預訓練,有助於發展醫學領域未來基礎模型。
擴散模型不斷推動最先進的圖像生成技術,但這個過程很難以微妙的方式進行控制:實踐證明,文本提示無法準確描述圖像風格或細微結構細節(如臉部)。ControlNet和IPAdapter解決了這一不足,通過將生成過程條件化為圖像,但每個個別實例僅限於建模單個條件後驗:對於實際應用案例,在同一工作流程中需要多個不同的後驗時,訓練和使用多個適配器很繁瑣。我們提出了IPAdapter-Instruct,將自然圖像條件與“Instruct”提示相結合,以便在相同的條件圖像之間切換解釋:風格轉移、對象提取、兩者或其他什麼?IPAdapterInstruct有效地學習多個任務,與專用的每個任務模型相比,質量損失最小。
近年來,關於驗證語言模型輸出正確性的研究日益增加。與此同時,語言模型被用於應對需要推理的複雜查詢。我們介紹了CoverBench,這是一個專注於在複雜推理環境中驗證語言模型輸出的具有挑戰性的基準。為此目的設計的數據集通常用於其他複雜推理任務(例如問答),針對特定用例(例如財務表)進行設計,需要轉換、負樣本抽樣和難例選擇來收集這樣的基準。CoverBench為各種領域、推理類型、相對較長的輸入以及多種標準化提供了多樣化的複雜主張驗證評估,例如在可用時為表格提供多種表示形式,以及一致的架構。我們通過手動審查數據質量,以確保標籤噪音水平低。最後,我們報告了各種具有競爭力的基準結果,以顯示CoverBench具有挑戰性並具有非常顯著的提升空間。數據可在https://huggingface.co/datasets/google/coverbench 下載。
本文展示了如何將訓練用於圖像合成的生成模型作為視覺數據挖掘的工具。我們的洞察是,由於當代生成模型學習了其訓練數據的準確表示,我們可以利用它們通過挖掘視覺模式來對數據進行摘要。具體而言,我們展示了在對特定數據集進行圖像合成的條件擴散模型進行微調後,我們可以使用這些模型來定義該數據集上的典型性度量。該度量評估了不同數據標籤(如地理位置、時間戳記、語義標籤或甚至疾病存在)的視覺元素的典型性。這種通過合成進行數據挖掘的方法具有兩個關鍵優勢。首先,與傳統基於對應的方法相比,它的擴展性更好,因為它不需要明確比較所有視覺元素對。其次,儘管大多數先前關於視覺數據挖掘的工作都集中在單個數據集上,我們的方法可以處理在內容和規模上多樣的數據集,包括歷史汽車數據集、歷史人臉數據集、大規模全球街景數據集,甚至更大的場景數據集。此外,我們的方法允許在類標籤之間轉換視覺元素並分析一致的變化。
擁有特定音訊的唇語同步影片是各種應用的基礎,包括創建虛擬主持人或表演者。雖然最近的研究探索了使用不同技術實現高保真度的唇語同步,但它們的任務導向模型要麼需要長期影片進行特定片段的訓練,要麼會保留可見的瑕疵。在本文中,我們提出了一個統一且有效的框架 ReSyncer,用於同步通用的音視頻面部信息。其關鍵設計是重新設計並重組基於風格的生成器,以有效採用由基於原則的風格注入 Transformer 預測的 3D 面部動態。通過簡單地重新配置噪聲和風格空間內的信息插入機制,我們的框架將運動和外觀與統一的訓練融合在一起。大量實驗表明,ReSyncer 不僅根據音訊生成高保真度的唇語同步影片,還支持多種適用於創建虛擬主持人和表演者的吸引人特性,包括快速個性化微調、基於影片的唇語同步、說話風格的轉移,甚至是臉部交換。有關資源可在 https://guanjz20.github.io/projects/ReSyncer 找到。
評估是大型語言模型發展的接力棒。目前的評估通常採用單項評估範式來評估每個原子測試目標,這種方法難以辨別模型是否真正具備所需的能力,或僅僅是記憶/猜測特定問題的答案。為此,我們提出了一種新穎的評估框架,稱為StructEval。從原子測試目標出發,StructEval通過在多個認知層次和關鍵概念上進行結構化評估,從而為LLM提供了全面、強大且一致的評估。對三個廣泛使用的基準進行的實驗表明,StructEval作為一個可靠工具,可以抵抗數據污染的風險,減少潛在偏見的干擾,從而提供更可靠和一致的關於模型能力的結論。我們的框架還為未來設計有原則且值得信賴的LLM評估協議提供了啟示。
在文本轉SQL任務中,開源和封閉源大型語言模型(LLMs)之間的能力差距仍然是一個挑戰。本文介紹了一種合成數據方法,該方法將由更大、更強大的模型(強模型)生成的數據與由較小、不太對齊的模型(弱模型)生成的錯誤信息數據相結合。該方法不僅增強了文本轉SQL模型的領域泛化能力,還通過偏好學習探索了錯誤數據監督的潛力。此外,我們應用了這種合成數據方法來調整開源LLMs,從而產生了SENSE,一種專用的文本轉SQL模型。SENSE的有效性通過在SPIDER和BIRD基準測試中展示的最新成果得到證明,彌合了開源模型和封閉源模型引發的方法之間的性能差距。
最近,基於Transformer的模型在音視覺分割(AVS)任務上展現出卓越的性能。然而,其昂貴的計算成本使得實時推斷變得不切實際。通過對網絡的注意力地圖進行特徵化,我們確定了AVS模型中的兩個關鍵障礙:1)注意力消散,對應於Softmax在受限幀內過度集中的注意力權重,以及2)低效、繁重的Transformer解碼器,由早期階段的狹窄焦點模式引起。在本文中,我們介紹了AVESFormer,這是第一個實時音視覺高效分割Transformer,同時實現了快速、高效和輕量級。我們的模型利用高效的提示查詢生成器來糾正交叉注意力的行為。此外,我們提出ELF解碼器,通過促進適用於局部特徵的卷積以減輕計算負擔,從而帶來更大的效率。大量實驗表明,我們的AVESFormer顯著提升了模型性能,在S4上達到了79.9%,在MS3上達到了57.9%,在AVSS上達到了31.2%,優於先前的最新技術水準,實現了性能和速度之間的優秀折衷。代碼可在https://github.com/MarkXCloud/AVESFormer.git找到。