每日精選AI研究論文及翻譯
主題驅動的文本到圖像生成旨在通過準確捕捉主題的視覺特徵和文本提示的語義內容,在所需的上下文中生成新主題的圖像。傳統方法依賴耗時且資源密集的微調以實現主題對齊,而最近的零編碼方法則利用即時圖像提示,通常會犧牲主題對齊。在本文中,我們介紹了Diptych Prompting,這是一種新穎的零編碼方法,通過利用大規模文本到圖像模型中雙聯畫生成的新興特性,將其重新解釋為具有精確主題對齊的修補任務。Diptych Prompting將一個不完整的雙聯畫與參考圖像放在左側面板上,並在右側面板上執行文本條件修補。我們通過刪除參考圖像中的背景來進一步防止不需要的內容泄漏,並通過在修補過程中增強面板之間的注意權重來改善生成主題的細節。實驗結果證實,我們的方法明顯優於零編碼圖像提示方法,生成的圖像被用戶視覺上更受青睞。此外,我們的方法不僅支持主題驅動生成,還支持風格化圖像生成和主題驅動圖像編輯,展示了在各種圖像生成應用中的多功能性。項目頁面:https://diptychprompting.github.io/
本研究介紹了一個新穎的評估框架,旨在評估大型語言模型(LLMs)在675個基本無法解決的問題上承認不確定性的能力。使用一個由畢業級大挑戰問題組成的精選數據集,這些問題故意沒有可知答案,我們評估了十二個最先進的LLMs,包括開源和封閉源模型,在承認無法解答問題的傾向方面,而非生成似是而非但不正確的回應。最佳模型在生物學、哲學和數學等領域承認問題解決方案未知的準確率範圍為62-68%。我們觀察到問題難度與模型準確性之間呈反向關係,GPT-4在更具挑戰性的問題上(35.8%)表現出更高的不確定性承認率,相對於較簡單的問題(20.0%)。這種模式表明,當問題看似更易處理時,模型可能更容易生成推測性答案。研究還揭示了問題類別之間的顯著變化,模型在承認不確定性方面在發明和NP-hard問題上遇到困難,而在哲學和心理挑戰上表現相對較好。這些結果有助於人工通用智能(AGI)評估研究的不斷增長,突顯了承認不確定性作為未來機器智能評估的關鍵組成部分的重要性。這種不可能性測試擴展了以前的通用智能測試的理論框架,通過提供LLMs在識別自身知識邊界方面目前的限制的實證證據,提出了改進模型訓練架構和評估方法的新方向。
我們提出了Material Anything,這是一個完全自動化的統一擴散框架,旨在為3D物體生成基於物理的材料。與現有依賴於複雜流程或特定案例優化的方法不同,Material Anything提供了一個強大的端到端解決方案,可適應不同照明條件下的物體。我們的方法利用了一個預先訓練的圖像擴散模型,通過三頭架構和渲染損失來提高穩定性和材料質量。此外,我們引入了置信度遮罩作為擴散模型內的動態切換器,使其能夠有效處理在不同照明條件下的紋理和無紋理物體。通過採用由這些置信度遮罩引導的漸進式材料生成策略,以及UV空間材料精煉器,我們的方法確保了一致的、準備好UV的材料輸出。大量實驗表明,我們的方法在各種物體類別和照明條件下均優於現有方法。
本文對目前複製 OpenAI 的 O1 模型能力的方法進行了批判性檢驗,特別關注廣泛但常常未公開使用知識蒸餾技術。雖然我們先前的工作探索了達到 O1 複製的基本技術途徑,這項研究揭示了如何從 O1 的 API 簡單蒸餾,結合監督微調,可以在複雜的數學推理任務上實現卓越表現。通過廣泛的實驗,我們展示了在僅對數千個樣本進行了 O1 蒸餾的基礎模型微調後,長期被認為無法超越的 O1 預覽,在美國邀請數學考試(AIME)上表現出色,並具有最小的技術複雜性。此外,我們的研究不僅限於數學推理,還探索了 O1 蒸餾模型在各種任務上的泛化能力:幻覺、安全性和開放領域問答。值得注意的是,儘管僅在數學問題解決數據上進行訓練,我們的模型展現出對開放式問答任務的強大泛化能力,並在微調後明顯減少對諂媚的敏感性。我們故意將這一發現公之於眾,以促進 AI 研究的透明度,挑戰領域中對技術主張的隱晦趨勢。我們的工作包括:(1) 對蒸餾過程及其有效性的詳細技術闡述,(2) 一個全面的基準框架,用於評估和分類基於其技術透明度和可重現性的 O1 複製嘗試,(3) 對過度依賴蒸餾方法的限制和潛在風險進行批判性討論,我們的分析最終得出一個重要的苦澀教訓:儘管追求更有能力的 AI 系統很重要,但培養植根於第一原則思維的研究人員的發展至關重要。
評估和評價長期以來一直是人工智慧(AI)和自然語言處理(NLP)中的重要挑戰。然而,傳統方法,無論是基於匹配還是嵌入的方法,通常難以判斷微妙的屬性並提供令人滿意的結果。大型語言模型(LLMs)的最新進展激發了“LLM作為評判”的範式,其中LLMs被利用來在各種任務和應用中執行評分、排名或選擇。本文提供了LLM為基礎的評判和評估的全面調查,提供了深入的概述以推進這一新興領域。我們首先從輸入和輸出的角度給出詳細的定義。然後,我們引入了一個全面的分類法,從三個維度探索LLM作為評判:評判什麼、如何評判以及在哪裡評判。最後,我們編制了用於評估LLM作為評判的基準,並突出了關鍵挑戰和有前途的方向,旨在提供有價值的見解並激發未來在這一有前途的研究領域的研究。有關LLM作為評判的論文列表和更多資源可在https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge 和 https://llm-as-a-judge.github.io 找到。
儘管在一般人工智慧領域取得了重大進展,例如 GPT-4,但其在醫學領域(一般醫學人工智慧,GMAI)的效果仍受限於缺乏專業醫學知識。為了應對這一挑戰,我們提出了 GMAI-VL-5.5M,這是一個全面的多模態醫學數據集,通過將數百個專業醫學數據集轉換為精心構建的圖像-文本對而創建而成。該數據集具有全面的任務覆蓋、多樣的模態和高質量的圖像-文本數據。基於這個多模態數據集,我們提出了 GMAI-VL,一個通用醫學視覺語言模型,採用漸進三階段訓練策略。這種方法通過整合視覺和文本信息顯著增強了模型的能力,從而提高了處理多模態數據並支持準確診斷和臨床決策的能力。實驗評估表明,GMAI-VL 在眾多多模態醫學任務中取得了最先進的結果,例如視覺問答和醫學影像診斷。我們的貢獻包括開發了 GMAI-VL-5.5M 數據集,介紹了 GMAI-VL 模型,並在多個醫學領域建立了新的基準。代碼和數據集將在 https://github.com/uni-medical/GMAI-VL 上發布。
在這裡,我們介紹了第二屆大型語言模型(LLM)應用於材料科學和化學的黑客松的成果,吸引了來自全球混合地點的參與者,共收到34個團隊提交。這些提交涵蓋了七個主要應用領域,展示了LLM在(1)分子和材料性質預測;(2)分子和材料設計;(3)自動化和新穎界面;(4)科學交流和教育;(5)研究數據管理和自動化;(6)假設生成和評估;以及(7)從科學文獻中提取和推理的多樣效用。每個團隊提交都在摘要表中呈現,附有代碼鏈接和簡短論文。除了團隊成果,我們還討論了黑客松活動及其混合形式,包括多個實體中心在多倫多、蒙特利爾、舊金山、柏林、洛桑和東京,以及一個全球在線中心以促進當地和虛擬協作。整體而言,該活動突顯了自上一屆黑客松以來LLM功能的顯著改進,表明LLM在材料科學和化學研究應用中持續擴展。這些成果展示了LLM的雙重效用,既是多功能模型用於各種機器學習任務,也是快速原型化科學研究自定義應用的平台。
我們介紹了 OneDiffusion,一個多功能的大規模擴散模型,無縫支持跨多樣任務的雙向圖像合成和理解。它能從輸入如文本、深度、姿勢、佈局和語義地圖進行有條件生成,同時處理圖像去模糊、放大,以及深度估計和分割等反向過程。此外,OneDiffusion 還支持多視角生成、相機姿勢估計,並利用連續圖像輸入進行即時個性化。我們的模型採用直接但有效的方法,將所有任務視為在訓練期間具有不同噪聲尺度的幀序列,從而使任何幀都能在推論時作為條件圖像。我們統一的訓練框架消除了專用架構的需求,支持可擴展的多任務訓練,並且能平滑地適應任何分辨率,增強泛化能力和可擴展性。實驗結果表明,儘管訓練數據集相對較小,我們的代碼和檢查點在各種任務中展現了競爭力,包括文本到圖像、多視角生成、ID 保留、深度估計和相機姿勢估計等生成和預測。我們的代碼和檢查點可在 https://github.com/lehduong/OneDiffusion 免費獲取。
多頭專家混合(MH-MoE)通過使用多頭機制共同關注不同專家內各種表示空間的信息,展現出卓越的性能。本文提出了一種新的MH-MoE實現,與稀疏專家混合模型在FLOPs和參數方面保持一致。對語言模型的實驗結果表明,新的實現比普通MoE和細粒度MoE模型都有質量改進。此外,我們的實驗表明MH-MoE與1位元大型語言模型(LLMs)如BitNet兼容。
互動式醫學影像分割(IMIS)長期受限於大規模、多樣化和密集標註數據集的有限可用性,這阻礙了模型泛化和在不同模型間一致評估的進展。本文介紹了IMed-361M基準數據集,這是對一般IMIS研究的重大進展。首先,我們從多個數據來源收集並標準化了超過640萬張醫學影像及其對應的地面真實遮罩。然後,利用視覺基礎模型的強大物體識別能力,我們自動為每個影像生成了密集的互動式遮罩,並通過嚴格的質量控制和細粒度管理確保其質量。IMed-361M不同於以往受特定模態或稀疏標註限制的數據集,它涵蓋了14種模態和204個分割目標,總計361百萬個遮罩,平均每張影像有56個遮罩。最後,我們在該數據集上開發了一個IMIS基線網絡,支持通過互動輸入(包括點擊、邊界框、文本提示及其組合)進行高質量遮罩生成。我們從多個角度評估了其在醫學影像分割任務中的性能,展示了與現有互動式分割模型相比的優越準確性和可擴展性。為促進醫學計算機視覺基礎模型的研究,我們在https://github.com/uni-medical/IMIS-Bench 上發布了IMed-361M數據集和模型。
計算斷層掃描(CT)是醫學影像學中最受歡迎的模式之一。到目前為止,CT影像為體積醫學分割任務提供了最大的公開數據集,涵蓋全身解剖結構。大量的全身CT影像為預先訓練強大的模型(例如以監督方式預先訓練的STU-Net)提供了機會,以分割眾多解剖結構。然而,目前尚不清楚這些預先訓練模型在何種條件下可以轉移到各種下游醫學分割任務,特別是分割其他模式和不同目標。為解決這個問題,需要一個大規模的綜合評估基準,以找出這些條件。因此,我們收集了87個不同模式、目標和樣本大小的公共數據集,以評估全身CT預先訓練模型的轉移能力。然後,我們使用了一個代表性模型STU-Net,搭配多個模型尺度,進行跨模式和目標的轉移學習。我們的實驗結果顯示:(1)在微調中可能存在有關數據集大小的瓶頸效應,相較於中等規模數據集,對於小型和大型數據集的改進更為明顯。 (2)在全身CT上預先訓練的模型展現出有效的模式轉移,能夠良好地適應其他模式,如MRI。 (3)在全身CT上進行預訓練不僅支持結構檢測的強大表現,還在病變檢測方面表現出效力,展示了跨目標任務的適應性。我們希望這個大規模的轉移學習開放評估能夠引導未來體積醫學影像分割研究。
AdamW一直是變壓器預訓練的默認優化器。多年來,我們的社區一直在尋找更快速和更穩定的優化器,並且只有積極的結果受到限制。在這項工作中,我們提出了一個對於任何基於動量的優化器的單行修改,我們將其重新命名為謹慎優化器,例如C-AdamW和C-Lion。我們的理論結果顯示,這種修改保留了Adam的哈密頓函數,並且在李雅普諾夫分析下不會破壞收斂保證。此外,我們的理論洞察力揭示了一整個新的優化器家族。在其中,我們選擇了最簡單的一種進行實驗,展示在Llama和MAE預訓練中加速高達1.47倍。代碼可在https://github.com/kyleliang919/C-Optim找到。
故事性視頻生成(SVG)最近成為一項任務,旨在創建長篇、多動作、多場景視頻,以一致地呈現輸入文本劇本中描述的故事。SVG在媒體和娛樂領域的多樣內容創作中具有巨大潛力;然而,它也帶來了重大挑戰:(1)對象必須展現一系列精細、復雜的動作,(2)多個對象需要在各場景中一致出現,以及(3)主題可能需要在單一場景中進行多個動作,並實現無縫過渡。為應對這些挑戰,我們提出了DreamRunner,一種新穎的故事到視頻生成方法:首先,我們使用大型語言模型(LLM)對輸入劇本進行結構化,以促進粗粒度場景規劃以及細粒度對象級佈局和動作規劃。接下來,DreamRunner提出了檢索增強的測試時適應,捕捉每個場景中對象的目標運動先驗,支持基於檢索視頻的多樣運動定制,從而促進生成具有復雜劇本動作的新視頻。最後,我們提出了一種新穎的基於空間-時間區域的3D注意力和先驗注入模塊SR3AI,用於細粒度對象運動綁定和逐幀語義控制。我們將DreamRunner與各種SVG基準進行比較,展示了在角色一致性、文本對齊和平滑過渡方面的最新性能。此外,DreamRunner在組合式文本到視頻生成中展現出強大的細粒度條件遵循能力,在T2V-ComBench上明顯優於基準。最後,我們通過定性示例驗證了DreamRunner生成多對象交互的強大能力。
視覺分詞器對於影像生成至關重要。它們將視覺數據轉換為離散標記,使基於Transformer的模型在影像生成方面表現卓越。儘管VQ基礎的分詞器(如VQGAN)取得了成功,但由於受限的詞彙大小,面臨著重大限制。簡單擴展代碼書往往會導致訓練不穩定和性能收益減少,使可擴展性成為一個重要挑戰。在這項工作中,我們引入了分解量化(FQ)這一新穎方法,通過將大型代碼書分解為多個獨立的子代碼書,來振興基於VQ的分詞器。這種因式分解降低了大型代碼書的查找複雜度,實現了更高效和可擴展的視覺分詞。為確保每個子代碼書捕捉到獨特和互補的信息,我們提出了一種解耦規範化方法,明確減少冗餘,促進子代碼書之間的多樣性。此外,我們將表示學習整合到訓練過程中,利用預訓練的視覺模型(如CLIP和DINO)將語義豐富性融入到學習表示中。這種設計確保我們的分詞器捕捉到多樣的語義層次,從而產生更具表現力和解耦的表示。實驗表明,提出的FQGAN模型顯著提高了視覺分詞器的重建質量,實現了最先進的性能。我們進一步展示了這種分詞器可以有效地適應自回歸影像生成。https://showlab.github.io/FQGAN
我們假設使用者在影像中反映日常生活的視覺歷史,提供了有價值的洞察力,能夠揭示他們的興趣和偏好,並可用於個性化。在實現這一目標時,最主要的挑戰之一是視覺歷史中的多樣性和噪音,其中包含不一定與推薦任務相關的圖像,也不一定反映使用者的興趣,甚至不一定與偏好相關。現有的推薦系統要麼依賴於特定任務的使用者互動日誌,例如用於購物推薦的線上購物歷史,要麼專注於文本信號。我們提出了一種新穎的方法,VisualLens,它提取、過濾和優化圖像表示,並利用這些信號進行個性化。我們創建了兩個新的基準,具有與任務無關的視覺歷史,並展示了我們的方法在Hit@3上比最先進的推薦提高了5-10%,在GPT-4o上提高了2-5%。我們的方法為傳統方法失敗的情況下的個性化推薦打開了道路。
我們提出了一種僅使用文字描述來學習新概念的方法。我們稱之為知識轉移。類似於人類感知,我們利用跨模態互動來引入新概念。我們假設在預先訓練的視覺編碼器中已經學到足夠的低級特徵(例如形狀、外觀、顏色),可以用來描述先前未知的高級概念。根據新概念的文字描述,我們的方法通過將視覺編碼器的已知低級特徵與其高級文字描述對齊來工作。我們展示了知識轉移可以成功地在多模態模型中引入新概念,而且非常高效,只需要對目標概念進行一次描述。我們的方法與分開的文字和視覺編碼器(例如CLIP)以及跨模態共享參數兼容。我們還展示了,遵循相同原則,知識轉移可以改善模型已知的概念。通過利用知識轉移,我們提高了跨不同任務的零樣本性能,例如分類、分割、圖像-文本檢索和字幕生成。
從 x86 架構轉換到 ARM 架構在各個領域中變得越來越普遍,主要是由 ARM 的能源效率和在傳統領域中性能的提升所推動。然而,這種指令集架構的轉換帶來了重大挑戰,主要是由於 x86 軟體的龐大遺留生態系統以及在專有生態系統和軟體堆疊之間的可移植性不足。本文介紹了 CRT,一種基於 LLM 輕量級的編譯器,可以自動將 x86 組合語言轉換為 ARM 組合語言。我們的方法彌合了 x86 的 CISC 架構和 ARM 的 RISC 架構之間的基本差距,同時保留了程式語義並優化了性能。我們在各種真實應用中評估了 CRT,在我們全面的測試套件上實現了從 x86 到 ARMv5 的 79.25% 翻譯準確率,以及從 x86 到 RISC-V 的 88.68% 準確率。在 Apple M2 硬體(ARMv8)上的實際部署中,我們的轉譯程式碼相較於 Apple 的 Rosetta 2 虛擬化引擎實現了 1.73 倍的加速,同時提供了 2.41 倍的記憶體效率和 1.47 倍的更好能源消耗。通過測試和分析,我們展示了 CRT 成功地跨越了 CISC/RISC 分歧,並在機器“語言”障礙下生成了正確可執行的 RISC 代碼。我們在以下網址釋出我們的程式碼、模型、訓練數據集和基準測試:https://ahmedheakl.github.io/asm2asm/。
現有的大型多模型模型(LMMs)通常僅專注於少數地區和語言。隨著LMMs的不斷改進,確保它們理解文化背景、尊重當地敏感性,並支持資源稀缺語言的重要性日益增加,同時有效地整合相應的視覺線索。為了追求文化多元的全球多模型模型,我們提出的所有語言都重要基準(ALM-bench)代表迄今為止對於評估100種語言的LMMs的最大和最全面的努力。ALM-bench通過測試現有模型的能力來理解和推理有關不同語言的文化多樣圖像配對的挑戰,包括許多在LMM研究中傳統上未受重視的資源稀缺語言。該基準提供了一個強大而細緻的評估框架,其中包括真假、多選和開放式問題等各種問題格式,進一步細分為短答案和長答案類別。ALM-bench的設計確保了對模型處理視覺和語言推理中不同難度水平的能力進行全面評估。為了捕捉全球文化豐富多彩的畫卷,ALM-bench從13個不同的文化方面精心策劃內容,範圍從傳統和儀式到著名人物和慶祝活動。通過這一點,ALM-bench不僅為最先進的開源和封閉源LMMs提供了一個嚴格的測試基礎,還突顯了文化和語言包容性的重要性,鼓勵開發可以有效服務多樣化全球人口的模型。我們的基準是公開可用的。
基於文本的3D場景生成和編輯具有重要潛力,可通過直觀用戶交互來簡化內容創建。儘管最近的進展利用3D高斯飛濺(3DGS)進行高保真度和實時渲染,現有方法通常專門化且專注於任務,缺乏統一的框架來進行生成和編輯。本文介紹了SplatFlow,這是一個全面的框架,通過實現直接的3DGS生成和編輯來填補這一差距。SplatFlow包括兩個主要組件:多視圖矯正流(RF)模型和高斯飛濺解碼器(GSDecoder)。多視圖RF模型在潛在空間中運行,同時生成多視圖圖像、深度和相機姿勢,並受文本提示條件影響,從而應對現實世界環境中的各種場景尺度和複雜相機軌跡等挑戰。然後,GSDecoder通過前向3DGS方法有效地將這些潛在輸出轉換為3DGS表示。通過利用無需訓練的反演和修補技術,SplatFlow實現了無縫的3DGS編輯,支持廣泛的3D任務,包括對象編輯、新視圖合成和相機姿勢估計,而無需額外的複雜流程。我們在MVImgNet和DL3DV-7K數據集上驗證了SplatFlow的能力,展示了其在各種3D生成、編輯和修補任務中的多功能性和有效性。
眾所周知,思維鏈(Chain-of-Thought)可以顯著提升大型語言模型(LLMs)在複雜任務上的表現。然而,由於這種方法會導致推論速度變慢並增加計算成本,許多研究已嘗試使用隱式思維鏈(implicit CoT),這種方法無需LLMs明確生成中間步驟。但是,它們的效力與典型的明示思維鏈方法之間仍存在差距。這讓我們懷疑,隱式思維鏈是否真的等同於明示思維鏈?因此,在本研究中,我們通過實驗來探討這個問題。當LLMs執行隱式思維鏈時,我們從模型的隱藏狀態中探測中間步驟的信息。結果令人驚訝地表明,LLMs幾乎不考慮中間步驟,這表明它們可能僅依賴經驗而非嚴格的一步一步推理。此外,我們發現LLMs的隱式推理能力易受影響且不穩定,進一步證實明示思維鏈對有效支持複雜任務的必要性。
在現代大型語言模型(LLM)擴展中的一個基本開放挑戰是對新興能力的理解不足。特別是,已知語言模型預訓練損失在計算量的函數中具有高度可預測性。然而,下游能力卻遠不及預測,有時甚至表現出新興性的跳躍,這使得預測未來模型的能力變得具有挑戰性。在這項研究中,我們首先提出了新興性預測的任務:在當前具有隨機少量樣本準確度的LLM的情況下,我們能否預測未來模型(GPT-N+1)在該任務上是否會具有非平凡的準確度?然後,我們為這個問題發現了一個簡單的見解:對給定任務進行LLM微調可以將新興性發生的規模點轉向能力較差的模型。為了實現這一見解,我們可以對LLM進行不同數量的數據微調,並擬合一個預測新興性何時發生的參數函數(即“新興性定律”)。我們使用四個標準的自然語言處理基準來驗證這種方法,其中大規模的開源LLM已經展現出新興性(MMLU、GSM8K、CommonsenseQA和CoLA)。僅使用小規模LLM,我們發現,在某些情況下,我們可以準確預測使用多達4倍計算量訓練的模型是否已經出現新興性。最後,我們提出了兩個實際應用新興性預測的案例研究。
現代序列模型(例如Transformers、線性RNN等)已成為近期深度學習框架的主要支柱,主要是因為它們的效率、表徵能力和/或捕捉長距離依賴性的能力。採用這些序列模型來處理圖結構數據最近已經變得流行,作為傳遞消息神經網絡(MPNNs)的替代方案。然而,目前對於什麼構成良好的圖序列模型以及採用不同序列模型進行圖學習的好處和不足缺乏共同基礎的數學描述。為此,我們首先提出圖序列模型(GSM),這是一個統一的框架,用於採用序列模型進行圖學習,包括三個主要步驟:(1)標記化,將圖轉換為一組序列;(2)局部編碼,將每個節點周圍的局部鄰域進行編碼;以及(3)全局編碼,使用可擴展的序列模型來捕捉序列內的長距離依賴性。這個框架使我們能夠理解、評估和比較不同序列模型支柱在圖任務中的能力。我們對Transformers和現代循環模型的表徵能力進行理論評估,通過全局和局部圖任務的角度來看,顯示這兩種模型都有正反兩面。基於這一觀察,我們提出了GSM++,一個快速的混合模型,使用分層親和聚類(HAC)算法將圖標記為分層序列,然後採用Transformer的混合架構來編碼這些序列。我們的理論和實驗結果支持GSM++的設計,表明GSM++在大多數基準評估中優於基準。
我們研究在3D中的開放世界部分分割:基於任何文本查詢,在任何物體中分割任何部分。先前的方法在物體類別和部分詞彙方面存在限制。人工智慧的最新進展展示了在2D中有效的開放世界識別能力。受到這一進展的啟發,我們提出了一個開放世界、直接預測模型,用於3D部分分割,可以零樣本應用於任何物體。我們的方法名為Find3D,通過在互聯網上的大規模3D資產上訓練一個通用類別的點嵌入模型,而無需任何人類標註。它結合了一個由基礎模型驅動的數據引擎,用於標註數據,以及對比訓練方法。我們在多個數據集上實現了強大的性能和泛化能力,相較於次佳方法,mIoU提高了多達3倍。我們的模型比現有基準模型快6倍至300倍以上。為了鼓勵對通用類別開放世界3D部分分割的研究,我們還釋出了一個針對通用物體和部分的基準測試。項目網站:https://ziqi-ma.github.io/find3dsite/
類別不可知姿勢估計(CAPE)使用單一模型在各種物件類別中定位關鍵點,僅需一個或少數標註支援影像。最近的研究表明,使用姿勢圖(即將關鍵點視為圖中的節點而非孤立點)有助於處理遮擋和破壞對稱性。然而,這些方法假設靜態姿勢圖具有等權重邊緣,導致結果次優。我們提出EdgeCape,一個新穎的框架,通過預測圖的邊權重來優化定位,從而克服這些限制。為進一步利用結構先驗,我們提出整合馬可夫結構偏差,根據節點之間的跳數調節節點之間的自注意交互作用。我們展示這提高了模型捕捉全局空間依賴性的能力。在包含100個類別和超過20K影像的MP-100基準測試中,EdgeCape在1-shot設置下實現了最先進的結果,在5-shot設置中在相似大小的方法中處於領先地位,顯著提高了關鍵點定位的準確性。我們的程式碼已公開提供。