每日精選AI研究論文及翻譯
規範表面映射通過將物體的每個像素分配給3D模板中的相應點來泛化關鍵點檢測。由於DensePose在人類分析中的普及,作者們自那時起便試圖將這個概念應用於更多類別,但由於手動監督的高成本而取得有限成功。在這項工作中,我們介紹了SHIC,一種無需手動監督即可學習規範映射的方法,它在大多數類別上取得比監督方法更好的結果。我們的想法是利用基礎計算機視覺模型,如DINO和Stable Diffusion,這些模型是開放的,因此對自然類別具有出色的先驗知識。SHIC將估計圖像到模板對應的問題簡化為使用基礎模型的特徵來預測圖像到圖像的對應。這種簡化通過將物體的圖像與模板的非照片寫實渲染進行匹配來工作,這模擬了收集此任務的手動標註的過程。然後,這些對應用於監督任何感興趣物體的高質量規範映射。我們還表明,圖像生成器可以進一步改善模板視圖的真實感,為模型提供了額外的監督來源。
解決日常數位任務(例如為家庭訂購食品)的自主代理,不僅需要透過應用程式介面(例如筆記、訊息、購物應用程式)操作多個應用程式,還必須根據與環境互動生成具有複雜控制流的豐富程式碼。然而,現有的工具使用基準不足以應對這一挑戰,因為它們僅涵蓋需要簡單API調用序列的任務。 為彌補這一不足,我們建立了AppWorld引擎,這是一個高質量的執行環境(60,000行程式碼),包含9個日常應用程式,可透過457個API操作,並充滿了模擬約100個虛構用戶生活的逼真數位活動。然後我們創建了AppWorld基準測試(40,000行程式碼),這是一套包含750個自然、多樣且具挑戰性的自主代理任務,需要生成豐富且互動式的程式碼。它支援基於狀態的單元測試,實現強大的程式化評估,允許以不同方式完成任務,同時檢查意外變化,即所謂的附帶損害。最先進的LLM,GPT-4o,僅解決了我們「普通」任務的約49%和「挑戰」任務的約30%,而其他模型解決的任務至少少了16%。這凸顯了該基準測試的難度以及AppWorld推動互動式編碼代理前沿的潛力。項目網站位於https://appworld.dev/。
我們提出了Wolf,一個用於準確視頻字幕的WOrLd摘要框架。Wolf是一個自動字幕框架,採用專家混合方法,利用視覺語言模型(VLMs)的互補優勢。通過同時利用圖像和視頻模型,我們的框架捕捉了不同層次的信息並有效地對其進行摘要。我們的方法可應用於增強視頻理解、自動標記和字幕生成。為了評估字幕質量,我們引入了CapScore,一個基於LLM的指標,用於評估生成的字幕與基準字幕之間的相似性和質量。我們進一步在三個領域建立了四個人工標註數據集:自動駕駛、一般場景和機器人技術,以促進全面比較。我們展示了Wolf相對於研究界(VILA1.5、CogAgent)和商業解決方案(Gemini-Pro-1.5、GPT-4V)的最新方法在字幕生成性能方面的優越性。例如,在具有挑戰性的駕駛視頻中,與GPT-4V相比,Wolf在質量方面提高了55.6%,在相似性方面提高了77.4%的CapScore。最後,我們為視頻字幕生成建立了一個基準並引入了排行榜,旨在加速視頻理解、字幕生成和數據對齊的進步。排行榜:https://wolfv0.github.io/leaderboard.html。
我們提出了系統性的工作,從頭開始建立長文本多語言表示模型(TRM)和重新排序器,用於文本檢索。我們首先介紹了一個文本編碼器(基本大小),加強了RoPE和去填充,在本機8192令牌上下文(比以前的多語言編碼器的512更長)中進行了預訓練。然後,我們通過對比學習構建了一個混合TRM和交叉編碼器重新排序器。評估顯示,我們的文本編碼器優於相同大小的先前最先進的XLM-R。與此同時,我們的TRM和重新排序器與大型最先進的BGE-M3模型的性能相匹配,在長文本檢索基準測試中取得更好的結果。進一步的分析表明,我們提出的模型在訓練和推斷期間表現出更高的效率。我們相信它們的效率和有效性可以使各種研究和工業應用受益。
在手上操控類似筆的物件是我們日常生活中的重要技能,因為許多工具如錘子和螺絲刀都有類似的形狀。然而,目前基於學習的方法在這項任務上遇到困難,原因是缺乏高質量的示範和模擬與現實世界之間存在顯著差距。在這項研究中,我們通過展示旋轉類似筆的物件的能力,推動了基於學習的手上操控系統的界限。我們首先使用強化學習來訓練一個具有特權信息的預測策略,並在模擬中生成高保真的軌跡數據集。這有兩個目的:1)在模擬中預先訓練感覺運動策略;2)在現實世界中進行開環軌跡重放。然後,我們通過這些現實世界的軌跡對感覺運動策略進行微調,以使其適應現實世界的動態。僅需不到50條軌跡,我們的策略就學會了旋轉多於十個具有不同物理特性的類似筆的物件,並實現多次旋轉。我們對設計選擇進行了全面分析,並分享了開發過程中所學到的教訓。
視覺轉換器已顯著推動了計算機視覺領域,提供了強大的建模能力和全局感受野。然而,它們高度的計算需求限制了它們在處理長序列方面的應用。為了應對這個問題,狀態空間模型(SSMs)在視覺任務中變得越來越受重視,因為它們提供了線性計算複雜度。最近,在Mamba2中引入了狀態空間對偶(SSD),這是SSMs的一種改進變體,旨在增強模型性能和效率。然而,SSD/SSMs固有的因果性質限制了它們在非因果性視覺任務中的應用。為了解決這一限制,我們引入了視覺狀態空間對偶(VSSD)模型,它具有SSD的非因果格式。具體來說,我們建議捨棄隱藏狀態和標記之間的交互作用強度,同時保留它們的相對權重,從而減輕了標記對先前標記的依賴。結合多掃描策略,我們展示了掃描結果可以被整合以實現非因果性,這不僅提高了SSD在視覺任務中的性能,還增強了其效率。我們在包括圖像分類、檢測和分割在內的各種基準測試上進行了大量實驗,其中VSSD超越了現有的基於SSM的最新模型。代碼和權重可在https://github.com/YuHengsss/VSSD 上獲得。
最近在從單張圖像中重建3D物體方面的進展主要集中在提高物體形狀的準確性上。然而,這些技術通常無法準確捕捉物體、地面和相機之間的相互關係。因此,重建的物體在放置在平面表面時常常看起來漂浮或傾斜。這一限制顯著影響了3D感知圖像編輯應用,如陰影渲染和物體姿態操作。為了解決這個問題,我們引入了一個名為ORG(Object Reconstruction with Ground)的新任務,旨在重建3D物體幾何形狀以及地面表面。我們的方法使用兩種緊湊的像素級表示來描述相機、物體和地面之間的關係。實驗表明,所提出的ORG模型能夠有效地在未見數據上重建物體-地面幾何形狀,與傳統的單張圖像3D重建技術相比,顯著提高了陰影生成和姿態操作的質量。