每日精選AI研究論文及翻譯
我們提出了Recognize Anything Model (RAM):一個強大的基礎模型,用於圖像標記。RAM能夠高準確度地識別任何常見類別。RAM引入了一種新的圖像標記範式,利用大規模的圖像-文本配對進行訓練,而非手動標註。RAM的開發包括四個關鍵步驟。首先,通過自動文本語義解析獲取大規模的無標註圖像標籤。隨後,通過統一標題和標記任務訓練初步模型,分別由原始文本和解析的標籤監督。第三,使用數據引擎生成額外標註並清理錯誤標註。最後,使用處理過的數據對模型進行重新訓練,並使用較小但更高質量的數據集進行微調。我們在眾多基準測試中評估了RAM的標記能力,觀察到令人印象深刻的零樣本表現,明顯優於CLIP和BLIP。值得注意的是,RAM甚至超越了完全監督的方法,展現出與Google API競爭性能。我們將RAM釋出至https://recognize-anything.github.io/,以促進在計算機視覺中大模型的進步。
指令調整已顯著提升大型語言模型(LLMs)如ChatGPT,使其能夠在各種任務中與人類指令保持一致。然而,開放式視覺語言模型(VLMs)的進展受限於高質量指令數據集的稀缺。為應對這一挑戰並促進視覺語言領域的研究,我們引入了多模態、多語言指令調整(M^3IT)數據集,旨在優化VLM與人類指令的對齊。我們的M^3IT數據集包含40個精心策劃的數據集,包括240萬個實例和400個手動編寫的任務指令,重新格式化為視覺到文本結構。關鍵任務被翻譯成80種語言,採用先進的翻譯系統,確保更廣泛的可訪問性。M^3IT在任務涵蓋範圍、指令數量和實例規模方面超越了以往的數據集。此外,我們開發了Ying-VLM,一個在我們的M^3IT數據集上訓練的VLM模型,展示其潛力來回答需要世界知識的複雜問題,泛化到未見的視頻任務,並理解中文中未見的指令。為了鼓勵進一步研究,我們已將數據集和訓練模型開源。
我們對一項新穎任務感興趣,即低資源文本轉語音頭像。僅提供幾分鐘的說話人視頻,以音頻軌作為訓練數據,並使用任意文本作為輸入驅動,我們旨在合成與輸入文本對應的高質量說話肖像視頻。這項任務在數字人類行業中具有廣泛的應用前景,但由於兩個挑戰尚未在技術上實現:(1) 對於傳統多說話人文本轉語音系統來說,模仿來自跨領域音頻的音色是具有挑戰性的。(2) 在有限的訓練數據下,很難呈現高保真度和嘴唇同步的說話頭像。在本文中,我們介紹了自適應文本轉語音頭像(Ada-TTA),該方法(1) 設計了一個通用的零樣本多說話人TTS模型,能夠很好地區分文本內容、音色和語調;(2) 採用了神經渲染的最新進展,實現了逼真的音頻驅動說話臉部視頻生成。通過這些設計,我們的方法克服了上述兩個挑戰,實現了生成保持身份的語音和逼真的說話人視頻。實驗表明,我們的方法能夠合成逼真、保持身份並實現音視頻同步的說話頭像視頻。
在電腦視覺中,尋找影像之間的對應關係是一個基本問題。本文展示了在影像擴散模型中,對應關係是如何在沒有明確監督的情況下出現的。我們提出了一種簡單的策略,從擴散網絡中提取這種隱含的知識作為影像特徵,即擴散特徵(DIFT),並使用它們來建立真實影像之間的對應關係。在任務特定數據或標註上沒有額外的微調或監督的情況下,DIFT 能夠在識別語義、幾何和時間對應關係方面優於弱監督方法和競爭性的現成特徵。尤其是對於語義對應,來自穩定擴散的 DIFT 能夠在具有挑戰性的 SPair-71k 基準測試中分別比 DINO 和 OpenCLIP 高出 19 和 14 個準確度點。它甚至在 18 個類別中有 9 個超越了最先進的監督方法,同時在整體性能上保持一致。項目頁面:https://diffusionfeatures.github.io
大型語言模型(LLMs)可用於生成文本數據,以訓練和評估其他模型。然而,使用LLMs創建高質量數據集可能具有挑戰性。在這項工作中,我們探索人工智能與人類的合作,以促進基於LLMs的文本數據生成具有高多樣性和準確性。我們首先研究了兩種增加文本生成多樣性的方法:1)logit抑制,減少已經頻繁生成的語言;2)溫度抽樣,使標記抽樣概率平坦化。我們發現多樣化方法可以增加數據的多樣性,但通常會以數據準確性為代價(即文本和標籤是否適合目標領域)。為了解決這個問題,我們研究了兩種人類干預方法:1)標籤替換(LR),糾正不對齊的標籤;2)範圍外篩選(OOSF),刪除不屬於用戶感興趣領域或無相應標籤的實例。通過Oracle研究,我們發現LR可以將使用多樣化數據集訓練的模型的絕對準確性提高14.4%。此外,我們發現使用LR干預生成的數據訓練的某些模型優於基於LLM的少樣本分類。相反,OOSF無法提高模型準確性,這表明需要未來在人機協作文本數據生成方面進行更多工作。
語言模型在處理複雜任務時,通常能夠透過逐步推理來達到更高的準確性。然而,它們的推理可能不嚴謹、不一致,或是依賴不良的先前假設。為了應對這些問題,我們引入了一類針對語言模型的工具,稱為「導引器」,它利用狀態和增量約束來引導生成。模型可以呼叫導引器,將自身的生成限制在工具提供的一組有效陳述中。反之,模型的選擇也可能改變導引器的狀態。我們展示了如何將一般的邏輯推理系統用作導引器,我們稱之為 LogicGuide。對於自然語言中的推理問題,模型可以為 LogicGuide 正式化其假設,並確保其推理步驟是嚴謹的。在 PrOntoQA 和 ProofWriter 推理數據集的實驗中,LogicGuide 顯著提高了 GPT-3、GPT-3.5 Turbo 和 LLaMA 的性能(準確性提高達 35%)。LogicGuide 還大幅減少了內容效應:先前和當前假設的干擾,這是人類和語言模型都已被證明會受到影響的。最後,我們探索了從其自身推理中引導 LLaMA 13B 的方法,並發現 LogicGuide 至關重要:僅通過在經過驗證的自我生成推理上進行訓練,LLaMA 可以自我改進,避免從自身的幻覺中學習。
在端到端(E2E)語音識別中,僅使用文本語料庫進行領域適應是具有挑戰性的。通過從文本合成音頻進行適應是耗費資源的。我們提出了一種方法,即學習統一的語音-文本表示在Conformer Transducer(USTR-CT)中,以便使用僅文本語料庫進行快速領域適應。與先前的文本圖方法不同,我們的工作引入了額外的文本編碼器來學習文本表示,在推斷時將其移除,因此不需要對線上部署進行修改。為了提高適應效率,我們還探索了單步和多步適應。將LibriSpeech適應到SPGISpeech的實驗表明,所提出的方法將目標領域的詞錯誤率(WER)相對降低了44%,優於TTS方法和文本圖方法。同時,顯示了所提出的方法可以與內部語言模型估計(ILME)結合以進一步提高性能。
儘管預先訓練的語言模型(LMs)能夠輕鬆記憶有關實體的世界知識,但在組合兩個或多個事實以執行多躍推理的問答任務中卻遇到困難。在這項工作中,我們提出了一些技術,通過依賴結構化知識圖上的隨機遊走來改善這個限制。具體來說,我們使用軟提示來引導LMs通過學習將多躍問題映射到導致答案的隨機遊走路徑,以鏈接它們編碼的知識。將我們的方法應用於兩個T5 LM上,在回答需要2躍推理的問題方面,顯示出明顯優於標準調整方法的顯著改進。
本文提出了一種方法,用於在教學視頻中定位程序活動的步驟。為了應對標記數據的稀缺性,我們從包含大量程序任務的指導性文章的語言知識庫(wikiHow)中獲取步驟描述。在沒有任何形式的手動監督的情況下,我們的模型通過匹配三種模態:幀、敘述和步驟描述,學會了在教學視頻中暫時地將程序文章的步驟定位。具體而言,我們的方法通過融合來自兩個不同途徑的信息來將步驟對齊到視頻:i)將步驟描述直接對齊到幀,ii)通過將步驟對敘述與敘述對視頻的對應進行間接對齊。值得注意的是,我們的方法通過利用順序信息一次性執行文章中所有步驟的全局時間定位,並通過迭代地優化和積極過濾步驟虛標籤進行訓練。為了驗證我們的模型,我們引入了一個新的評估基準 - HT-Step,通過手動注釋來自wikiHow文章的124小時子集獲得。在這個基準上的實驗以及在CrossTask上的零-shot評估表明,我們的多模態對齊相對於幾個基線和先前作品取得了顯著的增益。最後,我們展示了我們用於匹配敘述到視頻的內部模塊在HTM-Align敘述-視頻對齊基準上遠遠優於現有技術水平。