每日精選AI研究論文及翻譯
為了與世界中的人類互動,代理需要理解人們使用的各種語言類型,將其與視覺世界相關聯,並根據它們採取行動。儘管當前的代理從任務獎勵中學習執行簡單的語言指令,我們的目標是建立能夠利用傳達一般知識、描述世界狀態、提供互動反饋等多樣語言的代理。我們的關鍵想法是語言幫助代理預測未來:將觀察到什麼、世界將如何運作以及哪些情況將受到獎勵。這種觀點將語言理解與未來預測統一為一個強大的自監督學習目標。我們提出了Dynalang,一個學習多模態世界模型的代理,該模型預測未來的文本和圖像表示,並從想像的模型展開中學習行動。與僅使用語言預測行動的傳統代理不同,Dynalang通過使用過去的語言來預測未來的語言、視頻和獎勵,獲得豐富的語言理解。除了從環境中的在線互動中學習外,Dynalang還可以在沒有行動或獎勵的情況下預先訓練在文本、視頻或兩者數據集上。從在網格世界中使用語言提示到導航逼真家居掃描,Dynalang利用各種類型的語言來提高任務性能,包括環境描述、遊戲規則和指令。
我們介紹了 OpenFlamingo,這是一系列從 3B 到 9B 參數的自回歸視覺語言模型。OpenFlamingo 是一個持續進行的工作,旨在製作 DeepMind 的 Flamingo 模型的開源複製品。在七個視覺語言數據集上,OpenFlamingo 模型的表現平均在 80% 到 89% 之間。本技術報告描述了我們的模型、訓練數據、超參數和評估套件。我們在 https://github.com/mlfoundations/open_flamingo 分享我們的模型和代碼。
對於大型語言模型(LLMs)來說,數學推理是一項具有挑戰性的任務,然而其與LLM容量的擴展關係尚未得到充分探討。本文探討了預訓練損失、監督數據量和擴增數據量如何影響監督式LLM的推理表現。我們發現預訓練損失是模型表現的更好指標,而非模型參數數量。我們應用了帶有不同量監督數據的監督微調(SFT),並在實驗中發現數據量與模型表現之間存在對數線性關係,且我們發現更好的模型在擴大監督數據集時改進較少。為了增加更多數據樣本以提高模型表現而無需人力投入,我們提出應用拒絕抽樣微調(RFT)。RFT使用監督模型生成和收集正確推理路徑作為擴增微調數據集。我們發現,隨著擴增樣本包含更多不同推理路徑,RFT對LLMs的數學推理表現有更大改進。我們還發現RFT對表現較差的LLMs帶來更大改進。此外,我們結合來自多個模型的拒絕樣本,將LLaMA-7B的準確率提高至49.3%,明顯優於35.9%的監督微調(SFT)準確率。
擴散模型在跨模態生成任務中展現了令人期待的成果,包括文本到圖像和文本到音訊的生成。然而,生成音樂作為一種特殊類型的音訊,由於音樂數據的有限可用性以及與版權和抄襲相關的敏感問題,面臨著獨特的挑戰。在本文中,為應對這些挑戰,我們首先構建了一個最先進的文本到音樂模型MusicLDM,該模型將穩定擴散和AudioLDM架構應用於音樂領域。我們通過對一組音樂數據樣本重新訓練對比語言-音頻預訓練模型(CLAP)和Hifi-GAN聲碼器,作為MusicLDM的組件來實現這一點。然後,為了應對訓練數據的限制並避免抄襲,我們利用節拍跟踪模型,並提出了兩種不同的混合策略進行數據擴增:節拍同步音頻混合和節拍同步潛在混合,分別直接或通過潛在嵌入空間重新組合訓練音頻。這些混合策略鼓勵模型在音樂訓練樣本之間進行插值,生成新的音樂,使生成的音樂更加多樣化,同時仍然忠於相應的風格。除了常見的評估指標外,我們設計了幾個基於CLAP分數的新評估指標,以證明我們提出的MusicLDM和節拍同步混合策略提高了生成音樂的質量和新穎性,以及輸入文本與生成音樂之間的對應關係。
語言模型展現了非凡的泛化能力,將在一種模態中學習的表示推廣到其他模態的下游任務。我們是否能追溯這種能力到個別神經元?我們研究了一個凍結的文本轉換器,通過使用自監督視覺編碼器和在圖像到文本任務上學習的單一線性投影來增強視覺。投影層的輸出不能立即解碼為描述圖像內容的語言;相反,我們發現模態之間的轉換發生在轉換器的更深處。我們介紹了一種識別「多模態神經元」的程序,將視覺表示轉換為相應文本的神經元,並解碼它們注入模型剩餘流的概念。通過一系列實驗,我們展示了多模態神經元在各種輸入上操作特定的視覺概念,對圖像標題生成具有系統性的因果影響。
我們介紹全視(AS)計畫:一個用於識別和理解開放世界中所有事物的大規模數據和模型。利用一個可擴展的數據引擎,該引擎融合了人類反饋和高效模型,我們創建了一個新的數據集(AS-1B),其中標註有超過10億個區域,並附有語義標籤、問答對和詳細說明。該數據集涵蓋了現實世界中3.5百萬個常見和罕見概念,並包含了描述這些概念及其屬性的1322億個標記。利用這個新數據集,我們開發了全視模型(ASM),這是一個統一的框架,用於全景視覺識別和理解。該模型是通過開放式語言提示和位置訓練的,這使得它能夠推廣到各種視覺和語言任務,具有卓越的零樣本性能,包括區域-文本檢索、區域識別、說明和問答。我們希望這個計畫能夠成為視覺語言人工通用智能研究的基礎。模型和數據集將在https://github.com/OpenGVLab/All-Seeing釋出,演示可在https://huggingface.co/spaces/OpenGVLab/all-seeing中查看。
我們提出了 HANDAL 資料集,用於類別級別的物體姿勢估計和可負擔性預測。與以往的資料集不同,我們的資料集專注於適合機器人操縱器官功能性抓握的機器人就緒可操作物體,如鉗子、餐具和螺絲刀。我們的標註流程經過了精簡,僅需要一台現成相機和半自動處理,使我們能夠製作高質量的三維標註,而無需眾包。該資料集包含了來自212個現實世界物體的17個類別中2.2k個影片的308k個標註圖像幀。我們專注於硬件和廚房工具物體,以促進在機器人操縱器需要與環境進行互動的實際情境中的研究,超越簡單的推動或不加選擇的抓握。我們概述了我們的資料集對於類別級別姿勢+尺度估計和相關任務的用途。我們還提供了所有物體的三維重建網格,並概述了需要解決的一些瓶頸,以實現像這樣的資料集的民主化收集。
本文提出了一種改進的DETR檢測器,保持了「純粹」的特性:使用單一尺度特徵映射和全局交叉注意力計算,沒有特定的局部約束,與之前主導的基於DETR的檢測器相比,這些檢測器重新引入了解碼器中的多尺度和局部結構性偏見。我們展示了兩種簡單的技術在純粹設計中出奇地有效,以彌補多尺度特徵映射和局部約束的缺失。第一種是添加到交叉注意力公式中的盒子到像素相對位置偏差(BoxRPB)項,這有助於引導每個查詢關注對應的物體區域,同時提供編碼靈活性。第二種是基於遮罩圖像建模(MIM)的骨幹預訓練,有助於學習具有細粒度定位能力的表示,對補救對多尺度特徵映射的依賴至關重要。通過結合這些技術和最新的訓練和問題形成進展,改進的「純粹」DETR顯示出比原始DETR檢測器顯著的改進。通過利用Object365數據集進行預訓練,它使用Swin-L骨幹實現了63.9 mAP的準確性,這在與那些極大依賴多尺度特徵映射和基於區域的特徵提取的最先進檢測器相比具有很高的競爭力。代碼可在https://github.com/impiga/Plain-DETR找到。
想像遊戲是創造力的一個領域,可以讓機器人以更具拟人化的方式與周遭世界互動。想像遊戲可被視為將真實物件和地點,用於虛擬情境中作為想像物件和地點。我們採用了大型語言模型(LLMs)的故事生成能力,以獲取用於與人類寫作提示進行想像遊戲的故事。這些生成的故事將被簡化並映射為可引導代理人進行想像遊戲的動作序列。為了評估代理人是否能成功完成想像遊戲,我們還設計了一個文字冒險遊戲,模擬一個房子作為代理人互動的遊樂場。
長曝光攝影產生令人驚艷的影像,展現場景中移動元素的運動模糊。通常有兩種模式,分別產生前景或背景的模糊效果。傳統上,前景模糊影像是在三腳架上固定的相機上拍攝,呈現模糊的移動前景元素,如絲滑水流或光線軌跡,背景景觀則完全清晰。背景模糊影像,也稱為追焦攝影,是在相機追蹤移動主題的同時拍攝,以產生一張主題清晰的影像,背景則因相對運動而模糊。這兩種技術都極具挑戰性,需要額外的設備和高級技能。在本文中,我們描述了一個計算爆發攝影系統,運行於手持智慧型手機相機應用程式中,並能在按下快門按鈕時完全自動實現這些效果。我們的方法首先檢測並分割突出的主題。我們跟踪多幀的場景運動並對圖像進行對齊,以保留所需的清晰度並產生美觀的運動軌跡。我們拍攝一系列曝光不足的照片,並選擇能產生控制長度的模糊軌跡的輸入幀子集,無論場景或相機運動速度如何。我們預測幀間運動並合成運動模糊,以填補輸入幀之間的時間差。最後,我們將模糊影像與清晰的常規曝光合成,以保護臉部或幾乎不動的場景區域的清晰度,並生成最終高分辨率和高動態範圍(HDR)照片。我們的系統使之前僅供專業人士使用的功能普及化,使這種創意風格對大多數休閒攝影師都可達到。 更多信息和補充材料可在我們的項目網頁上找到:https://motion-mode.github.io/
動態彩色網格(DCM)被廣泛應用於各種應用中;然而,這些網格可能會經歷不同的處理過程,如壓縮或傳輸,這可能會扭曲它們並降低它們的質量。為了促進針對DCM的客觀評估指標的發展,並研究典型失真對其知覺的影響,我們創建了騰訊 - 動態彩色網格數據庫(TDMD),其中包含八個參考DCM對象和六種典型失真。利用從DCM衍生的處理過的視頻序列(PVS),我們進行了一項大規模主觀實驗,結果產生了303個失真的DCM樣本,並附有平均意見分數,使TDMD成為我們所知最大的可用DCM數據庫。該數據庫使我們能夠研究不同類型失真對人類知覺的影響,並提供有關DCM壓縮和相關任務的建議。此外,我們對TDMD上的三種最先進的客觀評估指標進行了評估,包括基於圖像、基於點和基於視頻的指標。我們的實驗結果突顯了每個指標的優勢和劣勢,並就在實際DCM應用中選擇指標提供了建議。TDMD將在以下位置公開提供:https://multimedia.tencent.com/resources/tdmd。