每日精選AI研究論文及翻譯
在處理圖像之前將其調整為固定解析度的選擇是普遍存在且明顯不夠優化的,迄今尚未成功挑戰的。然而,諸如視覺Transformer(ViT)之類的模型提供了靈活的基於序列的建模,因此具有不同的輸入序列長度。我們利用這一點,提出了NaViT(Native Resolution ViT),它在訓練期間使用序列打包來處理任意解析度和長寬比的輸入。除了靈活的模型使用外,我們展示了在大規模監督和對比圖像-文本預訓練中的改進訓練效率。NaViT可以有效地轉移到標準任務,如圖像和視頻分類、物體檢測和語義分割,並在韌性和公平性基準上取得了改進的結果。在推斷時,輸入解析度的靈活性可用於平滑地在測試時間的成本和性能之間取得平衡。我們認為NaViT標誌著與大多數計算機視覺模型使用的標準CNN設計的輸入和建模流程有所不同,並代表了ViT的一個有前途的方向。
我們提出了「上下文自編碼器」(ICAE)來進行大型語言模型(LLM)中的上下文壓縮。ICAE包含兩個模組:一個可學習的編碼器,使用從LLM中適應的LoRA來將長上下文壓縮為有限數量的記憶槽,以及一個固定的解碼器,即目標LLM,可以根據記憶槽進行各種目的的條件設定。我們首先對ICAE進行預訓練,使用自編碼和語言建模目標在大量文本數據上,使其能夠生成準確全面地代表原始上下文的記憶槽。然後,我們在少量指導數據上對預訓練的ICAE進行微調,以增強其與各種提示的互動,以生成理想的回應。我們的實驗結果表明,使用我們提出的預訓練和微調範式學習的ICAE能夠有效地產生具有4倍上下文壓縮的記憶槽,目標LLM可以很好地對其進行條件設定,以回應各種提示。這些令人鼓舞的結果顯示ICAE對於長上下文問題的新方法以及在實踐中減少LLM推理的計算和記憶體開銷的潛力具有重要意義,建議在LLM的上下文管理方面進一步進行研究。我們的代碼和數據將很快發布。
大型語言模型(LLMs)展示了出色的理解、推理和生成自然語言指令的能力。然而,LLMs的發展主要集中在高資源語言,如英語,因此限制了它們在其他語言中的應用和研究。因此,我們提出了PolyLM,一個在6400億(B)標記上訓練的多語言LLM,有兩種模型大小:1.7B和13B。為了增強其多語言能力,我們1)將雙語數據整合到訓練數據中;2)採用課程學習策略,在預訓練期間將非英語數據的比例從第一階段的30%增加到最終階段的60%。此外,我們提出了一種多語言自我指導方法,可以自動生成132.7K多樣的多語言指令,用於模型微調。為了評估模型的性能,我們收集了幾個現有的多語言任務,包括多語言理解、問答、生成和翻譯。廣泛的實驗表明,PolyLM在多語言任務上超越了其他開源模型,如LLaMA和BLOOM,同時在英語方面保持了可比的性能。我們的模型、指令數據和多語言基準,可在以下網址找到:https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation。
本文介紹了InternVid,一個大規模以影片為中心的多模態資料集,可用於學習強大且可轉移的影片-文字表示,以進行多模態理解和生成。InternVid資料集包含超過700萬個影片,總計近760,000小時,產生了2.34億個影片片段,並附有總計41億字的詳細描述。我們的核心貢獻在於開發一種可擴展的方法,自主構建具有大型語言模型(LLM)的高質量影片-文字資料集,從而展示其在大規模學習影片-語言表示方面的效力。具體而言,我們利用多尺度方法生成與影片相關的描述。此外,我們介紹了ViCLIP,一個基於ViT-L的影片-文字表示學習模型。通過對InternVid進行對比學習,該模型展示了領先的零樣本動作識別和具有競爭力的影片檢索性能。除了基本的影片理解任務,如識別和檢索,我們的資料集和模型還具有廣泛的應用。它們對於生成交錯的影片-文字數據以學習影片中心對話系統,推進從影片到文字和從文字到影片的生成研究特別有益。這些提議的資源為對多模態影片理解和生成感興趣的研究人員和從業者提供了一個工具。
儘管擴展在規模上的主導地位和有效性,導致具有數千億參數的大型網絡,但訓練過度參數化模型的必要性仍不被充分理解,並且替代方法未必能降低訓練高性能模型的成本。在本文中,我們探索低秩訓練技術作為訓練大型神經網絡的替代方法。我們引入一種名為ReLoRA的新方法,該方法利用低秩更新來訓練高秩網絡。我們將ReLoRA應用於具有多達3.5億參數的預訓練變壓器語言模型,並展示其與常規神經網絡訓練相當的性能。此外,我們觀察到ReLoRA的效率隨著模型大小的增加而提高,使其成為高效訓練數十億參數網絡的有前景方法。我們的研究結果揭示了低秩訓練技術的潛力及其對擴展定律的影響。
大型語言模型(LLMs)已經展示出在發展多樣任務的通用規劃代理方面取得了令人印象深刻的成果。然而,在廣闊、多層和多房間環境中實現這些計劃對機器人來說是一個重大挑戰。我們引入了SayPlan,這是一種可擴展的基於LLM的大規模任務規劃方法,用於機器人,並使用3D場景圖(3DSG)表示。為確保我們方法的可擴展性,我們:(1)利用3DSG的階層性質,使LLMs能夠從完整圖的較小、折疊表示中對任務相關子圖進行語義搜索;(2)通過整合傳統路徑規劃器來減少LLM的規劃視野;(3)引入一個迭代重新規劃流程,使用場景圖模擬器的反饋來完善初始計劃,糾正不可行的行動並避免規劃失敗。我們在兩個覆蓋多達3層、36個房間和140個物體的大規模環境上評估我們的方法,並展示我們的方法能夠從抽象和自然語言指令中為移動式機械手臂機器人執行的大規模、長視野任務計劃提供基礎。
大型語言模型(LLMs),如GPT-4,展示了在包括健康應用在內的各種任務中卓越的能力。在本文中,我們研究了LLMs如何用於擴展生物醫學知識整理。我們發現,雖然LLMs已經在結構化生物醫學文本方面具有相當的能力,通過將其蒸餾成一個特定任務的學生模型,並通過自監督學習,可以實現比開箱即用的LLMs更大的收益,同時還具有成本、效率和白箱模型訪問等額外優勢。 我們對不良藥物事件(ADE)提取進行了一個案例研究,這是一個改善護理的重要領域。在標準ADE提取評估中,一個經過GPT-3.5蒸餾的PubMedBERT模型在不使用任何標記數據的情況下達到了與監督式最先進模型相當的準確性。儘管體積小了1000多倍,這個蒸餾模型在F1方面比其教師GPT-3.5高出超過6個絕對點,在GPT-4方面高出超過5個絕對點。 對蒸餾模型選擇(例如PubMedBERT vs BioGPT)和ADE提取架構進行的消融研究為生物醫學知識提取的最佳實踐提供了一些啟示。對其他標準生物醫學知識提取任務(如基因-疾病關聯和受保護健康信息)的蒸餾也實現了類似的收益,進一步說明了這種方法的潛力。
大型語言模型通常會經歷兩個訓練階段,即預訓練和微調。儘管大規模的預訓練賦予模型強大的自然語言生成能力,這些預訓練模型有時仍可能無法理解人類指令。為了增強語言模型解釋和回應指令的能力,指令微調已成為這一領域的關鍵方法。最近的研究發現,即使只有少量高質量的指令遵循數據,也可以對大型語言模型進行微調以取得良好表現。然而,用於微調語言模型的高質量數據集的選擇仍缺乏明確的指導方針。在本文中,我們提出了InstructMining,一個用於評估指令遵循數據質量的線性規則。我們使用特定的自然語言指標來制定InstructMining。為了探討數據質量與這些指標之間的關係,我們進一步進行了廣泛的微調實驗。然後將實驗結果應用於估計InstructMining中的參數。為了進一步研究其性能,我們使用InstructMining從未見過的數據集中選擇高質量的數據。結果表明,InstructMining可以幫助從各種指令遵循數據集中選擇相對高質量的樣本。與在未過濾數據集上進行微調的模型相比,在InstructMining選擇的數據集上進行微調的模型在42.5%的情況下表現更好。
GPT 系列的成功證明了 GPT 能夠從序列中提取一般性資訊,從而使所有下游任務受益。這激勵我們利用預訓練模型來探索 DNA 序列中的隱藏信息。然而,在 DNA 序列分析中的數據和任務要求是復雜和多樣的,因為 DNA 相關數據包括不同類型的信息,如序列、表達水平等,目前還沒有專門為這些特徵設計的模型。因此,我們提出了 DNAGPT,這是一個通用的基礎模型,預先在來自 9 個物種的超過 100 億個鹼基對上進行了預訓練,可以針對任何 DNA 序列分析任務進行微調。我們的模型可以同時處理或輸出 DNA 序列和數字。此外,我們獨特的標記設計允許用戶根據自己的任務需求設計提示,使其適用於任何類型的任務。我們已對我們的模型進行了分類、回歸和生成任務的評估。我們展示了 DNAGPT 從預訓練中受益,因此可以為任何下游任務帶來性能提升。我們的模型不僅是基因組分析領域的一次新嘗試,還為基礎模型在生物學中的應用提供了一個新方向。
在特定領域部署語言模型(LM)之前,重要的是評估其在該領域生成事實錯誤信息的趨勢。現有的事實生成評估方法聚焦於從LM本身抽樣的事實,因此無法控制評估的事實集,可能會低估罕見和不太可能的事實。我們提出了FACTOR:通過語料庫轉換進行事實評估,這是一種用於評估LM事實性的可擴展方法。FACTOR自動將感興趣的事實語料庫轉換為一個基準,評估LM生成來自該語料庫的真實事實與類似但不正確的陳述的傾向。我們使用我們的框架創建了兩個基準:Wiki-FACTOR和News-FACTOR。我們表明:(i)我們的基準分數隨著模型大小增加而增加,在LM添加檢索時得到改善;(ii)基準分數與困惑度相關,但這兩個指標在模型排名上並不總是一致;以及(iii)當困惑度和基準分數不一致時,後者更能反映人類注釋者所測量的開放式生成中的事實性。我們將我們的數據和代碼公開提供在https://github.com/AI21Labs/factor。
儘管最近的文本到圖像模型具有生成高質量圖像的驚人能力,但目前的方法常常難以有效地將具有不同屬性和關係的物體組合成複雜且連貫的場景。我們提出了T2I-CompBench,這是一個全面的基準測試,用於開放世界的組合式文本到圖像生成,包括來自3個類別(屬性綁定、物體關係和複雜組合)和6個子類別(顏色綁定、形狀綁定、紋理綁定、空間關係、非空間關係和複雜組合)的6,000個組合式文本提示。我們進一步提出了幾個專門設計用於評估組合式文本到圖像生成的評估指標。我們引入了一種新方法,即通過獎勵驅動的樣本選擇對生成模型進行微調(GORS),以提升預訓練文本到圖像模型的組合式文本到圖像生成能力。我們進行了大量實驗和評估,以在T2I-CompBench上對以前的方法進行基準測試,並驗證我們提出的評估指標和GORS方法的有效性。項目頁面位於https://karine-h.github.io/T2I-CompBench/。
圖像的文本和語義理解對於生成適當的標題至關重要。該理解需要檢測物體、建模它們之間的關係、評估場景的語義,最後,在語言空間中表示提取的知識。為了實現豐富的語言能力並確保良好的圖像-語言映射,預訓練語言模型(LMs)被條件化為預訓練的多模型(圖像-文本)模型,允許圖像輸入。這需要將多模型模型的圖像表示與生成式LM的語言表示對齊。然而,如何最好地將多模型模型的視覺編碼器檢測到的語義轉移給LM並不清楚。我們介紹了兩種構建線性映射的新方法,成功地在兩個預訓練模型的嵌入空間之間轉移語義。第一種是通過標記對應將多模型語言編碼器的嵌入空間與預訓練LM的嵌入空間對齊。後者利用包含圖像-文本對的額外數據直接從視覺空間構建映射到語言空間。使用我們的語義映射,我們為沒有梯度信息的LM解鎖了圖像標題。通過使用不同來源的數據,我們在MS-COCO和Flickr30k數據集上實現了強大的標題性能。即使在數據有限的情況下,我們的方法在某種程度上超過了其他零樣本和甚至微調競爭對手的性能。我們的消融研究表明,即使是規模僅為250M參數的LM,也可以使用我們的語義映射生成不錯的標題。我們的方法使得對於計算資源受限的機構來說,圖像標題更易於實現。
隨著語言模型的應用領域不斷演進,一個自然的問題是我們如何能夠快速地將模型適應新任務。我們從性能學習的角度來探討這個經典問題,我們的目標是持續對過去任務上訓練的模型進行微調,以應用於新任務,並且希望能夠「轉移」相關知識。然而,這種策略也存在著可能帶來更多害處而非好處的風險,即負面轉移。在本文中,我們建立了一個新的任務序列基準,針對可能面臨的不同轉移情境,例如一系列具有正面轉移潛力、負面轉移潛力、無預期效應或混合效應的任務。理想的學習者應該能夠最大程度地利用所有具有正面轉移潛力的任務中的信息,同時避免任何可能混淆它的干擾任務的負面影響。然後,我們提出了一種簡單但有效的學習者,通過從過去任務檢查點中選擇性地初始化新模型的策略,來滿足我們的許多期望。儘管如此,仍存在一些限制,我們希望這個基準可以幫助社群進一步建立和分析這樣的學習者。
大型語言模型(LLMs)被證明擁有豐富的可操作知識,可以以推理和規劃的形式提取,用於機器人操作。儘管取得了進展,但大多數仍依賴預定義的運動基元來執行與環境的物理交互作用,這仍然是一個主要瓶頸。在這項工作中,我們的目標是綜合機器人軌跡,即一系列密集的6自由度末端點,用於各種操控任務,並給定一組開放式指令和一組開放式物體。我們通過首先觀察到LLMs擅長根據自由形式語言指令推斷可供性和約束來實現這一目標。更重要的是,通過利用它們的編碼能力,它們可以與視覺語言模型(VLM)互動,以構建3D價值地圖,將知識植入到代理的觀察空間中。然後,在基於模型的規劃框架中使用這些構建的價值地圖,以零炮擊合成對動態干擾具有魯棒性的閉環機器人軌跡。我們進一步展示了所提出的框架如何從在線經驗中受益,通過有效地學習涉及接觸豐富交互的場景的動力學模型。我們在模擬和真實機器人環境中進行了所提出方法的大規模研究,展示了能夠執行各種自由形式自然語言中指定的日常操作任務的能力。項目網站:https://voxposer.github.io
手持式攝影機在視覺導向機器人操作中展現了更高的樣本效率和泛化能力。然而,在機器人模仿方面,讓人類遠端操作者收集大量真實機器人專家示範仍然成本高昂。另一方面,收集人類執行任務的影片要便宜得多,因為這消除了對機器人遠端操作專業知識的需求,並且可以在各種情境中快速捕捉。因此,人類影片示範是一個有潛力的數據來源,可用於以大規模學習可泛化的機器人操作策略。在這項工作中,我們將狹窄的機器人模仿數據集與廣泛的未標記人類影片示範相結合,以大幅增強手持式視覺運動策略的泛化能力。儘管人類和機器人數據之間存在明顯的視覺領域差距,但我們的框架無需使用任何明確的領域適應方法,因為我們利用了手持式攝影機的部分可觀察性以及一個簡單的固定圖像遮罩方案。在涉及3自由度和6自由度機器人手臂控制的八個現實世界任務中,我們的方法將手持式操作策略的成功率平均提高了58%(絕對值),使機器人能夠泛化到機器人示範數據中未見的新環境配置和新任務。請參見影片結果:https://giving-robots-a-hand.github.io/。