每日精選AI研究論文及翻譯
儘管像 DALLE-3 和 Stable Diffusion 這樣的文本到圖像模型迅速增加,但它們常常面臨幻覺、偏見和生成不安全、低質量輸出等挑戰。為了有效應對這些問題,關鍵在於根據多模態評判的反饋,將這些模型與期望的行為相一致。儘管這些模型的重要性不言而喻,但目前的多模態評判經常接受不足的能力和局限性評估,可能導致不一致和不安全的微調結果。為了解決這個問題,我們引入了 MJ-Bench,這是一個新穎的基準測試,它結合了一個全面的偏好數據集,以評估多模態評判在提供圖像生成模型反饋方面的四個關鍵角度:一致性、安全性、圖像質量和偏見。具體而言,我們對各種多模態評判進行評估,包括基於 CLIP 的小型評分模型、開源 VLMs(例如 LLaVA 家族)和封閉源 VLMs(例如 GPT-4o、Claude 3),對我們偏好數據集的每個分解子類別進行評估。實驗顯示,封閉源 VLMs 通常提供更好的反饋,其中 GPT-4o 在平均值上表現優異。與開源 VLMs 相比,小型評分模型在文本-圖像一致性和圖像質量方面能夠提供更好的反饋,而 VLMs 則由於其更強的推理能力,能夠提供更準確的安全性和生成偏見反饋。進一步的反饋規模研究顯示,VLM 評判在自然語言(Likert 標度)上通常能夠提供比數值標度更準確和穩定的反饋。值得注意的是,使用這些多模態評判的單獨反饋對端到端微調模型進行的人類評估得出了類似的結論,進一步確認了 MJ-Bench 的有效性。所有數據、代碼和模型均可在 https://huggingface.co/MJ-Bench 上找到。
大型語言模型(LLMs)展示了在高資源語言任務中卓越的翻譯能力,然而在低資源語言中,由於預訓練期間多語言數據不足,它們的表現受到了阻礙。為了解決這個問題,我們投入了35,000個A100-SXM4-80GB GPU小時,對LLaMA系列模型進行了廣泛的多語言持續預訓練,實現了在100多種語言之間的翻譯支持。通過對訓練策略的全面分析,如詞彙擴展和數據增強,我們開發了LLaMAX。值得注意的是,LLaMAX在不犧牲泛化能力的情況下,相比現有的開源LLMs表現出顯著更高的翻譯性能(超過10個spBLEU點),並在Flores-101基準測試上與專用翻譯模型(M2M-100-12B)表現相當。廣泛的實驗表明,LLaMAX可以作為一個強大的多語言基礎模型。代碼\url{https://github.com/CONE-MT/LLaMAX/.}和模型\url{https://huggingface.co/LLaMAX/.}已公開提供。
本文探討了為處理需要在每個時間步驟上對新資訊進行恆定時間處理的非常長序列創建神經架構的挑戰。我們的方法,即聯想循環記憶變壓器(ARMT),基於變壓器自注意力用於本地上下文,並基於段級循環用於存儲分佈在長上下文中的任務特定信息。我們證明了ARMT在聯想檢索任務中優於現有替代方案,在最近的BABILong多任務長上下文基準測試中,通過對超過5000萬令牌進行單事實問題回答,達到了79.9%的準確率,創下了新的性能記錄。培訓和評估的源代碼可在github上獲得。
一個影像編輯模型應該能夠執行各種不同的編輯,從物件替換、更改屬性或風格,到執行動作或移動,這需要多種形式的推理。目前的一般指導式編輯模型在動作和推理中心的編輯方面存在顯著缺陷。從視覺靜態數據集中可以學習物件、屬性或風格的變化。另一方面,針對動作和推理中心的編輯的高質量數據稀缺,必須來自完全不同的來源,包括物理動態、時間性和空間推理等。為此,我們精心策劃了 AURORA 數據集(Action-Reasoning-Object-Attribute),這是一個由視頻和模擬引擎中的高質量訓練數據人工標註和策劃而成的集合。我們專注於高質量訓練數據的一個關鍵方面:三元組(源圖像、提示、目標圖像)包含由提示描述的單一有意義的視覺變化,即源圖像和目標圖像之間真正最小的變化。為了展示我們數據集的價值,我們在一個新的專家策劃的基準測試(AURORA-Bench)上評估了一個經過 AURORA 微調的模型,該基準測試涵蓋 8 個不同的編輯任務。根據人工評分員的評估,我們的模型明顯優於先前的編輯模型。對於自動評估,我們發現先前的指標存在重要缺陷,並警告其在語義困難的編輯任務中的使用。相反,我們提出了一個新的自動指標,著重於具有辨識性的理解。我們希望我們的努力:(1)策劃高質量訓練數據集和評估基準,(2)開展關鍵評估,以及(3)發布一個最先進的模型,將推動通用影像編輯的進一步進展。
先前的開源大型多模型(LMMs)面臨了幾個限制:(1)它們通常缺乏本地集成,需要適配器來將視覺表示與預先訓練的大型語言模型(LLMs)對齊;(2)許多模型僅限於單模生成;(3)雖然有些支持多模生成,但它們依賴於用於視覺建模和生成的獨立擴散模型。為了緩解這些限制,我們提出了Anole,這是一個開放的、自回歸的、本地的大型多模型,用於交錯的圖像-文本生成。我們從Meta AI的Chameleon構建了Anole,採用了一種創新的微調策略,既具有數據效率又具有參數效率。Anole展示了高質量、連貫的多模生成能力。我們已經將我們的模型、訓練框架和指導調整數據開源。
大型語言模型在現實應用中被廣泛使用,通常負責對大量文件進行推理。在這個領域中一個令人振奮的發展是具有擴展上下文能力的模型,有些模型可以容納超過 2 百萬個標記。這種長上下文模型的能力在生產系統中仍存在不確定性,這促使我們有必要在真實用例中對它們的性能進行基準測試。我們通過提出 SWiM 來應對這一挑戰,這是一個解決標準測試限制的評估框架。在八個長上下文模型上測試這個框架後,我們發現即使像 GPT-4 和 Claude 3 Opus 這樣的強大模型,在上下文窗口中間存在信息時性能也會下降(中間遺失效應)。接下來,除了我們的基準測試,我們提出了中位數投票,這是一種簡單但有效的無需訓練的方法,有助於緩解這種效應,方法是生成幾次回應,每次都對上下文中的文件進行隨機排列,並選擇中位數答案。我們在單文檔問答任務上評估中位數投票,實現了高達 24% 的準確率提升。
本文介紹了UltraEdit,一個大規模(約4百萬編輯樣本)的自動生成教學指導圖像編輯數據集。我們的關鍵想法是解決現有圖像編輯數據集(如InstructPix2Pix和MagicBrush)的缺點,並提供一種系統性方法來生成大量且高質量的圖像編輯樣本。UltraEdit具有幾個明顯優勢:1)通過利用大型語言模型(LLMs)的創造力以及來自人類評定者的上下文編輯示例,它具有更廣泛的編輯指導範圍;2)其數據來源基於真實圖像,包括照片和藝術品,相較於僅由文本到圖像模型生成的數據集,提供更大的多樣性和減少偏見;3)它還支持基於區域的編輯,並由高質量的自動生成區域標註進行增強。我們的實驗表明,在UltraEdit上訓練的基於擴散的編輯基準線在MagicBrush和Emu-Edit基準上創下了新紀錄。我們的分析進一步確認了真實圖像錨點和基於區域的編輯數據的關鍵作用。數據集、代碼和模型可在https://ultra-editing.github.io找到。
最近在3D人工智慧生成與創造方面取得的進展顯示了直接從文字和圖像中創建3D物體的潛力,為動畫和產品設計帶來了顯著的成本節省。然而,對3D資產進行詳細編輯和定制仍然是一個長期存在的挑戰。具體而言,3D生成方法缺乏像其2D圖像創建對應物那樣精確地遵循細節指令的能力。想象一下透過3D人工智慧生成獲得一個玩具,但配件和服飾不符合期望。為應對這一挑戰,我們提出了一個名為Tailor3D的新型流程,可以迅速從可編輯的雙面圖像中創建定制的3D資產。我們旨在模擬裁縫的能力,局部改變物體或進行整體風格轉移。與從多個視角創建3D資產不同,使用雙面圖像消除了在編輯單個視角時出現的重疊區域衝突。具體而言,它首先編輯正面視圖,然後通過多視圖擴散生成物體的背面視圖。之後,它繼續編輯背面視圖。最後,提出了一種雙面LRM,無縫地將正面和背面3D特徵拼接在一起,就像裁縫將服裝的正面和背面縫在一起一樣。雙面LRM糾正了正面和背面視圖之間的不完美一致性,增強了編輯能力,減輕了記憶負擔,同時通過LoRA三平面變壓器將它們無縫地集成到統一的3D表示中。實驗結果顯示Tailor3D在各種3D生成和編輯任務中的有效性,包括3D生成填充和風格轉移。它為編輯3D資產提供了一個用戶友好、高效的解決方案,每個編輯步驟僅需幾秒鐘即可完成。
最近開源代碼大型語言模型(LLMs)的進展展示了通過在強大的封閉源LLMs(如GPT-3.5和GPT-4)生成的數據上進行微調,具有卓越的編碼能力,用於指令調整。本文探討如何通過從自身生成數據而不是查詢封閉源LLMs來進一步改進指令調整的代碼LLM。我們的關鍵觀察是正式語言和非正式語言之間的翻譯不一致:將正式語言(即代碼)翻譯為非正式語言(即自然語言)比反向操作更為簡單。基於這一觀察,我們提出了INVERSE-INSTRUCT,它從代碼片段中總結指令而不是相反。具體而言,給定用於代碼的指令調整語料庫和生成的指令調整代碼LLM,我們要求代碼LLM通過代碼總結和自我評估為原始語料庫生成額外的高質量指令。然後,我們對基礎LLM進行微調,使其結合原始語料庫和自行生成的語料庫,從而產生更強大的指令調整LLM。我們提出了一系列名為InverseCoder的代碼LLMs,它在廣泛的基準測試中超越了原始代碼LLMs的性能,包括Python文本轉代碼生成、多語言編碼和數據科學代碼生成。
最近,大規模文本到視頻(T2V)擴散模型展示了前所未有的能力,能夠將自然語言描述轉換為令人驚嘆且逼真的視頻。儘管取得了令人鼓舞的成果,但仍存在一個重大挑戰:這些模型在完全理解多個概念和動作之間的複雜組合互動方面仍有困難。當一些詞語佔主導地位影響最終視頻時,就會出現這個問題,壓過其他概念。為應對這個問題,我們引入了Vico,一個用於組合式視頻生成的通用框架,明確確保所有概念得到適當表示。在其核心,Vico分析輸入標記如何影響生成的視頻,並調整模型以防止任何單一概念佔主導地位。具體而言,Vico從所有層中提取注意權重以構建空間-時間注意力圖,然後估計從源文本標記到視頻目標標記的最大流作為影響。儘管在擴散模型中直接計算注意力流通常是不可行的,但我們設計了一個基於子圖流的高效近似方法,並採用了快速且向量化的實現,從而使流計算變得可管理且可微分。通過更新噪聲潛在以平衡這些流,Vico捕捉到複雜的互動,從而生成與文本描述密切符合的視頻。我們將我們的方法應用於多個基於擴散的視頻模型,用於組合式T2V和視頻編輯。實證結果表明,我們的框架顯著增強了生成視頻的組合豐富性和準確性。請訪問我們的網站:https://adamdad.github.io/vico/。
大型視覺語言模型(LVLMs)常常受到物體幻覺的困擾,會在給定的圖像中產生不存在的物體。雖然目前關於物體幻覺的基準主要集中在單個物體類別的存在上,而非個別實體,本研究系統地探討多物體幻覺,研究模型在同時專注於多個物體時如何誤解(例如,創造不存在的物體或分心)。我們引入了基於識別的物體探測評估(ROPE),這是一個考慮在測試期間單個圖像中物體類別分佈並使用視覺參考提示來消除歧義的自動化評估協議。通過全面的實證研究和分析潛在導致多物體幻覺的因素,我們發現(1)LVLMs在專注於多個物體時比專注於單個物體時更容易出現幻覺。 (2)測試的物體類別分佈會影響幻覺行為,表明LVLMs可能會遵循捷徑和虛假相關性。 (3)幻覺行為受數據特定因素、顯著性和頻率以及模型內在行為的影響。我們希望能夠使LVLMs能夠識別並推理出現在現實視覺場景中的多個物體,提供見解,並量化我們在緩解問題方面的進展。
近年來,大型語言模型(LLMs)的崛起推動了對即插即用人工智慧系統的不斷增長需求。在各種人工智慧技術中,提示工程顯得特別重要。然而,由於陡峭的學習曲線和需投入大量時間,使用者常常在撰寫提示時遇到困難,現有的自動提示工程(APE)模型也可能難以應用。為了解決這個問題,我們提出了PAS,一個基於LLM的即插即用提示工程系統。PAS利用在高質量自動生成的提示互補數據集上訓練的LLMs,表現出色。在全面的基準測試中,PAS相較於先前的APE模型達到了最先進的結果,平均提升了6.09個點。此外,PAS極具效率,僅需9000個數據點即可實現最先進的性能。此外,PAS能夠自主生成提示擴充數據,無需額外的人力。其靈活性也使其與所有現有的LLMs兼容,適用於各種任務。PAS在人類評估中表現優異,突顯其作為用戶插件的適用性。PAS結合了高性能、高效率和靈活性,使其成為一個有價值的系統,通過改進提示工程來增強LLMs的可用性和效力。
為了為專業任務創建可部署模型,其中一個最可靠的方法是獲取足夠高質量的任務特定數據。然而,對於專業任務,往往缺乏這樣的數據集。現有方法通過從大型語言模型(LLMs)中創建此類數據,然後將這些知識提煉到較小的模型中來解決這個問題。然而,這些方法受限於LLMs輸出的質量,並且往往會生成重複或不正確的數據。在這項工作中,我們提出了檢索式蒸餾(ReBase),這是一種首先從豐富的在線來源檢索數據,然後將其轉換為特定領域數據的方法。這種方法極大地增強了數據的多樣性。此外,ReBase生成了“思維鏈”推理,並提煉了LLMs的推理能力。我們在4個基準測試上測試了我們的方法,結果顯示我們的方法在SQuAD上的性能提高了高達7.8%,在MNLI上提高了1.37%,在BigBench-Hard上提高了1.94%。
最近的研究表明,深度學習模型對於偏好較簡單特徵的歸納偏差可能是快捷學習的來源之一。然而,對於模型學習的眾多特徵的複雜性理解一直受到限制。在這項研究中,我們引入了一個新的度量標準,用於量化特徵的複雜性,基於V-信息,並捕捉一個特徵是否需要複雜的計算轉換才能被提取出來。利用這個V-信息度量標準,我們分析了從標準ImageNet訓練的視覺模型中提取的10,000個特徵的複雜性,這些特徵被表示為倒數第二層中的方向。我們的研究涉及四個關鍵問題:首先,我們探討特徵在複雜性方面的外觀,並發現模型中存在各種從簡單到複雜的特徵。其次,我們探討特徵在訓練過程中是何時被學習的。我們發現,在訓練初期較為簡單的特徵佔主導地位,而較為複雜的特徵逐漸出現。第三,我們調查簡單和複雜特徵在網絡中流動的位置,並發現較為簡單的特徵通過剩餘連接方式繞過視覺層次結構。第四,我們探索特徵複雜性與它們在驅動網絡決策中的重要性之間的聯繫。我們發現複雜特徵往往不太重要。令人驚訝的是,重要特徵在訓練過程中更早地變得可訪問,就像一個沉澱過程,使模型能夠建立在這些基礎元素之上。
本文通過允許用戶“選擇”,在生成式視覺人工智能中推動創意控制。與傳統的基於文本或素描的方法不同,我們首次允許用戶按部分選擇視覺概念,用於其創意努力。結果是精細生成,精確捕捉所選視覺概念,確保整體忠實且合理的結果。為實現此目的,我們首先通過無監督特徵聚類將對象解析為部分。然後,我們將部分編碼為文本標記,並引入基於熵的標準化注意力損失對它們進行操作。這種損失設計使我們的模型學習有關對象部分組成的通用先驗拓撲知識,進一步推廣到新的部分組成,以確保生成看起來整體忠實。最後,我們使用瓶頸編碼器來投影部分標記。這不僅增強了忠實度,還通過利用共享知識和促進實例之間的信息交流來加速學習。本文和補充資料中的視覺結果展示了PartCraft在製作高度定制、創新作品方面的引人入勝力量,以“迷人”和有創意的鳥類為例。代碼已發布在 https://github.com/kamwoh/partcraft。
實體連結(EL)模型在根據給定上下文將提及映射到相應實體方面訓練有素。然而,由於訓練數據有限,EL 模型在消除長尾實體的歧義性方面遇到困難。與此同時,大型語言模型(LLMs)更能夠解釋不常見的提及。然而,由於缺乏專門的訓練,LLMs 在生成正確的實體 ID 方面遇到困難。此外,訓練 LLMS 來執行 EL 是成本高昂的。基於這些見解,我們介紹了 LLMAEL(LLM-Augmented Entity Linking),這是一種通過 LLMS 數據增強來增強實體連結的即插即用方法。我們利用 LLMS 作為知識上下文增強器,生成以提及為中心的描述作為附加輸入,同時保留傳統 EL 模型進行特定任務處理。對 6 個標準數據集的實驗表明,原始 LLMAEL 在大多數情況下優於基準 EL 模型,而微調 LLMAEL 在所有 6 個基準測試中設置了新的最先進結果。
大型語言模型(LLMs)在各個領域和廣泛應用的長文問答任務中表現出幻覺。目前的幻覺檢測和緩解數據集在領域和大小上受限,由於勞動成本高昂和現有幻覺標註者的可靠性不足,很難擴展。為了促進對LLM幻覺的可擴展監督,本文介紹了一個迭代自我訓練框架,同時逐步擴大幻覺標註數據集的規模,並提高幻覺標註者的準確性。基於期望最大化(EM)算法,在每個迭代中,該框架首先應用一個幻覺標註流程對一個擴大的數據集進行標註,然後在該數據集上訓練一個更準確的幻覺標註者。這個新的幻覺標註者被採用在下一次迭代中使用的幻覺標註流程中。廣泛的實驗結果表明,最終獲得的僅具有7B參數的幻覺標註者超越了GPT-4的性能,在HaluEval和HalluQA上實現了零-shot推理的新的最先進幻覺檢測結果。這樣的標註者不僅可以評估大規模數據集上各種LLMs的幻覺水平,還可以幫助減輕LLMs生成的幻覺,使自然語言推理(NLI)指標從25%提高到37%。