每日精選AI研究論文及翻譯
在這項工作中,我們介紹了 OmniGen,一種新的統一影像生成擴散模型。與流行的擴散模型(例如 Stable Diffusion)不同,OmniGen 不再需要額外的模組,如 ControlNet 或 IP-Adapter 來處理多樣的控制條件。OmniGen 具有以下特點:1)統一性:OmniGen 不僅展示了從文本到影像的生成能力,還內在支持其他下游任務,如影像編輯、主題驅動生成和視覺條件生成。此外,OmniGen 可以通過將其轉換為影像生成任務來處理傳統的計算機視覺任務,如邊緣檢測和人體姿勢識別。2)簡單性:OmniGen 的架構非常簡化,無需額外的文本編碼器。此外,與現有的擴散模型相比,它更加用戶友好,使得可以通過指示完成複雜任務,無需額外的預處理步驟(例如人體姿勢估計),從而顯著簡化了影像生成的工作流程。3)知識轉移:通過以統一格式學習,OmniGen 能夠有效地在不同任務之間轉移知識,處理未見過的任務和領域,並展示新的能力。我們還探索了模型的推理能力和鏈式思維機制的潛在應用。這項工作代表了對通用影像生成模型的首次嘗試,並且仍存在一些未解決的問題。我們將在 https://github.com/VectorSpaceLab/OmniGen 開源相關資源,以促進該領域的進步。
我們介紹了 NVLM 1.0,這是一系列前沿級多模式大型語言模型(LLMs),在視覺語言任務上取得了最先進的成果,與領先的專有模型(例如 GPT-4o)和開放訪問模型(例如 Llama 3-V 405B 和 InternVL 2)不相上下。值得注意的是,NVLM 1.0 在多模式訓練後展現出比其 LLMS 骨幹更好的僅文本性能。在模型設計方面,我們對僅解碼器多模式LLMs(例如 LLaVA)和基於交叉注意力的模型(例如 Flamingo)進行了全面比較。根據兩種方法的優勢和劣勢,我們提出了一種新穎的架構,增強了訓練效率和多模式推理能力。此外,我們為基於瓦片的動態高分辨率圖像引入了一種一維瓦片標記設計,這顯著提升了在多模式推理和OCR相關任務上的性能。關於訓練數據,我們精心挑選並提供了有關我們的多模式預訓練和監督微調數據集的詳細信息。我們的研究結果表明,數據集的質量和任務多樣性比規模更重要,即使在預訓練階段,對所有架構都是如此。值得注意的是,我們為 NVLM-1.0 模型開發了生產級多模式,使其在視覺語言任務中表現出色,同時與其 LLMS 骨幹相比保持甚至提升了僅文本性能。為實現此目標,我們將高質量的僅文本數據集與多模式訓練相結合,並提供大量多模式數學和推理數據,從而增強了跨模式的數學和編碼能力。為推進該領域的研究,我們將釋放模型權重並將代碼開源給社區:https://nvlm-project.github.io/。
最近的研究表明,大型擴散模型可以通過將深度估計視為圖像條件圖像生成任務,被重新利用為高精度的單眼深度估計器。雖然所提出的模型取得了最先進的結果,但由於多步推理所帶來的高計算需求限制了其在許多場景中的應用。在本文中,我們展示了感知到的低效是由於推理流程中的一個缺陷所致,這個缺陷到目前為止一直未被注意到。修正後的模型在性能上與先前報告的最佳配置相當,同時速度快了200多倍。為了優化下游任務的性能,我們在單步模型上進行端對端微調,使用特定任務損失,得到一個勝過所有其他基於擴散的深度和法向估計模型的確定性模型,在常見的零樣本基準測試中表現優異。我們驚訝地發現,這種微調協議也直接適用於穩定擴散,並實現了與當前最先進的基於擴散的深度和法向估計模型相當的性能,這對先前研究中得出的一些結論提出了質疑。
在3D建模中,設計師通常會使用現有的3D模型作為參考來創建新的模型。這種做法啟發了Phidias的開發,這是一種新穎的生成模型,它使用擴散來進行參考增強的3D生成。根據一幅圖像,我們的方法利用檢索或用戶提供的3D參考模型來引導生成過程,從而提高生成質量、泛化能力和可控性。我們的模型集成了三個關鍵組件:1)動態調節條件強度的元控制網絡,2)動態參考路由,減輕輸入圖像和3D參考之間的不對齊,以及3)自我參考增強,實現具有漸進課程的自監督訓練。總的來說,這些設計相對於現有方法帶來了明顯的改進。Phidias建立了一個統一的框架,用於使用文本、圖像和3D條件進行3D生成,具有多功能應用。
指令調整的語言模型(LM)能夠回應命令,提供比基本對應模型更自然的使用者界面。在這項工作中,我們提出了Promptriever,這是第一個能夠像LM一樣被提示的檢索模型。為了訓練Promptriever,我們從MS MARCO中精選並釋出了一個新的實例級指令訓練集,涵蓋了近500k個實例。Promptriever不僅在標準檢索任務上表現出色,而且能夠遵循指令。我們觀察到:(1)在遵循詳細相關性指令方面取得了巨大進展(+14.3 p-MRR / +3.1 nDCG on FollowIR),(2)在查詢+指令的詞彙選擇/措辭方面顯著提高了韌性(+12.9 Robustness@10 on InstructIR),以及(3)通過提示執行超參數搜索以可靠地提高檢索性能的能力(+1.4 BEIR的平均增加)。Promptriever展示了檢索模型可以通過提示在每個查詢的基礎上進行控制,為將來將LM提示技術與信息檢索相一致的工作奠定了基礎。
潛在擴散模型在文本轉語音(T2A)生成任務中展現了令人期待的成果,然而先前的模型在生成質量、計算成本、擴散取樣和數據準備方面遇到了困難。本文介紹了 EzAudio,一種基於變壓器的 T2A 擴散模型,用於應對這些挑戰。我們的方法包括幾個關鍵創新:(1)我們在一維波形變分自編碼器(VAE)的潛在空間上構建 T2A 模型,避免了處理二維頻譜表示和使用額外神經聲碼器的複雜性。(2)我們設計了一個針對音頻潛在表示和擴散建模的優化擴散變壓器架構,提高了收斂速度、訓練穩定性和內存使用率,使訓練過程更輕鬆高效。(3)為了應對數據稀缺,我們採用了一種數據高效訓練策略,利用未標記數據學習聲學依賴關係,利用音頻-語言模型標註的音頻標題數據進行文本到語音對齊學習,並使用人工標記數據進行微調。(4)我們引入了一種無分類器引導(CFG)重新縮放方法,通過實現強大的提示對齊,同時在使用更大的 CFG 分數時保留出色的音頻質量,消除了為平衡這種權衡而努力尋找最佳 CFG 分數的需求。EzAudio 在客觀指標和主觀評估中均超越現有的開源模型,提供了逼真的聆聽體驗,同時保持了簡化的模型結構、低訓練成本和易於遵循的訓練流程。代碼、數據和預訓練模型已發布在:https://haidog-yaqub.github.io/EzAudio-Page/。
先前的研究作品已評估了使用有限指標(如困惑度或少數基本知識任務和舊數據集)的量化LLM。此外,最近的大型模型(如Llama 3.1,高達405B)尚未受到徹底檢驗。本文評估了在各種量化方法(GPTQ、AWQ、SmoothQuant和FP8)下,從7B到405B的模型上,調整指令的LLM性能。我們使用13個基準來評估六種任務類型的性能:常識問答、知識和語言理解、遵循指令、幻覺檢測、數學和對話。我們的主要發現顯示:(1)將較大的LLM量化為與較小的FP16 LLM相似大小通常在大多數基準上表現更好,但在幻覺檢測和遵循指令方面除外;(2)性能隨著不同的量化方法、模型大小和位元寬度而顯著變化,僅權重方法通常在較大模型中產生更好的結果;(3)任務難度對由於量化而導致的準確度降低沒有顯著影響;以及(4)MT-Bench評估方法對於最近表現優異的LLM的區分能力有限。
影片擴散模型展現出在生成高品質影片方面的巨大潛力,因此成為越來越受歡迎的研究焦點。然而,這些模型固有的迭代特性導致了相當大的計算和時間成本。儘管已經有一些努力加速影片擴散的方法,例如通過技術如一致性蒸餾來減少推論步驟以及 GAN 訓練,但這些方法往往在性能或訓練穩定性方面存在不足。在本研究中,我們提出了一個兩階段訓練框架,有效地結合了一致性蒸餾和 GAN 訓練,以應對這些挑戰。此外,我們提出了一種新穎的影片鑑別器設計,消除了解碼影片潛在特徵的需求,並提高了最終性能。我們的模型能夠僅通過一個步驟生成高品質影片,同時具有進行多步細化以進一步提升性能的靈活性。我們在 OpenWebVid-1M 基準測試上的量化評估顯示,我們的模型明顯優於現有方法。值得注意的是,我們的一步性能(FVD 171.15)超過了基於一致性蒸餾的方法 AnimateLCM 的 8 步性能(FVD 184.79),並接近先進的 Stable Video Diffusion 的 25 步性能(FVD 156.94)。
基於代理的建模(ABM)旨在通過模擬一組在環境內行動和互動的代理來理解複雜系統的行為。其實用性需要捕捉逼真的環境動態和適應性代理行為,同時高效地模擬百萬規模的人口。大型語言模型(LLMs)的最新進展為通過將LLMs作為代理來增強ABMs提供了機會,進一步捕捉適應性行為。然而,由於使用LLMs模擬大規模人口的計算不可行性,阻礙了它們的廣泛應用。在本文中,我們介紹AgentTorch——一個將ABMs擴展到數百萬代理並使用LLMs捕捉高分辨率代理行為的框架。我們對LLMs作為ABM代理的效用進行基準測試,探索模擬規模和個體代理之間的權衡。以COVID-19大流行作為案例研究,我們演示了AgentTorch如何模擬代表紐約市的840萬代理,捕捉孤立和就業行為對健康和經濟結果的影響。我們比較了基於啟發式和LLM代理的不同代理架構在預測疾病波和失業率方面的性能。此外,我們展示了AgentTorch在回顧、反事實和前瞻性分析方面的能力,突出了適應性代理行為如何幫助克服歷史數據在政策設計中的局限性。AgentTorch是一個開源項目,正在全球用於政策制定和科學發現。該框架可在此處找到:github.com/AgentTorch/AgentTorch。
我們專注於四足機器人在不連續地形(如樓梯和踏石)上的敏捷、連續和適應性跳躍。與單步跳躍不同,連續跳躍需要準確執行高度動態運動,並在長時間範圍內進行,這對現有方法來說是具有挑戰性的。為了完成這項任務,我們設計了一個分層學習和控制框架,其中包括用於穩健地形感知的學習高度圖預測器、基於強化學習的重心級運動策略以進行多功能和適應性規劃,以及用於準確運動跟踪的基於模型的低級腿部控制器。此外,我們通過準確建模硬件特性來最小化模擬與現實之間的差距。據我們所知,我們的框架使得 Unitree Go1 機器人能夠在人身高的樓梯和稀疏踏石上首次執行敏捷和連續跳躍。特別是,該機器人可以在每次跳躍中跨越兩個樓梯階,並在 4.5 秒內完成長 3.5 米、高 2.8 米、14 級樓梯。此外,相同策略在各種其他跑酷任務中優於基準線,例如跳過單個水平或垂直不連續處。實驗視頻可在 https://yxyang.github.io/jumping\_cod/ 找到。
從多視角圖像中對三維靜態場景和四維動態事件進行數字化一直是計算機視覺和圖形學中的一個挑戰。最近,三維高斯飛濺(3DGS)已經成為一種實用且可擴展的重建方法,因其出色的重建質量、實時渲染能力以及與廣泛使用的可視化工具兼容而受到歡迎。然而,該方法需要大量的輸入視角來實現高質量場景重建,這導致了一個重要的實際瓶頸。在捕捉動態場景時,這個挑戰尤為嚴重,因為部署大量攝像機陣列可能成本過高。在這項工作中,我們確定了高斯飛濺技術在稀疏重建環境中表現不佳的一個因素,即飛濺特徵缺乏空間自相關性。為了解決這個問題,我們提出了一種優化策略,通過將其建模為相應的隱式神經場的輸出,有效地規範了飛濺特徵。這將在各種情況下一致提升重建質量。我們的方法有效處理靜態和動態情況,通過在不同設置和場景複雜性下的廣泛測試加以證明。
LLM 是檢索增強生成(RAG)系統中不可或缺的一部分。雖然許多研究集中於評估端到端 RAG 系統的質量,但對於 LLM 在 RAG 任務中的適用性缺乏研究。因此,我們引入了一個新的指標,Trust-Score,它提供了對於在 RAG 框架中的 LLM 的可信度的全面評估。我們展示了各種提示方法,如上下文學習,未能有效地使 LLM 適應 RAG 任務。因此,我們提出了 Trust-Align,一個用於對齊 LLM 以獲得更高 Trust-Score 的框架。與我們的方法對齊的 LLaMA-3-8b,在 ASQA(提高 10.7)、QAMPARI(提高 29.2)和 ELI5(提高 14.9)上明顯優於相同大小的開源 LLM。我們在以下位置釋出我們的代碼:https://github.com/declare-lab/trust-align。
理解情感對於人類互動和體驗至關重要。 人類能夠輕易從情境或面部表情中推斷情感,從情感中推斷情境,並進行各種其他情感認知。現代人工智慧在這些推斷方面表現如何?我們引入了一個評估框架,用於測試基礎模型中的情感認知。從心理學理論出發,我們生成了1,280個多樣化情境,探索評估、情感、表情和結果之間的關係。我們在精心選擇的條件下評估了基礎模型(GPT-4、Claude-3、Gemini-1.5-Pro)和人類(N = 567)的能力。我們的結果顯示,基礎模型往往與人類直覺一致,匹配或超過參與者間的一致性。在某些情況下,模型表現“超人”——它們比平均人類更能預測主觀人類判斷。所有模型都受益於思維鏈推理。這表明基礎模型已經獲得了對情感及其對信念和行為的影響的人類化理解。
隱式神經表示(INR)利用神經網絡將座標輸入轉換為相應屬性,最近在幾個與視覺相關的領域中推動了顯著進展。然而,INR的性能受其多層感知器(MLP)結構中所使用的非線性激活函數的選擇影響甚巨。已經研究了多種非線性,但目前的INR在捕捉高頻成分、多樣信號類型和處理反問題方面存在限制。我們確定這些問題可以通過在INR中引入範式轉變來大大緩解。我們發現,在初始層中具有可學習激活的架構可以表示底層信號中的細節。具體而言,我們提出了SL^{2}A-INR,這是一個具有單層可學習激活函數的INR混合網絡,促進了傳統基於ReLU的MLP的有效性。我們的方法在包括圖像表示、3D形狀重建、修補、單張圖像超分辨率、CT重建和新視角合成在內的多個任務上表現優越。通過全面實驗,SL^{2}A-INR為INR的準確性、質量和收斂速度設立了新的基準。
近期生成式 AI-音樂系統的蓬勃發展引起了許多關於數據版權、從音樂家授權音樂以及開源 AI 與大型知名公司之間衝突的問題。這些議題凸顯了對公開可用、無版權的音樂數據的需求,特別是對於象徵音樂數據的需求嚴重不足。為了緩解這個問題,我們提出了 PDMX:一個大規模的開源數據集,包含超過 25 萬個從樂譜分享論壇 MuseScore 收集的公有領域 MusicXML 樂譜,據我們所知,這是目前最大的可用的無版權象徵音樂數據集。PDMX 還包括豐富的標籤和用戶互動元數據,使我們能夠高效地分析數據集並篩選出高質量的用戶生成樂譜。通過我們的數據收集過程提供的額外元數據,我們進行了多軌音樂生成實驗,評估 PDMX 的不同代表性子集如何導致下游模型中的不同行為,以及如何使用用戶評分統計作為數據質量的有效衡量標準。示例可在 https://pnlong.github.io/PDMX.demo/ 找到。
隱式神經表示法(INRs)使用神經網絡提供連續且與解析度無關的複雜信號表示,並僅使用少量參數。然而,現有的INR模型常常無法捕捉與每個任務特定的重要頻率成分。為解決此問題,在本文中,我們提出了一種傅立葉科爾莫哥洛夫阿諾德網絡(FKAN)用於INRs。所提出的FKAN利用可學習的激活函數,模擬為傅立葉級數在第一層,以有效控制並學習任務特定的頻率成分。此外,具有可學習傅立葉係數的激活函數提高了網絡捕捉複雜模式和細節的能力,這對於高解析度和高維數據是有益的。實驗結果表明,我們提出的FKAN模型優於三種最先進的基線方案,並分別改善了圖像表示任務的峰值信噪比(PSNR)和結構相似性指數測量(SSIM),以及3D佔用體積表示任務的交集超聯合(IoU)。