每日精選AI研究論文及翻譯
長篇文本能力對於多模態基礎模型至關重要。我們介紹了 LongVILA,這是一個針對長篇文本視覺-語言模型的全套解決方案,包括系統、模型訓練和數據集開發。在系統方面,我們引入了第一個多模態序列並行(MM-SP)系統,實現了長篇文本的訓練和推理,使得在 256 個 GPU 上能夠進行 2M 文本長度的訓練。MM-SP 還具有高效性,比環形式序列並行快 2.1 倍至 5.7 倍,比 Megatron-LM 在僅文本設置下快 1.1 倍至 1.4 倍。此外,它與 Hugging Face Transformers 無縫集成。對於模型訓練,我們提出了一個五階段流水線,包括對齊、預訓練、文本擴展和長短聯合監督微調。在數據集方面,我們精心構建了大規模視覺語言預訓練數據集和長視頻指令跟隨數據集,以支持我們的多階段訓練過程。這個全套解決方案將 VILA 的可行幀數增加了 128 倍(從 8 增加到 1024 幀),並將長視頻字幕得分從 2.00 提升至 3.26(1.6 倍),在 1400 幀視頻(274k 文本長度)中實現 99.5% 的準確性。LongVILA-8B 在 VideoMME 基準測試中隨著視頻幀數增加,展示了在長視頻上性能持續改善的一致性。
最近,開放式世界的3D重建模型引起了相當大的關注。然而,現有方法缺乏足夠的3D歸納偏差,通常需要昂貴的訓練成本,並且難以提取高質量的3D網格。在這項工作中,我們介紹了MeshFormer,一個稀疏視圖重建模型,明確利用3D本地結構、輸入引導和訓練監督。具體來說,我們不使用三平面表示,而是將特徵存儲在3D稀疏體素中,並結合變壓器和3D卷積,以利用明確的3D結構和投影偏差。除了稀疏視圖的RGB輸入外,我們要求網絡接受輸入並生成相應的法向圖。輸入的法向圖可以通過2D擴散模型預測,顯著有助於幫助幾何學習的引導和細化。此外,通過將有符號距離函數(SDF)監督與表面渲染相結合,我們直接學習生成高質量網格,無需複雜的多階段訓練過程。通過結合這些明確的3D偏差,MeshFormer可以高效訓練並生成具有精細幾何細節的高質量紋理網格。它還可以與2D擴散模型集成,實現快速的單圖像到3D和文本到3D任務。項目頁面:https://meshformer3d.github.io
在各種視覺識別和導航任務中,對場景進行強大且準確的分割已成為一項核心功能。這激發了最近開發的「Segment Anything Model」(SAM),這是一個通用遮罩分割的基礎模型。然而,SAM 主要針對單模式 RGB 圖像進行了定制,限制了其對使用廣泛的傳感器套件(如 LiDAR 加 RGB、深度加 RGB、熱像加 RGB 等)捕獲的多模式數據的適用性。我們開發了 MM-SAM,這是 SAM 的擴展和擴展,支持跨模式和多模式處理,以實現對不同傳感器套件進行強大且增強的分割。MM-SAM 具有兩個關鍵設計,即無監督跨模式轉移和弱監督多模式融合,實現了對各種傳感器模式的標籤高效和參數高效的適應。它解決了三個主要挑戰:1)對單模式處理的多樣非 RGB 傳感器進行適應,2)通過傳感器融合協同處理多模式數據,以及 3)針對不同下游任務進行無遮罩訓練。大量實驗表明,MM-SAM 在各種傳感器和數據模式下始終以較大的優勢優於 SAM,展示了其在各種傳感器和數據模式下的有效性和韌性。
文字轉視頻(T2V)生成因其廣泛應用於視頻生成、編輯、增強和翻譯等領域而受到重視。然而,高質量(HQ)視頻合成極具挑戰性,因為現實世界中存在多樣且複雜的運動。大多數現有作品難以解決這個問題,因為它們需要收集大規模的高質量視頻,這對社區來說是不可及的。在這項工作中,我們展示了公開可用的有限和低質量(LQ)數據足以訓練一個HQ視頻生成器,而無需重新標註或微調。我們將整個T2V生成過程分解為兩個步驟:生成一幅以高度描述性標題為條件的圖像,以及在生成的圖像和簡潔的運動細節標題的條件下合成視頻。具體而言,我們提出了Factorized-Dreamer,這是一個分解的時空框架,具有幾個關鍵設計,用於T2V生成,包括一個適配器來結合文本和圖像嵌入、一個像素感知的交叉注意力模塊來捕捉像素級圖像信息、一個T5文本編碼器來更好地理解運動描述,以及一個PredictNet來監督光流。我們進一步提出了一個噪聲時間表,在確保視頻生成的質量和穩定性方面發揮關鍵作用。我們的模型降低了對詳細標題和HQ視頻的要求,可以直接在有限的LQ數據集上進行訓練,這些數據集具有嘈雜且簡短的標題,例如WebVid-10M,很大程度上減輕了收集大規模HQ視頻文本對的成本。在各種T2V和圖像到視頻生成任務中進行了大量實驗,證明了我們提出的Factorized-Dreamer的有效性。我們的源代碼可在https://github.com/yangxy/Factorized-Dreamer/ 上找到。
晶片設計在很大程度上依賴於從功能描述(如真值表)生成布林電路,例如AND-Inverter Graphs(AIGs)。儘管近年來深度學習方面取得了進展,旨在加快電路設計,但這些努力主要集中在除合成之外的任務上,而傳統的啟發式方法已經達到瓶頸。在本文中,我們介紹了ShortCircuit,這是一種新型基於Transformer的架構,利用AIGs的結構特性並執行有效的空間探索。與先前試圖使用深度網絡端到端生成邏輯電路不同,ShortCircuit採用了一個結合監督和強化學習的兩階段過程,以增強對未見真值表的泛化能力。我們還提出了一種AlphaZero變體,以應對雙指數級大的狀態空間和獎勵的稀疏性,從而實現對近乎最佳設計的發現。為了評估我們訓練模型的生成性能,我們從一組20個真實電路中提取了500個真值表。ShortCircuit成功為8輸入測試真值表中的84.6%生成了AIGs,並在電路大小方面比當前最先進的邏輯綜合工具ABC提高了14.61%。
對於各種實際應用來說,實時高精度光流估計至關重要。儘管最近基於學習的光流方法取得了高精度,但通常伴隨著顯著的計算成本。本文提出了一種高效的光流方法,平衡了高精度和降低計算需求。在 NeuFlow v1 的基礎上,我們引入了新組件,包括更輕量級的主幹和快速細化模塊。這兩個模塊有助於保持計算需求輕便,同時提供接近最先進精度。相較於其他最先進方法,我們的模型實現了10倍至70倍的加速,同時在合成和真實世界數據上保持可比性能。在 Jetson Orin Nano 上,我們的模型能夠以超過20 FPS 的速度運行在 512x384 解析度圖像上。完整的訓練和評估代碼可在 https://github.com/neufieldrobotics/NeuFlow_v2 找到。
最近,開放世界的3D生成引起了相當大的關注。雖然許多單圖像到3D的方法產生了視覺上吸引人的結果,但它們通常缺乏足夠的可控性,並且往往會產生幻覺區域,這些區域可能與用戶的期望不符。在本文中,我們探索了一個重要的情境,其中輸入包括一個或幾個未擺姿勢的單個物體的2D圖像,幾乎沒有重疊。我們提出了一種新的方法,名為SpaRP,用於重建一個帶紋理的3D網格並估計這些稀疏視圖的相對相機姿勢。SpaRP從2D擴散模型中提煉知識,並對其進行微調,以隱含地推斷稀疏視圖之間的3D空間關係。擴散模型被訓練來共同預測相機姿勢的替代表示和對象在已知姿勢下的多視圖圖像,整合來自輸入稀疏視圖的所有信息。然後利用這些預測來完成3D重建和姿勢估計,並且重建的3D模型可以用來進一步優化輸入視圖的相機姿勢。通過對三個數據集進行廣泛實驗,我們展示了我們的方法不僅在3D重建質量和姿勢預測準確性方面顯著優於基線方法,而且表現出強大的效率。它僅需要約20秒的時間來為輸入視圖生成帶紋理的網格和相機姿勢。項目頁面:https://chaoxu.xyz/sparp。
準確歸因作者對於維護數位內容的完整性、改善法庭調查,以及減輕錯誤資訊和抄襲風險至關重要。解決正確歸因作者的迫切需求對於維護真實作者的可信度和責任至關重要。大型語言模型(LLMs)的快速進展已經模糊了人類和機器作者之間的界線,對傳統方法提出了重大挑戰。我們提出了一項全面的文獻綜述,探討了LLMs時代作者歸因研究的最新進展。這份調查系統地探索了這一領域的格局,通過將其分為四個代表性問題進行分類:(1)人類撰寫文本歸因;(2)LLM生成文本檢測;(3)LLM生成文本歸因;以及(4)人類-LLM共同撰寫文本歸因。我們還討論了與確保歸因方法的泛化性和可解釋性相關的挑戰。泛化性要求能夠跨越各種領域進行泛化,而可解釋性則強調提供對這些模型所做決策的透明和可理解的見解。通過評估現有方法和基準的優勢和局限性,我們確定了這一領域的關鍵開放問題和未來研究方向。這份文獻綜述為對這一快速發展領域感興趣的研究人員和從業人員提供了一份路線圖。額外資源和一份經過精心挑選的論文清單可在 https://llm-authorship.github.io 上獲得並定期更新。
在真實世界場景的影像中正確插入虛擬物體,需要對場景的照明、幾何和材質以及影像形成過程有深入的理解。儘管最近的大規模擴散模型展現出強大的生成和修補能力,但我們發現目前的模型並不足以在單張圖片中足夠地"理解"場景,以生成一致的照明效果(陰影、明亮反射等),同時保留合成物體的身份和細節。我們提出使用個性化的大型擴散模型作為物理反渲染過程的指導。我們的方法恢復了場景照明和色調映射參數,允許在室內或室外場景的單幀或視頻中逼真地合成任意虛擬物體。我們基於物理的流程進一步實現了自動材質和色調映射的精細化。
在這項工作中,我們提出了一種無需訓練、基於軌跡可控的 T2I 方法,稱為 TraDiffusion。這一新穎方法使用戶可以輕鬆通過滑鼠軌跡引導圖像生成。為了實現精確控制,我們設計了一個距離感知能量函數,有效引導潛在變量,確保生成的焦點在軌跡定義的區域內。該能量函數包括一個控制函數,將生成物拉近到指定軌跡附近,以及一個移動函數,減少遠離軌跡的區域的活動。通過對 COCO 數據集進行廣泛實驗和定性評估,結果顯示 TraDiffusion 有助於更簡單、更自然的圖像控制。此外,它展示了在生成的圖像中操作突出區域、屬性和關係的能力,以及基於任意或增強軌跡的視覺輸入。
具備自主識別漏洞並執行利用程式的語言模型(LM)代理,具有對現實世界產生影響的潛力。AI和網絡安全社區的政策制定者、模型提供者和其他研究人員對量化此類代理的能力感興趣,以幫助減輕網絡風險並探索滲透測試的機會。為此,我們引入了Cybench,這是一個用於指定網絡安全任務並評估代理在這些任務上的表現的框架。我們包括了來自4個不同CTF比賽的40個專業級Capture the Flag(CTF)任務,這些任務被選為最新、有意義且涵蓋了各種難度。每個任務都包括自己的描述、起始文件,並在一個環境中初始化,代理可以執行bash命令並觀察輸出。由於許多任務超出現有LM代理的能力範圍,我們引入了子任務,將任務分解為中間步驟進行更細緻的評估;我們為這40個任務中的17個添加了子任務。為了評估代理的能力,我們構建了一個網絡安全代理並評估了7個模型:GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat和Llama 3.1 405B Instruct。在沒有指導的情況下,我們發現代理僅能解決最容易的完整任務,這些任務對人類團隊需要最多11分鐘才能解決,其中Claude 3.5 Sonnet和GPT-4o的成功率最高。最後,與未引導運行相比,子任務提供了更多用於測量性能的信號,憑藉子任務引導,模型在完成任務時的成功率比沒有子任務引導時高出3.2%。所有代碼和數據都可以在https://cybench.github.io 公開獲取。