每日精選AI研究論文及翻譯
我們推出RWKV-7「Goose」,這是一種新的序列建模架構,並附帶預訓練語言模型,這些模型在多語言任務上以30億參數規模建立了下游性能的新標杆,並且在英語語言性能上與當前最先進的模型相匹配,儘管其訓練所用的token數量遠少於其他頂尖的30億參數模型。然而,RWKV-7模型僅需恆定的記憶體使用量和每個token的恆定推理時間。RWKV-7引入了一種新泛化的delta規則,具有向量值門控和上下文學習率,以及一種放寬的值替換規則。我們展示RWKV-7能夠進行狀態跟踪並識別所有正則語言,同時保持訓練的並行化能力。這超越了在標準複雜性猜想下僅限於TC^0的Transformer的能力。為了展示RWKV-7的語言建模能力,我們還提供了一個擴展的開源3.1萬億token多語言語料庫,並在此數據集上訓練了四個RWKV-7模型,參數範圍從1.9億到29億。 為了促進開放性、重現性和採用,我們在https://huggingface.co/RWKV發布了我們的模型和數據集組件列表,並在https://github.com/RWKV/RWKV-LM發布了我們的訓練和推理代碼,所有這些均遵循Apache 2.0許可證。
推理擴展賦予大型語言模型前所未有的推理能力,其中強化學習作為核心技術,能夠激發複雜的推理過程。然而,當前最先進的推理型大型語言模型的關鍵技術細節仍被隱藏(例如在OpenAI o1博客和DeepSeek R1技術報告中),因此學術界在重現其強化學習訓練成果方面仍面臨挑戰。我們提出了解耦剪裁與動態採樣策略優化(DAPO)算法,並完全開源了一個基於Qwen2.5-32B基礎模型、在AIME 2024上取得50分的最先進大規模強化學習系統。與以往隱瞞訓練細節的研究不同,我們詳細介紹了算法中使大規模語言模型強化學習成功的四項關鍵技術。此外,我們還開源了基於verl框架構建的訓練代碼,以及經過精心整理和處理的數據集。這些開源系統的組成部分增強了研究的可重現性,並為未來大規模語言模型強化學習的研究提供了支持。
現今,合成影片被廣泛用於彌補現實世界影片在數據稀缺性和多樣性方面的不足。當前的合成數據集主要複製現實世界場景,而對不可能、反事實及違反現實的影片概念探索不足。本研究旨在回答兩個問題:1) 當今的影片生成模型能否有效遵循提示,創造出不可能的影片內容?2) 當今的影片理解模型是否足以理解不可能的影片?為此,我們引入了IPV-Bench,這是一個新穎的基準,旨在評估並促進影片理解與生成領域的進步。IPV-Bench基於一個全面的分類體系,涵蓋4個領域、14個類別,並展示了違反物理、生物、地理或社會法則的多樣場景。基於此分類體系,我們構建了一套提示集,用於評估影片生成模型在遵循提示和創造力方面的能力。此外,我們還策劃了一個影片基準,專門評估Video-LLMs在理解不可能影片方面的能力,這尤其需要對時間動態和世界知識進行推理。全面的評估揭示了影片模型的局限性,並為未來的研究方向提供了洞見,為下一代影片模型的發展鋪平了道路。
創造力是智能的一個基本面向,涉及在不同情境下生成新穎且適切解決方案的能力。雖然大型語言模型(LLMs)的創造能力已得到廣泛評估,但多模態大型語言模型(MLLMs)在這一領域的評估仍鮮有探索。為填補這一空白,我們引入了Creation-MMBench,這是一個專門設計用於評估MLLMs在現實世界、基於圖像任務中創造能力的多模態基準。該基準涵蓋了51個細粒度任務中的765個測試案例。為確保評估的嚴謹性,我們為每個測試案例定義了特定實例的評估標準,指導對一般回應質量及與視覺輸入事實一致性的評估。實驗結果顯示,當前開源的MLLMs在創造性任務中顯著落後於專有模型。此外,我們的分析表明,視覺微調可能會對基礎LLM的創造能力產生負面影響。Creation-MMBench為推進MLLM創造力提供了寶貴的見解,並為未來多模態生成智能的改進奠定了基礎。完整數據及評估代碼已發佈於https://github.com/open-compass/Creation-MMBench。
在涉及具身智能的多项任务中,高质量的大规模铰接物体需求迫切。现有的大多数创建铰接物体的方法要么基于数据驱动,要么依赖仿真,这些方法受限于训练数据的规模与质量,或是仿真的精确度与繁重的人工操作。本文提出了一种名为“无限运动”的新颖方法,通过程序化生成来合成高保真度的铰接物体。用户研究和定量评估表明,我们的方法能够生成超越当前最先进技术的结果,在物理属性和网格质量上均与人工标注的数据集相媲美。此外,我们展示了合成数据可用作生成模型的训练数据,为下一步的规模扩展提供了可能。代码已发布于https://github.com/Intern-Nexus/Infinite-Mobility。
人類專家擅長利用領域知識來精煉感知特徵,從而實現細粒度的視覺辨別,這一能力在當前的多模態大型語言模型(MLLMs)中仍顯不足。儘管MLLMs擁有大量專家級知識,但它們在將推理融入視覺感知方面存在困難,往往直接生成回應而缺乏深入分析。為彌合這一差距,我們引入了知識密集型視覺定位(KVG),這是一項新穎的視覺定位任務,要求同時具備細粒度感知和領域特定知識的整合能力。為應對KVG的挑戰,我們提出了DeepPerception,這是一個增強了認知視覺感知能力的MLLM。我們的方法包括:(1)一個自動化數據合成管道,用於生成高質量、知識對齊的訓練樣本;(2)一個兩階段訓練框架,結合了用於認知推理支架的監督微調和強化學習,以優化感知與認知的協同作用。為評估性能,我們引入了KVG-Bench,這是一個涵蓋10個領域、包含1.3K個手動策劃測試案例的綜合數據集。實驗結果表明,DeepPerception顯著優於直接微調,在KVG-Bench上實現了+8.08%的準確率提升,並在跨領域泛化能力上比基準方法高出+4.60%。我們的研究結果強調了將認知過程整合到MLLMs中以實現類人視覺感知的重要性,並為多模態推理研究開闢了新的方向。數據、代碼和模型已發佈於https://github.com/thunlp/DeepPerception。
音訊與音樂生成已成為眾多應用中的關鍵任務,然而現有方法面臨顯著限制:它們孤立運作,缺乏跨模態的統一能力,受制於高品質多模態訓練數據的稀缺,且難以有效整合多樣化的輸入。在本研究中,我們提出了AudioX,一個基於擴散變換器的統一模型,專為任意到音訊及音樂生成而設計。與以往領域專屬模型不同,AudioX能夠高品質地生成通用音訊與音樂,同時提供靈活的自然語言控制,並無縫處理包括文本、視頻、圖像、音樂及音訊在內的多種模態。其核心創新在於一種多模態掩碼訓練策略,該策略跨模態掩碼輸入,迫使模型從掩碼輸入中學習,從而產生魯棒且統一的跨模態表示。為應對數據稀缺問題,我們精心策劃了兩個綜合數據集:基於VGGSound數據集的vggsound-caps,包含19萬條音訊描述;以及源自V2M數據集的V2M-caps,擁有600萬條音樂描述。大量實驗證明,AudioX不僅能與最先進的專用模型相媲美或超越之,還在處理多樣化輸入模態與生成任務方面展現出卓越的通用性,這一切均集成於一個統一架構之中。代碼與數據集將於https://zeyuet.github.io/AudioX/公開。
大型語言模型(LLMs)能夠通過簡單的提示處理多種通用任務,而無需進行特定任務的訓練。基於LLMs構建的多模態大型語言模型(MLLMs)在處理涉及視覺、聽覺和文本數據的複雜任務方面展現了令人矚目的潛力。然而,與真實性、安全性、類人推理以及與人類偏好對齊等相關的關鍵問題仍未得到充分解決。這一差距促使了各種對齊算法的出現,每種算法針對不同的應用場景和優化目標。最近的研究表明,對齊算法是解決上述挑戰的一種強大方法。本文旨在對MLLMs的對齊算法進行全面而系統的綜述。具體而言,我們探討了四個關鍵方面:(1)對齊算法涵蓋的應用場景,包括通用圖像理解、多圖像、視頻和音頻,以及擴展的多模態應用;(2)構建對齊數據集的核心因素,包括數據來源、模型響應和偏好註釋;(3)用於評估對齊算法的基準;(4)對對齊算法未來發展潛在方向的討論。本工作旨在幫助研究者梳理該領域的最新進展,並激發更好的對齊方法。本文的項目頁面可在https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment 獲取。
圖像描述一直是視覺語言研究中的長期挑戰。隨著大型語言模型(LLMs)的崛起,現代視覺語言模型(VLMs)能夠生成詳細且全面的圖像描述。然而,如何評估這些描述的質量仍然是一個未解決的問題。本文探討了兩個關鍵問題:(1)當前的VLMs在圖像描述任務上的實際表現如何,特別是與人類相比?我們構建了CapArena平台,包含超過6000對描述對比和高質量的人類偏好投票。我們的競技場式評估標誌著一個里程碑,顯示領先模型如GPT-4o已達到甚至超越人類表現,而大多數開源模型則落後。(2)自動化指標能否可靠地評估詳細描述的質量?利用CapArena中的人類註釋,我們評估了傳統和最新的描述指標,以及VLM-as-a-Judge。我們的分析表明,雖然某些指標(如METEOR)在描述層面與人類有較好的一致性,但其系統性偏差導致模型排名不一致。相比之下,VLM-as-a-Judge在描述和模型層面均展現出強大的辨別能力。基於這些洞察,我們發布了CapArena-Auto,一個精確且高效的自動化詳細描述基準,僅需每測試4美元即可實現與人類排名94.3%的相關性。數據和資源將在https://caparena.github.io開源。
殘差連接是現代深度學習架構的核心,通過緩解梯度消失問題,使得訓練極深層網絡成為可能。超連接技術近期對殘差連接進行了推廣,引入了不同深度的多種連接強度,從而解決了梯度消失與表示崩塌之間的蹺蹺板效應。然而,超連接通過擴展隱藏狀態的寬度增加了記憶體存取成本。本文提出了一種新方法——分數連接,該方法將隱藏狀態劃分為多個部分而非擴展其寬度。分數連接在保留超連接部分優勢的同時,降低了記憶體消耗。為驗證其有效性,我們在語言任務上進行了大規模實驗,其中最大規模的實驗是在高達3T詞元上訓練的7B MoE模型,結果表明分數連接顯著優於傳統的殘差連接。
我們推出Cosmos-Transfer,這是一個條件式世界生成模型,能夠基於多種空間控制輸入(如分割、深度和邊緣等不同模態)來生成世界模擬。在設計上,該空間條件方案具有自適應性和可定制性,允許在不同空間位置對各類條件輸入進行差異化權重分配。這一特性實現了高度可控的世界生成,並在多種世界到世界轉換應用場景中發揮作用,包括Sim2Real(模擬到現實)。我們進行了廣泛的評估,以分析所提出的模型,並展示其在物理AI領域的應用,如機器人Sim2Real和自動駕駛車輛數據增強。此外,我們還展示了一種推理擴展策略,利用NVIDIA GB200 NVL72機架實現實時世界生成。為加速該領域的研究發展,我們在https://github.com/nvidia-cosmos/cosmos-transfer1開源了模型和代碼。
從單一圖像生成具有靈活視角的3D場景,包括360度旋轉和縮放,由於缺乏3D數據而具有挑戰性。為此,我們引入了FlexWorld,這是一個由兩個關鍵組件組成的新框架:(1) 一個強大的視頻到視頻(V2V)擴散模型,用於從粗略場景渲染的不完整輸入中生成高質量的新視角圖像;(2) 一個漸進擴展過程,用於構建完整的3D場景。特別是利用先進的預訓練視頻模型和精確的深度估計訓練對,我們的V2V模型能夠在大的相機姿態變化下生成新視角。基於此,FlexWorld通過幾何感知的場景融合,逐步生成新的3D內容並將其整合到全局場景中。大量實驗證明了FlexWorld在從單一圖像生成高質量新視角視頻和靈活視角3D場景方面的有效性,在多個流行指標和數據集上相比現有的最先進方法實現了優越的視覺質量。定性上,我們強調FlexWorld能夠生成具有靈活視角(如360度旋轉和縮放)的高保真場景。項目頁面:https://ml-gsai.github.io/FlexWorld。
高效建模大規模圖像一直是機器學習領域的長期挑戰。為此,我們引入了多尺度注意力機制(Multi-Scale Attention, MSA)。MSA基於兩個核心思想:(i) 多尺度表示 (ii) 雙向跨尺度通信。MSA創建了O(log N)個尺度,以逐步粗化的特徵來表示圖像,並利用交叉注意力在尺度間傳播信息。隨後,我們介紹了Atlas,這是一種基於MSA的新型神經網絡架構。我們證明,Atlas在高分辨率版本的ImageNet 100數據集上,顯著改善了長上下文圖像建模的計算性能權衡。在1024像素分辨率下,Atlas-B達到了91.04%的準確率,與ConvNext-B(91.92%)相當,但速度快了4.3倍。Atlas比FasterViT快2.95倍,準確率高出7.38%;比LongViT快2.25倍,準確率高出4.96%。與MambaVision-S相比,Atlas-S在1024px、2048px和4096px分辨率下分別實現了5%、16%和32%的更高準確率,同時保持了相似的運行時間。重現我們實驗的代碼及預訓練模型可在https://github.com/yalalab/atlas獲取。
尽管人工智能在基准测试上取得了快速进展,但基准性能在现实世界中的意义仍不明确。为了从人类能力的角度量化人工智能系统的能力,我们提出了一项新指标:50%任务完成时间跨度。这是指人类通常完成那些人工智能模型能以50%成功率完成的任务所需的时间。我们首先对具有相关领域专业知识的人类进行了计时,测试内容包括RE-Bench、HCAST以及66项新颖的较短任务。在这些任务上,当前的前沿AI模型(如Claude 3.7 Sonnet)的50%时间跨度约为50分钟。此外,自2019年以来,前沿AI的时间跨度大约每七个月翻一番,尽管这一趋势在2024年可能有所加速。AI模型时间跨度的增加似乎主要由更高的可靠性、适应错误的能力,以及更好的逻辑推理和工具使用能力所驱动。我们讨论了研究结果的局限性——包括其外部效度——以及自主性提升对危险能力的影响。如果这些结果能够推广到现实世界的软件任务中,根据这一趋势的推断预测,在五年内,AI系统将能够自动化许多目前人类需要一个月才能完成的软件任务。
驗證對於有效的數學推理至關重要。我們提出了一種新的時間一致性方法,其中驗證者基於先前的評估迭代地精煉其判斷。與單輪驗證或多模型辯論方法不同,我們的方法利用一系列自我反思行動中的一致性來提高驗證的準確性。在多樣化的數學過程錯誤識別基準(Mathcheck、ProcessBench 和 PRM800K)上的實證評估顯示,相較於基線方法,我們的方法展現了持續的性能提升。當應用於最近的 DeepSeek R1 蒸餾模型時,我們的方法表現出強勁的性能,使 7B/8B 蒸餾模型在 ProcessBench 上超越了所有 70B/72B 模型和 GPT-4o。值得注意的是,採用我們方法的 14B 蒸餾模型達到了與 Deepseek-R1 相當的性能。我們的代碼可在 https://github.com/jcguo123/Temporal-Consistency 獲取。
我們提出了Concat-ID,這是一個用於身份保持視頻生成的統一框架。Concat-ID利用變分自編碼器提取圖像特徵,這些特徵沿序列維度與視頻潛在變量進行拼接,僅依賴於3D自注意力機制而無需額外模塊。我們引入了一種新穎的跨視頻配對策略和多階段訓練方案,以在增強視頻自然度的同時平衡身份一致性和面部可編輯性。大量實驗證明,Concat-ID在單一身份和多身份生成方面均優於現有方法,並且在多主體場景(如虛擬試穿和背景可控生成)中展現出無縫的擴展能力。Concat-ID為身份保持視頻合成設立了新基準,為廣泛應用提供了一個多功能且可擴展的解決方案。
推理能力是大型語言模型(LLMs)處理複雜任務的核心能力,其中過程錯誤的識別對於提升這一能力至關重要。近期,過程級獎勵模型(PRMs)被提出,旨在提供逐步獎勵,以促進訓練期間的強化學習與數據生成,並在推理過程中引導LLMs走向正確步驟,從而提高推理準確性。然而,現有的PRMs基準測試多基於文本,且側重於錯誤檢測,忽略了如推理搜索等其他場景。為填補這一空白,我們引入了MPBench,這是一個全面、多任務、多模態的基準測試,旨在系統評估PRMs在多元場景下的有效性。MPBench採用三種評估範式,每種範式針對PRMs在推理過程中的特定角色:(1) 步驟正確性,評估每個中間推理步驟的正確性;(2) 答案聚合,匯總多種解決方案並選取最佳者;(3) 推理過程搜索,在推理過程中引導尋找最優推理步驟。通過這些範式,MPBench實現了全面評估,並為多模態PRMs的發展提供了洞見。
推動文本到圖像生成的主要方法是訓練時擴展,即使用更多的計算資源在更大的數據集上訓練更大的模型。雖然這種方法有效,但其計算成本高昂,因此人們對推理時擴展以提升性能的興趣日益增長。目前,文本到圖像擴散模型的推理時擴展主要局限於最佳N採樣,即每個提示生成多張圖像,然後由選擇模型挑選最佳輸出。受近期語言領域中如DeepSeek-R1等推理模型成功的啟發,我們引入了一種替代簡單最佳N採樣的方法,通過為文本到圖像擴散變壓器配備上下文反思能力。我們提出了Reflect-DiT,該方法使擴散變壓器能夠利用先前生成圖像的上下文示例以及描述必要改進的文本反饋來精煉其生成結果。Reflect-DiT不再被動依賴隨機採樣並寄望於未來生成中獲得更好的結果,而是明確地針對需要改進的特定方面定制其生成。實驗結果表明,Reflect-DiT在GenEval基準上使用SANA-1.0-1.6B作為基礎模型提升了性能(+0.19)。此外,它在GenEval上達到了0.81的新最高分,而每個提示僅生成20個樣本,超越了之前使用顯著更大模型(SANA-1.5-4.8B)在最佳N採樣下生成2048個樣本所獲得的0.80分。
多模态大语言模型(MLLMs)在二维视觉理解方面表现出色,但在三维空间推理能力上仍存在局限。在本研究中,我们利用大规模高质量的三维场景数据及开放集标注,引入了:1)一个新颖的监督微调数据集;2)一个专注于室内场景的新评估基准。我们的“万物立方视觉问答”(CA-VQA)数据涵盖了多样化的空间任务,包括空间关系预测、度量尺寸与距离估计以及三维定位。我们展示了CA-VQA能够帮助我们训练出MM-Spatial,这是一个强大的通用型MLLM,它不仅在包括我们自有的三维空间理解基准上达到了最先进的性能,还证明了通过融入度量深度和多视角输入(由CA-VQA提供)可以进一步提升三维理解能力。此外,我们证实仅凭数据,我们的模型就能实现与专用单目深度估计模型相媲美的深度感知能力。我们将公开我们的监督微调数据集和评估基准。
儘管多模態大型語言模型(MLLMs)展現了令人印象深刻的能力,但在細粒度感知和複雜推理方面仍面臨挑戰。現有的多模態預訓練方法主要通過訓練高質量的圖像描述來增強感知能力,這是由於收集用於改進推理的思維鏈(CoT)數據成本極高。雖然利用先進的MLLMs生成描述提高了可擴展性,但其輸出往往缺乏全面性和準確性。本文提出了自我提升認知(SIcog),這是一個自學習框架,旨在通過使用自生成數據進行多模態預訓練來增強系統認知能力,從而構建下一代基礎MLLMs。具體而言,我們提出了描述鏈(Chain-of-Description)方法,通過逐步視覺理解來提升MLLMs的系統感知能力,確保更高的全面性和準確性。此外,我們採用結構化的CoT推理技術,使MLLMs能夠整合深入的跨模態推理。為了構建具有自我提升認知的下一代基礎MLLM,SIcog首先使用最少的外部註釋為MLLM配備系統感知和推理能力。增強後的模型生成詳細的描述和CoT推理數據,並通過自我一致性進一步篩選。這些篩選後的數據最終用於多模態預訓練,以開發下一代基礎模型。在低分辨率和高分辨率MLLMs上的廣泛實驗表明,僅使用213K自生成的預訓練樣本,SIcog就能產生認知能力顯著提升的下一代基礎MLLMs,在多樣化的基準測試中達到了領先性能,超越了現有的預訓練方法。
跨語言遷移使視覺語言模型(VLMs)能夠僅憑一種語言的訓練數據,在多種語言中執行視覺任務。現有方法依賴於大型預訓練的多語言語言模型。然而,這些模型面臨多語言性的詛咒,在追求多語言能力的同時犧牲了下游任務的性能,難以應對詞彙歧義,且未能跟上最新的技術進展。在本研究中,我們探討了使用單語言VLMs進行多語言任務時系統性泛化的規模法則,重點關注模型大小和已見訓練樣本的影響。我們提出了Florenz,這是一個參數量從0.4B到11.2B不等的單語言編碼器-解碼器VLM,它結合了預訓練的VLM Florence-2和大語言模型Gemma-2。Florenz在不同計算預算下,於一個特意設計為語言覆蓋不全的合成數據集上進行訓練,該數據集用於圖像描述任務,從而測試從完全覆蓋的翻譯任務中的泛化能力。我們不僅展示了間接學習未見任務-語言對遵循規模法則,而且通過我們的數據生成管道和提出的Florenz模型家族,即使僅有翻譯任務的數據可用,特定語言的圖像描述能力也能夠湧現。在混合下游數據集上的微調展現了競爭力的性能,並在多模態機器翻譯(Multi30K, CoMMuTE)、詞彙消歧(CoMMuTE)以及圖像描述(Multi30K, XM3600, COCO Karpathy)任務中顯示出有前景的規模化趨勢。
大型語言模型(LLMs)在多種自然語言處理任務中展現了卓越的能力。然而,要在數學推理和非英語語言等專業領域取得強勁表現,通常需要對海量數據集進行廣泛訓練。本文探討了一種截然不同的方法:在一個小型、高質量的雙語(英法)數據集上進行策略性微調,以增強大型語言模型的推理能力和法語熟練度。我們不依賴於規模,而是探索了這樣一個假設:針對性的數據策劃和優化訓練能夠實現競爭力,甚至更優的表現。我們通過僅對2000個精心挑選的樣本進行有監督的微調(SFT),展示了在數學推理方面的顯著提升。具體而言,Pensez 7B在AIME25上的基礎模型準確率提高了20%,在法語MATH五級基準測試中提高了12%。這些結果挑戰了普遍認為海量數據集是LLMs強推理性能前提的假設,凸顯了策略性數據策劃和優化微調在提升專業技能和多語言能力方面的潛力。我們的研究結果對於高效開發高性能、多語言的LLMs,特別是在資源受限的情況下,具有重要意義。
近年來,多模態大型語言模型(MLLMs)在視覺問答、視覺理解及推理等任務上展現了顯著的進展。然而,這一令人印象深刻的進步依賴於從網路上收集的大量數據,這引發了對隱私和安全的重要擔憂。為解決這些問題,機器遺忘(MU)作為一種有前景的解決方案應運而生,它能夠從已訓練的模型中移除特定知識,而無需從頭開始重新訓練。儘管MLLMs的MU已引起關注,但目前對其效能的評估仍不完整,且基本問題往往定義不清,這阻礙了開發更安全、更可信系統的策略。為彌補這一差距,我們引入了一個名為PEBench的基準,其中包括個人實體及相應一般事件場景的數據集,旨在全面評估MLLMs的MU性能。通過PEBench,我們希望提供一個標準化且穩健的框架,以推動安全和隱私保護的多模態模型研究。我們對6種MU方法進行了基準測試,揭示了它們的優勢與局限,並為MLLMs中的MU關鍵挑戰和機遇提供了洞見。
理想的模型評估應達成兩個目標:識別模型失敗之處,並提供可操作的改進指引。針對語言模型(LM)評估的這些目標,我們將生成弱點描述的問題形式化,即在給定LM在基準測試中每個單獨實例的表現後,生成一組以自然語言表達的弱點。我們引入了一套定量評估方法來比較不同的弱點描述方法。我們還提出了一種名為EvalTree的弱點描述方法。該方法構建了一個能力樹,其中每個節點代表一種以自然語言描述的能力,並與專門評估該能力的基準測試實例子集相連結;然後提取LM表現不佳的節點以生成弱點描述。在MATH和WildChat基準測試中,我們展示了EvalTree通過更精確和全面地識別弱點,優於基線的弱點描述方法。弱點描述進一步促進了基於弱點的數據收集,而由EvalTree識別的弱點引導的訓練數據收集,相比其他數據收集策略,更能提升LM的性能。我們還展示了EvalTree如何揭露Chatbot Arena基於人類投票的評估實踐中的缺陷。為了促進未來的研究,我們發布了我們的代碼和一個界面,使實踐者能夠互動式地探索由EvalTree構建的能力樹。
多模态大型语言模型(MLLMs)在推理方面展现了令人瞩目的能力,但其伴随的庞大计算成本限制了其在资源受限环境中的部署。尽管近期已有提升MLLMs效率的努力,现有解决方案在应对运行时条件变化,尤其是资源可用性变动(例如,因设备上其他程序执行导致的资源争用)方面仍显不足。为填补这一空白,我们提出了AdaLLaVA,一种自适应推理框架,该框架能够在推理过程中根据输入数据及延迟预算,动态调整MLLM的操作配置。我们在涉及问答、推理及幻觉检测的多个基准测试上进行了广泛实验。结果表明,AdaLLaVA能有效遵循输入延迟预算,在运行时实现不同的准确性与延迟权衡。此外,我们展示了AdaLLaVA能够同时适应输入延迟与内容,可与令牌选择机制结合以进一步提升效率,并且能够泛化至多种MLLMs。我们的项目网页及代码发布地址为https://zhuoyan-xu.github.io/ada-llava/。
圖域適應已成為促進跨領域知識轉移的一種前景廣闊的方法。近年來,眾多模型被提出以增強該領域的泛化能力。然而,目前尚無統一庫將現有技術整合並簡化其實現。為填補這一空白,我們推出了PyGDA,一個專為圖域適應設計的開源Python庫。作為該領域首個全面庫,PyGDA涵蓋了20多種廣泛使用的圖域適應方法及多種類型的圖數據集。具體而言,PyGDA提供了模塊化組件,使用戶能夠利用多種常用工具函數無縫構建自定義模型。為處理大規模圖數據,PyGDA支持採樣和小批量處理等特性,確保計算效率。此外,PyGDA還包含全面的性能基準測試及詳盡的用戶友好API,方便研究人員和實踐者使用。為促進便捷訪問,PyGDA以MIT許可證發布於https://github.com/pygda-team/pygda,API文檔則位於https://pygda.readthedocs.io/en/stable/。
生成模型在3D物體領域近期取得了顯著進展。然而,由於無法滿足特定領域任務所需的精確度、品質與可控性,這些模型在工程等領域的實際應用仍受限。對大型生成模型進行微調,是使其在這些領域中可用的前景方向。建立高品質、特定領域的3D數據集對於微調大型生成模型至關重要,但數據篩選與註釋過程仍是主要瓶頸。我們提出了MeshFleet,這是一個從Objaverse-XL(目前最廣泛的公開3D物體集合)中提取並經過篩選與註釋的3D車輛數據集。我們的方法基於品質分類器,提出了一套自動化數據篩選流程。該分類器在Objaverse的手動標註子集上訓練,結合了DINOv2與SigLIP嵌入,並通過基於標題的分析與不確定性估計進行了優化。我們通過與基於標題和圖像美學評分的技術進行對比分析,以及使用SV3D進行的微調實驗,展示了我們篩選方法的有效性,強調了針對特定領域的3D生成建模進行精準數據選擇的重要性。
解決從視覺語言模型(如CLIP)中檢索不安全內容的問題,是實現其現實世界整合的重要一步。當前的研究主要依賴於去學習技術,試圖抹除模型對不安全概念的知識。雖然這種方法有效減少了不期望的輸出,但去學習限制了模型區分安全與不安全內容的能力。在本研究中,我們提出了一種新穎的方法,通過利用雙曲空間固有的層次特性,從去學習轉向意識範式。我們建議將安全與不安全內容編碼為一個蘊含層次結構,將它們置於雙曲空間的不同區域。我們的HySAC(雙曲安全感知CLIP)採用蘊含損失函數來建模安全與不安全圖文對之間的層次和非對稱關係。這種建模在標準視覺語言模型中因依賴歐幾里得嵌入而無效,它賦予模型對不安全內容的意識,使其既能作為多模態不安全分類器,又能作為靈活的內容檢索器,並可選擇將不安全查詢動態重定向至更安全的替代方案或保留原始輸出。大量實驗表明,我們的方法不僅增強了安全識別能力,還為視覺語言模型中的內容審核建立了一個更適應性強且可解釋的框架。我們的源代碼可在https://github.com/aimagelab/HySAC獲取。
隨著大型語言模型(LLMs)和視覺語言模型(VLMs)的快速發展,開放詞彙機器人操作系統的開發取得了顯著進展。然而,許多現有方法忽視了物體動態的重要性,限制了其在更複雜、動態任務中的應用。在本研究中,我們提出了KUDA,這是一個整合了動態學習和通過關鍵點進行視覺提示的開放詞彙操作系統,它充分利用了VLMs和基於學習的神經動態模型。我們的核心洞見是,基於關鍵點的目標規格既可由VLMs解釋,又能高效轉化為基於模型的規劃成本函數。在給定語言指令和視覺觀察後,KUDA首先為RGB圖像分配關鍵點,並查詢VLM以生成目標規格。這些基於關鍵點的抽象表示隨後被轉換為成本函數,並使用學習到的動態模型進行優化,以產生機器人軌跡。我們在多種操作任務上評估了KUDA,包括跨多樣物體類別的自由形式語言指令、多物體交互以及可變形或顆粒狀物體,展示了我們框架的有效性。項目頁面可訪問:http://kuda-dynamics.github.io。
路側協同感知系統,意指多個路側單元協作匯聚其感知數據,以協助車輛提升環境感知能力。現有的路側感知方法專注於模型設計,卻忽視了校準誤差、信息稀疏性及多視角一致性等數據問題,導致在近期發布的數據集上表現欠佳。為顯著提升路側協同感知並解決關鍵數據問題,我們提出了首個路側協同感知模擬框架RoCo-Sim。RoCo-Sim能夠通過單一圖像的動態前景編輯與全場景風格遷移,生成多樣化且多視角一致的模擬路側數據。RoCo-Sim包含四個組件:(1) 相機外參優化,確保路側相機的3D到2D投影精確;(2) 新穎的多視角遮擋感知採樣器(MOAS),決定多樣化數字資產在3D空間中的佈局;(3) DepthSAM創新性地從單幀固定視角圖像中建模前景與背景關係,確保前景的多視角一致性;(4) 可擴展的後處理工具包,通過風格遷移及其他增強手段生成更為真實且豐富的場景。RoCo-Sim顯著提升了路側3D物體檢測性能,在Rcooper-Intersection和TUMTraf-V2X數據集上,AP70指標分別超越現有最佳方法83.74和83.12。RoCo-Sim填補了路側感知模擬領域的關鍵空白。代碼及預訓練模型即將發布:https://github.com/duyuwen-duen/RoCo-Sim
车对车(V2V)协同自动驾驶在提升安全性方面展现出巨大潜力,它能够有效应对单智能体系统中固有的感知与预测不确定性。然而,传统的协同方法受限于僵化的协作协议,且在面对未见过的交互场景时泛化能力有限。尽管基于大语言模型(LLM)的方法提供了泛化的推理能力,但它们在空间规划上的挑战及不稳定的推理延迟阻碍了其在协同驾驶中的直接应用。为克服这些局限,我们提出了CoLMDriver,这是首个基于LLM的全流程协同驾驶系统,实现了基于语言的有效协商与实时驾驶控制。CoLMDriver采用并行驾驶流程,包含两大核心组件:(i) 基于LLM的协商模块,采用演员-评论家范式,通过所有车辆先前决策的反馈不断优化协作策略;(ii) 意图引导的路径点生成器,将协商结果转化为可执行的路径点。此外,我们引入了InterDrive,一个基于CARLA的仿真基准,包含10个具有挑战性的交互驾驶场景,用于评估V2V协同能力。实验结果表明,CoLMDriver在多种高交互性的V2V驾驶场景中显著优于现有方法,成功率提升了11%。代码将在https://github.com/cxliu0314/CoLMDriver 上发布。