每日精選AI研究論文及翻譯
隨著OpenAI推出o1模型,採用慢思考策略的推理模型逐漸嶄露頭角。由於這類模型生成的回應通常包含複雜的推理、中間步驟和自我反思,現有的評估方法往往力有未逮。它們難以判斷大型語言模型(LLM)的輸出是否真正等同於參考答案,也難以從冗長複雜的回應中識別並提取最終答案。為解決這一問題,我們提出了xVerify,一種用於推理模型評估的高效答案驗證器。xVerify在等價判斷方面展現出強大的能力,使其能夠有效判定推理模型產生的答案是否與各類客觀問題的參考答案等價。為了訓練和評估xVerify,我們構建了VAR數據集,通過收集多個LLM在不同數據集上生成的問答對,利用多種推理模型以及專為推理模型評估設計的挑戰性評估集。我們採用多輪標註流程以確保標籤的準確性。基於VAR數據集,我們訓練了多個不同規模的xVerify模型。在測試集和泛化集上進行的評估實驗中,所有xVerify模型的總體F1分數和準確率均超過95%。值得注意的是,最小版本的xVerify-0.5B-I在除GPT-4o之外的所有評估方法中表現最佳,而xVerify-3B-Ib在整體性能上超越了GPT-4o。這些結果驗證了xVerify的有效性和泛化能力。
我們推出Seedream 3.0,這是一個高性能的中英雙語圖像生成基礎模型。我們開發了多項技術改進,以解決Seedream 2.0中存在的挑戰,包括與複雜提示的對齊、精細的排版生成、視覺美學與保真度的不足,以及有限的圖像分辨率。具體而言,Seedream 3.0的進步源自於從數據構建到模型部署的整個流程的改進。在數據層面,我們通過缺陷感知訓練範式和雙軸協作數據採樣框架,將數據集規模翻倍。此外,我們在預訓練階段採用了多種有效技術,如混合分辨率訓練、跨模態RoPE、表示對齊損失和分辨率感知時間步採樣。在後訓練階段,我們在SFT中使用了多樣化的美學描述,並結合基於VLM的獎勵模型進行擴展,從而實現了與人類偏好高度一致的輸出。此外,Seedream 3.0開創了一種新穎的加速範式。通過採用一致的噪聲期望和重要性感知時間步採樣,我們在保持圖像質量的同時實現了4到8倍的加速。Seedream 3.0相較於Seedream 2.0展現了顯著的改進:它提升了整體能力,特別是在複雜漢字的文本渲染方面,這對於專業排版生成至關重要。此外,它還提供了原生高分辨率輸出(最高可達2K),使其能夠生成具有高視覺質量的圖像。
提升大型語言模型(LLM)的推理能力已引起廣泛關注。然而,現有的後訓練技術過度依賴監督信號,如結果監督或輔助獎勵模型,這些方法面臨可擴展性差和註釋成本高的問題。這促使我們探索無需外部監督來增強LLM推理能力的方法。我們提出了一個通用且純粹無監督的自訓練框架,名為Genius。在沒有外部輔助的情況下,Genius需要逐步尋求最佳響應序列並優化LLM。為了探索潛在步驟並利用最優步驟,Genius引入了一種逐步前瞻重採樣策略,通過模擬未來結果來採樣和估計步驟價值。此外,我們認識到無監督設置不可避免地引入了固有的噪聲和不確定性。為了提供穩健的優化,我們提出了一種優勢校準優化(ACO)損失函數,以減輕估計不一致性。結合這些技術,Genius為在無監督情況下通過通用查詢自我提升LLM推理能力提供了先進的初步步驟,鑑於通用查詢的廣泛可用性,這將革新推理的規模定律。代碼將發佈於https://github.com/xufangzhi/Genius。
隨著大型語言模型(LLM)的後訓練從指令跟隨任務進展到複雜推理任務,理解不同數據如何影響微調動態仍是一個未被充分探索的領域。本文中,我們對低/高質量指令和推理數據在LLM後訓練中誘導的層級梯度進行了譜分析。我們的分析揭示,廣泛研究的數據評估指標,如IFD、InsTag、難度和獎勵,可以通過從梯度奇異值分解(SVD)計算出的譜特性來解釋和統一。具體而言,高質量數據通常與較低的核範數和較高的有效秩相關。值得注意的是,在捕捉細微質量差異方面,有效秩比核範數表現出更好的魯棒性和分辨率。例如,推理數據的有效秩顯著高於指令數據,這意味著在更複雜的任務上梯度結構更為豐富。我們的實驗還強調,同一家族內的模型無論大小如何,其梯度模式都相似,而不同模型家族之間則存在顯著差異。通過提供一個關於指令和推理數據質量影響的統一視角,這項工作闡明了數據質量與訓練穩定性之間的相互作用,為開發更好的後訓練數據探索策略提供了新的見解。
一個AI系統創造和維護知識的能力,僅限於其能夠自我驗證這些知識的程度。近期關於長鏈思維推理的研究展示了大型語言模型在解決競賽問題上的巨大潛力,但其驗證能力仍然薄弱且未得到充分研究。本文提出Heimdall,一種長鏈思維驗證的大型語言模型,能夠精確判斷解決方案的正確性。通過純粹的強化學習,我們將競賽數學問題的驗證準確率從62.5%提升至94.5%。通過重複採樣的擴展,準確率進一步提升至97.5%。通過人類評估,Heimdall展現了令人印象深刻的泛化能力,成功檢測出訓練中未包含的複雜數學證明中的大部分問題。此外,我們提出悲觀驗證法,以擴展Heimdall的功能,提升問題解決的規模。該方法調用Heimdall來判斷來自求解模型的解決方案,並基於悲觀原則,選擇最可能正確且不確定性最小的解決方案。以DeepSeek-R1-Distill-Qwen-32B作為求解模型,悲觀驗證法將AIME2025上的解決方案準確率從54.2%提升至70.0%(計算預算增加16倍),並在更多計算預算下提升至83.3%。使用更強的求解模型Gemini 2.5 Pro,得分達到93.0%。最後,我們原型化了一個自動知識發現系統,這是一個三元系統,其中一個提出問題,另一個提供解決方案,第三個驗證解決方案。利用數據合成工作NuminaMath作為前兩個組件,Heimdall有效識別了數據集中的問題記錄,並揭示出近一半的數據存在缺陷,這與NuminaMath最近的消融研究結果有趣地吻合。
TextArena 是一個開源的競技性文字遊戲集合,專為大型語言模型(LLMs)的代理行為訓練與評估而設計。它涵蓋了超過 57 種獨特的環境(包括單人、雙人及多人模式),並透過線上遊玩系統(可與人類及其他提交的模型對戰)即時計算 TrueSkill 分數,從而簡化模型能力的評估。傳統基準測試鮮少評估動態社交技能,如談判、心智理論與欺騙,而 TextArena 正填補了這一空白。TextArena 以研究、社群參與及可擴展性為核心設計理念,強調新增遊戲、調整框架、測試模型、與模型對戰及訓練模型的便捷性。詳細的環境、遊戲、排行榜及範例文件可於 https://github.com/LeonGuertler/TextArena 與 https://www.textarena.ai/ 查閱。
多模態大型語言模型(MLLMs)在細粒度像素級理解任務中展現出卓越的性能。然而,現有研究均高度依賴額外組件,如視覺編碼器(CLIP)、分割專家等,這導致系統複雜度高,限制了模型的擴展性。在本研究中,我們的目標是探索一種高度簡化的MLLM,無需引入額外組件。我們的工作受到近期關於單一Transformer作為統一視覺-語言模型(SAIL)設計的研究啟發,這些研究在Transformer中聯合學習視覺標記和文本標記。我們提出了Pixel-SAIL,一種用於像素級MLLM任務的單一Transformer。具體而言,我們在基礎模型上實現了三項技術改進。首先,我們設計了一個可學習的上採樣模塊,以精煉視覺標記特徵。其次,我們提出了一種新穎的視覺提示注入策略,使單一Transformer能夠理解視覺提示輸入,並受益於視覺提示嵌入與視覺標記的早期融合。第三,我們引入了視覺專家蒸餾策略,有效增強了單一Transformer的細粒度特徵提取能力。此外,我們通過人工檢查收集了一個全面的像素理解基準(PerBench),包括三項任務:詳細物體描述、基於視覺提示的問答以及視覺-文本參考分割。在四個參考分割基準、一個視覺提示基準及我們的PerBench上的大量實驗表明,我們的Pixel-SAIL以更簡潔的流程實現了可比甚至更優的結果。代碼和模型將在https://github.com/magic-research/Sa2VA 上發布。
表面法線估計作為一系列電腦視覺應用的基石。儘管已有大量研究致力於靜態圖像場景,但在基於視頻的法線估計中確保時間一致性仍是一項艱鉅的挑戰。我們提出的NormalCrafter並非簡單地在現有方法上增加時間組件,而是充分利用視頻擴散模型固有的時間先驗知識。為了在序列中實現高保真度的法線估計,我們提出了語義特徵正則化(SFR),該方法將擴散特徵與語義線索對齊,促使模型專注於場景的內在語義。此外,我們引入了一種兩階段訓練協議,該協議結合了潛在空間和像素空間的學習,以在保持長時間上下文的情況下保留空間準確性。廣泛的評估證明了我們方法的有效性,展示了在從多樣化視頻中生成具有精細細節且時間一致的法線序列方面的卓越性能。
強化學習(RL)已成為在複雜推理任務上微調大型語言模型(LLMs)的主流方法。在近期的方法中,GRPO因其在訓練如DeepSeek-R1等模型上的實證成功而脫穎而出,但其有效性的來源仍鮮為人知。在本研究中,我們從類似強化算法的角度重新審視GRPO,並分析其核心組件。令人驚訝的是,我們發現一個簡單的拒絕採樣基線方法RAFT,僅在正向獎勵樣本上進行訓練,其性能竟與GRPO和PPO相當。我們的消融研究揭示,GRPO的主要優勢來自於剔除完全錯誤回應的提示,而非其獎勵標準化。基於這一洞察,我們提出了Reinforce-Rej,這是策略梯度的一個最小擴展,它過濾掉完全錯誤和完全正確的樣本。Reinforce-Rej提升了KL效率與穩定性,作為一個輕量級且有效的替代方案,可取代更複雜的RL算法。我們主張將RAFT作為一個穩健且可解釋的基線,並建議未來的進展應專注於更為原則性的設計來整合負樣本,而非不加區分地依賴它們。我們的研究結果為未來基於獎勵的LLM後續訓練工作提供了指導。
推理模型在解決複雜且邏輯密集的任務上展現了顯著進展,其方法是在得出最終答案之前生成延伸的思維鏈(Chain-of-Thoughts, CoTs)。然而,這種「慢思考」範式的出現,伴隨著大量序列生成的詞元,不可避免地引入了顯著的計算開銷。因此,這凸顯了對有效加速的迫切需求。本調查旨在全面概述高效推理的最新進展,並將現有工作分為三個關鍵方向:(1) 更短——將冗長的思維鏈壓縮為簡潔而有效的推理鏈;(2) 更小——通過知識蒸餾、其他模型壓縮技術以及強化學習等方法,開發具有強大推理能力的緊湊語言模型;(3) 更快——設計高效的解碼策略以加速推理。本調查中討論的論文精選集可在我們的GitHub倉庫中找到。
鉴于大型语言模型在不同数据集上的预训练成本高昂,利用小规模实验来决定数据选择对于降低成本至关重要。哪些基准测试方法以及从小规模观察到的性能中做出决策的方法,能够最准确地预测出能产生最佳大型模型的数据集?为了促进这一问题的开放探索,我们发布了DataDecide——一个包含最广泛开放模型套件的资源,这些模型在数据和规模上存在差异。我们进行了控制下的预训练实验,涵盖了25个不同来源、去重和过滤的语料库,训练规模高达1000亿个标记,模型参数规模高达10亿,并使用了3个随机种子。我们发现,在单一小规模(例如1.5亿参数)下模型的排名,对于预测我们更大目标规模(10亿)下的最佳模型是一个强有力的基线(约80%的比较正确)。在8个基线方法中,没有任何一种缩放法则方法能够超越单一规模预测的计算决策前沿,但DataDecide能够衡量未来缩放法则的改进。我们还发现,在小规模实验中使用连续似然度量作为代理,使得包括MMLU、ARC、HellaSwag、MBPP和HumanEval在内的基准测试在目标10亿规模下的可预测性超过80%,而仅需0.01%的计算资源。
檢索增強生成(Retrieval-Augmented Generation, RAG)提升了大型語言模型(Large Language Model, LLM)在知識密集型任務中的表現,但其效能高度依賴於初始搜尋查詢的品質。現有方法通常採用強化學習(Reinforcement Learning, RL),主要聚焦於查詢的構建或對結果的推理,而未能明確鼓勵在搜尋失敗後的持續嘗試。我們提出ReZero(Retry-Zero),這是一種新穎的RL框架,直接獎勵在初次搜尋未果後重新嘗試查詢的行為。此機制激勵LLM探索替代查詢,而非過早終止搜尋。ReZero展現了顯著的改進,達到了46.88%的準確率,相較於25%的基準線。通過獎勵持續性,ReZero在初始查詢可能不足的複雜資訊尋求情境中,增強了LLM的魯棒性。
本文介紹了SAIL,這是一種單一Transformer架構的多模態大型語言模型(MLLM),它將原始像素編碼與語言解碼整合於一體。與現有的模組化MLLM不同,後者依賴於預訓練的視覺Transformer(ViT),而SAIL則省去了獨立的視覺編碼器,呈現出更為簡約的架構設計。SAIL並未引入新的架構組件,而是採用了混合注意力機制和多模態位置編碼,以更好地對齊視覺與文本模態的獨特特性。我們系統性地比較了SAIL的特性——包括可擴展性、跨模態信息流模式及視覺表徵能力——與模組化MLLM的差異。通過擴大訓練數據和模型規模,SAIL達到了與模組化MLLM相當的性能。值得注意的是,移除預訓練的ViT組件增強了SAIL的可擴展性,並導致了顯著不同的跨模態信息流模式。此外,SAIL展現出強大的視覺表徵能力,在語義分割等視覺任務中取得了與ViT-22B相媲美的成果。代碼和模型可在https://github.com/bytedance/SAIL獲取。
本研究提出了SimpleAR,一個未經複雜架構修改的基礎自迴歸視覺生成框架。通過對訓練與推理優化的深入探索,我們展示了以下成果:1)僅需0.5B參數,我們的模型便能生成高保真度的1024x1024分辨率圖像,並在具挑戰性的文本到圖像基準測試中取得競爭力成績,例如在GenEval上達到0.59分,在DPG上獲得79.66分;2)無論是監督微調(SFT)還是群組相對策略優化(GRPO)訓練,均能顯著提升生成美學與提示對齊效果;3)當採用如vLLM等推理加速技術優化後,SimpleAR生成一張1024x1024圖像的時間可縮短至約14秒。通過分享這些發現並開源代碼,我們期望揭示自迴歸視覺生成的潛力,並鼓勵更多研究者參與此領域的探索。代碼已公開於https://github.com/wdrink/SimpleAR。
複雜數學推理能力是衡量人工智慧的關鍵指標。儘管將強化學習(RL)應用於大型語言模型(LLMs)展現出潛力,但由於缺乏大規模、具有足夠挑戰性、具備適合RL的可驗證答案格式且未與評估基準污染的訓練數據,進展受到顯著阻礙。為解決這些限制,我們引入了DeepMath-103K,這是一個包含約103,000個數學問題的新大規模數據集,專門設計用於通過RL訓練高級推理模型。DeepMath-103K通過嚴格的流程進行策劃,包括來源分析、針對多個基準的嚴格去污染以及篩選高難度問題(主要為5-9級),其挑戰性顯著超越現有的開放資源。每個問題都包含一個可驗證的最終答案,支持基於規則的RL,以及三個由R1生成的不同解決方案,適用於多樣化的訓練範式,如監督微調或蒸餾。DeepMath-103K涵蓋廣泛的數學主題,促進可泛化推理能力的發展。我們證明,在DeepMath-103K上訓練的模型在具有挑戰性的數學基準上取得了顯著改進,驗證了其有效性。我們公開釋出DeepMath-103K,以促進社區在構建更強大AI推理系統方面的進展:https://github.com/zwhe99/DeepMath。
過程獎勵模型(PRMs)為大型語言模型(LLMs)提供步驟級別的監督,但無論是對人類還是LLMs而言,擴展訓練數據的註釋規模仍然具有挑戰性。為解決這一限制,我們提出了一種主動學習方法——ActPRM,該方法主動選擇最不確定的樣本進行訓練,從而大幅降低標註成本。在訓練過程中,我們使用PRM在前向傳播後估計不確定性,僅保留高度不確定的數據。隨後,一個能力強但成本高的推理模型對這些數據進行標註。接著,我們根據標籤計算損失並更新PRM的權重。我們在基於池的主動學習設置中比較了ActPRM與普通微調的效果,結果表明ActPRM減少了50%的註釋量,但達到了相當甚至更好的性能。除了註釋效率的提升,我們還通過ActPRM過濾了超過100萬條數學推理軌跡,保留了60%的數據。在這一精選數據集上進行後續訓練,我們在ProcessBench(75.0%)和PRMBench(65.5%)上取得了與同規模模型相比新的最高水平(SOTA)PRM。
擴散模型在生成高維數據方面表現出色,但在訓練效率和表徵質量上卻不及自監督方法。我們發現了一個關鍵瓶頸:訓練過程中未能充分利用高質量、語義豐富的表徵,這顯著減緩了收斂速度。通過系統性分析,我們揭示了一個關鍵的表徵處理區域——主要位於早期層——在此區域中,語義和結構模式的學習先於生成過程發生。為解決這一問題,我們提出了嵌入式表徵預熱(ERW),這是一個即插即用的框架,在第一階段,ERW模塊作為預熱器,用高質量的預訓練表徵初始化擴散模型的早期層。這種預熱最大限度地減輕了從零開始學習表徵的負擔,從而加速了收斂並提升了性能。我們的理論分析表明,ERW的有效性取決於其精確整合到特定的神經網絡層——稱為表徵處理區域——模型在此區域主要處理和轉換特徵表徵以供後續生成。我們進一步證實,ERW不僅加速了訓練收斂,還提升了表徵質量:實證中,我們的方法在訓練速度上比當前最先進的REPA方法快了40倍。代碼可在https://github.com/LINs-lab/ERW獲取。
擴散模型因其生成高保真圖像的能力而廣受認可。儘管擴散變換器(DiT)架構展現了卓越的性能與可擴展性,其在擴散過程中對不同圖像區域採用固定的壓縮策略,忽略了這些區域自然存在的信息密度差異。然而,過大的壓縮會限制局部真實感,而過小的壓縮則會增加計算複雜度並損害全局一致性,最終影響生成圖像的質量。為解決這些限制,我們提出通過識別不同區域的重要性來動態壓縮圖像區域,並引入一個新穎的兩階段框架,旨在提升圖像生成的效能與效率:(1)第一階段的動態變分自編碼器(DVAE)採用分層編碼器,根據特定信息密度對不同圖像區域進行不同下採樣率的編碼,從而為擴散過程提供更精確且自然的潛在代碼。(2)第二階段的動態擴散變換器(D^2iT)通過預測多粒度噪聲來生成圖像,這些噪聲由粗粒度(平滑區域中較少的潛在代碼)和細粒度(細節區域中較多的潛在代碼)組成,這得益於動態粒度變換器與動態內容變換器的創新結合。結合噪聲的粗略預測與細節區域校正的策略,實現了全局一致性與局部真實感的統一。在多種生成任務上的全面實驗驗證了我們方法的有效性。代碼將發佈於https://github.com/jiawn-creator/Dynamic-DiT。
当前的多模态基准测试常常将推理能力与领域特定知识混为一谈,这使得在非专业环境中孤立和评估一般推理能力变得困难。为解决这一问题,我们引入了VisualPuzzles,一个旨在评估视觉推理能力,同时刻意减少对专业知识依赖的基准测试。VisualPuzzles包含五类多样化的问题:算法推理、类比推理、演绎推理、归纳推理和空间推理。我们问题的一个重要来源是手动翻译自中国公务员考试的逻辑推理题。实验表明,与MMMU等基准测试相比,VisualPuzzles对领域特定知识的需求显著减少,而对复杂推理的要求更高,使我们能够更好地评估真正的多模态推理能力。评估结果显示,在VisualPuzzles上,最先进的多模态大语言模型始终落后于人类表现,且在知识密集型基准测试上的强劲表现并不一定意味着在注重推理、知识需求较低的任务上也能成功。此外,推理增强措施(如通过“思考”模式扩大推理计算规模)在不同模型和任务类型上带来的增益并不一致,我们也没有观察到模型大小与性能之间的明确关联。我们还发现,与更强调知识的基准测试相比,模型在VisualPuzzles上展现出不同的推理和回答模式。VisualPuzzles提供了一个更清晰的视角,用于评估超越事实记忆和领域知识的推理能力。
在面向消費者的應用中部署語言模型引入了眾多風險。儘管現有研究針對此類應用的危害和危險採用了基於監管框架和理論分析的自上而下方法,但對現實世界故障模式的實證證據仍顯不足。在本研究中,我們引入了RealHarm,這是一個基於對公開報導事件進行系統性審查而構建的、與AI代理互動問題的註釋數據集。從部署者的角度分析危害、原因及危險,我們發現聲譽損害是主要的組織性危害,而錯誤信息則是最常見的危險類別。我們對最先進的防護措施和內容審核系統進行了實證評估,以探討這些系統是否能夠預防這些事件,結果揭示了AI應用保護方面存在顯著差距。
結合注意力機制與狀態空間模型(SSMs)的混合大型語言模型架構,在準確性和運行時性能上達到了業界領先水平。近期研究表明,對僅依賴注意力機制的模型進行壓縮與蒸餾,能夠以極低的訓練成本獲得體積更小、精度更高的模型。在本研究中,我們探討了對混合架構進行壓縮的有效性。我們提出了一種新穎的群組感知剪枝策略,該策略在保持SSM模塊結構完整性的同時,也維護了其序列建模能力。此外,我們證明了相比傳統方法,此類SSM剪枝對於提升模型精度和推理速度的必要性。我們的壓縮方案結合了SSM、前饋網絡(FFN)、嵌入維度及層級剪枝,隨後採用基於知識蒸餾的再訓練,類似於MINITRON技術。通過這一方法,我們將擁有80億參數的Nemotron-H混合模型壓縮至40億參數,且訓練token數量最多減少40倍。最終得到的模型在保持同等規模模型精度的基礎上,實現了推理速度的兩倍提升,顯著推進了帕累托前沿。
我們推出AI大學(AI-U),這是一個靈活的框架,用於AI驅動的課程內容傳遞,能夠適應教師的教學風格。AI-U的核心在於利用檢索增強生成(RAG)技術對大型語言模型(LLM)進行微調,從而從講座視頻、筆記和教科書中生成與教師教學風格一致的響應。以研究生層次的有限元方法(FEM)課程為案例,我們展示了一個可擴展的流程,系統地構建訓練數據,使用低秩適應(LoRA)微調開源LLM,並通過基於RAG的合成優化其響應。我們的評估——結合餘弦相似度、基於LLM的評估和專家評審——顯示出與課程材料的強烈一致性。我們還開發了一個原型網絡應用程序,可在https://my-ai-university.com訪問,該應用通過將AI生成的響應鏈接到相關課程材料的特定部分和開放訪問視頻講座的時間戳實例,增強了可追溯性。我們的專家模型在86%的測試案例中與參考資料具有更高的餘弦相似度。LLM評判者也發現我們的專家模型在大約五分之四的情況下優於基礎Llama 3.2模型。AI-U提供了一種可擴展的AI輔助教育方法,為高等教育中的更廣泛應用鋪平了道路。在此,我們的框架已在FEM課程的背景下展示——這是一門對工程科學博士和碩士生培訓至關重要的學科。然而,這一背景是更廣泛情境中的一個具體實例:微調LLM以適應科學研究內容。
本報告全面概述了與CVPR 2025同期舉辦的第四屆野外像素級視頻理解挑戰賽(PVUW)。報告總結了挑戰賽的成果、參與方法以及未來研究方向。本次挑戰賽設有兩個賽道:MOSE,專注於複雜場景視頻對象分割;MeViS,針對基於運動和語言的視頻分割。兩個賽道均引入了新的、更具挑戰性的數據集,旨在更好地反映現實世界場景。通過詳細的評估與分析,本次挑戰賽為複雜視頻分割領域的當前最新技術與新興趨勢提供了寶貴的見解。更多信息可訪問研討會網站:https://pvuw.github.io/。
由於擴散模型的採樣速度較慢,其在3D LiDAR場景補全中的應用受到限制。分數蒸餾雖然能加速擴散採樣,但會導致性能下降,而通過直接策略優化(DPO)進行後訓練則能利用偏好數據提升性能。本文提出了一種新穎的擴散蒸餾框架——Distillation-DPO,用於實現偏好對齊的LiDAR場景補全。首先,學生模型生成具有不同初始噪聲的配對補全場景。其次,以LiDAR場景評估指標作為偏好,構建勝負樣本對。這種構建方式是合理的,因為大多數LiDAR場景指標雖然信息豐富但不可微分,無法直接優化。第三,Distillation-DPO通過利用教師模型和學生模型在配對補全場景上的分數函數差異來優化學生模型。此過程重複進行直至收斂。大量實驗表明,與最先進的LiDAR場景補全擴散模型相比,Distillation-DPO在實現更高質量場景補全的同時,將補全速度提升了5倍以上。據我們所知,我們的方法是首個探索在蒸餾中採用偏好學習的研究,並為偏好對齊蒸餾提供了見解。我們的代碼已公開在https://github.com/happyw1nd/DistillationDPO。
同行評審是科學出版品質控制的基石。隨著工作量的增加,無意中使用「快速」啟發式方法(被稱為懶惰思維)已成為一個反覆出現的問題,影響了評審品質。自動化檢測此類啟發式方法的手段有助於提升同行評審過程。然而,針對這一問題的自然語言處理研究有限,且缺乏支持檢測工具開發的真實世界數據集。本研究引入了LazyReview,這是一個標註了細粒度懶惰思維類別的同行評審句子數據集。我們的分析顯示,大型語言模型(LLMs)在零樣本設定下難以檢測這些情況。但基於我們數據集的指令微調顯著提升了性能,提高了10-20個性能點,凸顯了高品質訓練數據的重要性。此外,一項對照實驗表明,經過懶惰思維反饋修改的評審比未經此類反饋撰寫的評審更為全面且具可操作性。我們將公開我們的數據集及改進後的指南,這些資源可用於培訓社群中的初級評審人員。(代碼見此處:https://github.com/UKPLab/arxiv2025-lazy-review)
近期大型語言模型(LLMs)的進展在視頻理解領域取得了重大突破。然而,由於LLMs的上下文長度限制以及視頻中信息量龐大,現有模型在處理長視頻時仍面臨挑戰。儘管一些最新方法專為長視頻理解設計,但它們在令牌壓縮過程中往往會丟失關鍵信息,並且難以處理如音頻等額外模態。在本研究中,我們提出了一種利用幀間時間關係的動態長視頻編碼方法,稱為時間動態上下文(TDC)。首先,我們根據幀間相似性將視頻分割為語義一致的場景,然後使用視覺-音頻編碼器將每幀編碼為令牌。其次,我們提出了一種新穎的時間上下文壓縮器,以減少每個片段內的令牌數量。具體而言,我們採用基於查詢的Transformer將視頻、音頻和指令文本令牌聚合為一組有限的時間上下文令牌。最後,我們將靜態幀令牌和時間上下文令牌輸入LLM進行視頻理解。此外,為處理極長視頻,我們提出了一種無需訓練的思維鏈策略,逐步從多個視頻片段中提取答案。這些中間答案作為推理過程的一部分,並有助於最終答案的形成。我們在通用視頻理解和音頻-視頻理解基準上進行了廣泛實驗,結果表明我們的方法表現出色。代碼和模型可在https://github.com/Hoar012/TDC-Video獲取。
視覺語言模型(VLMs)能夠處理多種格式的視覺與文本資訊:純文字、圖像、交錯的文本與圖像,甚至長達數小時的影片。在本研究中,我們針對使用不同輸入表徵的VLMs進行了細緻的定量與定性分析,以探討多模態演示的自動摘要生成。基於這些實驗,我們提出了在各種輸入長度限制下,利用VLMs從文本密集的多模態文件中生成摘要的成本效益策略。我們證明,從影片流中提取的幻燈片作為輸入,相比原始影片更具優勢,而交錯的幻燈片與轉錄文本的結構化表徵則能提供最佳性能。最後,我們反思並評論了多模態演示中跨模態互動的本質,並分享了提升VLMs理解此類文件能力的建議。
近期提出的遗忘Transformer(FoX)在softmax注意力机制中引入了遗忘门,其表现持续优于或与基于RoPE的标准Transformer相当。值得注意的是,FoX中的许多注意力头倾向于快速遗忘,使得它们在每个时间步的输出主要依赖于局部上下文。基于这一观察,我们为FoX提出了自适应计算剪枝(ACP)方法,该方法动态地剪除那些因遗忘门而大幅衰减的输入输出依赖关系所涉及的计算。这是通过动态设置的剪枝阈值实现的,确保被剪枝的注意力权重保持可忽略不计。我们将ACP应用于FoX的语言模型预训练中,结果显示,在不同模型规模和上下文长度下,softmax注意力机制中的浮点运算次数(FLOPs)均减少了约70%,训练吞吐量因此提升了大约10%至35%。此外,更长的上下文长度带来了更大的计算节省。所有这些速度提升均未导致性能下降。我们还进行了多项分析,以更深入地理解我们的方法,例如检查剪枝模式并分析不同注意力头之间的FLOP节省分布。我们的代码可在https://github.com/zhixuan-lin/arctic-fox 获取。
隨著圖像生成的成功,生成式擴散模型逐漸被應用於判別任務中,因為像素生成提供了一種統一的感知介面。然而,直接將生成式去噪過程重新用於判別目標時,暴露出了一些以往很少被解決的關鍵差距。生成模型如果最終分佈仍然合理,則可以容忍中間採樣錯誤,但判別任務則需要全程保持嚴格的準確性,這在具有挑戰性的多模態任務(如參考圖像分割)中尤為明顯。基於這一差距,我們分析並增強了生成式擴散過程與感知任務之間的對齊,重點關注去噪過程中感知質量的演變。我們發現:(1)早期的去噪步驟對感知質量的貢獻不成比例,這促使我們提出反映不同時間步貢獻的定制學習目標;(2)後期的去噪步驟顯示出意外的感知退化,這凸顯了對訓練-去噪分佈變化的敏感性,我們通過專門為擴散模型設計的數據增強來解決這一問題;(3)生成過程獨特地實現了交互性,作為可控的用戶介面,能夠在多輪交互中適應校正提示。我們的見解在不改變架構的情況下顯著改善了基於擴散的感知模型,在深度估計、參考圖像分割和通用感知任務中達到了最先進的性能。代碼可在 https://github.com/ziqipang/ADDP 獲取。
儘管卷積神經網絡(ConvNets)和視覺變換器(ViT)在變化檢測中頻繁使用,但它們都存在著眾所周知的侷限性:前者難以建模長距離依賴關係,而後者則計算效率低下,這使得它們在大規模數據集上的訓練變得具有挑戰性。基於狀態空間模型的視覺Mamba架構應運而生,作為一種替代方案,它解決了上述缺陷,並已應用於遙感變化檢測,儘管主要作為特徵提取的骨幹網絡。本文介紹了專門為變化檢測設計的變化狀態空間模型,該模型通過專注於雙時相圖像之間的相關變化,有效過濾掉不相關信息。通過僅關注變化的特徵,減少了網絡參數的數量,顯著提升了計算效率,同時保持了高檢測性能和對輸入退化的魯棒性。所提出的模型已在三個基準數據集上進行了評估,結果顯示其在計算複雜度僅為一小部分的情況下,性能優於ConvNets、ViTs以及基於Mamba的對比模型。該實現將在論文接受後於https://github.com/Elman295/CSSM公開。