每日精選AI研究論文及翻譯
圖形用戶界面(GUI)基礎映射將自然語言指令精確定位至界面位置,以實現自主交互。現有的強化學習方法採用二元獎勵,將界面元素視為命中或未命中的目標,產生的稀疏信號忽略了空間交互的連續性特徵。受人類點擊行為自然形成以目標元素為中心的高斯分佈啟發,我們引入了GUI高斯基礎獎勵(GUI-G^2),這是一種原則性的獎勵框架,將GUI元素建模為界面平面上的連續高斯分佈。GUI-G^2整合了兩種協同機制:高斯點獎勵通過以元素質心為中心的指數衰減分佈來精確定位,而覆蓋獎勵則通過測量預測高斯分佈與目標區域的重疊來評估空間對齊。為應對多樣化的元素尺度,我們開發了一種自適應方差機制,根據元素尺寸校準獎勵分佈。該框架將GUI基礎從稀疏的二元分類轉變為密集的連續優化,其中高斯分佈生成豐富的梯度信號,引導模型朝向最佳交互位置。在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro基準上的廣泛實驗表明,GUI-G^2顯著超越了最先進的方法UI-TARS-72B,在ScreenSpot-Pro上取得了最為顯著的24.7%提升。我們的分析揭示,連續建模提供了對界面變化的卓越魯棒性,並增強了對未見佈局的泛化能力,為GUI交互任務中的空間推理建立了新範式。
大型語言模型近期已從流暢的文本生成,進化至跨多領域的高級推理能力,催生了推理語言模型。在這些領域中,數學推理作為一個代表性基準,因其需要精確的多步邏輯與抽象推理,這些能力可泛化至其他任務。儘管如GPT-3等閉源RLM展現了令人印象深刻的推理能力,但其專有性質限制了透明度與可複現性。雖然許多開源項目旨在彌補這一差距,但大多數因省略了關鍵資源如數據集及詳細訓練配置,而缺乏足夠的開放性,阻礙了可複現性。為促進RLM開發的更高透明度,我們推出了MiroMind-M1系列,這是一組基於Qwen-2.5架構構建的完全開源RLM,其性能匹配或超越了現有開源RLM。具體而言,我們的模型分兩階段訓練:首先在精心挑選的719K數學推理問題語料庫上進行SFT(監督微調),這些問題附帶經過驗證的CoT(思維鏈)軌跡;隨後在62K具有挑戰性且可驗證的問題上進行RLVR(強化學習與驗證推理)。為增強RLVR過程的魯棒性與效率,我們引入了上下文感知多階段策略優化算法,該算法整合了長度漸進式訓練與自適應重複懲罰,以鼓勵上下文感知的RL訓練。我們的模型在AIME24、AIME25及MATH基準測試中,基於Qwen-2.5的開源7B與32B模型中,達到了業界領先或競爭力的性能,並展現出卓越的token效率。為促進可複現性,我們發布了完整的技術棧:包括模型(MiroMind-M1-SFT-7B、MiroMind-M1-RL-7B、MiroMind-M1-RL-32B)、數據集(MiroMind-M1-SFT-719K、MiroMind-M1-RL-62K)以及所有訓練與評估配置。我們希望這些資源能支持進一步研究,並推動社區的進步。
近期大型推理模型的進展凸顯了可驗證獎勵強化學習(RLVR)作為提升AI能力的一種有前景方法,特別是在解決複雜邏輯任務方面。然而,目前尚不清楚RLVR是否真正擴展了模型的推理邊界,還是僅僅放大了基礎模型已知的高獎勵輸出以提高精確度。本研究提供了理論與實證的雙重探討,為RLVR的潛在限制帶來了新的見解。首先,我們提出了一種新的理論觀點,認為RLVR受制於基礎模型的支持範圍——無法採樣初始概率為零的解決方案——並作為一種保守的重新加權機制,可能限制全新解決方案的發現。我們還識別了一種熵-獎勵權衡:儘管RLVR可靠地提升了精確度,但它可能逐漸縮小探索範圍,並可能忽視正確但代表性不足的解決方案。大量的實證實驗驗證了,雖然RLVR一致性地改善了pass@1,但在更大的採樣預算下,經驗支持的收縮通常超過了經驗支持的擴展,未能恢復基礎模型先前可訪問的正確答案。有趣的是,我們還觀察到,儘管RLVR有時增加了token層面的熵,導致每一步生成的不確定性增加,但答案層面的熵卻下降,表明這些看似更不確定的路徑最終收斂到更小的獨特答案集合。綜合來看,這些發現揭示了RLVR在擴展推理視野方面的潛在限制。打破這一無形的束縛可能需要未來的算法創新,如顯式探索機制或將概率質量播種到代表性不足的解決方案區域的混合策略。
生成模型的最新進展使得圖像編輯助手能夠遵循自然語言指令而無需額外的用戶輸入。其監督訓練需要數以百萬計的三元組:原始圖像、指令、編輯後的圖像。然而,挖掘像素級精確的示例十分困難。每次編輯必須僅影響指令指定的區域,保持風格的一致性,尊重物理合理性,並保留視覺吸引力。缺乏穩健的自動化編輯質量指標,阻礙了大規模的可靠自動化。我們提出了一個自動化、模塊化的流程,該流程跨領域、分辨率、指令複雜性和風格挖掘高保真度的三元組。基於公開的生成模型並在無人干預的情況下運行,我們的系統使用任務定制的Gemini驗證器直接評分指令遵循度和美學,無需任何分割或基礎模型。反演和組合引導將挖掘的集合擴大了約2.2倍,從而實現了大規模的高保真度訓練數據。通過自動化最重複的註釋步驟,該方法允許在沒有人工標籤工作的情況下進行新規模的訓練。為了使這一資源密集型領域的研究民主化,我們發布了NHR-Edit:一個包含358k高質量三元組的開放數據集。在最大的跨數據集評估中,它超越了所有公開的替代方案。我們還發布了Bagel-NHR-Edit,一個開源的微調Bagel模型,它在我們的實驗中達到了最先進的指標。
大型語言模型(LLM)驅動的代理的出現,通過基於網絡的信息搜索(IS)能力解決複雜開放式任務,徹底革新了人工智能領域。高質量訓練數據的稀缺性限制了IS代理的發展。現有方法通常採用信息驅動的範式,即先收集網絡數據,然後基於檢索生成問題。然而,這可能導致信息結構與推理結構、問題與答案之間的不一致。為緩解這一問題,我們提出了一個形式化驅動的IS數據合成框架WebShaper來構建數據集。WebShaper通過集合論系統地形式化IS任務。形式化的核心是知識投影(KP)概念,它通過KP操作組合實現對推理結構的精確控制。在合成過程中,我們首先創建種子任務,然後使用多步擴展流程。在每一步中,基於我們的形式化,一個代理擴展器利用檢索和驗證工具將當前形式化問題擴展得更為複雜。我們在合成數據集上訓練模型。實驗結果表明,WebShaper在GAIA和WebWalkerQA基準測試中,在開源IS代理中達到了最先進的性能。
我們報告了在構建通用機器人策略方面的最新進展,即GR-3的開發。GR-3是一個大規模的視覺-語言-動作(VLA)模型。它展示了在泛化到新物體、環境及涉及抽象概念的指令方面具有卓越能力。此外,它能夠通過最少的人類軌跡數據進行高效微調,從而實現快速且經濟高效地適應新環境。GR-3在處理長期視野和精細任務方面也表現出色,包括需要雙手機器人操作和移動的任務,展現了強健且可靠的性能。這些能力是通過多方面的訓練方案實現的,包括與網絡規模的視覺-語言數據共同訓練、通過VR設備收集的人類軌跡數據進行高效微調,以及利用機器人軌跡數據進行有效的模仿學習。此外,我們還介紹了ByteMini,這是一款多功能雙手機器人,設計上具有卓越的靈活性和可靠性,當與GR-3集成時,能夠完成廣泛的任務。通過大量的現實世界實驗,我們展示了GR-3在多種具有挑戰性的任務上超越了最先進的基線方法pi_0。我們希望GR-3能夠作為邁向構建能夠協助人類日常生活的通用機器人的一步。
視頻對象分割(Video Object Segmentation, VOS)是計算機視覺中的一項核心任務,要求模型能夠在視頻幀間追蹤並分割目標對象。儘管近期研究取得了顯著進展,現有技術在處理劇烈的視覺變化、遮擋及複雜場景變換時仍遜色於人類能力。這一侷限性源於它們依賴於外觀匹配,而忽視了人類對物件的概念性理解,這種理解能夠在時間動態中實現穩健的識別。基於這一差距,我們提出了Segment Concept(SeC),這是一個概念驅動的分割框架,它從傳統的特徵匹配轉向逐步構建並利用高層次、以對象為中心的表徵。SeC利用大型視覺-語言模型(Large Vision-Language Models, LVLMs)整合跨多樣幀的視覺線索,構建穩健的概念先驗。在推理過程中,SeC基於已處理幀形成目標的全面語義表徵,實現對後續幀的穩健分割。此外,SeC自適應地平衡了基於LVLM的語義推理與增強的特徵匹配,根據場景複雜度動態調整計算投入。為了嚴格評估在需要高層次概念推理和穩健語義理解場景下的VOS方法,我們引入了語義複雜場景視頻對象分割基準(Semantic Complex Scenarios Video Object Segmentation benchmark, SeCVOS)。SeCVOS包含160個手工標註的多場景視頻,旨在通過顯著的外觀變化和動態場景轉換來挑戰模型。特別地,SeC在SeCVOS上相比SAM 2.1提升了11.8個百分點,在概念感知的視頻對象分割領域樹立了新的標杆。
近期在3D神經表示和實例級編輯模型方面的進展,使得高效創建高質量3D內容成為可能。然而,實現精確的局部3D編輯仍然具有挑戰性,特別是對於高斯潑濺技術而言,這是由於多視角2D部件分割的不一致性以及分數蒸餾採樣(SDS)損失固有的模糊性所致。為解決這些限制,我們提出了RoMaP,一種新穎的局部3D高斯編輯框架,能夠實現精確且大幅度的部件級修改。首先,我們引入了一個基於3D幾何感知標籤預測(3D-GALP)的魯棒3D掩碼生成模塊,該模塊利用球諧函數(SH)係數來建模視角依賴的標籤變化和軟標籤屬性,從而生成跨視角準確且一致的部件分割。其次,我們提出了一種正則化的SDS損失,它將標準SDS損失與額外的正則化項相結合。特別是,通過我們的計劃潛在混合與部件(SLaMP)編輯方法引入了L1錨定損失,該方法生成高質量的部件編輯2D圖像,並將修改限制在目標區域內,同時保持上下文一致性。額外的正則化項,如高斯先驗移除,通過允許超出現有上下文的變化進一步提高了靈活性,而魯棒的3D掩碼則防止了意外編輯。實驗結果表明,我們的RoMaP在重建和生成的高斯場景及物體上,無論是定性還是定量,都實現了最先進的局部3D編輯,使得更為魯棒和靈活的部件級3D高斯編輯成為可能。代碼可在https://janeyeon.github.io/romap獲取。
我們推出了Being-H0,這是一個基於大規模人類視頻訓練的靈巧視覺-語言-動作模型(VLA)。現有的VLA在處理需要高度靈巧性的複雜操作任務時表現不佳,並且在新場景和任務中的泛化能力較差,這主要歸因於它們依賴於存在顯著模擬到現實差距的合成數據或缺乏規模和多樣性的遙控演示。為了解決這一數據瓶頸,我們提出利用人類手部作為基礎操作器,充分利用網絡數據中豐富的靈巧性和可擴展性。我們的方法圍繞物理指令調優這一新穎的訓練範式展開,該範式結合了從人類視頻中進行的大規模VLA預訓練、用於三維推理的物理空間對齊,以及針對機器人任務的訓練後適應。此外,我們引入了一種部件級運動標記化方法,該方法實現了毫米級的重建精度,以建模精確的手部軌跡進行動作學習。為了支持我們提出的範式,我們進一步開發了一個全面的數據整理流程,該流程整合了多種來源——包括動作捕捉、虛擬現實和僅RGB視頻——形成了一個包含數百萬基於運動的指令實例的大規模數據集。我們通過實驗展示了Being-H0在手部運動生成和指令跟隨方面的卓越表現,並且它在模型和數據規模上的擴展性良好。重要的是,我們觀察到Being-H0在實際機器人操作中應用了物理指令調優後所帶來的預期增益。更多詳情請訪問https://beingbeyond.github.io/Being-H0。
語音語言模型(SLMs)旨在接收語音輸入並產生語音回應。然而,現有的SLMs缺乏在回應前進行內部無聲思考的能力。相比之下,人類通常會在內部進行複雜的心理推理,從而能夠清晰簡潔地表達想法。因此,將無聲思考過程整合到SLMs中是非常理想的。雖然在開始說話前單純生成完整的思維鏈(CoT)推理可以讓SLMs進行思考,但這會增加語音回應的延遲,因為CoT推理可能任意長。為了解決這個問題,我們提出了Stitch,這是一種新穎的生成方法,它在生成無聲推理片段和語音回應片段之間交替進行。由於一段語音回應的音頻持續時間遠長於生成該語音回應片段所需的時間,我們利用剩餘的空閒時間來生成無聲推理片段。當一段音頻播放給用戶時,模型繼續生成下一個無聲推理片段,實現了同時思考和說話。值得注意的是,Stitch在設計上無法生成無聲CoT的基線模型的延遲相匹配,同時在數學推理數據集上比這些基線模型高出15%;Stitch在非推理數據集上的表現也與這些基線模型相當。一些動畫和演示可在項目頁面上查看:https://d223302.github.io/STITCH。
我們構建了一系列評估任務,其中延長大型推理模型(LRMs)的推理長度會導致性能下降,展現出測試時計算量與準確性之間的反向比例關係。這些評估任務涵蓋四個類別:帶有干擾項的簡單計數任務、含有虛假特徵的回歸任務、需跟蹤約束條件的演繹推理任務,以及高級人工智能風險評估。我們識別出模型在進行更長推理時的五種不同失效模式:1)Claude模型對無關信息的注意力逐漸分散;2)OpenAI o系列模型雖能抵抗干擾,但過度擬合問題框架;3)模型從合理的先驗轉向虛假相關性;4)所有模型在處理複雜演繹任務時均表現出難以保持專注;5)延長推理可能加劇令人擔憂的行為,如Claude Sonnet 4表現出增強的自我保護表達。這些發現表明,儘管測試時計算量的擴展對於提升模型能力仍具潛力,但它可能無意中強化有問題的推理模式。我們的結果強調了在不同推理長度下評估模型的重要性,以便識別並解決LRMs中的這些失效模式。
三維高斯濺射(3DGS)在新視角合成(NVS)任務中展現了其細膩的表達能力和高效的渲染速度。然而,在逆向渲染的應用中仍面臨諸多挑戰,因為高斯基元的離散特性使得幾何約束難以施加。近期研究引入了有符號距離場(SDF)作為額外的連續表示,以規範由高斯基元定義的幾何形狀,這雖然提升了分解質量,卻以增加記憶體使用和複雜化訓練為代價。與這些工作不同,我們提出了一種離散化的SDF,通過在每個高斯內部編碼採樣值來以離散方式表示連續SDF。這種方法使我們能夠通過SDF到不透明度的轉換將SDF與高斯不透明度相聯繫,從而實現通過濺射渲染SDF,避免了光線步進的計算成本。關鍵挑戰在於規範離散樣本與底層SDF的一致性,因為離散表示難以應用基於梯度的約束(如Eikonal損失)。為此,我們將高斯投影到SDF的零水平集上,並強制其與濺射產生的表面對齊,即基於投影的一致性損失。得益於離散化的SDF,我們的方法在無需額外記憶體(超越GS)且避免複雜手動設計優化的情況下,實現了更高的重光照質量。實驗表明,我們的方法優於現有的基於高斯的逆向渲染方法。我們的代碼可在https://github.com/NK-CS-ZZL/DiscretizedSDF獲取。
人類智能要求正確性和魯棒性,其中前者是後者的基礎。在視頻理解中,正確性確保了對視覺內容的準確解讀,而魯棒性則保證了在挑戰性條件下的一致性能。儘管視頻大語言模型(video LLMs)取得了進展,現有的基準測試未能充分反映這些模型與人類智能在保持視頻解讀正確性和魯棒性方面的差距。我們引入了視頻思維測試(Video-TT),以評估視頻LLMs是否能像人類一樣有效地解讀真實世界的視頻。Video-TT反映了在理解複雜視覺敘事方面的真實差距,並評估了對抗自然對抗性問題的魯棒性。Video-TT包含1,000個YouTube Shorts視頻,每個視頻配有一個開放式問題和四個對抗性問題,這些問題探討了視覺和敘事的複雜性。我們的評估顯示,視頻LLMs與人類表現之間存在顯著差距。
基於可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLMs)推理能力的有效後訓練方法,主要通過塑造如反思和規劃等高階行為來實現。然而,以往的RLVR算法通常對所有詞元施加統一的訓練信號,未考慮低熵知識相關詞元與高熵推理相關詞元的不同角色。一些近期方法嘗試通過梯度遮罩或異步更新來區分這些詞元類型,但這些做法可能破壞模型輸出中的語義依賴,阻礙有效學習。在本研究中,我們提出了Archer,一種具有雙重詞元約束和同步更新的熵感知RLVR方法。具體而言,我們的方法對推理詞元應用較弱的KL正則化和較高的裁剪閾值以鼓勵探索,同時對知識詞元施加更強的約束以保持事實知識。在多個數學推理和代碼生成基準上的實驗結果表明,我們的方法顯著優於先前的RLVR方法,在同等規模模型中達到或超越了最先進的性能。代碼可於https://github.com/wizard-III/ArcherCodeR 獲取。
大型語言模型(LLMs)驅動的智能代理迅速崛起,凸顯了建立堅固且可擴展評估框架的迫切需求。現有方法依賴於靜態基準測試及耗時費力的數據收集,限制了實際評估的可行性。我們推出\oursystemname,這是一個基於模型上下文協議(MCP)的開源框架,它自動化地實現了跨多領域LLM代理的端到端任務生成與深度評估。MCPEval標準化了評估指標,無縫整合了原生代理工具,並消除了構建評估管道的手動操作。在五個現實領域的實證結果顯示,其在揭示細膩、領域特定性能方面的有效性。我們公開釋出MCPEval(https://github.com/SalesforceAIResearch/MCPEval),以促進可重現且標準化的LLM代理評估。
影片生成模型在創造高品質、逼真內容方面取得了顯著進展。然而,它們準確模擬物理現象的能力仍然是一個關鍵且未解決的挑戰。本文提出了PhyWorldBench,這是一個全面的基準測試,旨在根據影片生成模型對物理定律的遵循程度進行評估。該基準涵蓋了多層次的物理現象,從物體運動和能量守恆等基本原則,到涉及剛體互動以及人類或動物運動的更複雜場景。此外,我們引入了一個新穎的「反物理」類別,其中提示故意違反現實世界的物理定律,從而能夠評估模型在遵循此類指令的同時是否仍能保持邏輯一致性。除了大規模的人類評估外,我們還設計了一種簡單而有效的方法,可以利用當前的多模態大語言模型(MLLM)以零樣本方式評估物理真實性。我們評估了12個最先進的文字到影片生成模型,包括五個開源模型和五個專有模型,並進行了詳細的比較和分析。通過對這些模型在1,050個精心設計的提示(涵蓋基本、複合和反物理場景)中的輸出進行系統測試,我們識別出這些模型在遵循現實世界物理定律時面臨的關鍵挑戰。隨後,我們嚴格檢驗了它們在不同提示類型下對多樣物理現象的表現,並得出了針對性的建議,以提升提示設計對物理原則的忠實度。
從影片中感知並重建四維時空幾何是一項基礎但具挑戰性的電腦視覺任務。為促進互動與即時應用,我們提出了一種流式四維視覺幾何變換器,其理念與自回歸大型語言模型相似。我們探索了一種簡潔高效的設計,採用因果變換器架構以線上方式處理輸入序列。我們使用時間因果注意力機制,並將歷史鍵值對作為隱含記憶進行快取,從而實現高效的流式長期四維重建。此設計能夠通過逐步整合歷史資訊來處理即時四維重建,同時保持高質量的空間一致性。為實現高效訓練,我們提出從密集雙向視覺幾何基礎變換器(VGGT)中蒸餾知識至我們的因果模型。在推理階段,我們的模型支持從大型語言模型領域遷移優化的高效注意力算子(如FlashAttention)。在多項四維幾何感知基準上的廣泛實驗表明,我們的模型在線上場景中提升了推理速度,同時保持了競爭力的性能,為可擴展且互動的四維視覺系統鋪平了道路。程式碼可於以下網址取得:https://github.com/wzzheng/StreamVGGT。
多轮问题解决对于大型推理模型(LRMs)而言至关重要,却也是一大挑战,要求其能够反思自身推理过程并根据反馈进行修正。现有的强化学习(RL)方法在单轮范式下训练大型推理模型,依赖于可验证的奖励机制。然而,我们观察到,采用现有RL范式训练的模型往往丧失在多轮中解决问题的能力,难以根据上下文反馈修正答案,导致重复性回应。我们提出疑问:LRMs能否学会在多轮情境下反思其答案?本研究中,我们发现,仅通过错误答案后的单一反馈(如“让我们再试一次”)进行多轮RL训练,不仅能提升单轮表现,还能增强多轮推理能力。我们引入了“单一反馈作为观察”(UFO)的强化学习策略,该策略在迭代问题解决过程中利用最小化但常见的单一用户反馈,并易于应用于现有的单轮RL训练框架。实验结果表明,结合UFO的RL训练保持了单轮性能,并将多轮推理准确率提升高达14%,使语言模型在多轮问题解决中能更好地响应反馈。为了进一步减少获得正确答案所需的轮次,同时鼓励在错误发生时进行多样化推理,我们设计了奖励结构,引导模型在每一轮中给出谨慎且深思熟虑的答案。代码详见:https://github.com/lichengliu03/unary-feedback
儘管視覺分詞器在生成模型中扮演著基礎角色,但究竟哪些特性能使其在生成建模中更為有效,目前仍不明確。我們觀察到,現代生成模型在訓練目標上具有概念上的相似性——即從被破壞的輸入(如高斯噪聲或遮罩)中重建乾淨信號,這一過程我們稱之為去噪。基於這一洞見,我們提出將分詞器嵌入直接與下游的去噪目標對齊,促使潛在嵌入即使在嚴重破壞的情況下也能更容易地被重建。為實現這一目標,我們引入了潛在去噪分詞器(l-DeTok),這是一種簡單而有效的分詞器,專門訓練用於從被插值噪聲和隨機遮罩破壞的潛在嵌入中重建乾淨圖像。在ImageNet 256x256上的大量實驗表明,我們的分詞器在六種代表性生成模型中均一致優於標準分詞器。我們的研究結果強調了去噪作為分詞器開發的基礎設計原則,並希望這能激發未來分詞器設計的新視角。
儘管機器學習已通過大規模並行化取得進展,我們發現了一個關鍵盲點:某些問題本質上是順序性的。這些“固有序列”問題——從數學推理到物理模擬再到序列決策——需要依賴性的計算步驟,這些步驟無法並行化。借鑒複雜性理論,我們形式化了這一區分,並證明當前的並行中心架構在此類任務上面臨根本性限制。我們認為,認識到計算的序列性質對機器學習、模型設計和硬件開發具有深遠影響。隨著人工智能處理日益複雜的推理,有意擴展序列計算——而不僅僅是並行計算——對於持續進步至關重要。
我們提出了LLM經濟學家,這是一個新穎的框架,利用基於代理的建模來設計和評估在具有層次決策的戰略環境中的經濟政策。在較低層次,有限理性的工人代理——實例化為從美國人口普查校準的收入和人口統計數據中抽樣的角色條件提示——選擇勞動供給以最大化在上下文中學習的基於文本的效用函數。在較高層次,一個規劃者代理採用上下文強化學習來提出與當前美國聯邦稅率級距掛鉤的分段線性邊際稅率表。這種構造賦予經濟模擬三種進行可信財政實驗所必需的能力:(i) 異質效用的優化,(ii) 原則性地生成大規模、人口統計上真實的代理群體,以及 (iii) 完全以自然語言表達的機制設計——最終的助推問題。在最多一百個互動代理的群體中進行的實驗表明,規劃者收斂於相對於Saez解決方案改善總體社會福利的斯塔克爾伯格均衡,而週期性的角色層次投票程序在分散治理下進一步提升了這些收益。這些結果表明,基於大型語言模型的代理能夠共同建模、模擬和治理複雜的經濟系統,為社會規模的政策評估提供了一個易於處理的測試平台,以幫助建設更好的文明。
生成连贯的长视频是一项复杂的挑战:尽管基于扩散的生成模型能够生成视觉上令人印象深刻的短片,但将其扩展至更长时长时,常会遇到内存瓶颈和长期一致性问题。本文提出了一种新颖的两阶段框架——TokensGen,通过利用压缩的标记来解决这些问题。我们的方法将长视频生成分解为三个核心任务:(1) 片段内语义控制,(2) 长期一致性控制,以及(3) 片段间平滑过渡。首先,我们训练了To2V(Token-to-Video),这是一个由文本和视频标记引导的短片扩散模型,并配备了一个视频标记器,将短片压缩为富含语义的标记。其次,我们引入了T2To(Text-to-Token),这是一个视频标记扩散变换器,能够一次性生成所有标记,确保跨片段的全局一致性。最后,在推理阶段,采用自适应FIFO-Diffusion策略无缝连接相邻片段,减少边界伪影并增强过渡的平滑性。实验结果表明,我们的方法在不引入过高计算开销的情况下,显著提升了长期时间和内容的一致性。通过利用压缩标记和预训练的短片模型,我们的方法为长视频生成提供了一个可扩展、模块化的解决方案,为叙事、电影制作和沉浸式模拟开辟了新的可能性。详情请访问我们的项目页面:https://vicky0522.github.io/tokensgen-webpage/。
在特定任務的小規模數據上進行持續預訓練是提升大型語言模型在新目標領域表現的有效方法,但這可能導致其原有能力的災難性遺忘。常見的解決方案是根據領域空間重新權衡源領域和目標領域的訓練數據混合比例,以實現平衡的性能。以往的領域重新權衡策略依賴於基於人類直覺或經驗結果的手動指定啟發式方法。在本研究中,我們證明了更通用的啟發式方法可以通過參數化來實現,提出了數據混合代理(Data Mixing Agent),這是首個基於模型的端到端框架,能夠學習如何重新權衡領域。該代理通過強化學習在大量數據混合軌跡及其對應的評估環境反饋中學習可泛化的啟發式方法。在數學推理的持續預訓練實驗中,數據混合代理在源領域和目標領域基準測試中實現平衡性能方面超越了強基線。此外,它在未見過的源領域、目標模型和領域空間中表現出良好的泛化能力,無需重新訓練。直接應用於代碼生成領域也顯示了其在跨目標領域的適應性。進一步分析展示了代理的啟發式方法與人類直覺的高度一致性,以及其在用更少的源領域數據實現更優模型性能方面的效率。
評估基於大型語言模型的代理在科學發現方面的能力,尤其是它們如何應對不同環境複雜性並利用先驗知識,目前尚缺乏專門的基準測試。為填補這一空白,我們引入了PhysGym,這是一個新穎的基準測試套件和模擬平台,旨在嚴格評估基於大型語言模型的科學推理在互動物理環境中的表現。PhysGym的主要貢獻在於其對提供給代理的先驗知識水平的精細控制。這使得研究人員能夠沿著問題複雜性和先驗知識水平等軸線剖析代理的表現。該基準測試包含一系列互動模擬,其中代理必須主動探測環境,在約束下順序收集數據,並對潛在的物理定律提出假設。PhysGym提供了標準化的評估協議和指標,用於評估假設的準確性和模型的保真度。我們通過展示基線大型語言模型的結果,展示了該基準測試在基於不同先驗知識和任務複雜性區分能力方面的實用性。
跨視角定位,即通過對齊地面圖像與衛星圖像來估計相機的三自由度(3-DoF)姿態,對於大規模戶外應用如自主導航和增強現實至關重要。現有方法通常依賴於全監督學習,這需要昂貴的真實姿態標註。在本研究中,我們提出了GeoDistill,這是一個幾何引導的弱監督自蒸餾框架,它利用基於視場角(FoV)的掩碼進行師生學習,以增強局部特徵學習,從而實現魯棒的跨視角定位。在GeoDistill中,教師模型定位全景圖像,而學生模型則從通過FoV掩碼生成的有限視場圖像中預測位置。通過將學生的預測與教師的預測對齊,學生專注於關鍵特徵如車道線,並忽略無紋理區域如道路。這導致了無論查詢圖像是全景還是有限視場圖像,都能獲得更加精確的預測和降低的不確定性。我們的實驗表明,GeoDistill在不同框架下顯著提升了定位性能。此外,我們引入了一種新穎的方向估計網絡,它無需精確的平面位置真值即可預測相對方向。GeoDistill為現實世界中的跨視角定位挑戰提供了一個可擴展且高效的解決方案。代碼和模型可在https://github.com/tongshw/GeoDistill找到。
精確分類計算機斷層掃描(CT)影像對於診斷與治療規劃至關重要,然而現有方法往往難以應對病理特徵的細微性與空間多樣性。當前方法通常對影像進行均一化處理,限制了其檢測需重點分析的局部異常的能力。我們提出了UGPL,一種基於不確定性引導的漸進學習框架,該框架通過首先識別診斷模糊區域,隨後對這些關鍵區域進行細緻檢查,實現了從全局到局部的分析。我們的方法採用證據深度學習來量化預測不確定性,通過非極大值抑制機制引導信息豐富的圖塊提取,保持空間多樣性。這一漸進式精煉策略與自適應融合機制相結合,使UGPL能夠整合上下文信息與細粒度細節。在三個CT數據集上的實驗表明,UGPL在腎臟異常、肺癌及COVID-19檢測的準確率上分別提升了3.29%、2.46%和8.08%,持續超越現有最先進方法。我們的分析顯示,不確定性引導組件帶來了顯著效益,當完整實施漸進學習流程時,性能顯著提升。我們的代碼已公開於:https://github.com/shravan-18/UGPL。
大型语言模型(LLMs)在编程任务上展现了强大的性能,但它们能否生成如真实学生般不完美、迭代且风格多样的“学生式”代码?我们提出了ParaStudent,这是一项在入门编程课程背景下对基于LLM的“学生式”代码生成进行的系统性研究。利用跨多个学期的时间戳学生提交数据集,我们设计了低分辨率与高分辨率实验,以模拟学生进展并沿语义、功能及风格维度评估代码输出。我们的结果表明,微调显著提升了与真实学生学习轨迹的契合度,并更忠实地捕捉了错误模式、渐进式改进及风格变化。本研究揭示,模拟真实学生代码需通过上下文感知生成、时序建模及多维度评估来捕捉学习动态。实验与评估代码可在https://github.com/mmiroyan/ParaStudent获取。