每日精選AI研究論文及翻譯
儘管視覺-語言-動作(VLA)模型在各種機器人任務上取得了近期的進展,但由於完全依賴從成功的運行中進行行為複製,因此它們存在著一些關鍵問題,例如對未見過任務的泛化能力不佳。此外,它們通常被微調以複製專家在不同環境下收集的示範,進而引入分佈偏差,限制其適應各種操作目標,如效率、安全性和任務完成。為彌合這一差距,我們引入了GRAPE:通過偏好對齊來泛化機器人策略。具體而言,GRAPE在軌跡級別上對齊VLA,並從成功和失敗的試驗中隱式地建模獎勵,以提高對各種任務的泛化能力。此外,GRAPE將複雜的操作任務分解為獨立階段,並通過大型視覺-語言模型提出的關鍵點自動引導偏好建模,並通過自定義的時空約束。值得注意的是,這些約束是靈活的,可以根據不同目標(如安全性、效率或任務成功)來自定義,以對齊模型。我們在真實世界和模擬環境中對GRAPE進行了各種任務的評估。實驗結果表明,GRAPE提升了最先進的VLA模型的性能,使其在領域內和未見過的操作任務上的成功率分別提高了51.79%和60.36%。此外,GRAPE可以與各種目標(如安全性和效率)對齊,將碰撞率降低了44.31%,將運行步長縮短了11.15%。所有代碼、模型和數據均可在https://grape-vla.github.io/ 上獲得。
影片深度估計通過推斷每個幀的密集深度,將單眼影片提升至3D。最近單張圖像深度估計的進展,由於大型基礎模型的崛起和合成訓練數據的使用,引發了對影片深度的重新興趣。然而,將單張圖像深度估計器天真地應用於影片的每一幀中,忽略了時間連貫性,這不僅導致閃爍,還可能在攝像機運動導致深度範圍突然變化時出現問題。一個明顯且合理的解決方案是基於影片基礎模型進行擴展,但這些模型也有其局限性,包括昂貴的訓練和推斷成本、不完美的3D一致性,以及固定長度(短)輸出的拼接程序。我們退後一步,展示如何將單張圖像潛在擴散模型(LDM)轉換為最先進的影片深度估計器。我們的模型名為RollingDepth,主要包含兩個要素:(i) 從單張圖像LDM導出的多幀深度估計器,將非常短的影片片段(通常是幀三元組)映射到深度片段。(ii) 一個強大的基於優化的註冊算法,將以不同幀率採樣的深度片段最佳地組合回一個一致的影片。RollingDepth能夠高效處理包含數百幀的長影片,並提供比專用影片深度估計器和高性能單幀模型更準確的深度影片。項目頁面:rollingdepth.github.io。
在上下文學習(ICL)中,大型語言模型(LLMs)通過複雜的提示和高質量的示範來應對下游任務。然而,傳統的ICL範式在面對複雜的數學推理任務時存在局限性,主要是由於其對示例質量的重度依賴以及在具有挑戰性情境下需要人類干預。為了應對這些限制,本文提出了HiAR-ICL,一種高級自動推理範式在ICL中,將焦點從具體示例轉移到抽象思維模式,擴展了ICL中的傳統上下文概念。HiAR-ICL引入了五種原子推理行為作為構建鏈狀模式的基本組件。通過蒙特卡洛樹搜索,我們探索推理路徑並構建思維卡,以引導後續推理。然後,我們開發了一個動態匹配問題與適當思維卡的認知複雜性框架。實驗結果表明HiAR-ICL的有效性,在MATH基準測試中以Qwen2.5-7B-Instruct實現了最先進的準確性(79.6%),超越了GPT-4o(76.6%)和Claude 3.5(71.1%)。
近年來,通用多模態大型語言模型(MLLMs)的快速發展備受矚目。然而,將通用MLLMs調整至特定領域,如科學領域和工業應用,仍未被深入探討。本文系統地研究了通過後訓練進行MLLMs領域適應的方法,重點關注數據合成、訓練流程和任務評估。(1)數據合成:利用開源模型,我們開發了一個視覺指導合成器,有效地從特定領域的圖像說明對生成多樣化的視覺指導任務。我們的合成任務在增強MLLMs的特定領域性能方面超越了通過手動規則、GPT-4和GPT-4V生成的任務。(2)訓練流程:雖然兩階段訓練——首先是圖像說明對,然後是視覺指導任務——通常用於開發通用MLLMs,但我們應用單階段訓練流程來增強特定領域後訓練的任務多樣性。(3)任務評估:我們在生物醫學和食品兩個領域進行實驗,通過後訓練不同來源和規模的MLLMs(例如Qwen2-VL-2B、LLaVA-v1.6-8B、Llama-3.2-11B),然後評估MLLM在各種特定領域任務上的表現。為支持MLLM領域適應的進一步研究,我們將開源我們的實現。
本技術報告介紹了我們最新的旗艦大型語言模型(LLM)Yi-Lightning。它在Chatbot Arena上取得卓越表現,總排名第6,特別在中文、數學、編碼和難題等專業類別中表現強勁(排名第2至第4)。Yi-Lightning利用增強的專家混合(MoE)架構,具備先進的專家分割和路由機制,結合優化的KV緩存技術。我們的開發過程包括全面的預訓練、監督微調(SFT)和從人類反饋中學習的強化學習(RLHF),我們制定了多階段訓練、合成數據構建和獎勵建模的策略。此外,我們實施了RAISE(負責任AI安全引擎),一個包含四個組件的框架,以應對預訓練、後訓練和服務階段的安全問題。在我們可擴展的超級計算基礎設施的支持下,所有這些創新大幅降低了訓練、部署和推斷成本,同時保持高性能標準。通過對公共學術基準測試的進一步評估,Yi-Lightning展示了與頂尖LLM相比的競爭性表現,同時我們觀察到傳統、靜態基準結果與現實、動態人類偏好之間明顯的差異。這一觀察促使對傳統基準在引導更智能、更強大的AI系統應用開發中的實用性進行重要重新評估。Yi-Lightning現在可通過我們的開發者平台https://platform.lingyiwanwu.com提供。
擴散模型已成為生成高品質圖像、影片和3D內容的強大工具。儘管像CFG這樣的採樣引導技術可以提高品質,但會降低多樣性和動態效果。自動引導可以緩解這些問題,但需要額外的弱模型訓練,限制了其在大規模模型上的實用性。在這項工作中,我們引入了時空跳躍引導(STG),這是一種簡單的無需訓練的採樣引導方法,用於增強基於Transformer的視頻擴散模型。STG通過自我擾動使用隱式的弱模型,避免了對外部模型或額外訓練的需求。通過有選擇性地跳過時空層,STG生成原始模型的對齊、降級版本,以提高樣本質量,同時不影響多樣性或動態程度。我們的貢獻包括:(1)將STG引入作為一種高效、高性能的視頻擴散模型引導技術,(2)通過模擬弱模型進行層跳躍,消除了對輔助模型的需求,(3)確保增強質量的引導,而不像CFG那樣影響樣本的多樣性或動態效果。欲獲取更多結果,請訪問https://junhahyung.github.io/STGuidance。
反向思考在人類推理中扮演著至關重要的角色。人類不僅可以從問題到解決方案進行推理,還可以反向思考,即從解決方案開始並朝著問題進行推理。這通常能提升整體推理表現,因為它使得前向和後向思維之間的一致性檢查成為可能。為了讓大型語言模型(LLMs)能夠進行反向思考,我們引入了一個稱為Reverse-Enhanced Thinking(RevThink)的框架,由資料擴增和學習目標組成。在RevThink中,我們通過從教師模型中收集結構化的前向-後向推理來擴增數據集,該教師模型包括:(1)原始問題,(2)前向推理,(3)後向問題和(4)後向推理。然後,我們使用三個目標來以多任務學習的方式訓練一個較小的學生模型:(a)從問題生成前向推理,(b)從問題生成後向問題,以及(c)從後向問題生成後向推理。在涵蓋常識、數學和邏輯推理的12個數據集上進行的實驗表明,相對於學生模型的零-shot表現,我們的方法平均提高了13.53%,並且比最強的知識蒸餾基線模型提高了6.84%。此外,我們的方法展現了樣本效率 - 僅使用訓練數據中正確前向推理的10%,就優於在10倍更多前向推理上訓練的標準微調方法。RevThink還展現了對於分布之外的保留數據集的強大泛化能力。
作為視頻生成的基本支柱,擴散模型因去噪的序列性質而面臨低推理速度的挑戰。先前的方法通過在均勻選擇的時間步驟緩存並重複使用模型輸出來加快模型速度。然而,這種策略忽略了模型輸出在不同時間步驟之間的差異並不均勻的事實,這妨礙了選擇適當的模型輸出進行緩存,導致推理效率和視覺質量之間的平衡不佳。在本研究中,我們引入了「時間步嵌入感知緩存」(TeaCache),這是一種無需訓練的緩存方法,它估計並利用模型輸出在不同時間步驟之間波動的差異。TeaCache不直接使用耗時的模型輸出,而是專注於具有與模型輸出強烈相關性的模型輸入,同時幾乎不帶來計算成本。TeaCache首先使用時間步嵌入調節噪聲輸入,以確保它們的差異更好地近似模型輸出的差異。然後,TeaCache引入一種重新縮放策略來優化估計的差異,並利用它們來指示輸出緩存。實驗表明,TeaCache相對於Open-Sora-Plan實現了高達4.41倍的加速,同時視覺質量幾乎沒有下降(-0.07%的Vbench分數)。
大型語言模型(LLMs)展示了卓越的能力,但在推論過程中高計算成本限制了它們的應用。增加參數數量可提高準確性,但也擴大了最先進功能與實際部署能力之間的差距。我們提出了Puzzle框架,用於在特定硬體上加速LLM推論,同時保留其能力。通過在前所未有的規模上創新應用神經架構搜索(NAS),Puzzle系統地優化了在硬體限制下擁有數百億參數的模型。我們的方法利用區塊式本地知識蒸餾(BLD)進行並行架構探索,並採用混合整數規劃進行精確的限制優化。 我們通過Llama-3.1-Nemotron-51B-Instruct(Nemotron-51B)展示了我們框架的現實影響,這是一個從Llama-3.1-70B-Instruct衍生出的公開模型。 Nemotron-51B實現了2.17倍的推論吞吐量加速,在單個NVIDIA H100 GPU上運行,同時保留了原始模型98.4%的能力。 Nemotron-51B目前是最準確的語言模型之一,能夠在單個GPU上進行推論,並支持大批量大小。值得注意的是,這種轉變僅需要45B的訓練標記,而70B模型需要超過15T的標記。這樹立了一個新的範式,即強大的模型可以經過優化以實現高效部署,同時僅對其能力進行微不足道的妥協,這表明推論性能,而不僅僅是參數數量,應該引導模型選擇。隨著Nemotron-51B的發布和Puzzle框架的展示,我們為從業者提供了立即獲取最先進語言建模能力的機會,並大幅降低了計算成本。
擴散模型擅長生成高質量影像。然而,它們僅在訓練時使用的解析度下運作時才有效。在經過縮放的解析度進行推論會導致重複模式和結構失真。在更高解析度下重新訓練很快變得不切實際。因此,使現有擴散模型能夠在彈性的測試時解析度下運作的方法非常令人渴望。先前的研究常常存在著頻繁的瑕疵,並且通常會引入大量的延遲開銷。我們提出了兩個簡單的模組,結合起來解決這些問題。我們引入了一個利用傅立葉域來改善全局結構一致性的頻率調製(FM)模組,以及一個改善局部紋理模式一致性的注意力調製(AM)模組,這在先前的研究中往往被忽略。我們的方法,被稱為Fam擴散,可以無縫集成到任何潛在的擴散模型中,並且無需額外的訓練。大量的定性結果突顯了我們的方法在解決結構和局部瑕疵方面的有效性,而定量結果顯示了最先進的性能。此外,我們的方法避免了為了提高一致性而使用的冗餘推論技巧,如基於塊或漸進生成,從而帶來可忽略的延遲開銷。
利用神經音頻編解碼模型對語音進行標記化是現代人工智慧流程中生成或理解語音的重要部分,無論是獨立應用還是在多模態情境中。傳統上,此類標記化模型專注於使用具有強歸納偏差的低參數架構。在本研究中,我們展示通過將具有大量參數的Transformer架構擴展到這個問題,並應用基於靈活有限標量量化(FSQ)的瓶頸,可以在極低的比特率(每秒400或700位元)下達到最先進的語音品質。訓練過的模型在客觀和主觀測試中明顯優於現有基準。
近年來,影片生成的最新進展在很大程度上受到影片擴散模型的推動,攝像機運動控制成為創建定制視覺內容的一個關鍵挑戰。本文介紹了軌跡注意力,這是一種新穎的方法,通過沿著可用像素軌跡執行注意力,以實現精細的攝像機運動控制。與現有方法不同,這些方法通常產生不精確的輸出或忽略時間相關性,我們的方法具有更強的歸納偏差,無縫地將軌跡信息注入到影片生成過程中。重要的是,我們的方法將軌跡注意力建模為傳統時間注意力的輔助分支。這種設計使原始的時間注意力和軌跡注意力能夠協同工作,確保精確的運動控制和新的內容生成能力,這在軌跡僅部分可用時至關重要。對於圖像和影片的攝像機運動控制實驗表明,在保持高質量生成的同時,精度和長距離一致性均有顯著改善。此外,我們展示了我們的方法可以擴展到其他影片運動控制任務,例如首幀引導的影片編輯,在這些任務中,我們的方法在保持大範圍空間和時間一致性方面表現出色。
隨著視頻數據規模和複雜性的增長,有效處理長視頻序列面臨重大挑戰,這是由於現有基於Transformer的大型多模型(LMMs)所帶來的記憶和計算需求呈二次增長。為了應對這些問題,我們引入了Video-Ma^2mba,這是一種新穎的架構,它在Mamba-2框架中融入了狀態空間模型(SSMs),取代了注意機制。這使得LMMs在時間和記憶需求方面呈線性擴展,從而使其能夠處理長時間視頻內容。此外,我們通過引入多軸梯度檢查點(MA-GC)方法來增強記憶效率,該方法通過在多個計算軸上僅保留必要的激活來策略性地管理記憶。我們的方法相對於標準梯度檢查點方法顯著減少了記憶體佔用。實證分析表明,Video-Ma^2mba可以在單個GPU上處理廣泛的視頻序列,相當於數百萬個標記或超過兩小時的連續序列,每秒1幀。通過保持對時間動態的詳細捕獲,我們的模型提高了長視頻理解任務中回應的準確性和相關性,展示了相對於現有框架的顯著優勢。
人類運動本質上是連續且動態的,對生成模型提出了重大挑戰。儘管離散量化方法(如VQ-VAEs)佔主導地位,但存在固有限制,包括表現受限和逐幀噪音。連續方法雖然產生更平滑和更自然的動作,但由於高維度複雜性和有限的訓練數據,通常會遇到困難。為了解決離散和連續表示之間的“不協調”,我們引入了DisCoRD:通過矯正流解碼將離散運動令牌解碼為連續運動的新方法。通過在連續空間中採用迭代細化過程,DisCoRD捕捉了細粒度動態並確保更平滑和更自然的運動。我們的方法與任何基於離散的框架兼容,增強了自然性,同時不損害對條件信號的忠實度。廣泛的評估表明,DisCoRD在HumanML3D和KIT-ML上的FID分別為0.032和0.169,實現了最先進的性能。這些結果鞏固了DisCoRD作為彌合離散效率和連續現實主義之間差距的堅固解決方案。我們的項目頁面位於:https://whwjdqls.github.io/discord.github.io/。
隨著工具增強的語言代理,數學推理能力正在增強,但方法通常依賴於封閉源碼或大型模型、外部數據,或大量提示工程。本研究介紹了MATATA,這是一種新穎且具成本效益的方法,用於訓練LLM代理以解決表格數據問題,通過推理、規劃和工具使用。採用漸進式自我改進範式和迭代式弱監督,賦予38億/80億小型語言模型(SLMs)強大的能力,特別適用於敏感業務環境,其中數據隱私至關重要。通過在不同數據集上使用靈活且可重複使用的工具,實現了在共享任務中的有效可擴展性,並取得了穩健的性能。實驗表明,MATATA在基於開源模型的推理框架中在FinQA和TAT-QA上達到了最先進的性能。此外,MATATA模型在TabMWP上與基於GPT-4的框架競爭,同時仍然是SLMs。
最近許多研究已將3D攝影機控制整合到基礎文本到視頻模型中,但由此產生的攝影機控制通常不精確,導致視頻生成質量下降。在本研究中,我們從第一原理的角度分析攝影機運動,揭示了能夠實現精確的3D攝影機操作而不影響合成質量的見解。首先,我們確定視頻中由攝影機運動引起的運動具有低頻性質。這促使我們調整訓練和測試姿勢條件安排,加快訓練收斂速度,同時提高視覺和運動質量。然後,通過探測無條件視頻擴散變壓器的表示,我們觀察到它們在幕後隱含地執行攝影機姿勢估計,並且只有它們的部分層包含攝影機信息。這提示我們將攝影條件注入限制在架構的子集中,以防止干擾其他視頻特徵,從而導致訓練參數減少4倍,提高訓練速度並提高10%的視覺質量。最後,我們通過一個精心策劃的包含20,000個多樣動態視頻和靜止攝影機的數據集,補充了用於攝影機控制學習的典型數據集。這有助於模型區分攝影機和場景運動之間的差異,並改善生成的姿勢條件視頻的動態。我們將這些發現結合起來設計了先進的3D攝影機控制(AC3D)架構,這是具有攝影機控制的生成式視頻建模的新最先進模型。
我們介紹了AlphaTablets,這是一種新穎且通用的3D平面表示,具有連續的3D表面和精確的邊界劃分。通過將3D平面表示為帶有alpha通道的矩形,AlphaTablets結合了當前2D和3D平面表示的優勢,實現了對3D平面的準確、一致和靈活建模。我們在AlphaTablets之上推導出可微的光柵化,以高效地將3D平面渲染為圖像,並提出了一種從單眼視頻中重建3D平面的新型自下而上流程。從2D超像素和來自預訓練模型的幾何線索開始,我們將3D平面初始化為AlphaTablets,並通過可微渲染對其進行優化。引入了一種有效的合併方案,以促進AlphaTablets的增長和細化。通過迭代優化和合併,我們重建了具有堅固表面和清晰邊界的完整且準確的3D平面。在ScanNet數據集上進行的大量實驗表明,在3D平面重建方面表現出了最先進的性能,突顯了AlphaTablets作為各種應用的通用3D平面表示具有巨大潛力。項目頁面位於:https://hyzcluster.github.io/alphatablets
訓練大型神經網絡通常需要透過專用高速互連來在加速器之間共享梯度。借鑒信號處理原理中的頻率分解和能量壓縮,我們證明在訓練期間同步完整的優化器狀態和模型參數是不必要的。通過解耦動量更新,並允許加速器之間優化器狀態的受控發散,我們實現了比最先進的優化器更好的收斂性能。我們引入了{解耦動量}(DeMo),這是一種融合優化器和數據並行算法,可以將加速器之間的通信需求降低數個數量級。這使得即使在網絡帶寬有限且硬件異構的情況下,也能訓練大型神經網絡。我們的方法與拓撲無關,與架構無關,支持可擴展的時鐘同步分佈式訓練,計算和內存開銷微不足道。實證結果表明,使用DeMo訓練的模型與使用AdamW訓練的等效模型在性能上相當甚至超越,同時消除了在預訓練大型基礎模型時需要高速互連的需求。我們在GitHub上發布了開源的參考PyTorch實現,網址為https://github.com/bloc97/DeMo
隨著線上新聞故事數量不斷增加,無論其所使用的語言為何,將這些故事按主題進行分類對增進讀者對相關內容的訪問至關重要。為應對此挑戰,我們提出一種基於大型語言模型(LLMs)的教師-學生框架,用於開發合理大小的多語言新聞分類模型,無需手動數據標註。該框架採用生成式預訓練變壓器(GPT)模型作為教師模型,通過自動標註斯洛維尼亞語、克羅地亞語、希臘語和加泰隆尼亞語的新聞文章,來建立一個IPTC媒體主題訓練數據集。教師模型在所有四種語言上展現出高零樣本性能,其與人類標註者的一致性可與人類標註者之間的一致性相媲美。為了克服每日處理數百萬文本的計算限制,較小的BERT-like學生模型在GPT標註的數據集上進行微調。這些學生模型實現了與教師模型相當的高性能。此外,我們探討了訓練數據大小對學生模型性能的影響,並研究了它們的單語、多語和零樣本跨語言能力。研究結果表明,學生模型可以在相對少量的訓練實例下實現高性能,並展現出強大的零樣本跨語言能力。最後,我們發布了表現最佳的新聞主題分類器,實現了與IPTC媒體主題架構頂級類別的多語言分類。
最近的研究表明擴散模型可以作為強大的神經渲染引擎,可用於將虛擬物體插入圖像。然而,與典型基於物理的渲染器不同,神經渲染引擎受到對照明設置的手動控制不足的限制,這通常對於改善或個性化所需的圖像結果至關重要。在本文中,我們展示了對於物體照明控制的精確性可以通過簡單指定物體的期望陰影來實現。令人驚訝的是,我們發現只需將物體的陰影注入預先訓練的基於擴散的神經渲染器,即可使其根據期望的光源位置準確著色物體,同時將物體(及其陰影)與目標背景圖像協調一致。我們的方法SpotLight 利用現有的神經渲染方法,實現了可控的照明效果,而無需額外訓練。具體來說,我們展示了它與近期文獻中的兩個神經渲染器的應用。我們展示了SpotLight在物體合成結果方面取得了優越的表現,無論是從量化還是感知上,都經由用戶研究確認,勝過了專門設計用於照明的現有基於擴散的模型。
在本研究中,我們提出了用於視覺Transformer的訓練噪聲標記(TNT)剪枝。我們的方法將離散標記丟棄條件放寬為連續的添加性噪聲,在訓練中提供平滑的優化,同時在部署設置中保留離散丟棄的計算優勢。我們在ImageNet數據集上使用ViT和DeiT架構進行理論連接到速率失真文獻的實證評估,展示了TNT相對於先前剪枝方法的優勢。