每日精選AI研究論文及翻譯
在上下文生成是大型語言模型(LLMs)開放任務泛化能力的關鍵組成部分。通過利用一些例子作為上下文,LLMs能夠執行領域內和領域外的任務。建立在LLMs基礎上的自回歸視覺語言模型(VLMs)的最新進展展示了在文本到圖像生成方面的出色表現。然而,針對一般圖像生成任務的上下文學習潛力仍然大部分未被探索。為了應對這一挑戰,我們引入了X-Prompt,這是一個純自回歸的大視覺語言模型,旨在在統一的上下文學習框架內,在眾多已見和未見的圖像生成任務上提供有競爭力的表現。X-Prompt採用了一種專門設計,有效地從上下文示例中壓縮有價值的特徵,支持更長的上下文令牌序列,並提高其對未見任務的泛化能力。同時訓練文本和圖像預測的統一任務使X-Prompt能夠通過上下文示例增強對一般圖像生成的任務意識。大量實驗驗證了該模型在各種已見圖像生成任務上的表現以及其泛化到以前未見任務的能力。
這份技術報告介紹了 O1-CODER,這是一個嘗試複製 OpenAI 的 o1 模型,專注於編碼任務。它整合了強化學習(RL)和蒙特卡羅樹搜索(MCTS)以增強模型的系統二思維能力。該框架包括訓練一個測試用例生成器(TCG)進行標準代碼測試,使用 MCTS 生成帶有推理過程的代碼數據,並通過迭代微調策略模型,最初生成偽代碼,然後生成完整代碼。報告還討論了在實際應用中部署類似 o1 模型的機會和挑戰,建議過渡到系統二範式,並強調環境狀態更新的必要性。更新的模型進展和實驗結果將在後續版本中報告。所有源代碼、策劃數據集以及衍生模型將在 https://github.com/ADaM-BJTU/O1-CODER 上公開。
本研究提出了Switti,一種用於文本到圖像生成的規模式Transformer。從現有的下一規模預測AR模型出發,我們首先探索了它們在T2I生成方面的應用,並提出了架構修改以改善其收斂性和整體性能。然後,我們觀察到我們預訓練的規模式AR模型的自注意力映射對前幾個規模的依賴較弱。基於這一洞察,我們提出了一個非AR對應物,促進約11%更快的採樣速度和更低的內存使用,同時實現略微更好的生成質量。此外,我們揭示了在高分辨率尺度上無需分類器指導,甚至可能降低性能。通過在這些尺度上禁用指導,我們實現了約20%的額外採樣加速和改善了細節的生成。大量的人類偏好研究和自動評估顯示,Switti優於現有的T2I AR模型,並與最先進的T2I擴散模型競爭,同時速度提高了多達7倍。
我們介紹了 Open-Sora 計畫,這是一個開源項目,旨在為基於各種使用者輸入生成所需的高分辨率長時段視頻提供一個大型生成模型。我們的項目包含多個組件,用於整個視頻生成過程,包括 Wavelet-Flow 變分自編碼器、聯合圖像-視頻 Skiparse 降噪器和各種條件控制器。此外,設計了許多有效的訓練和推斷輔助策略,並提出了用於獲取所需高質量數據的多維數據整理流程。由於高效的思維,我們的 Open-Sora 計畫在定性和定量評估中均取得了令人印象深刻的視頻生成結果。我們希望我們的精心設計和實踐經驗能激發視頻生成研究社區。我們所有的代碼和模型權重都可以在 https://github.com/PKU-YuanGroup/Open-Sora-Plan 上公開獲取。
隨著基於擴散的生成模型的快速發展,肖像圖像動畫取得了顯著的成果。然而,由於其迭代採樣的性質,它仍然面臨著在時間上一致的視頻生成和快速採樣方面的挑戰。本文提出了FLOAT,一種基於流匹配生成模型的音頻驅動的說話肖像視頻生成方法。我們將生成建模從基於像素的潛在空間轉移到學習運動潛在空間,從而實現有效的時間一致運動的設計。為了實現這一點,我們引入了一個基於變壓器的向量場預測器,具有一種簡單而有效的逐幀條件機制。此外,我們的方法支持以語音驅動的情感增強,實現了表達動作的自然融入。廣泛的實驗表明,我們的方法在視覺質量、運動保真度和效率方面優於最先進的以音頻驅動的說話肖像方法。
目前的大型多模型(LMMs)在處理和理解長時間或高解析度視頻時面臨著重大挑戰,主要是由於缺乏高質量的數據集。為了從數據中心的角度解決這個問題,我們提出了VISTA,這是一個簡單而有效的視頻時空增強框架,從現有的視頻字幕數據集中合成長時間和高解析度的視頻指示-跟隨對。VISTA在空間和時間上結合視頻,創建新的合成視頻,其持續時間延長並增強解析度,並隨後生成與這些新合成視頻相關的問答對。基於這一範式,我們開發了七種視頻增強方法,並精心編輯了VISTA-400K,這是一個旨在增強長時間和高解析度視頻理解的視頻指示-跟隨數據集。在我們的數據上對各種視頻LMM進行微調,導致在四個具有挑戰性的長視頻理解基準上平均提高了3.3%。此外,我們還推出了第一個全面的高解析度視頻理解基準HRVideoBench,在這個基準上,我們微調的模型實現了6.5%的性能增益。這些結果突出了我們框架的有效性。
人類是社會性動物。如何讓3D自主角色具備類似的社會智能,能感知、理解和與人類互動,仍然是一個開放且基本的問題。在本文中,我們介紹了SOLAMI,這是第一個用於與3D自主角色進行沉浸式互動的端到端社會視覺-語言-行動(VLA)建模框架。具體來說,SOLAMI從三個方面構建3D自主角色:(1)社會VLA架構:我們提出了一個統一的社會VLA框架,根據用戶的多模態輸入生成多模態回應(語音和動作),以驅動角色進行社會互動。 (2)互動式多模態數據:我們提出了SynMSI,這是一個由自動流程生成的合成多模態社會互動數據集,僅使用現有的動作數據集來解決數據稀缺性問題。 (3)沉浸式虛擬現實界面:我們開發了一個虛擬現實界面,使用戶可以與這些由各種架構驅動的角色進行沉浸式互動。大量的定量實驗和用戶研究表明,我們的框架能夠產生更準確和自然的角色回應(包括語音和動作),並且與用戶期望相符,具有更低的延遲。
本文介紹了TAPTRv3,它是在TAPTRv2的基礎上構建的,旨在提高長視頻中的點跟踪魯棒性。TAPTRv2是一個簡單的DETR-like框架,可以在現實世界的視頻中精確跟踪任何點,而無需成本體積。TAPTRv3通過解決TAPTRv2在從長視頻中查詢高質量特徵方面的不足來改進TAPTRv2,在這些視頻中,目標跟踪點通常隨時間增加而變化。在TAPTRv3中,我們提出利用空間和時間上下文,以在空間和時間維度上帶來更好的特徵查詢,從而實現對長視頻的更強魯棒跟踪。為了更好地進行空間特徵查詢,我們提出了上下文感知交叉注意力(CCA),它利用周圍的空間上下文來增強在查詢圖像特徵時的注意力分數質量。為了更好地進行時間特徵查詢,我們引入了可見性感知長時間注意力(VLTA),以在考慮其相應可見性的情況下對所有過去幀進行時間注意力,這有效地解決了TAPTRv2中由其類似RNN的長時間建模帶來的特徵漂移問題。TAPTRv3在大多數具有挑戰性的數據集上遠遠超越了TAPTRv2,並獲得了最先進的性能。即使與使用大規模額外內部數據訓練的方法相比,TAPTRv3仍然具有競爭力。
多模式大型語言模型(MLLMs)在視覺理解和生成任務方面取得了顯著進展。然而,生成交錯的圖像-文本內容仍然是一個挑戰,這需要整合的多模式理解和生成能力。儘管統一模型的進展提供了新的解決方案,但由於數據大小和多樣性的限制,現有的基準測試不足以評估這些方法。為了彌合這一差距,我們介紹了GATE OpenING(OpenING),這是一個包含5,400個高質量人工標註實例的全面基準測試,涵蓋了56個現實世界任務。OpenING涵蓋了各種日常情境,如旅遊指南、設計和腦力激盪,為具有挑戰性的交錯生成方法提供了一個強大的平台。此外,我們提出了IntJudge,一個用於評估開放式多模式生成方法的評判模型。通過使用一個新穎的數據管道進行訓練,我們的IntJudge與人類判斷達成了82.42%的一致率,比基於GPT的評估者高出11.34%。對OpenING的大量實驗顯示,當前的交錯生成方法仍有很大的改進空間。關於交錯的圖像-文本生成的關鍵發現進一步提供,以指導下一代模型的發展。OpenING的開源代碼位於https://opening.github.io。
基於機器學習的替代模型為研究人員提供了強大的工具,加速基於模擬的工作流程。然而,在這個領域中,由於標準數據集通常僅涵蓋少量物理行為類別,因此評估新方法的有效性可能會很困難。為彌補這一差距,我們引入了 Well:一個大規模的數據集合,包含各種時空物理系統的數值模擬。Well 匯集了領域專家和數值軟件開發人員的資源,提供了涵蓋生物系統、流體動力學、聲學散射以及星系外流體或超新星爆炸等多個領域的 16 個數據集,總共 15TB 的數據。這些數據集可以單獨使用,也可以作為更廣泛基準套件的一部分。為了方便使用 Well,我們提供了統一的 PyTorch 接口,用於模型的訓練和評估。我們通過引入突顯 Well 複雜動態所帶來的新挑戰的示例基準,展示了此庫的功能。代碼和數據可在 https://github.com/PolymathicAI/the_well 上找到。
Segment Anything Model 2(SAM 2)已成為影片物件分割和追蹤任何事物的強大工具。SAM 2 的關鍵組件包括用於提取幀特徵的大型多階段影像編碼器,以及一個記憶機制,用於存儲來自過去幀的記憶內容,以幫助當前幀的分割。多階段影像編碼器和記憶模組的高計算複雜度限制了其在現實任務中的應用,例如在移動設備上進行影片物件分割。為解決這一限制,我們提出了EfficientTAMs,輕量級追蹤任何事物模型,以低延遲和模型大小產生高質量結果。我們的想法是重新審視普通的非階層式視覺Transformer(ViT)作為影像編碼器,並引入一個高效的記憶模組,從而降低幀特徵提取和當前幀分割的記憶計算的複雜度。我們使用原始輕量級ViTs和高效記憶模組構建EfficientTAMs,並在SA-1B和SA-V數據集上對影片物件分割和追蹤任何事物任務進行訓練。我們在多個影片分割基準測試上進行評估,包括半監督VOS和可提示的影片分割,發現我們提出的EfficientTAM與原始ViT在A100上的速度提升約為SAM 2模型(HieraB+SAM 2)的2倍,參數減少約為2.4倍。在分割任何圖像任務上,我們的EfficientTAMs也比原始SAM表現出色,在A100上的速度提升約為20倍,參數減少約為20倍。在諸如iPhone 15 Pro Max等移動設備上,我們的EfficientTAMs可以以約10 FPS運行,以合理的質量執行影片物件分割,突顯小型模型在設備上影片物件分割應用中的能力。
擴散模型(DMs)在逼真度、圖像編輯和解決反問題方面表現出色,受益於無分類器指導和圖像反演技術。然而,矯正流模型(RFMs)對於這些任務仍未被充分探索。現有基於DM的方法通常需要額外訓練,缺乏對預訓練潛在模型的泛化能力,表現不佳,並且由於通過ODE求解器和反演過程的廣泛反向傳播而需要大量計算資源。在這項工作中,我們首先對RFMs的向量場動力學進行理論和實證研究,以有效引導去噪軌跡。我們的研究發現,我們可以以確定性和無梯度的方式導航向量場。利用這一特性,我們提出了FlowChef,利用向量場來引導去噪軌跡,用於受控圖像生成任務,並通過跳過梯度來實現。FlowChef是一個統一的框架,可同時解決分類器指導、線性反問題和圖像編輯,無需額外訓練、反演或密集的反向傳播。最後,我們進行了廣泛的評估,並展示FlowChef在性能、內存和時間需求方面顯著優於基準,實現了新的最先進結果。項目頁面:https://flowchef.github.io。
最近,來自閉源視覺語言模型(VLMs)如GPT-4V的高質量視覺指導調整樣本激增,加速了各種模型尺寸的開源VLMs的釋出。然而,將VLMs進行規模化以提高性能會帶來顯著的計算挑戰,尤其是在資源受限的設備(如移動平台和機器人)上部署。為了應對這一挑戰,我們提出了VLsI:Verbalized Layers-to-Interactions,這是一個新的VLM家族,包括2B和7B模型尺寸,著重於效率而不會影響準確性。VLsI利用獨特的逐層精煉過程,引入中間的“口語化器”,將每一層的特徵映射到自然語言空間,使較小的VLMs能夠靈活地與較大的VLMs的推理過程對齊。這種方法有助於緩解通常在輸出模仿中遇到的訓練不穩定性,並通過使小型VLMs的逐層進展與大型VLMs的進展對齊,超越了典型的最終層調整。我們在十個具有挑戰性的視覺語言基準測試中驗證了VLsI,在不需要模型規模化、合併或架構更改的情況下,實現了顯著的性能提升(2B提高了11.0%,7B提高了17.4%),超越了GPT-4V。
擴散Transformer 在圖像生成方面展現出卓越的能力,但往往伴隨著過多的參數化,導致在實際應用中存在相當大的推理開銷。在這項工作中,我們提出了TinyFusion,一種深度修剪方法,旨在通過端對端學習從擴散Transformer 中刪除多餘的層。我們方法的核心原則是創建一個具有高可恢復性的修剪模型,使其在微調後能夠恢復出強大的性能。為了實現這一目標,我們引入了一種可微取樣技術,使修剪變得可學習,並配合一個共同優化的參數來模擬未來的微調。儘管先前的研究著重於在修剪後最小化損失或錯誤,我們的方法明確地對修剪後模型的微調後性能進行建模和優化。實驗結果表明,這種可學習的範式對於擴散Transformer 的層修剪提供了顯著的好處,超越了現有的基於重要性和錯誤的方法。此外,TinyFusion 在各種架構上都表現出強大的泛化能力,如DiTs、MARs 和SiTs。對於DiT-XL 的實驗表明,TinyFusion 可以以不到預訓練成本的 7% 打造一個淺層擴散Transformer,在 FID 分數為 2.86 的情況下實現 2 倍加速,勝過具有可比效率的競爭對手。代碼可在 https://github.com/VainF/TinyFusion 找到。
大型語言模型(LLM)在不同語言之間的性能差異阻礙了它們在許多地區的有效部署,限制了生成式人工智慧工具在許多社區中的潛在經濟和社會價值。然而,在許多語言中發展功能性LLM(即多語言LLM)受到高質量評估資源在英語以外語言的缺乏而受阻。此外,目前的多語言基準構建實踐通常是將英語資源翻譯,忽略了多語言系統將被使用的環境中的區域和文化知識。在這項工作中,我們從當地考試來源構建了一個包含197,243個問答對的評估套件,以衡量多語言LLM在各種區域背景中的能力。我們的新穎資源,名為INCLUDE,是一個跨44種書面語言的全面知識和推理中心基準,評估多語言LLM在實際語言環境中的表現。
影片變分自編碼器(VAE)將影片編碼為低維潛在空間,成為大多數潛在影片擴散模型(LVDMs)的關鍵組件,以降低模型訓練成本。然而,隨著生成影片的解析度和持續時間增加,影片 VAE 的編碼成本成為訓練 LVDMs 的限制瓶頸。此外,大多數 LVDMs 採用的分塊推論方法在處理長時間影片時可能導致潛在空間的不連續性。解決計算瓶頸的關鍵在於將影片分解為不同組件並有效編碼關鍵信息。小波變換可以將影片分解為多個頻域組件並顯著提高效率,因此我們提出了小波流變分自編碼器(WF-VAE),這是一種利用多級小波變換促進低頻能量流入潛在表示的自編碼器。此外,我們引入了一種稱為因果緩存的方法,在分塊推論過程中保持潛在空間的完整性。與最先進的影片 VAE 相比,WF-VAE 在 PSNR 和 LPIPS 指標上表現出優異性,實現了兩倍的吞吐量和四分之一的記憶體消耗,同時保持競爭性的重建質量。我們的代碼和模型可在以下鏈接找到:https://github.com/PKU-YuanGroup/WF-VAE。
多模式大型語言模型(MLLMs)的安全性問題逐漸成為各種應用中的一個重要問題。令人驚訝的是,先前的研究表明一個反直覺的現象,即使用文本去對齊MLLMs實現了與使用圖像-文本對訓練的MLLMs相當的安全性表現。為了解釋這種反直覺的現象,我們發現現有多模式安全基準中存在一個視覺安全信息洩漏(VSIL)問題,即圖像中的潛在風險和敏感內容已在文本查詢中被揭示。這樣,MLLMs可以根據文本查詢輕易拒絕這些敏感的文本-圖像查詢。然而,在現實情況中,沒有VSIL的圖像-文本對是常見的,但被現有的多模式安全基準所忽略。因此,我們構建了多模式視覺無洩漏安全基準(VLSBench),防止從圖像到文本查詢的視覺安全洩漏,包含2.4k個圖像-文本對。實驗結果表明,VLSBench對於包括LLaVA、Qwen2-VL、Llama3.2-Vision和GPT-4o在內的開源和封閉源MLLMs都構成了重大挑戰。本研究表明,對於存在VSIL的多模式安全場景,文本對齊已足夠,而對於不存在VSIL的多模式安全場景,多模式對齊是一個更有前途的解決方案。請查看我們的代碼和數據:http://hxhcreate.github.io/VLSBench
我們介紹了 Presto,一種新穎的視頻擴散模型,旨在生成具有長程一致性和豐富內容的 15 秒視頻。將視頻生成方法擴展以在長時間內保持場景多樣性帶來了重大挑戰。為了應對這一挑戰,我們提出了分段交叉注意(SCA)策略,將隱藏狀態沿時間維度分為段,使每個段可以跨越關注相應的子標題。SCA 不需要額外的參數,可無縫地融入當前基於 DiT 的架構中。為了促進高質量的長視頻生成,我們構建了 LongTake-HD 數據集,包含 261k 個內容豐富的視頻,具有場景一致性,並附有整體視頻標題和五個漸進的子標題。實驗表明,我們的 Presto 在 VBench 語義分數上達到了 78.5%,在動態程度上達到了 100%,優於現有的最先進視頻生成方法。這表明我們提出的 Presto 顯著增強了內容豐富性,保持了長程一致性,並捕捉了複雜的文本細節。更多細節請參見我們的項目頁面:https://presto-video.github.io/。
我們探討一個問題:“創作藝術所需的先前藝術知識量為何?”為了研究這個問題,我們提出了一個文本到圖像生成模型,該模型在沒有訪問與藝術相關的內容的情況下進行訓練。然後,我們引入了一種簡單而有效的方法,僅使用少量選定藝術風格的示例來學習一個藝術適配器。我們的實驗表明,使用我們的方法生成的藝術被用戶認為與在大型、藝術豐富數據集上訓練的模型生成的藝術相媲美。最後,通過數據歸因技術,我們說明了來自藝術和非藝術數據集的示例如何促成了新藝術風格的創作。
在圖像中對視覺信息的誤解(即視覺感知錯誤)仍然是大型視覺語言模型(LVLMs)中錯誤的主要來源。儘管進一步的分析至關重要,但在評估LVLMs的視覺感知方面存在數據集不足的問題。在這項工作中,我們介紹了VisOnlyQA,這是一個新的數據集,旨在直接評估LVLMs對科學圖中幾何和數值信息的視覺感知能力。我們的數據集使我們能夠分析LVLMs對細粒度視覺信息的感知,獨立於推理等其他能力。VisOnlyQA的評估集包括四類圖形上的12個任務中的1,200個多項選擇問題。我們還提供包含70k個實例的合成訓練數據。我們在VisOnlyQA上的實驗突出了以下發現:(i)我們評估的20個LVLMs,包括GPT-4o和Gemini 1.5 Pro,在VisOnlyQA的視覺感知任務上表現不佳,而人類表現幾乎完美。(ii)在合成訓練數據上進行微調顯示了增強LVLMs視覺感知的潛力,但觀察到的改進僅限於某些任務和特定模型。(iii)更強大的語言模型改善了LVLMs的視覺感知。總之,我們的實驗表明,應該改進訓練數據和模型架構,以增強LVLMs的視覺感知能力。數據集、代碼和模型響應可在https://github.com/psunlpgroup/VisOnlyQA找到。
最近在基於視頻的大型語言模型(Video LLMs)方面取得了重大進展,出現了多樣的能力,可以推理和解釋動態視覺內容。其中,遊戲視頻作為一種獨特的數據來源脫穎而出,通常包含違反物理常識的故障。這種特徵使它們成為評估視頻LLMs中物理常識理解能力的一個有效基準。在本文中,我們提出了PhysGame作為一個開創性的基準,用於評估遊戲視頻中的物理常識違反。PhysGame包括880個與故障相關的視頻,涵蓋四個基本領域(即機械、運動學、光學和材料特性),跨越12個不同的物理常識。通過對各種最先進的視頻LLMs進行廣泛評估,我們的研究發現,目前開源視頻LLMs的性能明顯落後於專有對手。為了彌合這一差距,我們整理了一個指令調整數據集PhysInstruct,其中包含140,057個問答對,以促進物理常識學習。此外,我們還提出了一個偏好優化數據集PhysDPO,其中包含34,358個訓練對,根據具有誤導性標題(即元信息黑客)、較少幀數(即時間黑客)和較低空間分辨率(即空間黑客)生成不受歡迎的回答。基於這一系列數據集,我們提出了PhysVLM作為一種物理知識增強的視頻LLM。對物理導向基準PhysGame和一般視頻理解基準進行的大量實驗表明了PhysVLM的最先進性能。
我們提出了一種通用的兩階段演算法,該演算法對於大型語言模型(LLMs)的測試時計算具有可證明的擴展定律。對於一個輸入問題,該提出的演算法首先生成N個候選解,然後通過多輪淘汰賽選擇最佳解,其中每對候選解會進行K次比較,只有勝出者才能進入下一輪。在一個極簡的實現中,兩個階段都可以僅使用黑盒LLM執行,無需其他東西(例如,沒有外部驗證器或獎勵模型),解決一個輸入問題需要總共N次(K + 1)高度可並行化的LLM呼叫。假設生成的候選解正確的概率為p_{gen} > 0,並且一對正確和不正確解之間的比較以概率p_{comp} > 0.5確定正確的勝出者(即,優於隨機猜測),我們在理論上證明了該提出的演算法的失敗概率隨著N和K呈指數級下降:$P(final output is incorrect) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ 我們在具有挑戰性的MMLU-Pro基準測試中的實證結果驗證了技術假設,以及提出的演算法的有效性和從擴展其測試時計算中獲得的收益。
現有的具體實例目標導航任務,是由自然語言驅動的,假設人類用戶在導航之前提供完整且細緻的實例描述,然而在現實世界中,人類的指示可能簡短且含糊不清,這可能不切實際。為了彌合這一差距,我們提出了一個新任務,即協作式實例導航(CoIN),在導航過程中通過動態的代理-人類互動來積極解決關於目標實例的不確定性,並進行自然、無模板、開放式的對話。為了應對CoIN,我們提出了一種新方法,即具有不確定性感知的代理-用戶互動(AIUTA),利用視覺語言模型(VLMs)的感知能力和大型語言模型(LLMs)的能力。首先,在對象檢測後,一個自我提問者模型啟動自我對話,以獲得完整且準確的觀察描述,同時一種新的不確定性估計技術減輕了VLM感知的不準確性。然後,一個互動觸發器模塊確定是否向用戶提問、繼續導航還是停止導航,從而最小化用戶輸入。為了評估,我們引入了CoIN-Bench,這是一個支持真實和模擬人類的基準。AIUTA在實例導航方面表現出色,與最先進的方法競爭,展示了處理用戶輸入時的極大靈活性。
最近擴散模型的進步在圖像和視頻生成方面設立了新的標竿,實現了在單幀和多幀上下文中逼真的視覺合成。然而,這些模型仍然在高效且明確地生成3D一致內容方面存在困難。為了解決這個問題,我們提出了「世界一致視頻擴散」(WVD),這是一個新穎的框架,通過使用XYZ圖像來包含全局3D坐標來納入明確的3D監督。更具體地說,我們訓練一個擴散變壓器來學習RGB和XYZ幀的聯合分佈。這種方法通過靈活的修補策略支持多任務適應性。例如,WVD可以從真實的RGB估算XYZ幀,或者使用沿著指定相機軌跡的XYZ投影生成新的RGB幀。通過這樣做,WVD統一了單幅圖像到3D生成、多視圖立體和相機控制視頻生成等任務。我們的方法在多個基準測試中展現了競爭性的性能,為3D一致視頻和圖像生成提供了可擴展的解決方案,並且僅需一個預訓練模型。
建立類比是認知的基礎。比例類比通常由四個術語組成,常被用來評估語言和認知能力。例如,完成類比問題如“氧氣對應氣體,如同<空白>對應<空白>”需要識別第一對術語(如“氧氣”和“氣體”)之間的語義關係(例如“屬於”),並找到另一對具有相同關係的術語(例如“鋁”和“金屬”)。在這項研究中,我們引入了一個包含15K個多重選擇問答(MCQA)題目的數據集,用於完成比例類比,並評估當代大型語言模型(LLMs)在各種知識增強提示設置下的表現。具體而言,我們將提示與三種類型的知識相結合:範例、結構化和有針對性的。我們的結果顯示,儘管有大量的訓練數據,解決比例類比對當前的LLMs仍然具有挑戰性,最佳模型的準確率為55%。值得注意的是,我們發現提供有針對性的知識可以更好地幫助模型完成比例類比,相較於提供範例或結構化知識的集合。
在過去幾十年裡,自駕車算法在感知、規劃和控制方面取得了顯著進展。然而,評估單個組件並不能完全反映整個系統的性能,凸顯了對更全面的評估方法的需求。這促使了HUGSIM的開發,這是一個用於評估自駕車算法的封閉迴路、逼真且實時的模擬器。我們通過將捕獲的2D RGB圖像通過3D高斯飛濺提升到3D空間,改善了封閉迴路情境的渲染質量,並構建了封閉迴路環境。在渲染方面,我們應對了封閉迴路情境中新視角合成的挑戰,包括視角外推和360度車輛渲染。除了新視角合成,HUGSIM進一步實現了完整的封閉模擬迴路,根據控制命令動態更新自我和參與者的狀態和觀察。此外,HUGSIM提供了來自KITTI-360、Waymo、nuScenes和PandaSet的70多個序列以及400多種不同情境的全面基準,為現有自駕車算法提供了公平且現實的評估平台。HUGSIM不僅作為一個直觀的評估基準,還在逼真的封閉迴路環境中開啟了微調自駕車算法的潛力。
在文本到圖像生成中實現文本指示與生成的圖像之間的精確對齊是一個重大挑戰,特別是在圖像中呈現書面文字方面。像Stable Diffusion 3(SD3)、Flux和AuraFlow這樣的最先進模型仍然在準確呈現文本方面遇到困難,導致拼寫錯誤或文本不一致。我們提出了一種無需訓練且計算開銷極小的方法,顯著提高了文本呈現質量。具體來說,我們引入了一種用於預訓練矯正流(RF)模型的超越取樣器,通過在學習的常微分方程(ODE)之間交替進行過度模擬和重新引入噪聲。與Euler取樣器相比,超越取樣器有效地引入了一個額外的 Langevin 動力學項,有助於糾正連續 Euler 步驟中的累積誤差,從而改善文本呈現。然而,當超越強度較高時,我們觀察到在生成的圖像上出現過度平滑的人工瑕疵。為了解決這個問題,我們提出了一種注意力調節的超越取樣器(AMO),根據它們與文本內容的注意力分數,自適應地控制每個圖像塊的超越強度。AMO 在不影響整體圖像質量或增加推理成本的情況下,在 SD3 和 Flux 上分別展示了 32.3% 和 35.9% 的文本呈現精確度提高。
在線濫用內容檢測,特別是在資源有限的情況下以及在音頻模式下的檢測,仍然是一個未被充分探索的領域。我們研究了預訓練音頻表示對於在資源有限的語言中檢測濫用語言的潛力,具體來說,在印度語言中使用少樣本學習(FSL)。利用來自Wav2Vec和Whisper等模型的強大表示,我們探索了使用ADIMA數據集和FSL進行跨語言濫用檢測。我們的方法將這些表示集成到模型不可知元學習(MAML)框架中,以對10種語言中的濫用語言進行分類。我們通過評估有限數據對性能的影響,實驗了各種樣本大小(50-200)。此外,還進行了特徵可視化研究,以更好地理解模型行為。這項研究突出了預訓練模型在資源有限情況下的泛化能力,並提供了有價值的見解,可用於在多語境中檢測濫用語言。
語者驗證(SV)系統提供一項認證服務,旨在確認特定說話樣本是否來自特定說話者。這項技術為各種個性化應用奠定了基礎,以滿足個人偏好。SV系統面臨的一個值得注意的挑戰是其在各種情感範疇下保持一致性的能力。大多數現有模型在處理情感發話時的錯誤率高於中性發話。因此,這種現象常常導致錯過感興趣的說話。這個問題主要源於有標記的情感語音數據的有限可用性,阻礙了涵蓋多樣情感狀態的強大說話者表示的發展。 為了解決這個問題,我們提出了一種新方法,利用CycleGAN框架作為數據擴增方法。這種技術為每個特定說話者合成情感語音片段,同時保留獨特的聲音身份。我們的實驗結果強調了將合成的情感數據納入訓練過程的有效性。使用這種擴增數據集訓練的模型在驗證情感語音場景中的說話者任務上始終優於基準模型,將等錯誤率相對降低多達3.64%。