每日精選AI研究論文及翻譯
我們介紹了MiniMax-01系列,包括MiniMax-Text-01和MiniMax-VL-01,這兩款模型與頂尖模型可媲美,同時在處理更長上下文方面具有優越能力。其核心在於閃電注意力及其高效擴展。為了最大化計算能力,我們將其與專家混合(MoE)相結合,創建了一個擁有32位專家和4560億總參數的模型,其中每個標記激活了459億參數。我們為MoE和閃電注意力開發了優化的並行策略和高效的計算-通信重疊技術。這種方法使我們能夠對跨越數百億參數的模型進行有效的訓練和推斷,涵蓋數百萬標記的上下文。MiniMax-Text-01的上下文窗口在訓練期間可達到100萬標記,在推斷期間可擴展到400萬標記,成本合理。我們的視覺語言模型MiniMax-VL-01是通過持續訓練5120億視覺語言標記構建的。在標準和內部基準測試中進行的實驗表明,我們的模型與GPT-4o和Claude-3.5-Sonnet等最先進模型的性能相匹敵,同時提供20-32倍更長的上下文窗口。我們在https://github.com/MiniMax-AI 上公開發布了MiniMax-01。
MangaNinjia源自擴散模型,專注於參考引導的線條著色任務。我們結合了兩個周到的設計,以確保精確的角色細節轉錄,包括一個補丁洗牌模組,以促進參考彩色圖像與目標線條藝術之間的對應學習,以及一個點驅動控制方案,以實現精細的顏色匹配。在自行收集的基準測試中,實驗證明我們的模型在精確著色方面優於當前解決方案。我們進一步展示了所提出的互動式點控制在處理具有挑戰性的情況,跨角色著色,多參考和諧等方面的潛力,超越現有算法的能力範圍。
對於文本到圖像生成中可控輸出的需求不斷增長,推動了多實例生成(MIG)領域的重大進展,使用戶能夠定義實例佈局和屬性。目前,MIG 領域的最先進方法主要基於適配器。然而,這些方法需要每次釋放更高級模型時重新訓練新的適配器,導致了大量資源的消耗。一種名為深度驅動解耦實例合成(3DIS)的方法被提出,將 MIG 分解為兩個明確的階段:1)基於深度的場景構建和 2)使用廣泛預訓練的深度控制模型進行細節渲染。3DIS 方法僅在場景構建階段需要適配器訓練,同時使各種模型能夠進行無需訓練的細節渲染。最初,3DIS 專注於利用 U-Net 結構的渲染技術,如 SD1.5、SD2 和 SDXL,而沒有探索最近基於 DiT 模型(例如 FLUX)的潛力。本文提出了 3DIS-FLUX,這是 3DIS 框架的擴展,整合了 FLUX 模型以增強渲染能力。具體來說,我們使用 FLUX.1-Depth-dev 模型進行深度圖控制的圖像生成,並引入一個細節渲染器,根據佈局信息操縱 FLUX 的聯合注意機制中的注意力遮罩。這種方法允許對每個實例的細微屬性進行精確渲染。我們的實驗結果表明,利用 FLUX 模型的 3DIS-FLUX 在性能和圖像質量方面優於使用 SD2 和 SDXL 的原始 3DIS 方法,並超越當前最先進的基於適配器的方法。項目頁面:https://limuloo.github.io/3DIS/。
我們提出了 Omni-RGPT,一個多模態大型語言模型,旨在促進對圖像和視頻的區域級理解。為了實現在時空維度上一致的區域表示,我們引入了 Token Mark,一組突出顯示目標區域的標記。這些標記直接嵌入到空間區域中,使用區域提示(例如框或遮罩),同時被納入文本提示中以指定目標,建立視覺和文本標記之間的直接連接。為了進一步支持強大的視頻理解,而無需軌跡片段,我們引入了一個輔助任務,通過利用標記的一致性來引導 Token Mark,從而實現視頻中穩定的區域解釋。此外,我們還介紹了一個大規模的區域級視頻指令數據集(RegVID-300k)。Omni-RGPT 在基於圖像和視頻的常識推理基準測試中取得了最先進的結果,同時在字幕生成和指代表達理解任務中表現出色。
擴散模型廣泛應用於圖像和視頻生成,但其迭代生成過程緩慢且昂貴。現有的蒸餾方法在圖像領域展示了一步生成的潛力,但仍然存在顯著的質量降級。在這項工作中,我們提出了針對真實數據的對抗後訓練(APT),在擴散預訓練之後用於一步視頻生成。為了提高訓練穩定性和質量,我們對模型架構和訓練程序進行了幾項改進,並引入了一個近似的R1正則化目標。根據實驗,我們的實驗表明,我們的對抗後訓練模型Seaweed-APT能夠使用單個前向評估步驟實時生成2秒、1280x720、24fps的視頻。此外,我們的模型能夠在單一步驟中生成1024px的圖像,實現了與最先進方法相媲美的質量。
文本到圖像(T2I)擴散模型依賴編碼提示來引導圖像生成過程。通常,這些提示會通過在文本編碼之前添加填充標記來擴展到固定長度。儘管這是一種默認做法,但填充標記對圖像生成過程的影響尚未受到研究。在這項工作中,我們進行了對T2I模型中填充標記作用的首次深入分析。我們開發了兩種因果技術,來分析信息如何在T2I流程的不同組件中的標記表示中被編碼。利用這些技術,我們研究了填充標記何時以及如何影響圖像生成過程。我們的研究結果揭示了三種不同的情況:填充標記可能在文本編碼期間影響模型的輸出,在擴散過程中產生影響,或者被有效地忽略。此外,我們確定了這些情況與模型架構(跨或自注意)以及訓練過程(凍結或訓練文本編碼器)之間的關鍵關係。這些見解有助於更深入地理解填充標記的機制,可能為T2I系統中未來模型設計和訓練實踐提供信息。
大型語言模型擅長解釋複雜的自然語言指令,使它們能夠執行各種任務。在生命科學中,單細胞RNA序列(scRNA-seq)數據被視為細胞生物學的“語言”,捕捉單個細胞水平上複雜的基因表達模式。然而,通過傳統工具與這種“語言”互動通常效率低下且不直觀,給研究人員帶來挑戰。為了應對這些限制,我們提出了InstructCell,一種多模式人工智能副駕駛,利用自然語言作為進行更直接靈活的單細胞分析的媒介。我們構建了一個全面的多模式指令數據集,將基於文本的指令與來自不同組織和物種的scRNA-seq概要配對。在此基礆上,我們開發了一種多模式細胞語言架構,能夠同時解釋和處理兩種模態。InstructCell賦予研究人員執行關鍵任務的能力,例如細胞類型標註、條件虛擬細胞生成和藥物敏感性預測,使用直觀的自然語言命令。廣泛的評估顯示,InstructCell始終達到或超出現有單細胞基礎模型的性能,同時適應各種實驗條件。更重要的是,InstructCell提供了一個易於使用且直觀的工具,用於探索複雜的單細胞數據,降低技術門檻,並實現更深入的生物學洞察。
互動式圖像編輯允許使用者通過視覺互動操作,如繪畫、點擊和拖曳來修改圖像。現有方法從視頻中構建這些監督信號,因為它們捕捉了物體如何隨著各種物理交互而變化。然而,這些模型通常建立在文本到圖像擴散模型的基礎上,因此需要(i)大量的訓練樣本和(ii)一個額外的參考編碼器來學習現實世界的動態和視覺一致性。在本文中,我們將這個任務重新定義為一個圖像到視頻生成問題,以繼承強大的視頻擴散先驗,以降低訓練成本並確保時間一致性。具體而言,我們介紹了FramePainter作為這種形式化的高效實例。通過穩定的視頻擴散初始化,它僅使用輕量級的稀疏控制編碼器來注入編輯信號。考慮到時間注意力在處理兩幀之間的大運動時的限制,我們進一步提出匹配注意力以擴大感受野,同時鼓勵編輯和源圖像令牌之間的密集對應。我們強調了FramePainter在各種編輯信號上的有效性和效率:它在遠少於以前最先進方法的訓練數據的情況下,主要優於它們,實現了高度無縫和一致的圖像編輯,例如,自動調整杯子的反射。此外,FramePainter在現實世界視頻中不存在的情境中也展示出卓越的泛化能力,例如,將小丑魚變換為類似鯊魚的形狀。我們的代碼將在 https://github.com/YBYBZhang/FramePainter 上提供。
我們介紹了PokerBench - 一個用於評估大型語言模型(LLMs)撲克遊戲能力的基準。由於LLMs在傳統自然語言處理任務中表現出色,將它們應用於複雜的戰略遊戲如撲克帶來了新挑戰。撲克是一種不完全信息遊戲,需要眾多技能,如數學、推理、規劃、策略,以及對遊戲理論和人類心理的深刻理解。這使得撲克成為大型語言模型的理想下一個挑戰。PokerBench包括一個由訓練有素的撲克玩家合作開發的、涵蓋前翻和後翻遊戲的11,000個最重要情境的全面編譯。我們評估了包括GPT-4、ChatGPT 3.5以及各種Llama和Gemma系列模型在內的知名模型,發現所有最先進的LLMs在玩最佳撲克時表現不佳。然而,在微調後,這些模型顯示出明顯的改善。我們通過讓得分不同的模型互相競爭來驗證PokerBench,表明在PokerBench上取得更高分數導致在實際撲克遊戲中獲勝率更高。通過我們微調的模型與GPT-4之間的遊戲過程,我們還確定了簡單監督微調對於學習最佳遊戲策略的局限性,暗示需要更先進的方法來有效訓練語言模型在遊戲中表現出色。因此,PokerBench提供了一個獨特的基準,用於快速可靠地評估LLMs的撲克遊戲能力,同時也是一個全面的基準,用於研究LLMs在複雜遊戲情境中的進展。數據集和代碼將在以下鏈接提供:https://github.com/pokerllm/pokerbench。
儘管生成式大型語言模型(LLMs)具有生成高質量和流暢文本的能力,但也會產生幻覺:即與已建立的世界知識或提供的輸入上下文不一致的陳述。然而,測量幻覺可能具有挑戰性,因為讓人類即時驗證模型生成的成本高且耗時。在這項工作中,我們發布了HALoGEN,一個全面的幻覺基準,包括:(1)10,923個用於生成模型的提示,涵蓋九個領域,包括編程、科學歸因和摘要,以及(2)每個用例的自動高精度驗證器,將LLM生成拆分為原子單元,並對每個單元與高質量知識來源進行驗證。我們使用這個框架來評估來自14個語言模型的約150,000個生成,發現即使是表現最佳的模型也充斥著幻覺(有時根據領域,生成的原子事實中高達86%可能是幻覺)。我們進一步為LLM幻覺定義了一種新的錯誤分類,基於它們是否可能源於對訓練數據的不正確回憶(A型錯誤)、訓練數據中的不正確知識(B型錯誤)或是捏造(C型錯誤)。我們希望我們的框架能夠為為什麼生成模型會產生幻覺的原則性研究奠定基礎,並推動可信任的大型語言模型的發展。
圖像分詞器是現代文本到圖像生成模型的基礎,但訓練過程常常困難。此外,大多數現有的文本到圖像模型依賴大規模、高質量的私有數據集,使得復制這些模型具有挑戰性。在這項工作中,我們介紹了基於Transformer的文本感知1維分詞器(TA-TiTok),這是一種高效且強大的圖像分詞器,可以利用離散或連續的1維標記。TA-TiTok在分詞器解碼階段(即去標記化)獨特地整合了文本信息,加快了收斂速度並增強了性能。TA-TiTok還受益於簡化但有效的單階段訓練過程,消除了先前1維分詞器中使用的複雜的兩階段蒸餾的需求。這種設計使其能夠無縫擴展到大型數據集。基於此,我們介紹了一系列文本到圖像的遮罩生成模型(MaskGen),僅在開放數據上進行訓練,同時實現了與在私有數據上訓練的模型相當的性能。我們的目標是發布高效且強大的TA-TiTok分詞器以及基於開放數據和開放權重訓練的MaskGen模型,以促進更廣泛的訪問並實現對文本到圖像遮罩生成模型領域的民主化。
我們介紹了 Tarsier2,一款最先進的大型視覺語言模型(LVLM),旨在生成詳細準確的視頻描述,同時展現出卓越的視頻理解能力。Tarsier2 通過三個關鍵升級取得了顯著進展:(1)將預訓練數據從 1100 萬擴展到 4000 萬個視頻文本對,豐富了數據量和多樣性;(2)在監督微調期間執行精細的時間對齊;(3)使用基於模型的抽樣來自動構建偏好數據,並應用 DPO 訓練進行優化。大量實驗表明,Tarsier2-7B 在詳細視頻描述任務中始終優於領先的專有模型,包括 GPT-4o 和 Gemini 1.5 Pro。在 DREAM-1K 基準測試中,Tarsier2-7B 將 F1 值比 GPT-4o 提高了 2.8\%,比 Gemini-1.5-Pro 提高了 5.8\%。在人類並排評估中,Tarsier2-7B 表現優於 GPT-4o 8.6\%,優於 Gemini-1.5-Pro 24.9\%。Tarsier2-7B 還在 15 個公共基準測試中創下了新的最先進成果,涵蓋了視頻問答、視頻定位、幻覺測試和具體問答等任務,展示了其作為強大通用視覺語言模型的多功能性。
自動可解釋性流程生成自然語言描述,以描述大型語言模型(LLMs)中表示的特徵概念,例如植物或句子中的第一個單詞。這些描述是使用激活該特徵的輸入來衍生的,這些輸入可能是模型表示空間中的一個維度或方向。然而,識別激活輸入是昂貴的,而特徵在模型行為中的機械作用既取決於輸入如何導致特徵激活,也取決於特徵激活如何影響輸出。通過轉向評估,我們揭示了當前流程提供的描述未能捕捉特徵對輸出的因果效應。為了解決這個問題,我們提出了有效的、以輸出為中心的方法來自動生成特徵描述。這些方法使用在特徵刺激後權重較高的標記,或者在將詞彙“unembedding”頭直接應用於特徵後權重最高的標記。我們的以輸出為中心的描述更好地捕捉了特徵對模型輸出的因果效應,但將兩者結合則在輸入和輸出評估上實現了最佳表現。最後,我們展示了以輸出為中心的描述可用於找到先前被認為是“死”的特徵激活的輸入。
大型語言模型(LLMs)展示了卓越的能力,但它們的成功在很大程度上取決於預訓練語料庫的質量。對於中文LLMs來說,高質量中文數據集的稀缺性帶來了重大挑戰,通常限制了它們的性能。為了應對這一問題,我們提出了OpenCSG中文語料庫,這是一系列專門為LLM的預訓練、後訓練和微調而設計的高質量數據集。該語料庫包括Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese,每個數據集都具有獨特特徵:Fineweb-edu數據集聚焦於來自不同中文網絡來源的經過過濾的高質量內容;Cosmopedia-chinese提供了用於知識密集型訓練的合成、教科書風格數據;而Smoltalk-chinese則強調風格多樣的聊天格式數據。OpenCSG中文語料庫以其高質量文本、跨領域多樣性覆蓋和可擴展、可重現的數據整理過程為特點。此外,我們進行了廣泛的實驗分析,包括對較小參數模型的評估,顯示在C-Eval等任務中取得了顯著的性能改善,突顯了該語料庫對訓練中文LLMs的有效性。
仇恨言論和辱罵性語言是全球性現象,需要社會文化背景知識才能被理解、識別和調節。然而,在全球南方的許多地區,已經有多起記錄的事件顯示了(1)缺乏調節和(2)因依賴上下文之外的關鍵字識別而進行審查。此外,知名人士經常處於調節過程的中心,而針對少數群體的大規模和有針對性的仇恨言論活動則被忽視。這些限制主要是由於當地語言缺乏高質量數據,以及未能將當地社區納入收集、標註和調節過程。為了解決這個問題,我們提出了AfriHate:一個包含15種非洲語言的仇恨言論和辱罵性語言數據集的多語言收集。AfriHate中的每個實例都由熟悉當地文化的母語人士進行標註。我們報告了與數據集構建相關的挑戰,並提出了使用LLMs和不使用LLMs的各種分類基線結果。這些數據集、個別標註和仇恨言論和冒犯性語言詞彙表可在https://github.com/AfriHate/AfriHate上獲得。
大型語言模型的快速進展已經開啟了處理和總結非結構化文本數據的卓越能力。這對於分析豐富、開放式數據集(例如調查回應)具有重要意義,語言模型有望有效地提煉出關鍵主題和情感。然而,隨著組織越來越多地依賴這些強大的人工智慧系統來理解文本反饋,一個關鍵問題浮現:我們能相信語言模型能準確地代表這些文本數據集中所包含的觀點嗎?儘管語言模型擅長生成類似人類的摘要,但存在一個風險,即它們的輸出可能會無意中偏離原始回應的真實內容。語言模型生成的輸出與數據中實際主題之間的差異可能導致決策上的缺陷,對組織產生深遠影響。本研究探討了將語言模型作為評估其他語言模型生成摘要的評判模型的有效性。我們利用 Anthropica Claude 模型從開放式調查回應中生成主題摘要,Amazon 的 Titan Express、Nova Pro 和 Meta 的 Llama 則作為語言模型評判。將語言模型作為評判的方法與使用 Cohen's kappa、Spearman's rho 和 Krippendorff's alpha 的人工評估進行比較,驗證了一種可擴展的替代傳統以人為中心的評估方法。我們的研究結果顯示,雖然語言模型作為評判提供了一種可擴展的解決方案,與人類評分者相比,人類仍然擅長發現微妙、上下文特定的細微差異。本研究有助於 AI 輔助文本分析的知識體系不斷擴大。我們討論了限制並提出了未來研究的建議,強調在推廣語言模型評判模型時需要仔細考慮各種情境和用例。
影像匹配旨在識別不同影像之間對應的像素位置,在各種科學領域中至關重要,有助於影像配准、融合和分析。近年來,基於深度學習的影像匹配算法在快速準確地找到大量對應方面明顯優於人類。然而,當處理由於不同成像模式導致外觀變化明顯的影像時,這些算法的性能常常下降,原因在於跨模態訓練數據稀缺。這一限制阻礙了依賴多種影像模態獲取補充信息的各個領域的應用。為應對這一挑戰,我們提出了一個大規模預訓練框架,利用合成的跨模態訓練信號,整合來自不同來源的多樣數據,訓練模型識別和匹配影像之間的基本結構。這種能力可轉移到現實世界中看不見的跨模態影像匹配任務。我們的主要發現是,使用我們框架訓練的匹配模型在超過八個看不見的跨模態配准任務中實現了顯著的泛化能力,使用相同的網絡權重,明顯優於現有方法,無論是為泛化而設計還是針對特定任務而量身定制。這一進步顯著增強了影像匹配技術在各種科學領域的應用性,為多模態人類和人工智能分析等新應用打開了道路。
追求自動化科學發現的目標推動了從符號邏輯到現代人工智慧的進步,開拓了推理和模式識別的新領域。變壓器作為潛在系統,每種可能的關係都保持潛在性,直到任務施加約束,類似於測量。然而,要改進它們的取樣不僅需要概率選擇:解決方案必須符合特定結構或規則,確保一致性和通用原則的應用。我們提出了Graph-PReFLexOR(基於圖形的基於偏好的遞歸語言建模的探索性優化推理)框架,將圖形推理與符號抽象結合起來,動態擴展領域知識。受強化學習啟發,Graph-PReFLexOR將推理定義為結構映射,其中任務產生知識圖形、抽象模式,最終得出最終答案。受范畴論啟發,它將概念編碼為節點,將它們之間的關係編碼為邊,支持階層推理和通過同構表示實現的適應性學習。示範包括假設生成、材料設計和創造性推理,例如發現神話概念如“薄弱之處”與材料科學之間的關係。我們提出了一種“知識花園成長”策略,整合跨領域的見解,促進跨學科的聯繫。使用30億參數的Graph-PReFLexOR模型的結果顯示出優越的推理深度和適應性,突顯了透明、多學科的人工智慧驅動發現的潛力。它為通用自主推理解決方案奠定了基礎。