ChatPaper.aiChatPaper.ai
首頁

arXiv

HuggingFace

定價賬戶工作台

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文每日精選

每日精選AI研究論文及翻譯

1

VibeVoice 技術報告
VibeVoice Technical Report

Aug 26
ByZhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
18
1

本報告介紹了VibeVoice,這是一種新穎的模型,旨在通過採用下一令牌擴散技術來合成多說話者的長篇語音。這是一種通過擴散自迴歸生成潛在向量來建模連續數據的統一方法。為實現這一目標,我們引入了一種新型的連續語音令牌化器,與流行的Encodec模型相比,該令牌化器在保持可比性能的同時,將數據壓縮率提高了80倍。該令牌化器在有效保持音頻保真度的同時,顯著提升了處理長序列的計算效率。因此,VibeVoice能夠在64K上下文窗口長度內合成長達90分鐘的語音,最多支持4位說話者,捕捉真實的對話「氛圍」,並超越了開源和專有的對話模型。

2

間隔物:邁向工程化的科學啟迪
Spacer: Towards Engineered Scientific Inspiration

Aug 25
ByMinhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
18
1

近期大型語言模型(LLMs)的進展,使得自動化科學研究成為邁向人工超級智能的下一個前沿陣地。然而,這些系統要么局限於狹窄的任務範疇,要么受限於LLMs有限的創造能力。我們提出了Spacer,這是一個無需外部干預即可開發創意且基於事實的科學發現系統。Spacer試圖通過“刻意去情境化”來實現這一目標,該方法將信息分解為原子單元——關鍵詞,並從這些關鍵詞之間未被探索的聯繫中汲取創造力。Spacer由兩部分組成:(i) Nuri,一個構建關鍵詞集的靈感引擎,以及(ii) 將這些關鍵詞集精煉為詳盡科學陳述的顯化管道。Nuri從一個包含180,000篇生物學領域學術論文的關鍵詞圖譜中提取新穎且具有高潛力的關鍵詞集。顯化管道則尋找關鍵詞之間的聯繫,分析其邏輯結構,驗證其合理性,並最終起草原創的科學概念。根據我們的實驗,Nuri的評估指標能夠準確分類高影響力出版物,其AUROC得分為0.737。我們的顯化管道也成功地僅憑關鍵詞集重建了最新頂級期刊文章的核心概念。基於LLM的評分系統估計,這種重建在超過85%的情況下是可靠的。最後,我們的嵌入空間分析顯示,與當前最先進的LLMs相比,Spacer的輸出與領先出版物的相似度顯著更高。

3

CMPhysBench:評估大型語言模型在凝聚態物理領域表現的基準
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

Aug 25
ByWeida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
15
1

我們推出了CMPhysBench,這是一個旨在評估大型語言模型(LLMs)在凝聚態物理學領域能力的新穎基準。CMPhysBench由超過520道研究生級別精心策劃的問題組成,涵蓋了凝聚態物理學的代表性子領域和基礎理論框架,如磁性、超導性、強關聯系統等。為了確保對問題解決過程的深入理解,我們專注於計算問題,要求LLMs獨立生成全面的解決方案。同時,利用表達式的樹狀表示,我們引入了可擴展表達式編輯距離(SEED)分數,該分數提供了細粒度的(非二元的)部分分數,並能更準確地評估預測與真實值之間的相似性。我們的結果顯示,即使是表現最佳的模型Grok-4,在CMPhysBench上的平均SEED分數僅為36,準確率為28%,這凸顯了在這一實用且前沿的領域相對於傳統物理學的顯著能力差距。代碼和數據集已公開於https://github.com/CMPhysBench/CMPhysBench。

4

OmniHuman-1.5:透過認知模擬為虛擬化身注入主動思維
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

Aug 26
ByJianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao
11
1

現有的視頻化身模型雖能生成流暢的人體動畫,卻難以超越單純的形似,捕捉角色的真實本質。其動作通常僅與音頻節奏等低層次線索同步,缺乏對情感、意圖或語境的深層語義理解。為彌合這一差距,我們提出了一個框架,旨在生成不僅物理上合理,而且語義連貫且富有表現力的角色動畫。我們的模型OmniHuman-1.5基於兩項關鍵技術貢獻。首先,我們利用多模態大語言模型合成條件結構化文本表示,提供高層次語義指導。這一指導使我們的動作生成器超越了簡單的節奏同步,能夠生成與上下文和情感共鳴的動作。其次,為確保這些多模態輸入的有效融合並緩解模態間衝突,我們引入了一種專用的多模態DiT架構,配備新穎的偽最後幀設計。這些組件的協同作用使我們的模型能夠準確解讀音頻、圖像和文本的聯合語義,從而生成與角色、場景及語言內容深度一致的動作。大量實驗表明,我們的模型在包括唇形同步精度、視頻質量、動作自然度及與文本提示的語義一致性在內的綜合指標上均取得了領先性能。此外,我們的方法在涉及多人及非人主體的複雜場景中展現出顯著的可擴展性。主頁:https://omnihuman-lab.github.io/v1_5/

5

UltraMemV2:記憶體網路擴展至1200億參數,實現卓越的長上下文學習能力
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Aug 26
ByZihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
10
1

儘管專家混合(MoE)模型通過僅激活部分參數實現了顯著的效率,但這些模型在推理過程中面臨著高內存訪問成本的問題。內存層架構提供了一種具有極少內存訪問的吸引人替代方案,但之前的嘗試如UltraMem僅能匹配2專家MoE模型的性能,遠遠落後於最先進的8專家配置。我們提出了UltraMemV2,這是一種重新設計的內存層架構,彌補了這一性能差距。我們的方法引入了五項關鍵改進:將內存層集成到每個Transformer模塊中,通過單一線性投影簡化值擴展,採用來自PEER的基於FFN的值處理,實施原則性的參數初始化,以及重新平衡內存與FFN的計算比例。通過廣泛的評估,我們證明UltraMemV2在相同計算和參數條件下實現了與8專家MoE模型的性能持平,但顯著降低了內存訪問。值得注意的是,UltraMemV2在內存密集型任務上表現出優異性能,在長上下文記憶任務上提升了1.6分,在多輪記憶任務上提升了6.2分,在上下文學習任務上提升了7.9分。我們在規模上驗證了我們的方法,模型激活參數高達2.5B,總參數達120B,並確定了激活密度對性能的影響大於總稀疏參數數量。我們的工作使內存層架構達到了與最先進MoE模型相當的性能,為高效的稀疏計算提供了一個引人注目的替代方案。

6

VoxHammer:無需訓練的原生3D空間精確連貫編輯
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Aug 26
ByLin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
7
1

三維局部編輯在遊戲產業和機器人互動中至關重要。現有方法通常對渲染的多視角圖像進行編輯後重建三維模型,但在精確保留未編輯區域和整體一致性方面面臨挑戰。受結構化三維生成模型的啟發,我們提出了VoxHammer,這是一種無需訓練的新方法,能在三維潛在空間中實現精確且連貫的編輯。給定一個三維模型,VoxHammer首先預測其反轉軌跡,並在每個時間步獲取其反轉潛在變量和鍵值對令牌。隨後,在去噪和編輯階段,我們將保留區域的去噪特徵替換為相應的反轉潛在變量和緩存的鍵值對令牌。通過保留這些上下文特徵,該方法確保了保留區域的一致重建以及編輯部分的連貫整合。為了評估保留區域的一致性,我們構建了Edit3D-Bench,這是一個包含數百個樣本的人工標註數據集,每個樣本都經過精心標記的三維編輯區域。實驗表明,VoxHammer在保留區域的三維一致性和整體質量方面均顯著優於現有方法。我們的方法有望合成高質量的編輯配對數據,從而為上下文內的三維生成奠定數據基礎。詳見我們的項目頁面:https://huanngzh.github.io/VoxHammer-Page/。

7

TreePO:基於啟發式樹狀建模的政策優化與效能及推理效率之橋接
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Aug 24
ByYizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang
6
1

近期,通過強化學習對齊大型語言模型的技術取得了顯著進展,在解決複雜推理問題方面獲得了顯著提升,但這也伴隨著昂貴的在線策略展開和對多樣化推理路徑探索的局限。本研究提出了TreePO,引入了一種自我引導的展開算法,將序列生成視為樹結構的搜索過程。TreePO結合了動態樹採樣策略和固定長度片段解碼,利用局部不確定性來保證額外分支的生成。通過在共同前綴上分攤計算並早期剪枝低價值路徑,TreePO本質上減少了每次更新的計算負擔,同時保持或增強了探索的多樣性。主要貢獻包括:(1) 一種分段採樣算法,通過連續片段減輕KV緩存的負擔,並伴隨早期停止機制生成新分支;(2) 基於樹的片段級優勢估計,考慮了全局和局部的近端策略優化;(3) 對概率和質量驅動的動態分歧及回退策略有效性的分析。我們在系列推理基準上實證驗證了TreePO的性能提升,並展示了訓練模型採樣設計的GPU小時效率節省從22%到43%,同時現有模型在軌跡級和令牌級採樣計算上分別減少了40%和35%。在提供推理效率的“免費午餐”的同時,TreePO揭示了一條實用路徑,即通過更少的樣本和計算來擴展基於強化學習的後訓練。主頁位於https://m-a-p.ai/TreePO。

8

Pixie:從像素快速且可泛化的三維物理監督學習
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

Aug 20
ByLong Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
6
1

從視覺資訊推斷三維場景的物理屬性,是創建互動且逼真的虛擬世界的關鍵但具挑戰性的任務。雖然人類能直觀地理解如彈性或剛度等材料特性,現有方法通常依賴於緩慢的逐場景優化,限制了其通用性和應用範圍。為解決這一問題,我們提出了PIXIE,一種新穎的方法,它訓練一個可泛化的神經網絡,僅使用監督損失從三維視覺特徵預測多個場景的物理屬性。一旦訓練完成,我們的前饋網絡能夠快速推斷出合理的材料場,這與如高斯濺射等學習到的靜態場景表示相結合,能夠在外部力作用下實現逼真的物理模擬。為促進這項研究,我們還收集了PIXIEVERSE,這是已知最大的配對三維資產與物理材料註釋數據集之一。廣泛的評估表明,PIXIE比測試時優化方法優越約1.46至4.39倍,且速度快了數個數量級。通過利用如CLIP等預訓練的視覺特徵,我們的方法還能零樣本泛化到現實世界場景,儘管僅在合成數據上進行過訓練。https://pixie-3d.github.io/

9

CineScale:高分辨率電影視覺生成的免費午餐
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

Aug 21
ByHaonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
4
1

視覺擴散模型取得了顯著進展,但由於缺乏高分辨率數據和受限的計算資源,它們通常只能在有限的分辨率下進行訓練,這阻礙了其在更高分辨率下生成高保真圖像或視頻的能力。最近的研究探索了無需調優的策略,以展現預訓練模型在更高分辨率視覺生成方面的潛力。然而,這些方法仍容易產生具有重複模式的低質量視覺內容。關鍵障礙在於,當模型生成超出其訓練分辨率的視覺內容時,高頻信息的不可避免增加會導致累積誤差,從而產生不理想的重複模式。在本研究中,我們提出了CineScale,一種新穎的推理範式,以實現更高分辨率的視覺生成。為應對兩種視頻生成架構引入的各種問題,我們提出了針對每種架構的專用變體。與現有的僅限於高分辨率文本到圖像(T2I)和文本到視頻(T2V)生成的基線方法不同,CineScale通過在頂尖的開源視頻生成框架上實現高分辨率圖像到視頻(I2V)和視頻到視頻(V2V)合成,擴展了應用範圍。大量實驗驗證了我們範式在擴展圖像和視頻模型更高分辨率視覺生成能力方面的優越性。值得注意的是,我們的方法無需任何微調即可實現8k圖像生成,並僅需少量LoRA微調即可實現4k視頻生成。生成的視頻樣本可在我們的網站上查看:https://eyeline-labs.github.io/CineScale/。

10

Wan-S2V:音頻驅動的電影級視頻生成
Wan-S2V: Audio-Driven Cinematic Video Generation

Aug 26
ByXin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
2
1

當前最先進的音頻驅動角色動畫方法在主要涉及說話和歌唱的場景中展現出令人期待的表現。然而,在更為複雜的影視製作中,這些方法往往力有未逮,因為這些製作需要精細的角色互動、逼真的身體動作以及動態的攝影技巧。為了解決這一長期存在的挑戰,即實現電影級別的角色動畫,我們提出了一種基於Wan的音頻驅動模型,我們稱之為Wan-S2V。與現有方法相比,我們的模型在電影情境中顯著提升了表現力和真實感。我們進行了廣泛的實驗,將我們的方法與如Hunyuan-Avatar和Omnihuman等尖端模型進行了基準測試。實驗結果一致表明,我們的方法顯著優於這些現有解決方案。此外,我們還通過長視頻生成和精確的視頻唇形同步編輯等應用,探索了我們方法的廣泛適用性。

11

查詢強盜用於幻覺緩解:利用語義特徵實現無悔重寫
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

Aug 22
ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
2
1

大型語言模型(LLMs)的高級推理能力導致了幻覺現象的普遍增加;然而,大多數緩解工作集中在事後過濾而非塑造觸發這些幻覺的查詢。我們引入了QueryBandits,這是一個基於多臂賭博機框架的系統,旨在設計重寫策略以最大化獎勵模型,該模型基於輸入查詢的17種語言特徵的敏感性來封裝幻覺傾向,從而主動引導LLMs遠離生成幻覺。在13個多樣的問答基準測試和每個數據集1,050個詞彙擾動查詢中,我們的最佳上下文QueryBandit(湯普森採樣)相較於無重寫基線實現了87.5%的勝率,並且分別比零樣本靜態提示(“改寫”或“擴展”)高出42.6%和60.3%。因此,我們通過查詢重寫形式的干預,實證了QueryBandits在緩解幻覺方面的有效性。有趣的是,某些靜態提示策略,這些策略構成了當前查詢重寫文獻的相當一部分,其累積遺憾比無重寫基線更高,表明靜態重寫可能加劇幻覺。此外,我們發現,收斂的每臂迴歸特徵權重向量證實了沒有一種重寫策略對所有查詢都是最優的。在這種情況下,通過QueryBandits利用語義特徵進行引導重寫,可以通過前向傳遞機制顯著改變輸出行為,無需重新訓練或基於梯度的適應。

12

自回歸通用視頻分割模型
Autoregressive Universal Video Segmentation Model

Aug 26
ByMiran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma
1
1

近期如SAM2等视频基础模型通过将掩码视为通用原语,在提示式视频分割任务中表现出色。然而,许多现实场景需要无提示分割,旨在无需外部线索即可检测并追踪视频中的所有对象,这使得当前领域被分割为针对特定任务的模型和流程。我们将流式视频分割重新定义为序列掩码预测,类似于语言建模,并引入了自回归通用分割模型(AUSM),这一单一架构统一了提示式与无提示式视频分割。基于最新的状态空间模型,AUSM维持固定大小的空间状态,并能适应任意长度的视频流。此外,AUSM的所有组件均设计为跨帧并行训练,相较于迭代训练实现了显著的加速。在标准基准测试(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021及OVIS)中,AUSM超越了先前的通用流式视频分割方法,并在16帧序列上实现了高达2.5倍的训练速度提升。

13

MovieCORE:電影中的認知推理
MovieCORE: COgnitive REasoning in Movies

Aug 26
ByGueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
1
1

本文介紹了MovieCORE,一個新穎的視頻問答(VQA)數據集,旨在深入探討電影內容的認知理解。與現有數據集專注於表面層次的理解不同,MovieCORE強調那些激發系統二思維的問題,同時保持對視頻材料的針對性。我們提出了一種創新的主動性頭腦風暴方法,利用多個大型語言模型(LLMs)作為思維代理,生成並精煉高質量的問答對。為了評估數據集質量,我們開發了一套認知測試,評估深度、啟發潛力和句法複雜性。我們還提出了一個全面的評估方案,用於評估VQA模型在更深層次認知任務上的表現。針對現有視頻語言模型(VLMs)的局限性,我們引入了一個主動性增強模塊——主動選擇增強(ACE),該模塊在訓練後將模型推理能力提升高達25%。我們的工作有助於推進AI系統對電影的理解,並為當前VQA模型在面對更具挑戰性、更細膩的電影內容問題時的能力和局限性提供了寶貴的見解。我們的項目頁面、數據集和代碼可在https://joslefaure.github.io/assets/html/moviecore.html找到。

14

ThinkDial:控制大型語言模型推理力度的開放配方
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Aug 26
ByQianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
1
2

具備鏈式思維推理能力的大型語言模型(LLMs)已展現出卓越的問題解決能力,但在實際部署中,控制其計算開銷仍是一大挑戰。近期如OpenAI的gpt-oss系列等專有系統引入了離散操作模式以實現直觀的推理控制,然而開源社區大多未能實現此類功能。本文中,我們介紹了ThinkDial,這是首個開源端到端框架,成功通過離散操作模式實現了gpt-oss風格的可控推理。我們的系統能夠在三個不同的推理模式間無縫切換:高級模式(完整推理能力)、中級模式(減少50%的token使用,性能下降<10%)和低級模式(減少75%的token使用,性能下降<15%)。我們通過一種端到端的訓練範式實現了這一點,該範式將預算模式控制整合到整個流程中:包括嵌入可控推理能力的預算模式監督微調,以及帶有自適應獎勵塑造的兩階段預算感知強化學習。大量實驗表明,ThinkDial在保持性能閾值的同時,實現了目標的壓縮與性能權衡,並顯著減少了響應長度。該框架在分佈外任務上也展現出強大的泛化能力。

15

訓練語言模型代理以CTF-Dojo尋找漏洞
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

Aug 25
ByTerry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
1
1

大型語言模型(LLMs)在可執行的運行時環境中訓練時,展現了卓越的能力,特別是在通過驗證反饋循環處理軟件工程任務方面表現突出。然而,可擴展且具普遍性的執行基礎環境仍然稀缺,這限制了訓練更強大機器學習代理的進展。我們推出了CTF-Dojo,這是首個專為訓練LLMs而設計的大規模可執行運行時環境,配備了658個完全功能的奪旗賽(CTF)式挑戰,這些挑戰被容器化在Docker中,確保了可重現性。為了實現無需人工干預的快速擴展,我們開發了CTF-Forge,這是一個自動化管道,能夠在幾分鐘內將公開可用的工件轉化為即用型執行環境,省去了傳統上需要數週專家配置的時間。我們僅使用來自CTF-Dojo的486條高質量、執行驗證的軌跡來訓練基於LLM的代理,在三個競爭性基準測試中取得了高達11.6%的絕對增益:InterCode-CTF、NYU CTF Bench和Cybench。我們表現最佳的32B模型達到了31.9%的Pass@1,創下了新的開放權重最先進水平,與DeepSeek-V3-0324和Gemini-2.5-Flash等前沿模型相媲美。通過將CTF式任務定位為可執行代理學習的基準,CTF-Dojo證明了基於執行的訓練信號不僅有效,而且對於推進高性能機器學習代理的發展至關重要,而無需依賴昂貴的專有系統。

16

FastMesh:通過組件解耦實現高效的藝術化網格生成
FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

Aug 26
ByJeonghwan Kim, Yushi Lan, Armando Fortes, Yongwei Chen, Xingang Pan
0
1

近年來的網格生成方法通常將三角形網格轉換為一系列標記,並訓練自回歸模型來依次生成這些標記。儘管取得了顯著進展,但這類標記序列不可避免地會重複使用頂點以完整表示流形網格,因為每個頂點被多個面共享。這種冗餘導致標記序列過長,生成過程效率低下。本文提出了一種高效框架,通過分別處理頂點和面來生成藝術網格,顯著減少了冗餘。我們僅使用自回歸模型生成頂點,將所需標記數量減少至現有最緊湊標記器的約23%。接著,我們利用雙向變壓器捕捉頂點間的關係,並構建定義網格面的鄰接矩陣,從而一步完成網格生成。為了進一步提升生成質量,我們引入了一種保真度增強器來精煉頂點位置,使其排列更加自然,並提出了一種後處理框架以去除不良的邊連接。實驗結果表明,與最先進的方法相比,我們的網格生成速度提高了8倍以上,同時生成更高質量的網格。

17

透過模組社群解析大型語言模型的認知模式
Unraveling the cognitive patterns of Large Language Models through module communities

Aug 25
ByKushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
0
1

大型語言模型(LLMs)透過從科學發現、醫學診斷到聊天機器人等廣泛應用,在科學、工程和社會領域帶來了顯著進步,重塑了我們的世界。儘管它們無處不在且實用性高,但LLM的運作機制仍隱藏在數十億參數和複雜結構之中,使其內部架構和認知過程難以理解。我們通過借鑒生物學中理解新興認知的方法,並開發一個基於網絡的框架來彌補這一差距,該框架將認知技能、LLM架構和數據集聯繫起來,從而引領基礎模型分析的範式轉變。模塊社群中的技能分佈表明,雖然LLMs並未嚴格對應於特定生物系統中觀察到的集中專化,但它們展現了獨特的模塊社群,其湧現的技能模式部分反映了鳥類和小型哺乳動物大腦中分佈式卻相互連接的認知組織。我們的數值結果突顯了從生物系統到LLMs的一個關鍵差異,即技能獲取在很大程度上受益於動態的跨區域互動和神經可塑性。通過將認知科學原理與機器學習相結合,我們的框架為LLM的可解釋性提供了新的見解,並表明有效的微調策略應利用分佈式學習動態,而非僵化的模塊干預。

Aug 26
Aug 27