ChatPaper.aiChatPaper.ai
ホーム

arXiv

HuggingFace

料金プランアカウントワークスペース

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

1

VibeVoice技術レポート
VibeVoice Technical Report

Aug 26
ByZhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
18
1

本報告書では、VibeVoiceという新しいモデルを紹介します。このモデルは、複数の話者による長文音声を合成するために設計されており、拡散法を用いて潜在ベクトルを自己回帰的に生成することで連続データをモデル化する統一手法であるnext-token diffusionを採用しています。これを実現するために、我々は新しい連続音声トークナイザーを導入しました。このトークナイザーは、広く使われているEncodecモデルと比較して、同等の性能を維持しながらデータ圧縮率を80倍向上させます。このトークナイザーは、音声の忠実度を効果的に保ちつつ、長いシーケンスの処理における計算効率を大幅に向上させます。その結果、VibeVoiceは最大4人の話者による最長90分(64Kのコンテキストウィンドウ長)の長文音声を合成することができ、本物の会話の「雰囲気」を捉え、オープンソースおよびプロプライエタリな対話モデルを凌駕します。

2

スペーサー:エンジニアリングされた科学的インスピレーションに向けて
Spacer: Towards Engineered Scientific Inspiration

Aug 25
ByMinhyeong Lee, Suyoung Hwang, Seunghyun Moon, Geonho Nah, Donghyun Koh, Youngjun Cho, Johyun Park, Hojin Yoo, Jiho Park, Haneul Choi, Sungbin Moon, Taehoon Hwang, Seungwon Kim, Jaeyeong Kim, Seongjun Kim, Juneau Jung
18
1

近年のLLM(大規模言語モデル)の進展により、自動化された科学研究は人工超知能への道における次の最前線となっている。しかし、これらのシステムは狭い範囲のタスクに限定されるか、あるいはLLMの限られた創造能力に縛られている。本研究では、外部の介入なしに創造的かつ事実に基づいた概念を開発する科学的発見システム「Spacer」を提案する。Spacerは「意図的な脱文脈化」というアプローチを通じてこれを実現しようとする。このアプローチでは、情報を原子単位(キーワード)に分解し、それらの間の未探索のつながりから創造性を引き出す。Spacerは、(i) キーワードセットを構築するインスピレーションエンジン「Nuri」と、(ii) これらのセットを洗練された科学的記述に変換する「Manifesting Pipeline」で構成される。Nuriは、生物学分野の18万件の学術論文から構築されたキーワードグラフから、新規で高いポテンシャルを持つキーワードセットを抽出する。Manifesting Pipelineは、キーワード間の関連性を見つけ、それらの論理構造を分析し、妥当性を検証し、最終的に独自の科学的概念を起草する。実験によると、Nuriの評価指標は、AUROCスコア0.737で高インパクト論文を正確に分類する。また、Manifesting Pipelineは、最新のトップジャーナル論文の核心概念を、そのキーワードセットのみから再構築することに成功した。LLMベースのスコアリングシステムによると、この再構築は85%以上のケースで妥当であると推定された。最後に、埋め込み空間分析により、Spacerの出力はSOTA(最先端)LLMの出力と比較して、主要な論文に有意に類似していることが示された。

3

CMPhysBench: 凝縮系物理学における大規模言語モデルの評価のためのベンチマーク
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

Aug 25
ByWeida Wang, Dongchen Huang, Jiatong Li, Tengchao Yang, Ziyang Zheng, Di Zhang, Dong Han, Benteng Chen, Binzhao Luo, Zhiyu Liu, Kunling Liu, Zhiyuan Gao, Shiqi Geng, Wei Ma, Jiaming Su, Xin Li, Shuchen Pu, Yuhan Shui, Qianjia Cheng, Zhihao Dou, Dongfei Cui, Changyong He, Jin Zeng, Zeke Xie, Mao Su, Dongzhan Zhou, Yuqiang Li, Wanli Ouyang, Yunqi Cai, Xi Dai, Shufei Zhang, Lei Bai, Jinguang Cheng, Zhong Fang, Hongming Weng
15
1

我々は、大規模言語モデル(LLMs)の凝縮系物理学における熟練度を評価するための新たなベンチマークとして、CMPhysBenchを導入します。CMPhysBenchは、磁性、超伝導、強相関系など、凝縮系物理学の代表的なサブフィールドと基礎的な理論的枠組みをカバーする520以上の大学院レベルの厳選された問題で構成されています。問題解決プロセスの深い理解を確保するため、我々は計算問題に焦点を当て、LLMsが独立して包括的な解答を生成することを要求します。同時に、式の木構造表現を活用して、スケーラブルな式編集距離(SEED)スコアを導入し、予測と正解との間の類似性をより正確に評価するための細かい(非二値的)部分点を提供します。我々の結果は、最良のモデルであるGrok-4でさえ、CMPhysBenchにおいて平均SEEDスコア36、正答率28%に留まることを示しており、特にこの実践的で最先端の領域において、伝統的な物理学と比較して大きな能力ギャップがあることを強調しています。コードとデータセットはhttps://github.com/CMPhysBench/CMPhysBenchで公開されています。

4

OmniHuman-1.5: 認知シミュレーションによるアバターへの能動的マインドの付与
OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

Aug 26
ByJianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao
11
1

既存のビデオアバターモデルは滑らかな人間のアニメーションを生成できるものの、単なる外見の類似を超えてキャラクターの本質を捉えることは困難です。これらのモデルの動きは通常、音声のリズムのような低レベルの手がかりに同期しており、感情、意図、または文脈に対する深い意味理解を欠いています。このギャップを埋めるため、私たちは物理的に妥当であるだけでなく、意味的にも一貫性があり表現力豊かなキャラクターアニメーションを生成するためのフレームワークを提案します。私たちのモデル、OmniHuman-1.5は、2つの重要な技術的貢献に基づいています。まず、マルチモーダル大規模言語モデルを活用して、高レベルの意味的ガイダンスを提供する構造化されたテキスト表現を合成します。このガイダンスにより、単純なリズム同期を超えて、文脈的および感情的に共鳴するアクションを生成することが可能になります。次に、これらのマルチモーダル入力を効果的に融合し、モダリティ間の衝突を緩和するために、新しいPseudo Last Frame設計を備えた専用のマルチモーダルDiTアーキテクチャを導入します。これらのコンポーネントの相乗効果により、私たちのモデルは音声、画像、テキストの共同意味を正確に解釈し、キャラクター、シーン、言語内容と深く一貫した動きを生成することができます。広範な実験により、私たちのモデルがリップシンクの精度、ビデオ品質、動きの自然さ、テキストプロンプトとの意味的一貫性を含む包括的なメトリクスセットにおいて、リーディングパフォーマンスを達成することが示されています。さらに、私たちのアプローチは、複数人や非人間の被写体を含む複雑なシナリオに対する顕著な拡張性を示しています。ホームページ: https://omnihuman-lab.github.io/v1_5/

5

UltraMemV2:1200億パラメータにスケーリング可能なメモリネットワークと優れた長文脈学習
UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning

Aug 26
ByZihao Huang, Yu Bao, Qiyang Min, Siyan Chen, Ran Guo, Hongzhi Huang, Defa Zhu, Yutao Zeng, Banggu Wu, Xun Zhou, Siyuan Qiao
10
1

Mixture of Experts(MoE)モデルは、パラメータのサブセットのみを活性化することで顕著な効率性を実現しますが、推論時のメモリアクセスコストが高いという課題を抱えています。一方、メモリ層アーキテクチャは、非常に少ないメモリアクセスで魅力的な代替手段を提供しますが、UltraMemのような従来の試みは2エキスパートのMoEモデルの性能にしか匹敵せず、最先端の8エキスパート構成には大きく及ばない状況でした。本論文では、この性能差を埋めるために再設計されたメモリ層アーキテクチャであるUltraMemV2を提案します。私たちのアプローチでは、以下の5つの主要な改善を導入しています:メモリ層をすべてのトランスフォーマーブロックに統合すること、単一の線形射影で値の拡張を簡素化すること、PEERからFFNベースの値処理を採用すること、原則に基づいたパラメータ初期化を実装すること、メモリとFFNの計算比率を再調整することです。広範な評価を通じて、UltraMemV2が同じ計算量とパラメータ数で8エキスパートのMoEモデルと同等の性能を達成しつつ、メモリアクセスを大幅に低減できることを実証しました。特に、UltraMemV2はメモリ集約型タスクで優れた性能を示し、長文脈記憶で+1.6ポイント、多段階記憶で+6.2ポイント、文脈内学習で+7.9ポイントの改善を達成しました。私たちは、総パラメータ数120Bから活性化パラメータ数2.5Bまでの大規模モデルでアプローチを検証し、活性化密度が総スパースパラメータ数よりも性能に大きな影響を与えることを確認しました。本研究により、メモリ層アーキテクチャは最先端のMoEモデルと同等の性能を達成し、効率的なスパース計算のための有力な代替手段として位置づけられました。

6

VoxHammer: ネイティブ3D空間におけるトレーニング不要の精密で一貫性のある3D編集
VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Aug 26
ByLin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng
7
1

ゲーム産業やロボットインタラクションにおいて、特定領域の3Dローカル編集は極めて重要です。最近の手法では、通常レンダリングされたマルチビュー画像を編集し、その後3Dモデルを再構築しますが、未編集領域の正確な保存と全体の一貫性の維持に課題を抱えています。構造化された3D生成モデルに着想を得て、我々はVoxHammerを提案します。これは3D潜在空間において精密かつ一貫性のある編集を実行する、新しいトレーニング不要のアプローチです。3Dモデルが与えられると、VoxHammerはまずその反転軌道を予測し、各タイムステップにおける反転潜在変数とキー・バリュートークンを取得します。その後、ノイズ除去と編集フェーズでは、保存領域のノイズ除去特徴を対応する反転潜在変数とキャッシュされたキー・バリュートークンで置き換えます。これらの文脈的特徴を保持することで、保存領域の一貫した再構築と編集部分の調和のとれた統合が保証されます。保存領域の一貫性を評価するため、我々はEdit3D-Benchを構築しました。これは数百のサンプルからなる人間によるアノテーションデータセットで、各サンプルには注意深くラベル付けされた3D編集領域が含まれています。実験の結果、VoxHammerは保存領域の3D一貫性と全体的な品質の両面において、既存の手法を大幅に上回ることが示されました。我々の手法は、高品質な編集済みペアデータの合成に有望であり、文脈内3D生成のためのデータ基盤を築くものです。プロジェクトページはhttps://huanngzh.github.io/VoxHammer-Page/をご覧ください。

7

TreePO: ヒューリスティックなツリーベースモデリングによる ポリシー最適化の有効性と推論効率のギャップを埋める
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling

Aug 24
ByYizhi Li, Qingshui Gu, Zhoufutu Wen, Ziniu Li, Tianshun Xing, Shuyue Guo, Tianyu Zheng, Xin Zhou, Xingwei Qu, Wangchunshu Zhou, Zheng Zhang, Wei Shen, Qian Liu, Chenghua Lin, Jian Yang, Ge Zhang, Wenhao Huang
6
1

大規模言語モデルの強化学習によるアラインメントの最近の進展は、複雑な推論問題の解決において顕著な成果を上げてきたが、その代償として高コストなオン・ポリシー・ロールアウトと多様な推論経路の探索の限界が生じている。本研究では、シーケンス生成を木構造探索プロセスとして捉える自己誘導型ロールアウトアルゴリズムを導入したTreePOを提案する。動的な木サンプリングポリシーと固定長セグメントデコードから構成されるTreePOは、局所的な不確実性を活用して追加の分岐を保証する。共通の接頭辞を償却し、低価値の経路を早期に刈り込むことで、TreePOは更新ごとの計算負荷を本質的に軽減しつつ、探索の多様性を維持または向上させる。主な貢献は以下の通りである:(1) 連続したセグメントを通じてKVキャッシュの負荷を軽減し、早期停止メカニズムと共に新しい分岐を生成するセグメント単位のサンプリングアルゴリズム、(2) グローバルおよびローカルの近接ポリシー最適化を考慮した木ベースのセグメントレベル優位性推定、(3) 確率と品質に基づく動的分岐とフォールバック戦略の有効性に関する分析。我々は、一連の推論ベンチマークにおけるTreePOの性能向上と、訓練済みモデルのサンプリング設計におけるGPU時間の22%から43%の効率化を実証的に検証し、既存モデルにおいて軌跡レベルで最大40%、トークンレベルで最大35%のサンプリング計算削減を示した。推論効率の「フリーランチ」を提供する一方で、TreePOは、より少ないサンプルと計算量でRLベースのポストトレーニングをスケールするための実用的な道筋を明らかにしている。ホームページはhttps://m-a-p.ai/TreePOにあります。

8

Pixie: ピクセルデータからの3D物理現象の高速かつ汎用的な教師あり学習
Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels

Aug 20
ByLong Le, Ryan Lucas, Chen Wang, Chuhao Chen, Dinesh Jayaraman, Eric Eaton, Lingjie Liu
6
1

3Dシーンから視覚情報を用いて物理的特性を推測することは、インタラクティブでリアルな仮想世界を構築する上で重要でありながらも困難な課題です。人間は弾力性や硬さといった材料特性を直感的に理解しますが、既存の手法は遅いシーンごとの最適化に依存することが多く、汎用性と応用性が制限されています。この問題を解決するため、我々はPIXIEを提案します。これは、3D視覚特徴から純粋に教師あり損失を用いて複数シーンにわたる物理的特性を予測する汎用的なニューラルネットワークを訓練する新しい手法です。一度訓練されると、我々のフィードフォワードネットワークは高速な推論を行い、ガウススプラッティングのような学習済みの静的シーン表現と組み合わせることで、外力下でのリアルな物理シミュレーションを可能にします。この研究を促進するため、我々はPIXIEVERSEという、3Dアセットと物理材料アノテーションをペアにした既知で最大級のデータセットを収集しました。広範な評価により、PIXIEはテスト時の最適化手法よりも約1.46-4.39倍優れており、桁違いに高速であることが示されています。CLIPのような事前訓練済みの視覚特徴を活用することで、我々の手法は合成データのみで訓練されているにもかかわらず、実世界のシーンに対してゼロショットで汎化することも可能です。https://pixie-3d.github.io/

9

CineScale: 高解像度シネマティックビジュアル生成におけるフリーランチ
CineScale: Free Lunch in High-Resolution Cinematic Visual Generation

Aug 21
ByHaonan Qiu, Ning Yu, Ziqi Huang, Paul Debevec, Ziwei Liu
4
1

視覚拡散モデルは目覚ましい進歩を遂げていますが、高解像度データの不足や計算リソースの制約により、通常は限られた解像度で学習されるため、高解像度での高忠実度な画像や動画の生成能力が制限されています。最近の研究では、事前学習済みモデルの未開拓の高解像度視覚生成の可能性を引き出すためのチューニング不要な戦略が探求されています。しかし、これらの手法は依然として繰り返しパターンを含む低品質な視覚コンテンツを生成しがちです。その主な障害は、モデルが学習解像度を超える視覚コンテンツを生成する際に、高周波情報が必然的に増加し、蓄積された誤差から生じる望ましくない繰り返しパターンが発生することにあります。本研究では、高解像度視覚生成を可能にする新しい推論パラダイムであるCineScaleを提案します。2種類の動画生成アーキテクチャによって引き起こされる様々な問題に対処するため、それぞれに特化したバリアントを提案します。高解像度のT2I(テキストから画像)およびT2V(テキストから動画)生成に限定されている既存のベースライン手法とは異なり、CineScaleは最先端のオープンソース動画生成フレームワークを基盤として、高解像度のI2V(画像から動画)およびV2V(動画から動画)合成を可能にすることで、その範囲を拡大します。広範な実験により、画像モデルと動画モデルの両方において、高解像度視覚生成の能力を拡張する当パラダイムの優位性が検証されました。特に、我々のアプローチは、微調整なしで8K画像生成を可能にし、最小限のLoRA微調整で4K動画生成を実現します。生成された動画サンプルは、当ウェブサイトでご覧いただけます:https://eyeline-labs.github.io/CineScale/。

10

Wan-S2V: 音声駆動型シネマティック動画生成
Wan-S2V: Audio-Driven Cinematic Video Generation

Aug 26
ByXin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
2
1

現在の最先端(SOTA)の音声駆動キャラクターアニメーション手法は、主にスピーチや歌唱を伴うシナリオにおいて有望な性能を示しています。しかし、より複雑な映画やテレビ制作においては、微妙なキャラクターインタラクション、リアルな身体の動き、ダイナミックなカメラワークといった洗練された要素が求められるため、これらの手法はしばしば不十分です。この長年の課題である映画レベルのキャラクターアニメーションを実現するため、我々はWanを基盤とした音声駆動モデル、Wan-S2Vを提案します。我々のモデルは、既存の手法と比較して、映画的な文脈において大幅に向上した表現力と忠実度を実現します。我々は、Hunyuan-AvatarやOmnihumanといった最先端モデルに対してベンチマークを行い、広範な実験を実施しました。実験結果は一貫して、我々のアプローチがこれらの既存ソリューションを大幅に上回ることを示しています。さらに、我々は長尺動画生成や精密なビデオリップシンク編集への応用を通じて、本手法の汎用性を探求しました。

11

幻覚緩和のためのQueryBandits: セマンティック特徴を活用したノーリグレット書き換え
QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

Aug 22
ByNicole Cho, William Watson, Alec Koppel, Sumitra Ganesh, Manuela Veloso
2
1

大規模言語モデル(LLMs)における高度な推論能力は、幻覚(hallucination)の発生頻度を高める結果をもたらしている。しかし、これまでの緩和策の多くは、事後のフィルタリングに焦点を当てており、幻覚を引き起こすクエリ自体を形成するアプローチにはあまり注目されていない。本論文では、QueryBanditsを紹介する。これは、入力クエリの17の言語的特徴の感度に基づいて幻覚の発生傾向を捉えた報酬モデルを最大化するために、書き換え戦略を設計するバンディットフレームワークであり、LLMsが幻覚を生成することを事前に防ぐことを目的としている。13の多様なQAベンチマークと各データセットあたり1,050の語彙的摂動クエリを用いた実験において、最適なコンテキスト依存型QueryBandit(Thompson Sampling)は、書き換えを行わないベースラインに対して87.5%の勝率を達成し、ゼロショット静的プロンプティング(「言い換え」や「拡張」)に対してもそれぞれ42.6%と60.3%の優位性を示した。これにより、クエリの書き換えという介入を通じて幻覚を緩和するQueryBanditsの有効性が実証された。興味深いことに、現在のクエリ書き換え研究の多くを占める特定の静的プロンプティング戦略は、書き換えを行わないベースラインよりも累積的な後悔が大きく、静的書き換えが幻覚を悪化させる可能性があることを示唆している。さらに、収束した各アームの回帰特徴重みベクトルを分析した結果、すべてのクエリに対して最適な単一の書き換え戦略は存在しないことが明らかになった。この文脈において、QueryBanditsを用いて意味的特徴を活用したガイド付き書き換えは、再学習や勾配ベースの適応を必要とせず、フォワードパスメカニズムを通じて出力行動に大きな変化をもたらすことができる。

12

自己回帰型ユニバーサルビデオセグメンテーションモデル
Autoregressive Universal Video Segmentation Model

Aug 26
ByMiran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma
1
1

最近のビデオ基盤モデル、例えばSAM2は、マスクを汎用プリミティブとして扱うことで、プロンプト付きビデオセグメンテーションにおいて優れた性能を発揮しています。しかし、多くの現実世界の設定では、外部の手がかりなしにビデオ内のすべてのオブジェクトを検出し追跡することを目的とした、プロンプトなしのセグメンテーションが必要とされており、現在の状況はタスク固有のモデルやパイプラインに分散したままです。我々は、ストリーミングビデオセグメンテーションを言語モデリングに類似した逐次マスク予測として再定義し、プロンプト付きおよびプロンプトなしのビデオセグメンテーションを統合する単一のアーキテクチャであるAutoregressive Universal Segmentation Model (AUSM)を導入します。最近の状態空間モデルに基づいて構築されたAUSMは、固定サイズの空間状態を維持し、任意の長さのビデオストリームにスケールします。さらに、AUSMのすべてのコンポーネントはフレーム間での並列トレーニングを可能にするように設計されており、反復トレーニングに比べて大幅な高速化を実現しています。標準ベンチマーク(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021、およびOVIS)において、AUSMは従来のユニバーサルストリーミングビデオセグメンテーション手法を上回り、16フレームシーケンスでのトレーニング速度を最大2.5倍向上させました。

13

MovieCORE: 映画における認知推論
MovieCORE: COgnitive REasoning in Movies

Aug 26
ByGueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
1
1

本論文では、映画コンテンツに対するより深い認知的解釈を探るために設計された新しい映像質問応答(VQA)データセット、MovieCOREを紹介する。既存のデータセットが表面的な理解に焦点を当てているのに対し、MovieCOREは映像素材に特化しながらも、System-2思考を促す質問を重視している。我々は、複数の大規模言語モデル(LLM)を思考エージェントとして活用し、高品質な質問-回答ペアを生成・洗練する革新的なエージェンシック・ブレインストーミング手法を提案する。データセットの品質を評価するため、深さ、思考喚起力、構文的複雑さを測定する一連の認知テストを開発した。また、より深い認知タスクにおけるVQAモデルの性能を評価するための包括的な評価スキームを提案する。既存の映像-言語モデル(VLM)の限界に対処するため、トレーニング後のモデル推論能力を最大25%向上させるエージェンシック・チョイス・エンハンスメント(ACE)モジュールを導入した。本研究は、AIシステムにおける映画理解の進展に貢献し、映画コンテンツに関するより挑戦的でニュアンスのある質問に直面した際の現在のVQAモデルの能力と限界について貴重な知見を提供する。プロジェクトページ、データセット、コードはhttps://joslefaure.github.io/assets/html/moviecore.htmlで公開されている。

14

ThinkDial: 大規模言語モデルにおける推論努力を制御するためのオープンレシピ
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Aug 26
ByQianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
1
2

連鎖的思考推論を備えた大規模言語モデル(LLMs)は、驚異的な問題解決能力を発揮していますが、その計算コストを制御することは実用化における重要な課題です。最近では、OpenAIのgpt-ossシリーズなどのプロプライエタリシステムが、直感的な推論制御のための離散的な操作モードを導入しましたが、オープンソースコミュニティではそのような機能を実現することがほとんどできていません。本論文では、ThinkDialを紹介します。これは、離散的な操作モードを通じてgpt-ossスタイルの制御可能な推論を実現する初めてのオープンレシピエンドツーエンドフレームワークです。私たちのシステムは、3つの異なる推論レジーム間のシームレスな切り替えを可能にします:ハイモード(完全な推論能力)、ミディアムモード(50%のトークン削減と10%未満の性能低下)、ローモード(75%のトークン削減と15%未満の性能低下)。これを実現するために、エンドツーエンドのトレーニングパラダイムを採用し、パイプライン全体にわたってバジェットモード制御を統合しました:学習プロセスに直接制御可能な推論能力を組み込むバジェットモードの教師ありファインチューニング、および適応的報酬形成を備えた2段階のバジェット対応強化学習です。大規模な実験により、ThinkDialが目標とする圧縮と性能のトレードオフを達成し、明確な応答長の削減を維持しながら性能閾値を維持することが示されました。また、このフレームワークは、分布外タスクにおいても強い汎化能力を示しています。

15

CTF-Dojoを用いた言語モデルエージェントの脆弱性発見トレーニング
Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

Aug 25
ByTerry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang
1
1

大規模言語モデル(LLMs)は、実行可能なランタイム環境内でトレーニングを行う際に卓越した能力を示し、特に検証可能なフィードバックループを通じてソフトウェアエンジニアリングタスクで優れた成果を上げています。しかし、スケーラブルで汎用性の高い実行基盤環境は依然として不足しており、より高度なMLエージェントのトレーニングにおける進展を妨げています。本論文では、検証可能なフィードバックを伴うLLMトレーニングに特化した初の大規模実行可能ランタイム環境であるCTF-Dojoを紹介します。CTF-Dojoは、658の完全に機能するCapture-The-Flag(CTF)スタイルの課題をDockerコンテナ化し、再現性を保証しています。手動介入なしで迅速なスケーリングを可能にするため、CTF-Forgeという自動化パイプラインを開発しました。これにより、公開されているアーティファクトを数分で即座に使用可能な実行環境に変換し、従来必要とされていた専門家による数週間の設定作業を不要にします。CTF-Dojoから得られた486の高品質で実行検証済みの軌跡を用いてLLMベースのエージェントをトレーニングした結果、InterCode-CTF、NYU CTF Bench、Cybenchという3つの競争力のあるベンチマークにおいて、強力なベースラインに対して最大11.6%の絶対的な性能向上を達成しました。最高性能の32Bモデルは31.9%のPass@1を記録し、DeepSeek-V3-0324やGemini-2.5-Flashのような最先端モデルに匹敵する新たなオープンウェイトの最新技術を確立しました。CTFスタイルのタスクを実行可能エージェント学習のベンチマークとして位置づけることで、CTF-Dojoは、実行基盤のトレーニングシグナルが効果的であるだけでなく、高額なプロプライエタリシステムに依存せずに高性能MLエージェントを進化させる上で極めて重要であることを示しています。

16

FastMesh:コンポーネント分離による効率的なアーティスティックメッシュ生成
FastMesh:Efficient Artistic Mesh Generation via Component Decoupling

Aug 26
ByJeonghwan Kim, Yushi Lan, Armando Fortes, Yongwei Chen, Xingang Pan
0
1

最近のメッシュ生成アプローチでは、通常、三角形メッシュをトークン列にトークン化し、これらのトークンを逐次的に生成するために自己回帰モデルを訓練します。大きな進展があるにもかかわらず、このようなトークン列は、多様体メッシュを完全に表現するために頂点を複数回再利用せざるを得ません。なぜなら、各頂点は複数の面によって共有されているからです。この冗長性は、過度に長いトークン列と非効率な生成プロセスを引き起こします。本論文では、頂点と面を別々に扱うことで冗長性を大幅に削減し、効率的に芸術的メッシュを生成するフレームワークを提案します。頂点生成には自己回帰モデルのみを使用し、トークン数を既存の最もコンパクトなトークナイザーに必要なものの約23%に削減します。次に、双方向トランスフォーマーを活用して、頂点間の関係を捉え、メッシュの面を定義する隣接行列を構築することで、メッシュを一括で完成させます。生成品質をさらに向上させるために、頂点配置をより自然な配置に洗練するフィデリティエンハンサーを導入し、望ましくないエッジ接続を除去する後処理フレームワークを提案します。実験結果は、我々の手法が最先端のアプローチと比較してメッシュ生成速度を8倍以上高速化し、より高いメッシュ品質を実現することを示しています。

17

大規模言語モデルの認知パターンをモジュールコミュニティを通じて解明する
Unraveling the cognitive patterns of Large Language Models through module communities

Aug 25
ByKushal Raj Bhandari, Pin-Yu Chen, Jianxi Gao
0
1

大規模言語モデル(LLMs)は、科学、工学、社会において、科学的発見や医療診断からチャットボットに至るまでの応用を通じて、私たちの世界を大きく変革してきました。しかし、その遍在性と有用性にもかかわらず、LLMの基盤となるメカニズムは、数十億のパラメータと複雑な構造の中に隠されており、その内部アーキテクチャと認知プロセスを理解することは困難です。私たちは、生物学における新興認知を理解するアプローチを採用し、認知スキル、LLMアーキテクチャ、データセットを結びつけるネットワークベースのフレームワークを開発することで、このギャップを埋め、基盤モデル分析におけるパラダイムシフトをもたらします。モジュールコミュニティにおけるスキル分布は、LLMが特定の生物システムで観察される焦点化された専門性と厳密に並行しているわけではないものの、鳥類や小型哺乳類の脳に見られる分散的でありながら相互接続された認知組織を部分的に反映する、独自のモジュールコミュニティを示していることを示しています。私たちの数値結果は、生物システムとLLMの間の重要な相違点を強調しており、スキルの獲得は、動的で地域間の相互作用と神経可塑性から大きな恩恵を受けています。認知科学の原則を機械学習と統合することにより、私たちのフレームワークはLLMの解釈可能性に関する新たな洞察を提供し、効果的なファインチューニング戦略は、厳格なモジュール介入ではなく、分散学習ダイナミクスを活用すべきであることを示唆しています。

Aug 26
Aug 27