翻訳付きの日次キュレーションされたAI研究論文
本報告書では、VibeVoiceという新しいモデルを紹介します。このモデルは、複数の話者による長文音声を合成するために設計されており、拡散法を用いて潜在ベクトルを自己回帰的に生成することで連続データをモデル化する統一手法であるnext-token diffusionを採用しています。これを実現するために、我々は新しい連続音声トークナイザーを導入しました。このトークナイザーは、広く使われているEncodecモデルと比較して、同等の性能を維持しながらデータ圧縮率を80倍向上させます。このトークナイザーは、音声の忠実度を効果的に保ちつつ、長いシーケンスの処理における計算効率を大幅に向上させます。その結果、VibeVoiceは最大4人の話者による最長90分(64Kのコンテキストウィンドウ長)の長文音声を合成することができ、本物の会話の「雰囲気」を捉え、オープンソースおよびプロプライエタリな対話モデルを凌駕します。
大規模言語モデルの強化学習によるアラインメントの最近の進展は、複雑な推論問題の解決において顕著な成果を上げてきたが、その代償として高コストなオン・ポリシー・ロールアウトと多様な推論経路の探索の限界が生じている。本研究では、シーケンス生成を木構造探索プロセスとして捉える自己誘導型ロールアウトアルゴリズムを導入したTreePOを提案する。動的な木サンプリングポリシーと固定長セグメントデコードから構成されるTreePOは、局所的な不確実性を活用して追加の分岐を保証する。共通の接頭辞を償却し、低価値の経路を早期に刈り込むことで、TreePOは更新ごとの計算負荷を本質的に軽減しつつ、探索の多様性を維持または向上させる。主な貢献は以下の通りである:(1) 連続したセグメントを通じてKVキャッシュの負荷を軽減し、早期停止メカニズムと共に新しい分岐を生成するセグメント単位のサンプリングアルゴリズム、(2) グローバルおよびローカルの近接ポリシー最適化を考慮した木ベースのセグメントレベル優位性推定、(3) 確率と品質に基づく動的分岐とフォールバック戦略の有効性に関する分析。我々は、一連の推論ベンチマークにおけるTreePOの性能向上と、訓練済みモデルのサンプリング設計におけるGPU時間の22%から43%の効率化を実証的に検証し、既存モデルにおいて軌跡レベルで最大40%、トークンレベルで最大35%のサンプリング計算削減を示した。推論効率の「フリーランチ」を提供する一方で、TreePOは、より少ないサンプルと計算量でRLベースのポストトレーニングをスケールするための実用的な道筋を明らかにしている。ホームページはhttps://m-a-p.ai/TreePOにあります。
我々は、大規模言語モデル(LLMs)の凝縮系物理学における熟練度を評価するための新たなベンチマークとして、CMPhysBenchを導入します。CMPhysBenchは、磁性、超伝導、強相関系など、凝縮系物理学の代表的なサブフィールドと基礎的な理論的枠組みをカバーする520以上の大学院レベルの厳選された問題で構成されています。問題解決プロセスの深い理解を確保するため、我々は計算問題に焦点を当て、LLMsが独立して包括的な解答を生成することを要求します。同時に、式の木構造表現を活用して、スケーラブルな式編集距離(SEED)スコアを導入し、予測と正解との間の類似性をより正確に評価するための細かい(非二値的)部分点を提供します。我々の結果は、最良のモデルであるGrok-4でさえ、CMPhysBenchにおいて平均SEEDスコア36、正答率28%に留まることを示しており、特にこの実践的で最先端の領域において、伝統的な物理学と比較して大きな能力ギャップがあることを強調しています。コードとデータセットはhttps://github.com/CMPhysBench/CMPhysBenchで公開されています。
ゲーム産業やロボットインタラクションにおいて、特定領域の3Dローカル編集は極めて重要です。最近の手法では、通常レンダリングされたマルチビュー画像を編集し、その後3Dモデルを再構築しますが、未編集領域の正確な保存と全体の一貫性の維持に課題を抱えています。構造化された3D生成モデルに着想を得て、我々はVoxHammerを提案します。これは3D潜在空間において精密かつ一貫性のある編集を実行する、新しいトレーニング不要のアプローチです。3Dモデルが与えられると、VoxHammerはまずその反転軌道を予測し、各タイムステップにおける反転潜在変数とキー・バリュートークンを取得します。その後、ノイズ除去と編集フェーズでは、保存領域のノイズ除去特徴を対応する反転潜在変数とキャッシュされたキー・バリュートークンで置き換えます。これらの文脈的特徴を保持することで、保存領域の一貫した再構築と編集部分の調和のとれた統合が保証されます。保存領域の一貫性を評価するため、我々はEdit3D-Benchを構築しました。これは数百のサンプルからなる人間によるアノテーションデータセットで、各サンプルには注意深くラベル付けされた3D編集領域が含まれています。実験の結果、VoxHammerは保存領域の3D一貫性と全体的な品質の両面において、既存の手法を大幅に上回ることが示されました。我々の手法は、高品質な編集済みペアデータの合成に有望であり、文脈内3D生成のためのデータ基盤を築くものです。プロジェクトページはhttps://huanngzh.github.io/VoxHammer-Page/をご覧ください。
既存のビデオアバターモデルは滑らかな人間のアニメーションを生成できるものの、単なる外見の類似を超えてキャラクターの本質を捉えることは困難です。これらのモデルの動きは通常、音声のリズムのような低レベルの手がかりに同期しており、感情、意図、または文脈に対する深い意味理解を欠いています。このギャップを埋めるため、私たちは物理的に妥当であるだけでなく、意味的にも一貫性があり表現力豊かなキャラクターアニメーションを生成するためのフレームワークを提案します。私たちのモデル、OmniHuman-1.5は、2つの重要な技術的貢献に基づいています。まず、マルチモーダル大規模言語モデルを活用して、高レベルの意味的ガイダンスを提供する構造化されたテキスト表現を合成します。このガイダンスにより、単純なリズム同期を超えて、文脈的および感情的に共鳴するアクションを生成することが可能になります。次に、これらのマルチモーダル入力を効果的に融合し、モダリティ間の衝突を緩和するために、新しいPseudo Last Frame設計を備えた専用のマルチモーダルDiTアーキテクチャを導入します。これらのコンポーネントの相乗効果により、私たちのモデルは音声、画像、テキストの共同意味を正確に解釈し、キャラクター、シーン、言語内容と深く一貫した動きを生成することができます。広範な実験により、私たちのモデルがリップシンクの精度、ビデオ品質、動きの自然さ、テキストプロンプトとの意味的一貫性を含む包括的なメトリクスセットにおいて、リーディングパフォーマンスを達成することが示されています。さらに、私たちのアプローチは、複数人や非人間の被写体を含む複雑なシナリオに対する顕著な拡張性を示しています。ホームページ: https://omnihuman-lab.github.io/v1_5/
Mixture of Experts(MoE)モデルは、パラメータのサブセットのみを活性化することで顕著な効率性を実現しますが、推論時のメモリアクセスコストが高いという課題を抱えています。一方、メモリ層アーキテクチャは、非常に少ないメモリアクセスで魅力的な代替手段を提供しますが、UltraMemのような従来の試みは2エキスパートのMoEモデルの性能にしか匹敵せず、最先端の8エキスパート構成には大きく及ばない状況でした。本論文では、この性能差を埋めるために再設計されたメモリ層アーキテクチャであるUltraMemV2を提案します。私たちのアプローチでは、以下の5つの主要な改善を導入しています:メモリ層をすべてのトランスフォーマーブロックに統合すること、単一の線形射影で値の拡張を簡素化すること、PEERからFFNベースの値処理を採用すること、原則に基づいたパラメータ初期化を実装すること、メモリとFFNの計算比率を再調整することです。広範な評価を通じて、UltraMemV2が同じ計算量とパラメータ数で8エキスパートのMoEモデルと同等の性能を達成しつつ、メモリアクセスを大幅に低減できることを実証しました。特に、UltraMemV2はメモリ集約型タスクで優れた性能を示し、長文脈記憶で+1.6ポイント、多段階記憶で+6.2ポイント、文脈内学習で+7.9ポイントの改善を達成しました。私たちは、総パラメータ数120Bから活性化パラメータ数2.5Bまでの大規模モデルでアプローチを検証し、活性化密度が総スパースパラメータ数よりも性能に大きな影響を与えることを確認しました。本研究により、メモリ層アーキテクチャは最先端のMoEモデルと同等の性能を達成し、効率的なスパース計算のための有力な代替手段として位置づけられました。
3Dシーンから視覚情報を用いて物理的特性を推測することは、インタラクティブでリアルな仮想世界を構築する上で重要でありながらも困難な課題です。人間は弾力性や硬さといった材料特性を直感的に理解しますが、既存の手法は遅いシーンごとの最適化に依存することが多く、汎用性と応用性が制限されています。この問題を解決するため、我々はPIXIEを提案します。これは、3D視覚特徴から純粋に教師あり損失を用いて複数シーンにわたる物理的特性を予測する汎用的なニューラルネットワークを訓練する新しい手法です。一度訓練されると、我々のフィードフォワードネットワークは高速な推論を行い、ガウススプラッティングのような学習済みの静的シーン表現と組み合わせることで、外力下でのリアルな物理シミュレーションを可能にします。この研究を促進するため、我々はPIXIEVERSEという、3Dアセットと物理材料アノテーションをペアにした既知で最大級のデータセットを収集しました。広範な評価により、PIXIEはテスト時の最適化手法よりも約1.46-4.39倍優れており、桁違いに高速であることが示されています。CLIPのような事前訓練済みの視覚特徴を活用することで、我々の手法は合成データのみで訓練されているにもかかわらず、実世界のシーンに対してゼロショットで汎化することも可能です。https://pixie-3d.github.io/
近年のLLM(大規模言語モデル)の進展により、自動化された科学研究は人工超知能への道における次の最前線となっている。しかし、これらのシステムは狭い範囲のタスクに限定されるか、あるいはLLMの限られた創造能力に縛られている。本研究では、外部の介入なしに創造的かつ事実に基づいた概念を開発する科学的発見システム「Spacer」を提案する。Spacerは「意図的な脱文脈化」というアプローチを通じてこれを実現しようとする。このアプローチでは、情報を原子単位(キーワード)に分解し、それらの間の未探索のつながりから創造性を引き出す。Spacerは、(i) キーワードセットを構築するインスピレーションエンジン「Nuri」と、(ii) これらのセットを洗練された科学的記述に変換する「Manifesting Pipeline」で構成される。Nuriは、生物学分野の18万件の学術論文から構築されたキーワードグラフから、新規で高いポテンシャルを持つキーワードセットを抽出する。Manifesting Pipelineは、キーワード間の関連性を見つけ、それらの論理構造を分析し、妥当性を検証し、最終的に独自の科学的概念を起草する。実験によると、Nuriの評価指標は、AUROCスコア0.737で高インパクト論文を正確に分類する。また、Manifesting Pipelineは、最新のトップジャーナル論文の核心概念を、そのキーワードセットのみから再構築することに成功した。LLMベースのスコアリングシステムによると、この再構築は85%以上のケースで妥当であると推定された。最後に、埋め込み空間分析により、Spacerの出力はSOTA(最先端)LLMの出力と比較して、主要な論文に有意に類似していることが示された。
最近のビデオ基盤モデル、例えばSAM2は、マスクを汎用プリミティブとして扱うことで、プロンプト付きビデオセグメンテーションにおいて優れた性能を発揮しています。しかし、多くの現実世界の設定では、外部の手がかりなしにビデオ内のすべてのオブジェクトを検出し追跡することを目的とした、プロンプトなしのセグメンテーションが必要とされており、現在の状況はタスク固有のモデルやパイプラインに分散したままです。我々は、ストリーミングビデオセグメンテーションを言語モデリングに類似した逐次マスク予測として再定義し、プロンプト付きおよびプロンプトなしのビデオセグメンテーションを統合する単一のアーキテクチャであるAutoregressive Universal Segmentation Model (AUSM)を導入します。最近の状態空間モデルに基づいて構築されたAUSMは、固定サイズの空間状態を維持し、任意の長さのビデオストリームにスケールします。さらに、AUSMのすべてのコンポーネントはフレーム間での並列トレーニングを可能にするように設計されており、反復トレーニングに比べて大幅な高速化を実現しています。標準ベンチマーク(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021、およびOVIS)において、AUSMは従来のユニバーサルストリーミングビデオセグメンテーション手法を上回り、16フレームシーケンスでのトレーニング速度を最大2.5倍向上させました。
視覚拡散モデルは目覚ましい進歩を遂げていますが、高解像度データの不足や計算リソースの制約により、通常は限られた解像度で学習されるため、高解像度での高忠実度な画像や動画の生成能力が制限されています。最近の研究では、事前学習済みモデルの未開拓の高解像度視覚生成の可能性を引き出すためのチューニング不要な戦略が探求されています。しかし、これらの手法は依然として繰り返しパターンを含む低品質な視覚コンテンツを生成しがちです。その主な障害は、モデルが学習解像度を超える視覚コンテンツを生成する際に、高周波情報が必然的に増加し、蓄積された誤差から生じる望ましくない繰り返しパターンが発生することにあります。本研究では、高解像度視覚生成を可能にする新しい推論パラダイムであるCineScaleを提案します。2種類の動画生成アーキテクチャによって引き起こされる様々な問題に対処するため、それぞれに特化したバリアントを提案します。高解像度のT2I(テキストから画像)およびT2V(テキストから動画)生成に限定されている既存のベースライン手法とは異なり、CineScaleは最先端のオープンソース動画生成フレームワークを基盤として、高解像度のI2V(画像から動画)およびV2V(動画から動画)合成を可能にすることで、その範囲を拡大します。広範な実験により、画像モデルと動画モデルの両方において、高解像度視覚生成の能力を拡張する当パラダイムの優位性が検証されました。特に、我々のアプローチは、微調整なしで8K画像生成を可能にし、最小限のLoRA微調整で4K動画生成を実現します。生成された動画サンプルは、当ウェブサイトでご覧いただけます:https://eyeline-labs.github.io/CineScale/。
現在の最先端(SOTA)の音声駆動キャラクターアニメーション手法は、主にスピーチや歌唱を伴うシナリオにおいて有望な性能を示しています。しかし、より複雑な映画やテレビ制作においては、微妙なキャラクターインタラクション、リアルな身体の動き、ダイナミックなカメラワークといった洗練された要素が求められるため、これらの手法はしばしば不十分です。この長年の課題である映画レベルのキャラクターアニメーションを実現するため、我々はWanを基盤とした音声駆動モデル、Wan-S2Vを提案します。我々のモデルは、既存の手法と比較して、映画的な文脈において大幅に向上した表現力と忠実度を実現します。我々は、Hunyuan-AvatarやOmnihumanといった最先端モデルに対してベンチマークを行い、広範な実験を実施しました。実験結果は一貫して、我々のアプローチがこれらの既存ソリューションを大幅に上回ることを示しています。さらに、我々は長尺動画生成や精密なビデオリップシンク編集への応用を通じて、本手法の汎用性を探求しました。
最近のメッシュ生成アプローチでは、通常、三角形メッシュをトークン列にトークン化し、これらのトークンを逐次的に生成するために自己回帰モデルを訓練します。大きな進展があるにもかかわらず、このようなトークン列は、多様体メッシュを完全に表現するために頂点を複数回再利用せざるを得ません。なぜなら、各頂点は複数の面によって共有されているからです。この冗長性は、過度に長いトークン列と非効率な生成プロセスを引き起こします。本論文では、頂点と面を別々に扱うことで冗長性を大幅に削減し、効率的に芸術的メッシュを生成するフレームワークを提案します。頂点生成には自己回帰モデルのみを使用し、トークン数を既存の最もコンパクトなトークナイザーに必要なものの約23%に削減します。次に、双方向トランスフォーマーを活用して、頂点間の関係を捉え、メッシュの面を定義する隣接行列を構築することで、メッシュを一括で完成させます。生成品質をさらに向上させるために、頂点配置をより自然な配置に洗練するフィデリティエンハンサーを導入し、望ましくないエッジ接続を除去する後処理フレームワークを提案します。実験結果は、我々の手法が最先端のアプローチと比較してメッシュ生成速度を8倍以上高速化し、より高いメッシュ品質を実現することを示しています。
連鎖的思考推論を備えた大規模言語モデル(LLMs)は、驚異的な問題解決能力を発揮していますが、その計算コストを制御することは実用化における重要な課題です。最近では、OpenAIのgpt-ossシリーズなどのプロプライエタリシステムが、直感的な推論制御のための離散的な操作モードを導入しましたが、オープンソースコミュニティではそのような機能を実現することがほとんどできていません。本論文では、ThinkDialを紹介します。これは、離散的な操作モードを通じてgpt-ossスタイルの制御可能な推論を実現する初めてのオープンレシピエンドツーエンドフレームワークです。私たちのシステムは、3つの異なる推論レジーム間のシームレスな切り替えを可能にします:ハイモード(完全な推論能力)、ミディアムモード(50%のトークン削減と10%未満の性能低下)、ローモード(75%のトークン削減と15%未満の性能低下)。これを実現するために、エンドツーエンドのトレーニングパラダイムを採用し、パイプライン全体にわたってバジェットモード制御を統合しました:学習プロセスに直接制御可能な推論能力を組み込むバジェットモードの教師ありファインチューニング、および適応的報酬形成を備えた2段階のバジェット対応強化学習です。大規模な実験により、ThinkDialが目標とする圧縮と性能のトレードオフを達成し、明確な応答長の削減を維持しながら性能閾値を維持することが示されました。また、このフレームワークは、分布外タスクにおいても強い汎化能力を示しています。
ディープリサーチエージェントの登場により、大規模な研究タスクに要する時間が大幅に短縮されました。しかし、これらのタスクは本質的に事実の正確性と網羅性に対する厳格な基準を要求するため、広範な採用に先立つ徹底的な評価が必要です。本論文では、大規模言語モデル(LLMs)によって生成された研究レポートの内容品質を評価するための体系的ベンチマークであるReportBenchを提案します。我々の評価は、以下の2つの重要な側面に焦点を当てています:(1)引用文献の品質と関連性、(2)生成されたレポート内の記述の忠実性と真実性。ReportBenchは、arXivで公開されている高品質なサーベイ論文をゴールドスタンダードの参照資料として活用し、そこから逆プロンプトエンジニアリングを適用してドメイン固有のプロンプトを導出し、包括的な評価コーパスを確立します。さらに、ReportBench内にエージェントベースの自動化フレームワークを開発し、生成されたレポートを体系的に分析します。このフレームワークは、引用と記述を抽出し、引用内容の忠実性を元のソースに対してチェックし、非引用の主張をウェブベースのリソースを使用して検証します。実証評価の結果、OpenAIやGoogleが開発した商用ディープリサーチエージェントは、検索やブラウジングツールを強化したスタンドアロンのLLMsよりも、より包括的で信頼性の高いレポートを生成することが示されました。しかし、研究の広がりと深さ、および事実の一貫性の点で、まだ大幅な改善の余地があります。完全なコードとデータは以下のリンクで公開されます:https://github.com/ByteDance-BandAI/ReportBench
創薬は複雑でリソース集約的なプロセスであり、研究投資を最適化するためには早期の承認結果予測が重要です。古典的な機械学習や深層学習手法は創薬承認予測において有望な成果を示していますが、解釈可能性の低さがその影響力を制限しています。本論文では、LLaMAアーキテクチャを基盤とし、グループ相対ポリシー最適化(GRPO)を用いてファインチューニングされた推論ベースの大規模言語モデル(LLM)であるDrugReasonerを提案します。DrugReasonerは分子記述子を、構造的に類似した承認済みおよび未承認化合物との比較推論と統合し、ステップバイステップの根拠と信頼度スコアを伴う予測を生成します。DrugReasonerは、検証セットでAUC 0.732、F1スコア 0.729、テストセットでそれぞれ0.725と0.718という堅牢な性能を達成しました。これらの結果は、ロジスティック回帰、サポートベクターマシン、k近傍法などの従来のベースラインを上回り、XGBoostと比較しても競争力のある性能を示しました。外部の独立データセットにおいて、DrugReasonerはベースラインと最近開発されたChemAPモデルの両方を上回り、AUC 0.728、F1スコア 0.774を達成し、高い精度とバランスの取れた感度を維持することで、実世界のシナリオにおける堅牢性を実証しました。これらの知見は、DrugReasonerが競争力のある予測精度を提供するだけでなく、推論出力を通じて透明性を高めることで、AI支援創薬における重要なボトルネックに対処することを示しています。本研究は、推論を強化したLLMが、製薬意思決定のための解釈可能で効果的なツールとしての可能性を強調しています。
経験則に基づくスケーリング法則は大規模言語モデル(LLM)の進化を牽引してきたが、その係数はモデルアーキテクチャやデータパイプラインが変更されるたびに変化する。現在の最先端システムで標準となっているMixture-of-Experts(MoE)モデルは、現在の密モデルのフロンティアが見過ごしている新たなスパース性の次元を導入する。本研究では、MoEのスパース性が2つの異なる能力領域、すなわち記憶と推論にどのように影響するかを調査する。計算予算を固定した状態で、総パラメータ数、活性化パラメータ数、およびtop-kルーティングを体系的に変化させたMoE Transformerのファミリーを学習する。各モデルについて、事前学習損失、下流タスク損失、およびタスク精度を記録し、これにより訓練-テストの汎化ギャップと損失-精度ギャップを分離する。記憶ベンチマークは総パラメータ数に比例して単調に向上し、訓練損失を反映する。一方、推論性能は飽和し、総パラメータ数と訓練損失が継続的に向上しても逆に低下することがある。活性化パラメータ数が一定の場合、top-kを変更するだけではほとんど効果がなく、学習率や初期化などの古典的なハイパーパラメータはスパース性と同じ方向に汎化ギャップを調整する。訓練後の強化学習(GRPO)や追加のテスト時計算も、過度にスパースなモデルの推論能力の欠陥を補うことはできない。我々のモデルチェックポイント、コード、およびログはhttps://github.com/rioyokotalab/optimal-sparsityで公開されている。
科学的問題解決は、LLMにとって独自の課題を提示し、深いドメイン知識とその知識を複雑な推論を通じて適用する能力の両方を必要とします。自動化された科学的推論システムは人間の科学者を支援する大きな可能性を秘めていますが、現在のところ科学的推論を評価するための広く採用された包括的なベンチマークは存在せず、これらのタスクにおける知識と推論の異なる役割を体系的に分離するアプローチもほとんどありません。これらのギャップを埋めるため、私たちは科学的推論タスクのための多様な既存ベンチマークスイートであるSciReasと、より複雑な推論を必要とする選択的サブセットであるSciReas-Proを導入します。私たちの包括的評価は、個々のベンチマークだけに依存する場合には見えない科学的推論のパフォーマンスに関する洞察を明らかにします。次に、科学的タスクにおける推論と知識の異なる役割を研究するためのプロービングフレームワークであるKRUXを提案します。これら二つを組み合わせることで、いくつかの重要な発見をもたらす詳細な分析を行います:(1) モデルパラメータからタスク関連知識を取得することが、LLMの科学的推論における重要なボトルネックであること、(2) 推論モデルは、推論の強化に加えてコンテキスト内で追加された外部知識から一貫して利益を得ること、(3) 言語化された推論を強化することで、LLMがタスク関連知識を表面化する能力が向上すること。最後に、私たちは軽量な分析を行い、科学に焦点を当てたデータ構成と長いCoT SFTに関する同時期の取り組みを比較し、科学的推論のための強力な8BベースラインであるSciLit01をリリースします。
3Dインペインティングは、多くの場合、マルチビュー2D画像インペインティングに依存していますが、異なるビュー間でインペイントされた領域に内在する不整合は、ぼやけたテクスチャ、空間的な不連続性、および目立つ視覚的アーティファクトを引き起こす可能性があります。これらの不整合は、特に高忠実度と構造的一貫性を要求するアプリケーションにおいて、正確でリアルな3Dオブジェクトの完成を目指す際に重大な課題を提起します。これらの制限を克服するために、我々はObjFiller-3Dを提案します。これは、高品質で一貫性のある3Dオブジェクトの完成と編集のために設計された新しい手法です。従来の2D画像インペインティングモデルを使用する代わりに、我々のアプローチは、最先端のビデオ編集モデルを厳選して使用し、3Dオブジェクトのマスクされた領域を埋めます。我々は、3Dとビデオの間の表現のギャップを分析し、3Dシーンインペインティングのためのビデオインペインティングモデルの適応を提案します。さらに、再構築の品質をさらに向上させるために、参照ベースの3Dインペインティング手法を導入します。多様なデータセットでの実験により、ObjFiller-3Dは、以前の手法と比較して、より忠実で細かい再構築を生成することが示されました(PSNR 26.6 vs. NeRFiller (15.9)、LPIPS 0.19 vs. Instant3dit (0.25))。さらに、実世界の3D編集アプリケーションでの実用的な展開においても強い可能性を示しています。プロジェクトページ: https://objfiller3d.github.io/ コード: https://github.com/objfiller3d/ObjFiller-3D
大規模言語モデル(LLM)は一般的な質問応答(QA)において優れた性能を発揮しますが、ドメイン固有のシナリオではしばしば苦戦します。検索拡張生成(RAG)は外部知識を導入しますが、ノイズの多い検索による幻覚や遅延が問題となります。継続的な事前学習はドメイン知識を内部化しますが、コストが高く、クロスドメインの柔軟性に欠けます。私たちはこの課題を、ドメイン知識のロングテール分布に起因すると考えています。これにより、部分的ではあるが有用な内部知識が十分に活用されていないのです。さらに、知識の獲得は人間の学習プロセスを反映し、段階的であるべきだと主張します。つまり、まず概念を理解し、その後複雑な推論に適用するというプロセスです。これを解決するため、私たちはSelct2Know(S2K)を提案します。これは、内部と外部の知識を自己選択する戦略と選択的な教師ありファインチューニングを通じてドメイン知識を内部化する、コスト効率の良いフレームワークです。また、構造化された推論データ生成パイプラインを導入し、GRPOを統合して推論能力を強化します。医療、法律、金融のQAベンチマークでの実験では、S2Kが既存の手法を一貫して上回り、ドメイン事前学習済みLLMと同等の性能を大幅に低いコストで達成することが示されました。
本論文では、映画コンテンツに対するより深い認知的解釈を探るために設計された新しい映像質問応答(VQA)データセット、MovieCOREを紹介する。既存のデータセットが表面的な理解に焦点を当てているのに対し、MovieCOREは映像素材に特化しながらも、System-2思考を促す質問を重視している。我々は、複数の大規模言語モデル(LLM)を思考エージェントとして活用し、高品質な質問-回答ペアを生成・洗練する革新的なエージェンシック・ブレインストーミング手法を提案する。データセットの品質を評価するため、深さ、思考喚起力、構文的複雑さを測定する一連の認知テストを開発した。また、より深い認知タスクにおけるVQAモデルの性能を評価するための包括的な評価スキームを提案する。既存の映像-言語モデル(VLM)の限界に対処するため、トレーニング後のモデル推論能力を最大25%向上させるエージェンシック・チョイス・エンハンスメント(ACE)モジュールを導入した。本研究は、AIシステムにおける映画理解の進展に貢献し、映画コンテンツに関するより挑戦的でニュアンスのある質問に直面した際の現在のVQAモデルの能力と限界について貴重な知見を提供する。プロジェクトページ、データセット、コードはhttps://joslefaure.github.io/assets/html/moviecore.htmlで公開されている。
大規模言語モデル(LLMs)は、実行可能なランタイム環境内でトレーニングを行う際に卓越した能力を示し、特に検証可能なフィードバックループを通じてソフトウェアエンジニアリングタスクで優れた成果を上げています。しかし、スケーラブルで汎用性の高い実行基盤環境は依然として不足しており、より高度なMLエージェントのトレーニングにおける進展を妨げています。本論文では、検証可能なフィードバックを伴うLLMトレーニングに特化した初の大規模実行可能ランタイム環境であるCTF-Dojoを紹介します。CTF-Dojoは、658の完全に機能するCapture-The-Flag(CTF)スタイルの課題をDockerコンテナ化し、再現性を保証しています。手動介入なしで迅速なスケーリングを可能にするため、CTF-Forgeという自動化パイプラインを開発しました。これにより、公開されているアーティファクトを数分で即座に使用可能な実行環境に変換し、従来必要とされていた専門家による数週間の設定作業を不要にします。CTF-Dojoから得られた486の高品質で実行検証済みの軌跡を用いてLLMベースのエージェントをトレーニングした結果、InterCode-CTF、NYU CTF Bench、Cybenchという3つの競争力のあるベンチマークにおいて、強力なベースラインに対して最大11.6%の絶対的な性能向上を達成しました。最高性能の32Bモデルは31.9%のPass@1を記録し、DeepSeek-V3-0324やGemini-2.5-Flashのような最先端モデルに匹敵する新たなオープンウェイトの最新技術を確立しました。CTFスタイルのタスクを実行可能エージェント学習のベンチマークとして位置づけることで、CTF-Dojoは、実行基盤のトレーニングシグナルが効果的であるだけでなく、高額なプロプライエタリシステムに依存せずに高性能MLエージェントを進化させる上で極めて重要であることを示しています。
大規模言語モデル(LLMs)は、科学、工学、社会において、科学的発見や医療診断からチャットボットに至るまでの応用を通じて、私たちの世界を大きく変革してきました。しかし、その遍在性と有用性にもかかわらず、LLMの基盤となるメカニズムは、数十億のパラメータと複雑な構造の中に隠されており、その内部アーキテクチャと認知プロセスを理解することは困難です。私たちは、生物学における新興認知を理解するアプローチを採用し、認知スキル、LLMアーキテクチャ、データセットを結びつけるネットワークベースのフレームワークを開発することで、このギャップを埋め、基盤モデル分析におけるパラダイムシフトをもたらします。モジュールコミュニティにおけるスキル分布は、LLMが特定の生物システムで観察される焦点化された専門性と厳密に並行しているわけではないものの、鳥類や小型哺乳類の脳に見られる分散的でありながら相互接続された認知組織を部分的に反映する、独自のモジュールコミュニティを示していることを示しています。私たちの数値結果は、生物システムとLLMの間の重要な相違点を強調しており、スキルの獲得は、動的で地域間の相互作用と神経可塑性から大きな恩恵を受けています。認知科学の原則を機械学習と統合することにより、私たちのフレームワークはLLMの解釈可能性に関する新たな洞察を提供し、効果的なファインチューニング戦略は、厳格なモジュール介入ではなく、分散学習ダイナミクスを活用すべきであることを示唆しています。
大規模言語モデル(LLMs)における高度な推論能力は、幻覚(hallucination)の発生頻度を高める結果をもたらしている。しかし、これまでの緩和策の多くは、事後のフィルタリングに焦点を当てており、幻覚を引き起こすクエリ自体を形成するアプローチにはあまり注目されていない。本論文では、QueryBanditsを紹介する。これは、入力クエリの17の言語的特徴の感度に基づいて幻覚の発生傾向を捉えた報酬モデルを最大化するために、書き換え戦略を設計するバンディットフレームワークであり、LLMsが幻覚を生成することを事前に防ぐことを目的としている。13の多様なQAベンチマークと各データセットあたり1,050の語彙的摂動クエリを用いた実験において、最適なコンテキスト依存型QueryBandit(Thompson Sampling)は、書き換えを行わないベースラインに対して87.5%の勝率を達成し、ゼロショット静的プロンプティング(「言い換え」や「拡張」)に対してもそれぞれ42.6%と60.3%の優位性を示した。これにより、クエリの書き換えという介入を通じて幻覚を緩和するQueryBanditsの有効性が実証された。興味深いことに、現在のクエリ書き換え研究の多くを占める特定の静的プロンプティング戦略は、書き換えを行わないベースラインよりも累積的な後悔が大きく、静的書き換えが幻覚を悪化させる可能性があることを示唆している。さらに、収束した各アームの回帰特徴重みベクトルを分析した結果、すべてのクエリに対して最適な単一の書き換え戦略は存在しないことが明らかになった。この文脈において、QueryBanditsを用いて意味的特徴を活用したガイド付き書き換えは、再学習や勾配ベースの適応を必要とせず、フォワードパスメカニズムを通じて出力行動に大きな変化をもたらすことができる。
大規模言語モデル(LLM)は、多くの生成タスクにおいて顕著な性能を達成しています。しかしながら、それらを所望の振る舞いと効果的に整合させることは依然として重要な課題です。アクティベーション・ステアリングは、推論段階でLLMのアクティベーションを直接修正し、所望の振る舞いと応答を整合させる、効果的かつコスト効率の高いアプローチであり、ファインチューニングの高コストを回避します。既存の手法は通常、すべての生成に対して無差別に介入するか、質問のみに依存して介入を決定するため、介入強度の正確な評価が制限されます。この問題に対処するため、我々は「バックトラッキングを伴う柔軟なアクティベーション・ステアリング(FASB)」フレームワークを提案します。このフレームワークは、生成中のLLMの内部状態を追跡し、質問と生成内容の両方を考慮して、介入の必要性と強度を動的に決定します。所望の振る舞いからの逸脱を検出した後に介入するのでは遅すぎることが多いため、逸脱したトークンを修正し、LLMを所望の振る舞いに向けて導くバックトラッキング機構をさらに提案します。TruthfulQAデータセットと6つの多肢選択データセットを用いた広範な実験により、我々の手法がベースラインを上回ることを実証しました。コードはhttps://github.com/gjw185/FASBで公開予定です。
本研究では、金融リターンの確率分布を予測するための深層ニューラルネットワークを評価する。1次元畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)アーキテクチャを用いて、正規分布、スチューデントのt分布、および歪んだスチューデントのt分布という3つの確率分布のパラメータを予測する。カスタムの負の対数尤度損失関数を使用して、分布パラメータを直接最適化する。モデルは、S\&P 500、BOVESPA、DAX、WIG、日経225、KOSPIという6つの主要な株価指数に対して、Log Predictive Score(LPS)、Continuous Ranked Probability Score(CRPS)、Probability Integral Transform(PIT)などの確率的評価指標を用いてテストされる。結果は、深層学習モデルが正確な分布予測を提供し、Value-at-Risk推定において古典的なGARCHモデルと競争力のある性能を示すことを示している。歪んだスチューデントのt分布を用いたLSTMが、複数の評価基準において最良の性能を示し、金融リターンの重い裾と非対称性の両方を捉える。この研究は、深層ニューラルネットワークが、金融リスク評価とポートフォリオ管理において従来の計量経済モデルに代わる有効な選択肢であることを示している。
法的請求とは、訴訟における原告の主張を指し、司法判断や事件解決を導く上で重要な要素です。これまで多くの研究が法律専門家の効率向上に焦点を当ててきましたが、非専門家(例:原告)を支援する研究は未開拓のままです。本論文では、与えられた事件事実に基づく法的請求生成の問題を探求します。まず、様々な実世界の法的紛争から、中国語の法的請求生成タスク向け初のデータセットであるClaimGen-CNを構築しました。さらに、生成された請求を評価するために、事実性と明確性という2つの重要な次元を包含する評価指標を設計しました。これを基盤として、最先端の汎用および法律分野特化の大規模言語モデルに対する包括的なゼロショット評価を実施しました。その結果、現在のモデルが事実の正確性と表現の明確性において限界があることが明らかになり、この領域におけるよりターゲットを絞った開発の必要性が示唆されました。この重要なタスクのさらなる探求を促進するため、本データセットを公開する予定です。