翻訳付きの日次キュレーションされたAI研究論文
本報告書では、VibeVoiceという新しいモデルを紹介します。このモデルは、複数の話者による長文音声を合成するために設計されており、拡散法を用いて潜在ベクトルを自己回帰的に生成することで連続データをモデル化する統一手法であるnext-token diffusionを採用しています。これを実現するために、我々は新しい連続音声トークナイザーを導入しました。このトークナイザーは、広く使われているEncodecモデルと比較して、同等の性能を維持しながらデータ圧縮率を80倍向上させます。このトークナイザーは、音声の忠実度を効果的に保ちつつ、長いシーケンスの処理における計算効率を大幅に向上させます。その結果、VibeVoiceは最大4人の話者による最長90分(64Kのコンテキストウィンドウ長)の長文音声を合成することができ、本物の会話の「雰囲気」を捉え、オープンソースおよびプロプライエタリな対話モデルを凌駕します。
我々は、大規模言語モデル(LLMs)の凝縮系物理学における熟練度を評価するための新たなベンチマークとして、CMPhysBenchを導入します。CMPhysBenchは、磁性、超伝導、強相関系など、凝縮系物理学の代表的なサブフィールドと基礎的な理論的枠組みをカバーする520以上の大学院レベルの厳選された問題で構成されています。問題解決プロセスの深い理解を確保するため、我々は計算問題に焦点を当て、LLMsが独立して包括的な解答を生成することを要求します。同時に、式の木構造表現を活用して、スケーラブルな式編集距離(SEED)スコアを導入し、予測と正解との間の類似性をより正確に評価するための細かい(非二値的)部分点を提供します。我々の結果は、最良のモデルであるGrok-4でさえ、CMPhysBenchにおいて平均SEEDスコア36、正答率28%に留まることを示しており、特にこの実践的で最先端の領域において、伝統的な物理学と比較して大きな能力ギャップがあることを強調しています。コードとデータセットはhttps://github.com/CMPhysBench/CMPhysBenchで公開されています。
近年のLLM(大規模言語モデル)の進展により、自動化された科学研究は人工超知能への道における次の最前線となっている。しかし、これらのシステムは狭い範囲のタスクに限定されるか、あるいはLLMの限られた創造能力に縛られている。本研究では、外部の介入なしに創造的かつ事実に基づいた概念を開発する科学的発見システム「Spacer」を提案する。Spacerは「意図的な脱文脈化」というアプローチを通じてこれを実現しようとする。このアプローチでは、情報を原子単位(キーワード)に分解し、それらの間の未探索のつながりから創造性を引き出す。Spacerは、(i) キーワードセットを構築するインスピレーションエンジン「Nuri」と、(ii) これらのセットを洗練された科学的記述に変換する「Manifesting Pipeline」で構成される。Nuriは、生物学分野の18万件の学術論文から構築されたキーワードグラフから、新規で高いポテンシャルを持つキーワードセットを抽出する。Manifesting Pipelineは、キーワード間の関連性を見つけ、それらの論理構造を分析し、妥当性を検証し、最終的に独自の科学的概念を起草する。実験によると、Nuriの評価指標は、AUROCスコア0.737で高インパクト論文を正確に分類する。また、Manifesting Pipelineは、最新のトップジャーナル論文の核心概念を、そのキーワードセットのみから再構築することに成功した。LLMベースのスコアリングシステムによると、この再構築は85%以上のケースで妥当であると推定された。最後に、埋め込み空間分析により、Spacerの出力はSOTA(最先端)LLMの出力と比較して、主要な論文に有意に類似していることが示された。
Mixture of Experts(MoE)モデルは、パラメータのサブセットのみを活性化することで顕著な効率性を実現しますが、推論時のメモリアクセスコストが高いという課題を抱えています。一方、メモリ層アーキテクチャは、非常に少ないメモリアクセスで魅力的な代替手段を提供しますが、UltraMemのような従来の試みは2エキスパートのMoEモデルの性能にしか匹敵せず、最先端の8エキスパート構成には大きく及ばない状況でした。本論文では、この性能差を埋めるために再設計されたメモリ層アーキテクチャであるUltraMemV2を提案します。私たちのアプローチでは、以下の5つの主要な改善を導入しています:メモリ層をすべてのトランスフォーマーブロックに統合すること、単一の線形射影で値の拡張を簡素化すること、PEERからFFNベースの値処理を採用すること、原則に基づいたパラメータ初期化を実装すること、メモリとFFNの計算比率を再調整することです。広範な評価を通じて、UltraMemV2が同じ計算量とパラメータ数で8エキスパートのMoEモデルと同等の性能を達成しつつ、メモリアクセスを大幅に低減できることを実証しました。特に、UltraMemV2はメモリ集約型タスクで優れた性能を示し、長文脈記憶で+1.6ポイント、多段階記憶で+6.2ポイント、文脈内学習で+7.9ポイントの改善を達成しました。私たちは、総パラメータ数120Bから活性化パラメータ数2.5Bまでの大規模モデルでアプローチを検証し、活性化密度が総スパースパラメータ数よりも性能に大きな影響を与えることを確認しました。本研究により、メモリ層アーキテクチャは最先端のMoEモデルと同等の性能を達成し、効率的なスパース計算のための有力な代替手段として位置づけられました。
既存のビデオアバターモデルは滑らかな人間のアニメーションを生成できるものの、単なる外見の類似を超えてキャラクターの本質を捉えることは困難です。これらのモデルの動きは通常、音声のリズムのような低レベルの手がかりに同期しており、感情、意図、または文脈に対する深い意味理解を欠いています。このギャップを埋めるため、私たちは物理的に妥当であるだけでなく、意味的にも一貫性があり表現力豊かなキャラクターアニメーションを生成するためのフレームワークを提案します。私たちのモデル、OmniHuman-1.5は、2つの重要な技術的貢献に基づいています。まず、マルチモーダル大規模言語モデルを活用して、高レベルの意味的ガイダンスを提供する構造化されたテキスト表現を合成します。このガイダンスにより、単純なリズム同期を超えて、文脈的および感情的に共鳴するアクションを生成することが可能になります。次に、これらのマルチモーダル入力を効果的に融合し、モダリティ間の衝突を緩和するために、新しいPseudo Last Frame設計を備えた専用のマルチモーダルDiTアーキテクチャを導入します。これらのコンポーネントの相乗効果により、私たちのモデルは音声、画像、テキストの共同意味を正確に解釈し、キャラクター、シーン、言語内容と深く一貫した動きを生成することができます。広範な実験により、私たちのモデルがリップシンクの精度、ビデオ品質、動きの自然さ、テキストプロンプトとの意味的一貫性を含む包括的なメトリクスセットにおいて、リーディングパフォーマンスを達成することが示されています。さらに、私たちのアプローチは、複数人や非人間の被写体を含む複雑なシナリオに対する顕著な拡張性を示しています。ホームページ: https://omnihuman-lab.github.io/v1_5/
大規模言語モデルの強化学習によるアラインメントの最近の進展は、複雑な推論問題の解決において顕著な成果を上げてきたが、その代償として高コストなオン・ポリシー・ロールアウトと多様な推論経路の探索の限界が生じている。本研究では、シーケンス生成を木構造探索プロセスとして捉える自己誘導型ロールアウトアルゴリズムを導入したTreePOを提案する。動的な木サンプリングポリシーと固定長セグメントデコードから構成されるTreePOは、局所的な不確実性を活用して追加の分岐を保証する。共通の接頭辞を償却し、低価値の経路を早期に刈り込むことで、TreePOは更新ごとの計算負荷を本質的に軽減しつつ、探索の多様性を維持または向上させる。主な貢献は以下の通りである:(1) 連続したセグメントを通じてKVキャッシュの負荷を軽減し、早期停止メカニズムと共に新しい分岐を生成するセグメント単位のサンプリングアルゴリズム、(2) グローバルおよびローカルの近接ポリシー最適化を考慮した木ベースのセグメントレベル優位性推定、(3) 確率と品質に基づく動的分岐とフォールバック戦略の有効性に関する分析。我々は、一連の推論ベンチマークにおけるTreePOの性能向上と、訓練済みモデルのサンプリング設計におけるGPU時間の22%から43%の効率化を実証的に検証し、既存モデルにおいて軌跡レベルで最大40%、トークンレベルで最大35%のサンプリング計算削減を示した。推論効率の「フリーランチ」を提供する一方で、TreePOは、より少ないサンプルと計算量でRLベースのポストトレーニングをスケールするための実用的な道筋を明らかにしている。ホームページはhttps://m-a-p.ai/TreePOにあります。
ゲーム産業やロボットインタラクションにおいて、特定領域の3Dローカル編集は極めて重要です。最近の手法では、通常レンダリングされたマルチビュー画像を編集し、その後3Dモデルを再構築しますが、未編集領域の正確な保存と全体の一貫性の維持に課題を抱えています。構造化された3D生成モデルに着想を得て、我々はVoxHammerを提案します。これは3D潜在空間において精密かつ一貫性のある編集を実行する、新しいトレーニング不要のアプローチです。3Dモデルが与えられると、VoxHammerはまずその反転軌道を予測し、各タイムステップにおける反転潜在変数とキー・バリュートークンを取得します。その後、ノイズ除去と編集フェーズでは、保存領域のノイズ除去特徴を対応する反転潜在変数とキャッシュされたキー・バリュートークンで置き換えます。これらの文脈的特徴を保持することで、保存領域の一貫した再構築と編集部分の調和のとれた統合が保証されます。保存領域の一貫性を評価するため、我々はEdit3D-Benchを構築しました。これは数百のサンプルからなる人間によるアノテーションデータセットで、各サンプルには注意深くラベル付けされた3D編集領域が含まれています。実験の結果、VoxHammerは保存領域の3D一貫性と全体的な品質の両面において、既存の手法を大幅に上回ることが示されました。我々の手法は、高品質な編集済みペアデータの合成に有望であり、文脈内3D生成のためのデータ基盤を築くものです。プロジェクトページはhttps://huanngzh.github.io/VoxHammer-Page/をご覧ください。
3Dシーンから視覚情報を用いて物理的特性を推測することは、インタラクティブでリアルな仮想世界を構築する上で重要でありながらも困難な課題です。人間は弾力性や硬さといった材料特性を直感的に理解しますが、既存の手法は遅いシーンごとの最適化に依存することが多く、汎用性と応用性が制限されています。この問題を解決するため、我々はPIXIEを提案します。これは、3D視覚特徴から純粋に教師あり損失を用いて複数シーンにわたる物理的特性を予測する汎用的なニューラルネットワークを訓練する新しい手法です。一度訓練されると、我々のフィードフォワードネットワークは高速な推論を行い、ガウススプラッティングのような学習済みの静的シーン表現と組み合わせることで、外力下でのリアルな物理シミュレーションを可能にします。この研究を促進するため、我々はPIXIEVERSEという、3Dアセットと物理材料アノテーションをペアにした既知で最大級のデータセットを収集しました。広範な評価により、PIXIEはテスト時の最適化手法よりも約1.46-4.39倍優れており、桁違いに高速であることが示されています。CLIPのような事前訓練済みの視覚特徴を活用することで、我々の手法は合成データのみで訓練されているにもかかわらず、実世界のシーンに対してゼロショットで汎化することも可能です。https://pixie-3d.github.io/
視覚拡散モデルは目覚ましい進歩を遂げていますが、高解像度データの不足や計算リソースの制約により、通常は限られた解像度で学習されるため、高解像度での高忠実度な画像や動画の生成能力が制限されています。最近の研究では、事前学習済みモデルの未開拓の高解像度視覚生成の可能性を引き出すためのチューニング不要な戦略が探求されています。しかし、これらの手法は依然として繰り返しパターンを含む低品質な視覚コンテンツを生成しがちです。その主な障害は、モデルが学習解像度を超える視覚コンテンツを生成する際に、高周波情報が必然的に増加し、蓄積された誤差から生じる望ましくない繰り返しパターンが発生することにあります。本研究では、高解像度視覚生成を可能にする新しい推論パラダイムであるCineScaleを提案します。2種類の動画生成アーキテクチャによって引き起こされる様々な問題に対処するため、それぞれに特化したバリアントを提案します。高解像度のT2I(テキストから画像)およびT2V(テキストから動画)生成に限定されている既存のベースライン手法とは異なり、CineScaleは最先端のオープンソース動画生成フレームワークを基盤として、高解像度のI2V(画像から動画)およびV2V(動画から動画)合成を可能にすることで、その範囲を拡大します。広範な実験により、画像モデルと動画モデルの両方において、高解像度視覚生成の能力を拡張する当パラダイムの優位性が検証されました。特に、我々のアプローチは、微調整なしで8K画像生成を可能にし、最小限のLoRA微調整で4K動画生成を実現します。生成された動画サンプルは、当ウェブサイトでご覧いただけます:https://eyeline-labs.github.io/CineScale/。
連鎖的思考推論を備えた大規模言語モデル(LLMs)は、驚異的な問題解決能力を発揮していますが、その計算コストを制御することは実用化における重要な課題です。最近では、OpenAIのgpt-ossシリーズなどのプロプライエタリシステムが、直感的な推論制御のための離散的な操作モードを導入しましたが、オープンソースコミュニティではそのような機能を実現することがほとんどできていません。本論文では、ThinkDialを紹介します。これは、離散的な操作モードを通じてgpt-ossスタイルの制御可能な推論を実現する初めてのオープンレシピエンドツーエンドフレームワークです。私たちのシステムは、3つの異なる推論レジーム間のシームレスな切り替えを可能にします:ハイモード(完全な推論能力)、ミディアムモード(50%のトークン削減と10%未満の性能低下)、ローモード(75%のトークン削減と15%未満の性能低下)。これを実現するために、エンドツーエンドのトレーニングパラダイムを採用し、パイプライン全体にわたってバジェットモード制御を統合しました:学習プロセスに直接制御可能な推論能力を組み込むバジェットモードの教師ありファインチューニング、および適応的報酬形成を備えた2段階のバジェット対応強化学習です。大規模な実験により、ThinkDialが目標とする圧縮と性能のトレードオフを達成し、明確な応答長の削減を維持しながら性能閾値を維持することが示されました。また、このフレームワークは、分布外タスクにおいても強い汎化能力を示しています。
現在の最先端(SOTA)の音声駆動キャラクターアニメーション手法は、主にスピーチや歌唱を伴うシナリオにおいて有望な性能を示しています。しかし、より複雑な映画やテレビ制作においては、微妙なキャラクターインタラクション、リアルな身体の動き、ダイナミックなカメラワークといった洗練された要素が求められるため、これらの手法はしばしば不十分です。この長年の課題である映画レベルのキャラクターアニメーションを実現するため、我々はWanを基盤とした音声駆動モデル、Wan-S2Vを提案します。我々のモデルは、既存の手法と比較して、映画的な文脈において大幅に向上した表現力と忠実度を実現します。我々は、Hunyuan-AvatarやOmnihumanといった最先端モデルに対してベンチマークを行い、広範な実験を実施しました。実験結果は一貫して、我々のアプローチがこれらの既存ソリューションを大幅に上回ることを示しています。さらに、我々は長尺動画生成や精密なビデオリップシンク編集への応用を通じて、本手法の汎用性を探求しました。
最近のビデオ基盤モデル、例えばSAM2は、マスクを汎用プリミティブとして扱うことで、プロンプト付きビデオセグメンテーションにおいて優れた性能を発揮しています。しかし、多くの現実世界の設定では、外部の手がかりなしにビデオ内のすべてのオブジェクトを検出し追跡することを目的とした、プロンプトなしのセグメンテーションが必要とされており、現在の状況はタスク固有のモデルやパイプラインに分散したままです。我々は、ストリーミングビデオセグメンテーションを言語モデリングに類似した逐次マスク予測として再定義し、プロンプト付きおよびプロンプトなしのビデオセグメンテーションを統合する単一のアーキテクチャであるAutoregressive Universal Segmentation Model (AUSM)を導入します。最近の状態空間モデルに基づいて構築されたAUSMは、固定サイズの空間状態を維持し、任意の長さのビデオストリームにスケールします。さらに、AUSMのすべてのコンポーネントはフレーム間での並列トレーニングを可能にするように設計されており、反復トレーニングに比べて大幅な高速化を実現しています。標準ベンチマーク(DAVIS17、YouTube-VOS 2018 & 2019、MOSE、YouTube-VIS 2019 & 2021、およびOVIS)において、AUSMは従来のユニバーサルストリーミングビデオセグメンテーション手法を上回り、16フレームシーケンスでのトレーニング速度を最大2.5倍向上させました。
大規模言語モデル(LLMs)は、実行可能なランタイム環境内でトレーニングを行う際に卓越した能力を示し、特に検証可能なフィードバックループを通じてソフトウェアエンジニアリングタスクで優れた成果を上げています。しかし、スケーラブルで汎用性の高い実行基盤環境は依然として不足しており、より高度なMLエージェントのトレーニングにおける進展を妨げています。本論文では、検証可能なフィードバックを伴うLLMトレーニングに特化した初の大規模実行可能ランタイム環境であるCTF-Dojoを紹介します。CTF-Dojoは、658の完全に機能するCapture-The-Flag(CTF)スタイルの課題をDockerコンテナ化し、再現性を保証しています。手動介入なしで迅速なスケーリングを可能にするため、CTF-Forgeという自動化パイプラインを開発しました。これにより、公開されているアーティファクトを数分で即座に使用可能な実行環境に変換し、従来必要とされていた専門家による数週間の設定作業を不要にします。CTF-Dojoから得られた486の高品質で実行検証済みの軌跡を用いてLLMベースのエージェントをトレーニングした結果、InterCode-CTF、NYU CTF Bench、Cybenchという3つの競争力のあるベンチマークにおいて、強力なベースラインに対して最大11.6%の絶対的な性能向上を達成しました。最高性能の32Bモデルは31.9%のPass@1を記録し、DeepSeek-V3-0324やGemini-2.5-Flashのような最先端モデルに匹敵する新たなオープンウェイトの最新技術を確立しました。CTFスタイルのタスクを実行可能エージェント学習のベンチマークとして位置づけることで、CTF-Dojoは、実行基盤のトレーニングシグナルが効果的であるだけでなく、高額なプロプライエタリシステムに依存せずに高性能MLエージェントを進化させる上で極めて重要であることを示しています。
大規模言語モデル(LLMs)における高度な推論能力は、幻覚(hallucination)の発生頻度を高める結果をもたらしている。しかし、これまでの緩和策の多くは、事後のフィルタリングに焦点を当てており、幻覚を引き起こすクエリ自体を形成するアプローチにはあまり注目されていない。本論文では、QueryBanditsを紹介する。これは、入力クエリの17の言語的特徴の感度に基づいて幻覚の発生傾向を捉えた報酬モデルを最大化するために、書き換え戦略を設計するバンディットフレームワークであり、LLMsが幻覚を生成することを事前に防ぐことを目的としている。13の多様なQAベンチマークと各データセットあたり1,050の語彙的摂動クエリを用いた実験において、最適なコンテキスト依存型QueryBandit(Thompson Sampling)は、書き換えを行わないベースラインに対して87.5%の勝率を達成し、ゼロショット静的プロンプティング(「言い換え」や「拡張」)に対してもそれぞれ42.6%と60.3%の優位性を示した。これにより、クエリの書き換えという介入を通じて幻覚を緩和するQueryBanditsの有効性が実証された。興味深いことに、現在のクエリ書き換え研究の多くを占める特定の静的プロンプティング戦略は、書き換えを行わないベースラインよりも累積的な後悔が大きく、静的書き換えが幻覚を悪化させる可能性があることを示唆している。さらに、収束した各アームの回帰特徴重みベクトルを分析した結果、すべてのクエリに対して最適な単一の書き換え戦略は存在しないことが明らかになった。この文脈において、QueryBanditsを用いて意味的特徴を活用したガイド付き書き換えは、再学習や勾配ベースの適応を必要とせず、フォワードパスメカニズムを通じて出力行動に大きな変化をもたらすことができる。
最近のメッシュ生成アプローチでは、通常、三角形メッシュをトークン列にトークン化し、これらのトークンを逐次的に生成するために自己回帰モデルを訓練します。大きな進展があるにもかかわらず、このようなトークン列は、多様体メッシュを完全に表現するために頂点を複数回再利用せざるを得ません。なぜなら、各頂点は複数の面によって共有されているからです。この冗長性は、過度に長いトークン列と非効率な生成プロセスを引き起こします。本論文では、頂点と面を別々に扱うことで冗長性を大幅に削減し、効率的に芸術的メッシュを生成するフレームワークを提案します。頂点生成には自己回帰モデルのみを使用し、トークン数を既存の最もコンパクトなトークナイザーに必要なものの約23%に削減します。次に、双方向トランスフォーマーを活用して、頂点間の関係を捉え、メッシュの面を定義する隣接行列を構築することで、メッシュを一括で完成させます。生成品質をさらに向上させるために、頂点配置をより自然な配置に洗練するフィデリティエンハンサーを導入し、望ましくないエッジ接続を除去する後処理フレームワークを提案します。実験結果は、我々の手法が最先端のアプローチと比較してメッシュ生成速度を8倍以上高速化し、より高いメッシュ品質を実現することを示しています。
本論文では、映画コンテンツに対するより深い認知的解釈を探るために設計された新しい映像質問応答(VQA)データセット、MovieCOREを紹介する。既存のデータセットが表面的な理解に焦点を当てているのに対し、MovieCOREは映像素材に特化しながらも、System-2思考を促す質問を重視している。我々は、複数の大規模言語モデル(LLM)を思考エージェントとして活用し、高品質な質問-回答ペアを生成・洗練する革新的なエージェンシック・ブレインストーミング手法を提案する。データセットの品質を評価するため、深さ、思考喚起力、構文的複雑さを測定する一連の認知テストを開発した。また、より深い認知タスクにおけるVQAモデルの性能を評価するための包括的な評価スキームを提案する。既存の映像-言語モデル(VLM)の限界に対処するため、トレーニング後のモデル推論能力を最大25%向上させるエージェンシック・チョイス・エンハンスメント(ACE)モジュールを導入した。本研究は、AIシステムにおける映画理解の進展に貢献し、映画コンテンツに関するより挑戦的でニュアンスのある質問に直面した際の現在のVQAモデルの能力と限界について貴重な知見を提供する。プロジェクトページ、データセット、コードはhttps://joslefaure.github.io/assets/html/moviecore.htmlで公開されている。
経験則に基づくスケーリング法則は大規模言語モデル(LLM)の進化を牽引してきたが、その係数はモデルアーキテクチャやデータパイプラインが変更されるたびに変化する。現在の最先端システムで標準となっているMixture-of-Experts(MoE)モデルは、現在の密モデルのフロンティアが見過ごしている新たなスパース性の次元を導入する。本研究では、MoEのスパース性が2つの異なる能力領域、すなわち記憶と推論にどのように影響するかを調査する。計算予算を固定した状態で、総パラメータ数、活性化パラメータ数、およびtop-kルーティングを体系的に変化させたMoE Transformerのファミリーを学習する。各モデルについて、事前学習損失、下流タスク損失、およびタスク精度を記録し、これにより訓練-テストの汎化ギャップと損失-精度ギャップを分離する。記憶ベンチマークは総パラメータ数に比例して単調に向上し、訓練損失を反映する。一方、推論性能は飽和し、総パラメータ数と訓練損失が継続的に向上しても逆に低下することがある。活性化パラメータ数が一定の場合、top-kを変更するだけではほとんど効果がなく、学習率や初期化などの古典的なハイパーパラメータはスパース性と同じ方向に汎化ギャップを調整する。訓練後の強化学習(GRPO)や追加のテスト時計算も、過度にスパースなモデルの推論能力の欠陥を補うことはできない。我々のモデルチェックポイント、コード、およびログはhttps://github.com/rioyokotalab/optimal-sparsityで公開されている。
3Dインペインティングは、多くの場合、マルチビュー2D画像インペインティングに依存していますが、異なるビュー間でインペイントされた領域に内在する不整合は、ぼやけたテクスチャ、空間的な不連続性、および目立つ視覚的アーティファクトを引き起こす可能性があります。これらの不整合は、特に高忠実度と構造的一貫性を要求するアプリケーションにおいて、正確でリアルな3Dオブジェクトの完成を目指す際に重大な課題を提起します。これらの制限を克服するために、我々はObjFiller-3Dを提案します。これは、高品質で一貫性のある3Dオブジェクトの完成と編集のために設計された新しい手法です。従来の2D画像インペインティングモデルを使用する代わりに、我々のアプローチは、最先端のビデオ編集モデルを厳選して使用し、3Dオブジェクトのマスクされた領域を埋めます。我々は、3Dとビデオの間の表現のギャップを分析し、3Dシーンインペインティングのためのビデオインペインティングモデルの適応を提案します。さらに、再構築の品質をさらに向上させるために、参照ベースの3Dインペインティング手法を導入します。多様なデータセットでの実験により、ObjFiller-3Dは、以前の手法と比較して、より忠実で細かい再構築を生成することが示されました(PSNR 26.6 vs. NeRFiller (15.9)、LPIPS 0.19 vs. Instant3dit (0.25))。さらに、実世界の3D編集アプリケーションでの実用的な展開においても強い可能性を示しています。プロジェクトページ: https://objfiller3d.github.io/ コード: https://github.com/objfiller3d/ObjFiller-3D
大規模言語モデル(LLMs)は、科学、工学、社会において、科学的発見や医療診断からチャットボットに至るまでの応用を通じて、私たちの世界を大きく変革してきました。しかし、その遍在性と有用性にもかかわらず、LLMの基盤となるメカニズムは、数十億のパラメータと複雑な構造の中に隠されており、その内部アーキテクチャと認知プロセスを理解することは困難です。私たちは、生物学における新興認知を理解するアプローチを採用し、認知スキル、LLMアーキテクチャ、データセットを結びつけるネットワークベースのフレームワークを開発することで、このギャップを埋め、基盤モデル分析におけるパラダイムシフトをもたらします。モジュールコミュニティにおけるスキル分布は、LLMが特定の生物システムで観察される焦点化された専門性と厳密に並行しているわけではないものの、鳥類や小型哺乳類の脳に見られる分散的でありながら相互接続された認知組織を部分的に反映する、独自のモジュールコミュニティを示していることを示しています。私たちの数値結果は、生物システムとLLMの間の重要な相違点を強調しており、スキルの獲得は、動的で地域間の相互作用と神経可塑性から大きな恩恵を受けています。認知科学の原則を機械学習と統合することにより、私たちのフレームワークはLLMの解釈可能性に関する新たな洞察を提供し、効果的なファインチューニング戦略は、厳格なモジュール介入ではなく、分散学習ダイナミクスを活用すべきであることを示唆しています。