翻訳付きの日次キュレーションされたAI研究論文
本報告では、高忠実度3D形状生成のためのスケーラブルな3D拡散フレームワーク「UltraShape 1.0」を提案する。本手法は2段階の生成パイプラインを採用しており、まず大まかな大域構造を生成した後、詳細で高品質な形状へと精緻化する。信頼性の高い3D生成を実現するため、新規の水密処理手法と高品質なデータフィルタリングを含む包括的数据処理パイプラインを開発した。このパイプラインにより、公開されている3Dデータセットの幾何学的品質が向上し、低品質なサンプルの除去、穴埋め、薄い構造の厚み付けが行われる一方、微細な幾何学的詳細は保持される。 微細な形状精緻化を可能にするため、拡散プロセスにおいて空間的位置の特定と幾何学的詳細の合成を分離した。具体的には、固定された空間位置でボクセルベースの精緻化を実行し、粗い形状から導出されたボクセルクエリがRoPEで符号化された明示的位置アンカーとして機能するように設計した。これにより、拡散モデルは縮小された構造化解空間内で局所的な幾何学的詳細の合成に集中できる。 本モデルは公開3Dデータセットのみで学習されており、限られた学習リソースにも関わらず優れた幾何学的品質を達成している。大規模な評価により、UltraShape 1.0がデータ処理品質と形状生成の両面で既存のオープンソース手法と競合する性能を発揮することが実証された。今後の研究を支援するため、すべてのコードと学習済みモデルを公開する予定である。
最近、生成と編集を統合したモデルが目覚ましい成功を収めています。これらのモデルは主にテキストプロンプトに依存して指示ベースの編集と生成を行いますが、言語ではユーザーが意図する編集位置や細かな視覚的詳細を十分に表現できません。この課題に対処するため、我々はスクリブル(自由描画)ベースの編集と生成という2つのタスクを提案します。これにより、GUI上でユーザーのテキスト、画像、手描きのスケッチを組み合わせたより柔軟な創作が可能になります。DreamOmni3を紹介し、データ作成とフレームワーク設計という2つの課題に取り組みます。 データ合成パイプラインは、スクリブルベース編集と生成の2部構成です。スクリブルベース編集では、(1)スクリブル+指示ベース編集、(2)スクリブル+マルチモーダル指示ベース編集、(3)画像融合、(4)落書き編集の4タスクを定義。DreamOmni2データセットを基に編集可能領域を抽出し、手描きの四角/円/落書き、または切り抜き画像を重ねて学習データを構築します。スクリブルベース生成では、(1)スクリブル+指示ベース生成、(2)スクリブル+マルチモーダル指示ベース生成、(3)落書き生成の3タスクを同様のパイプラインで構築。 フレームワークでは、複数のスクリブル・画像・指示が関わる複雑な編集に課題のあるバイナリマスクの代わりに、元画像とスクリブル描画済み画像の両方をモデルに入力する共同入力方式を提案。色分けで領域を区別し処理を簡素化します。両画像に同一のインデックスと位置エンコーディングを適用することで、モデルは編集精度を維持しつつスクリブル領域を正確に特定できます。最後に、これらのタスク包括的ベンチマークを確立し研究促進を図ります。実験結果はDreamOmni3が優れた性能を達成することを示し、モデルとコードは公開予定です。
我々は、長文脈言語モデリングをアーキテクチャ設計ではなく継続学習の問題として定式化する。この定式化の下では、スライディングウィンドウ注意機構を備えた標準的なTransformerアーキテクチャのみを使用する。しかし、本モデルはテスト時に与えられた文脈に対する次トークン予測を通じて学習を継続し、読み取った文脈を重みに圧縮する。さらに、訓練時のメタ学習を通じて、テスト時学習のためのモデル初期化を改善する。全体として、我々の手法(Test-Time Training: TTTの一形態)は、テスト時(次トークン予測による)と訓練時(メタ学習による)の両方でEnd-to-End(E2E)で動作する点が従来の形態と異なる。我々はスケーリング特性に焦点を当てた広範な実験を実施した。特に、164Bトークンで訓練した3Bモデルでは、我々の手法(TTT-E2E)は完全注意機構を持つTransformerと同様に文脈長に応じてスケールする一方、Mamba 2やGated DeltaNet等其他手法ではそれが見られない。しかしRNNと同様、TTT-E2Eは文脈長に関わらず推論レイテンシが一定であり、128K文長において完全注意機構よりも2.7倍高速である。実装コードは公開されている。
我々は、検証可能な報酬による強化学習(RLVR)の枠組みにおいて、パラメータ効率型ファインチューニング(PEFT)手法を体系的に評価する。RLVRは検証可能なフィードバックを通じて言語モデルの推論能力を向上させることを目的とするが、LoRAなどの手法が一般的に使用される一方で、RLVRにおける最適なPEFTアーキテクチャは未だ特定されていない。本研究では、数学的推論ベンチマークにおいて、DeepSeek-R1-Distillファミリを対象に12以上のPEFT手法について初めて包括的な評価を実施した。実証結果は、標準LoRAのデフォルト採用に疑問を投げかける3つの主要な知見を示している。第一に、DoRA、AdaLoRA、MiSSなどの構造的変種がLoRAを一貫して上回ることを実証する。第二に、SVDに基づく初期化戦略(PiSSA、MiLoRAなど)におけるスペクトル崩壊現象を明らかにし、その失敗要因を主成分更新とRL最適化の根本的な不整合に帰属させる。さらに、 ablation studyにより、極端なパラメータ削減(VeRA、Rank-1など)が推論能力を深刻に阻害することを解明した。追加で実施した ablation study とスケーリング実験により、これらの知見を検証している。本研究は、パラメータ効率型RL手法のさらなる探求を促進する確固たる指針を提供する。
問題ローカライゼーションタスクは、自然言語の課題説明が与えられた際に、修正が必要なソフトウェアリポジトリ内の位置を特定することを目的としています。このタスクは自動化ソフトウェア工学において基本的でありながら、課題説明とソースコード実装間の意味的ギャップにより困難を伴います。このギャップは以下の2つの不一致として現れます:(1) 症状と原因の不一致(説明が根本原因を明示的に示さない場合)、(2) 一対多の不一致(単一の課題が複数の相互依存するコード実体に対応する場合)。これら2つの不一致に対処するため、我々はGraphLocatorを提案します。この手法は、因果構造発見による症状と原因の不一致の緩和、および動的課題分離による一対多の不一致の解決を実現します。中核となる成果物は因果的課題グラフ(CIG)であり、頂点は発見された副課題と関連コード実体を、辺はそれら間の因果的依存関係を表します。GraphLocatorのワークフローは、症状頂点の位置特定と動的CIG発見の2段階から構成され、まずリポジトリグラフ上の症状位置を特定した後、隣接頂点に対する反復的推論を通じてCIGを動的に拡張します。3つの実世界データセットを用いた実験により、GraphLocatorの有効性が実証されました:(1) ベースライン比較において、GraphLocatorは関数レベル再現率で平均+19.49%、適合率で+11.89%の精度向上を達成。(2) 症状と原因の不一致シナリオでは再現率+16.44%・適合率+7.78%、一対多の不一致シナリオでは再現率+19.18%・適合率+13.23%の改善を達成。(3) GraphLocatorが生成するCIGは下流の解決タスクにおいて28.74%の性能向上をもたらし、最大の相対的改善効果を示しました。
Mixture-of-Experts(MoE)アーキテクチャは、入力ごとにパラメータの疎なサブセットのみを活性化することで、大規模言語モデル(LLM)のスケーリングを推進し、計算コストを抑えつつ最先端の性能を実現してきた。こうしたモデルが重要分野で展開されるにつれ、有害な出力を防ぐために、そのアライメントメカニズムを理解し強化することが不可欠となっている。しかし、既存のLLM安全性研究は密なアーキテクチャにほぼ独占的に焦点を当てており、MoEの特有の安全性特性はほとんど検証されていない。MoEのモジュール化された疎活性化設計は、安全性メカニズムが密モデルとは異なる動作をする可能性を示唆し、その堅牢性に疑問を投げかけている。 本論文では、GateBreakerを提案する。これは、推論時に現代のMoE LLMの安全性アライメントを損なう、トレーニング不要の軽量かつアーキテクチャに依存しない初の攻撃フレームワークである。GateBreakerは3段階で動作する:(i) 有害な入力に対して不均衡にルーティングされる安全性エキスパートを特定するゲートレベルプロファイリング、(ii) 安全性エキスパート内の安全性構造を局所化するエキスパートレベル局所化、(iii) 特定された安全性構造を無効化して安全性アライメントを損なうターゲット安全性除去である。我々の研究は、MoEの安全性が疎ルーティングによって調整される少数のニューロンのサブセット内に集中していることを示す。対象エキスパート層のニューロンの約3%に相当するこれらのニューロンを選択的に無効化すると、最新のアライメント済みMoE LLM 8モデルに対する平均攻撃成功率(ASR)が7.4%から64.9%に大幅に上昇し、ユーティリティの低下は限定的であった。これらの安全性ニューロンは同一ファミリー内のモデル間で転移し、ワンショット転移攻撃によりASRを17.9%から67.7%に上昇させた。さらに、GateBreakerは5つのMoE視覚言語モデル(VLM)に一般化し、安全でない画像入力に対して60.9%のASRを達成した。