翻訳付きの日次キュレーションされたAI研究論文
人間は複数の感覚の統合を通じて抽象的概念を学習し、一度形成された概念表現は単一の感覚モダリティから想起されることが多い。この原理に着想を得て、我々は3Dモダリティ内自己蒸留と2D-3Dクロスモーダル共同埋め込みを組み合わせた、空間認知のための人間の概念学習を模倣したミニマリスト的アプローチ「Concerto」を提案する。簡素な設計にも関わらず、Concertoはより一貫性のある情報量の多い空間特徴を学習し、ゼロショット可視化によってその有効性が実証された。3Dシーン知覚における線形 probing では、単体のSOTA(State-of-the-Art)2D自己教師ありモデルを14.2%、3Dモデルを4.8%上回り、それらの特徴量連結よりも優れた性能を示した。フルファインチューニングでは、複数のシーン理解ベンチマークで新たなSOTA結果(例:ScanNetで80.7% mIoU)を達成した。さらに、映像から抽出した点群の空間理解に特化したConcertoの変種と、CLIPの言語空間へConcertoの表現を線形射影することで開放世界知覚を可能にする翻訳器を提示する。これらの結果は、Concertoが優れた細粒度の幾何学的・意味的一貫性を備えた空間表現を創発することを示している。
現実世界のタスクでは様々な粒度での意思決定が要求され、人間は計画を高次元の行動として捉える統一的認知表現を活用することでこれに優れています。しかし、現在の大規模言語モデル(LLM)ベースのエージェントには、意思決定の粒度を柔軟に行き来するという重要な能力が欠けています。この制限は、高レベルの計画と低レベルの行動を厳密に分離する既存のパラダイムに起因し、動的適応性を損ない汎化能力を制限しています。 我々はこの問題を解決する新しいパラダイム「ReCode(Recursive Code Generation)」を提案します。このアプローチでは、計画と行動を単一のコード表現内に統合します。ReCodeは高レベルの計画を抽象的なプレースホルダ関数として扱い、エージェントがこれを原始的な行動に到達するまで再帰的に細粒度の副関数へ分解します。この再帰的アプローチにより、計画と行動の間の硬直した境界が溶解し、エージェントは意思決定の粒度を動的に制御できるようになります。 さらに、この再帰的構造は本質的に豊富な多粒度トレーニングデータを生成し、モデルが階層的な意思決定プロセスを学習することを可能にします。大規模な実験により、ReCodeが推論性能において高度なベースラインを大幅に上回り、トレーニングにおける卓越したデータ効率を示すことが実証されました。これは、再帰的コード生成による計画と行動の統合が、普遍的な粒度制御を実現する強力かつ効果的なアプローチであるという我々の核心的洞察を裏付けるものです。コードはhttps://github.com/FoundationAgents/ReCodeで公開されています。
大規模言語モデル(LLM)の急速な進化に伴い、複雑なデータ関連タスクに対処するためにData + AIエコシステムを統合する自律システムである「データエージェント」が出現している。しかし、「データエージェント」という用語は現在、用語の曖昧さと採用の不整合に悩まされており、単純な問い合わせ応答システムと高度な自律アーキテクチャが混同されている。この用語の曖昧さは、ユーザー期待の不一致、責任の所在に関する課題、産業成長の障壁を生み出している。自動運転のSAE J3016標準に着想を得て、本調査はデータエージェント初の体系的な階層的分類法を提案する。これは6段階から成り、手動操作(L0)から生成的で完全自律的なデータエージェント(L5)というビジョンまで、自律性の漸進的変化を delineate し追跡することで、能力範囲と責任分配を明確化する。この枠組みを通じて、自律性の向上に沿って配置された既存研究を体系的にレビューし、データ管理、準備、分析のための専門的なデータエージェントから、自律性を強化した汎用的で包括的なシステムに向けた新興の取り組みまでを網羅する。さらに、データエージェントの進化における重要な飛躍と技術的ギャップ、特に手続き的実行から自律的オーケストレーションへ進化するL2からL3への移行を分析する。最後に、先を見据えたロードマップを示し、能動的で生成的なデータエージェントの到来を展望する。
生データ分布の明示的な尤度を直接モデル化することは、機械学習分野における重要なテーマであり、自己回帰モデリングによって大規模言語モデルにおいてスケーリングの成功を収めています。しかし、視覚的ピクセルデータに対する連続的な自己回帰モデリングは、極めて長い系列と高次元空間という課題に直面しています。本論文では、正規化フローと自己回帰モデルを統合した新しい end-to-end 生成フレームワークである FARMER を提案します。このフレームワークは、扱いやすい尤度推定と高品質な画像合成を生ピクセルから直接実現します。FARMER は可逆的な自己回帰フローを用いて画像を潜在系列に変換し、その分布は自己回帰モデルによって暗黙的にモデル化されます。ピクセルレベルでのモデリングにおける冗長性と複雑さに対処するため、NF 潜在チャネルを情報性の高いグループと冗長なグループに分割する自己教師あり次元削減手法を提案し、より効果的かつ効率的な自己回帰モデリングを可能にします。さらに、推論速度を大幅に加速するワンステップ蒸留手法を設計し、画像生成品質を向上させるリサンプリングベースの classifier-free guidance アルゴリズムを導入します。大規模な実験により、FARMER が正確な尤度計算とスケーラブルな学習を提供しながら、既存のピクセルベース生成モデルと競合する性能を達成することを実証します。
現在のVision-Language-Action(VLA)モデルは、しばしば硬直的で静的な相互作用パラダイムに制約されており、環境の観察、ユーザー音声の聴取、応答発話、動作実行を同時並行的に処理し、リアルタイムのユーザー割り込みを動的に扱う能力を欠いています。これは没入型協調作業のシームレスな実現を妨げ、柔軟性と応答性に欠けるユーザー体験をもたらしています。これらの課題を解決するため、我々は行動の並行性と準リアルタイム割り込みの両立を目指した新しい没入型相互作用フレームワーク「VITA-E」を提案します。本手法の中核は、2つの並列VLAインスタンスが「能動モデル」と「待機モデル」として機能するデュアルモデルアーキテクチャであり、没入型エージェントが人間のようなマルチタスク能力を模倣し、すべての処理を並行的かつ割り込み可能に実行することを可能にします。さらに、VLMを微調整して特殊トークンを生成し、それを直接的なシステムレベルコマンドとして機能させる「モデル即コントローラ」パラダイムを提案します。これによりモデルの推論とシステムの挙動が緊密に連携します。物理的人型プラットフォームでの実験により、VITA-Eが複雑な対話シナリオを確実に処理できることを実証しました。本フレームワークは様々なデュアルシステムVLAモデルと互換性があり、緊急停止と音声割り込みで極めて高い成功率を達成するとともに、音声と動作の並行実行にも成功しています。これは、より自然で高能力な没入型アシスタントへの重要な一歩を示すものです。
音声駆動型人間アニメーションモデルは、時間的な自己回帰的生成において、キャラクターのアイデンティティが時間とともに徐々に失われる「アイデンティティ・ドリフト」に悩まされることが多い。この問題に対する一つの解決策は、劣化を防ぐための時間的な中間アンカーとしてキーフレームを生成することである。しかし、これには追加のキーフレーム生成ステージが必要となり、自然な動きのダイナミクスを制限する可能性がある。この課題に対処するため、我々はルックアヘッド・アンカリングを提案する。これは、現在の生成ウィンドウ内ではなく、将来のタイムステップからのキーフレームを活用する。これにより、キーフレームは固定された境界から方向指示の標識へと変容する。モデルは、即時の音声キューに応答しつつ、これらの将来のアンカーを絶えず追従することで、持続的なガイダンスを通じて一貫したアイデンティティを維持する。これはまた、参照画像自体がルックアヘッドの目標となる「自己キーフレーム化」を可能にし、キーフレーム生成を完全に不要とする。我々は、時間的なルックアヘッド距離が表現力と一貫性のバランスを自然に制御することを発見した。距離が大きいほど動きの自由度が高まり、小さいほどアイデンティティへの忠実性が強化される。3つの最近の人間アニメーションモデルに適用した結果、ルックアヘッド・アンカリングは、優れた口唇同期、アイデンティティ保存、視覚的品質を達成し、いくつかの異なるアーキテクチャにわたって時間的コンディショニングが改善されることを実証した。動画結果は以下のリンクで閲覧可能である:https://lookahead-anchoring.github.io。
人間は自然に3次元世界の幾何構造と意味内容を相互に絡み合った次元として知覚し、複雑なシーンを首尾一貫して正確に理解する能力を有しています。しかし、従来の手法の多くは低次元の3D再構成のための大規模幾何学モデルの学習を優先し、高次元の空間理解を個別に扱う傾向があり、3Dシーン分析におけるこれら二つの基本側面の重要な相互作用を見過ごしてきました。その結果、一般化能力が制限され、下流の3D理解タスクにおける性能低下を招いています。最近の試みでは、3Dモデルを特定の言語モデルに単純に整合させることでこの問題を緩和しようとしていますが、知覚能力が整合モデルの容量に制約され、下流タスクへの適応性が限定されるという課題があります。本論文では、空間再構成とインスタンスレベルの文脈理解の両方の知識を統合するためのエンドツーエンドの大規模統一トランスフォーマーであるInstanceGrounded Geometry Transformer(IGGT)を提案します。具体的には、3D一貫性対比学習戦略を設計し、IGGTが2D視覚入力のみから幾何構造とインスタンス接地クラスタリングを備えた統一表現を符号化するように導きます。この表現は、2D視覚入力の一貫した3Dシーンへのリフティングを、明示的に区別されたオブジェクトインスタンスとともに実現します。このタスクを促進するため、高品質RGB画像・姿勢・深度マップに加え、新規データキュレーションパイプラインによる3D一貫性インスタンスレベルマスク注釈を備えた大規模データセットInsScene-15Kを構築しました。
拡散モデルとフローマッチングモデルは、強力なロボット政策として登場し、Vision-Language-Action(VLA)モデルが多様なシーンと指示に一般化することを可能にしている。しかし、模倣学習によって訓練される場合、それらの高い生成能力は人間によるデモンストレーション中のノイズ(動作の途切れ、停止、震えなど、行動の一貫性を低下させるもの)に対して敏感にさせる。行動の一貫性が低下すると、実行時に不安定性と軌道のドリフトが生じ、精度が決定的に重要となる微細なマニピュレーションにおいては致命的な失敗につながる。本論文では、VLAモデルのためのAction Coherence Guidance(ACG)を提案する。これは訓練を必要としないテスト時ガイダンスアルゴリズムであり、行動の一貫性を改善し、それによって性能向上をもたらす。RoboCasa、DexMimicGen、および実世界のSO-101タスクによる評価において、ACGは一貫して行動の一貫性を改善し、多様なマニピュレーションタスクにおける成功率を向上させた。コードとプロジェクトページは、それぞれhttps://github.com/DAVIAN-Robotics/ACG と https://DAVIAN-Robotics.github.io/ACG で公開されている。
テキスト埋め込みモデルは、実世界の検索アプリケーションにおける基盤的コンポーネントとして機能する。クエリと文書を共有の埋め込み空間に写像することで、高い効率性を維持しつつ競争力のある検索性能を実現する。しかしながら、そのランキング精度は、専用のリランカー、特に細かなクエリ-文書間および文書-文書間の相互作用を捉える最近のLLMベースのリストワイズリランカーと比較すると、依然として限界がある。本論文では、シンプルかつ効果的な統一フレームワークE^2Rankを提案する。これは、Efficient Embedding-based Ranking(またEmbedding-to-Rankの意も持つ)を意味し、単一のテキスト埋め込みモデルを拡張して、リストワイズランキング目的関数による継続訓練を通じて、高品質な検索とリストワイズリランキングの両方を実行させる。これにより、顕著な効率性を保ちつつ強力な有効性を達成する。クエリと文書の埋め込み間のコサイン類似度を統一的なランキング関数として適用することで、元のクエリとその候補文書から構築されるリストワイズランキングプロンプトは、従来の検索モデルにおける擬似的関連性フィードバック(PRF)と同様に、トップK文書からの信号で強化された拡張クエリとして機能する。この設計は、ベースとなる埋め込みモデルの効率性と表現品質を維持しながら、そのリランキング性能を大幅に改善する。実証的に、E^2RankはBEIRリランキングベンチマークで state-of-the-art の結果を達成し、推論集約型のBRIGHTベンチマークにおいても非常に低いリランキング遅延で競争力のある性能を示す。さらに、このランキング訓練プロセスがMTEBベンチマークにおける埋め込み性能も向上させることを示す。我々の発見は、単一の埋め込みモデルが検索とリランキングを効果的に統一し、計算効率と競争力のあるランキング精度の両方を提供できることを示唆している。
大規模マルチモーダルモデル(LMM)は、写実的でプロンプトに忠実な画像生成において顕著な進歩を遂げているが、特に細粒度の属性や時間的制約のある事象を含むプロンプトにおいて、検証可能な知識と矛盾する出力を生成することが多い。従来の検索拡張アプローチは外部情報の導入によってこの問題に対処しようとするが、静的な情報源と表面的な証統合に依存するため、正確で変化する知識に基づいた生成を根本的に実現できない。この課題を解決するため、我々は事実に基づく画像生成(FIG)という新たなタスクに向けた、エージェンシックでオープンなマルチモーダル検索拡張フレームワーク「ORIG」を提案する。ORIGはウェブからマルチモーダルな証拠を反復的に収集・選別し、精緻化された知識を段階的にプロンプトに統合することで生成を誘導する。体系的評価を可能にするため、知覚的・構成的・時間的次元にわたる10カテゴリからなるベンチマークFIG-Evalを構築した。実験により、ORIGが強力なベースラインを大幅に上回る事実的一貫性と総合的な画質向上を達成することが示され、事実的画像生成におけるオープンなマルチモーダル検索の可能性が明らかとなった。
ビデオ生成は世界モデル構築への重要な道筋であり、効率的な長尺ビデオ推論はその中核的な能力である。本論文では、13.6Bパラメータを有する基盤的ビデオ生成モデル「LongCat-Video」を提案する。本モデルは複数のビデオ生成タスクにおいて強力な性能を発揮し、特に効率的かつ高品質な長尺ビデオ生成に優れており、世界モデル構築への第一歩を表す。主な特徴は以下の通りである: **複数タスク統合アーキテクチャ**:Diffusion Transformer(DiT)フレームワークに基づき、単一モデルでテキスト→ビデオ、画像→ビデオ、ビデオ継続生成タスクをサポート。 **長尺ビデオ生成**:ビデオ継続生成タスクによる事前学習により、数分間の長尺ビデオ生成においても高品質性と時間的一貫性を維持。 **効率的な推論**:時間軸と空間軸の両方で粗密生成戦略を採用し、720p・30fpsのビデオを数分で生成。Block Sparse Attentionにより、高解像度時における効率をさらに向上。 **マルチ報酬RLHFによる強力な性能**:マルチ報酬強化学習による人間フィードバック(RLHF)訓練により、最新のクローズドソースモデル及び主要オープンソースモデルに匹敵する性能を達成。 本分野の進展を加速するため、コード及びモデル重みを公開する。
マルチヘッドアテンション(MHA)は、並列的なアテンションヘッドを通じて表現能力を強化し、現代の大規模言語モデルの基盤技術となっている。しかし、ヘッド数の増加は本質的に個々のヘッドの能力を弱め、既存のアテンション機構——標準的なMHAや、グループ化クエリ注意(GQA)、グループ化結合注意(GTA)などの変種——は、強い相互作用なしに孤立したヘッドの出力を単純に結合しているに過ぎない。この課題を解決するため、本研究ではノッキングヘッズアテンション(KHA)を提案する。KHAは、スケーリング付き内積アテンションの前に、アテンションヘッド同士が相互に「ノック」し合うことで、ヘッド間の特徴レベルの相互作用を促進する。これは、全ヘッドにわたって共有され、対角行列で初期化された投影行列を適用することで実現する。対角初期化により、訓練開始時にはヘッド固有の特化性を保持しつつ、モデルが統合されたヘッド間表現を段階的に学習できるようにする。KHAは最小限のパラメータとFLOPsのみを追加し、MHA、GQA、GTAをはじめとする他のアテンション変種にシームレスに統合可能である。1Tの高品質トークンを用いて61億パラメータ(活性化10.1億)のMoEモデルを訓練し、KHAを検証した。ベースラインのアテンション機構と比較して、KHAは優れておりより安定した訓練ダイナミクスをもたらし、下流タスク全体でより良い性能を達成した。
報酬モデル(RM)は、AIの振る舞いを人間の選好に適合させる上で重要な役割を果たすが、二つの根本的な課題に直面している:(1)モダリティ不均衡——既存のRMの大半はテキストと画像モダリティに集中しており、動画・音声・その他モダリティへの対応が限定的であること;(2)選好硬直性——固定された二値選好ペアでの学習では、個人化された選好の複雑さと多様性を捉えきれないこと。これらの課題を解決するため、本論文ではOmni-Rewardを提案する。これは自由形式の選好をサポートする一般主義的オールモーダル報酬モデルへの第一歩であり、以下で構成される:(1)評価:初の自由形式選好対応オールモーダルRMベンチマーク「Omni-RewardBench」を導入。テキスト、画像、動画、音声、3Dの5モダリティ・9タスクを網羅;(2)データ:マルチモーダル選好データセット「Omni-RewardData」を構築。一般主義的オールモーダルRM訓練用に24万8千の一般選好ペアと6万9千の指示チューニング用ペアを収録;(3)モデル:識別型と生成型の両RMを含む「Omni-RewardModel」を提案。Omni-RewardBenchおよび他の広く使われる報酬モデルベンチマークで強力な性能を達成。
マルチモーダル大規模言語モデル(MLLM)は、オープンワールドにおける視覚的理解において強力な汎用能力を実証している。しかし、既存のMLLMの多くは、画像全体やシーン単位の理解に主眼を置き、細粒度で対象物中心の推論への要請を見落としがちである。本論文では、画像と動画の両方にわたり、ユーザー指定領域に対する高度な細粒度理解を可能にする、統一された領域レベルMLLMフレームワーク「PixelRefer」を提案する。大規模言語モデルの注意機構が主に対象物レベルのトークンに集中するという観察に基づき、我々は自由形式の領域からコンパクトで意味的に豊かな対象物表現を生成するスケール適応型対象物トークナイザ(SAOT)を提案する。解析の結果、大域的な視覚トークンは主に大規模言語モデルの初期層で寄与することが明らかとなり、これに着想を得て、大域的文脈を対象物トークンに事前融合する対象物中心注入モジュールを採用した効率的な変種「PixelRefer-Lite」を設計した。これにより、計算コストを大幅に削減しつつ高い意味的忠実性を維持する軽量な対象物専用フレームワークが実現する。細粒度の指示チューニングを促進するため、高品質な対象物中心の指示データセット「PixelRefer-2.2M」を構築した。一連のベンチマークによる広範な実験により、PixelReferがより少ない訓練サンプルで最先端の性能を達成すること、またPixelRefer-Liteが顕著な効率性の向上を図りつつ競争力のある精度を提供することを検証した。
検証可能な報酬を用いた強化学習(RLVR)の数学およびコーディング領域への応用は、大規模言語モデルの推論能力と問題解決能力に著しい向上をもたらすことが実証されている。単一生成による問題解決では成功を収めているものの、強化学習によるファインチューニングプロセスは、生成の多様性低下として表れるモデルの探索能力を損なう可能性があり、その結果、大きなN値におけるBest-of-Nサンプリング時の性能劣化を招く。本研究では、pass@kの連続的一般化であるmax@k指標の最適化に焦点を当てる。我々はこの指標を直接最適化するための不偏なオン方策勾配推定を導出する。さらに、導出を現代のRLVRアルゴリズムで一般的なオフ方策更新に拡張し、サンプル効率の向上を可能にする。実験により、提案する目的関数がオフ方策シナリオにおいてmax@k指標を効果的に最適化し、モデルをBest-of-N推論戦略に整合させることを示す。
統合マルチモーダルモデルは近年、能力と汎用性の両面で著しい向上を見せているが、主要なシステムの多くは依然としてスクラッチから訓練され、多大な計算資源を必要としている。本論文では、生成または理解のいずれかに特化した公開モデルを戦略的に融合することで、競争力のある性能をはるかに効率的に達成できることを示す。我々の主要な設計は、元のブロックを保持しつつ、ネットワーク全体にマルチモーダル自己注意ブロックを追加して交互に配置することである。この二重融合メカニズムは、(1) ベースモデルの元の強みを大きく保ちながら、豊富なマルチモーダル融合を効果的に実現し、(2) 理解エンコーダからの高レベルな意味表現と、生成エンコーダからの低レベルな空間信号との相乗的な融合を促進する。約35Bトークンのみで訓練したこのアプローチは、複数のベンチマークで強力な結果を達成した:構成的テキスト画像生成におけるGenEvalで0.91、複雑なテキスト画像生成におけるDPG-Benchで82.16、画像編集におけるGEditBenchで6.06、ImgEdit-Benchで3.77である。コード、モデル重み、データセットの全てを完全に公開することで、統合マルチモーダルモデリングの将来の研究を支援したい。
マルチモーダル大規模言語モデル(MLLM)における視覚言語アライメントは、通常、教師ありファインチューニング(SFT)または強化学習(RL)に依存している。SFTは安定性と効率性に優れるが、大規模な人手によるアノテーションを必要とし、微妙な選好を捉えることができない。一方、RLは報酬信号を学習に導入するが、計算コストと不安定性に悩まされる。これらの制限は、拡張性、頑健性、アライメント品質の間のトレードオフを浮き彫りにしている。この問題に対処するため、我々はSFTとRLを橋渡しする訓練時データ拡張パラダイムであるMergeMixを提案する。MergeMixはまず、より多くのクラスタ表現と空間的コンテキストを備えたトークンマージによる注意機構を考慮した画像混合を適用し、次に、混合画像と元画像で選好ペアを構築し、SimPO損失による最適化を行う選好駆動型訓練パラダイムをMLLM向けに提示する。Mixup拡張として、MergeMixは注意の一貫性と効率性を向上させ、分類タスクにおいて他のヒューリスティックベースの手法を凌駕する。大規模な実験により、MergeMixが効率を改善しつつ競争力のある精度を達成し、分類およびMLLMにおける選好アライメントのための拡張性のあるアプローチを提供することが実証された。
強化学習(RL)は大規模言語モデル(LLM)の推論能力を強化する上で大きな可能性を示している。しかし、LLMに対するRLの成功は、その拡張性と一般性を制限する、人間が整備したデータセットと検証可能な報酬に大きく依存している。ゲームや囲碁における成功に着想を得た近年のSelf-Play RL手法は、人間による注釈データなしでLLMの推論能力を高めることを目指している。しかし、これらの手法は主にフィードバックのための基盤環境(Pythonインタープリタやゲームエンジンなど)に依存しており、一般領域への拡張は依然として困難である。これらの課題に対処するため、我々は数学、推論、一般知識QAを含む多様なタスク解決においてLLMが自己進化することを可能にするフレームワーク、Multi-Agent Evolve(MAE)を提案する。MAEの核心的な設計は、単一のLLMからインスタンス化された3つの相互作用するエージェント(提案者、解決者、審判者)のトリオに基づき、強化学習を適用してそれらの振る舞いを最適化する。提案者は問題を生成し、解決者は解答を試み、審判者は両者を評価しながら共進化する。Qwen2.5-3B-Instructを用いた実験では、MAEが複数のベンチマークで平均4.54%の改善を達成することが示された。これらの結果は、MAEが人間による監督への依存を最小限に抑えつつ、LLMの一般的な推論能力を強化するスケーラブルでデータ効率の良い手法であることを浮き彫りにしている。
ロボット汎用化 - 多様な環境下で多様なタスクを実行可能な指示駆動型エージェントの実現 - には、厳密かつスケーラブルな評価体系が不可欠である。しかし現実世界でのロボットポリシー評価は根本的な制約に直面している:人的コストが高く、速度が遅く、大規模実施時の安全性に難があり、再現性が低い。既存のシミュレーション評価環境も同様の限界があり、同一の合成領域内でポリシーの学習と評価を行うため、実世界実証データや異種シミュレーション環境で学習されたモデルを評価できない。ポリシーの対象範囲と複雑性が拡大するにつれ、ロボット工学における「成功」の定義が実行品質に対する微妙な人間の判断に依存する性質上、これらの障壁は一層深刻化する。本論文では、VLA評価を大規模シミュレーション環境に移行し、オンライン人間フィードバックで強化する新たなベンチマーク手法を提案する。視覚言語モデル、2D-3D生成モデリング、微分可能レンダリングの進展を活用し、広く利用されているロボットデータセットの映像実証を自動的にシミュレーション空間へ変換する。これらのデジタルツイン内では、自動化されたVLM誘導型評価とクラウドワーカーから収集したスケーラブルな人間の選好判断を併用し、人間の関与を煩雑なシーン設定・リセット・安全監視から軽量な選好比較へ転換する。頑健性測定のため、テクスチャや物体配置等多軸に沿ってシミュレーション環境を体系的に擾乱し、制御変動下でのポリシー一般化性能をストレステストする。これにより、現実世界で学習されたロボット操作ポリシーのための、継続的進化・再現可能・スケーラブルなベンチマークを実現し、現代ロボット工学が抱える重大な機能欠陥を解消する。
既存のアプローチでは、情報の再ランキングタスクにLLMを適応させるために大規模なファインチューニングが一般的であり、計算コストが高い課題があった。本研究では、最小限の高品質な教師データのみを用いて、現代のLLMを効果的に適応させ得ることを実証する。これを実現するため、多様性に富み難易度が高く現実的な再ランキング事例を生成する、再利用可能なオープンソースパイプライン「LIMRANK-SYNTHESIZER」を設計した。この合成データを用いて再ランキングモデル「LIMRANK」をファインチューニングする。LIMRANKを、推論を要する検索タスクのBRIGHTと指示追従型検索タスクのFollowIRという2つの難易度の高いベンチマークで評価した。実験の結果、LIMRANKは従来研究で一般的に使用されるデータ量の5%未満で学習しながらも、競争力のある性能を達成することを示す。さらに、追加の ablation study により、LIMRANK-SYNTHESIZERの有効性と、科学文献検索や知識集約型問題解決のための検索拡張生成といった下流タスクにわたるLIMRANKの強力な汎化能力が実証された。
大規模言語モデル(LLM)は、コード関連タスクにおける開発者の貴重なアシスタントとなっている。従来のコード生成やバグ修正といったプログラミングタスクでは優れた性能を発揮するLLMであるが、視覚的要素が強いコーディングタスクでは苦戦し、美的に最適とは言えない結果を生成することが多い。本論文では、LLMが生成するコードの美的品質を向上させる新しいパイプラインを提案する。まず、コード美学に特化した大規模命令チューニングデータセットAesCode-358Kを構築する。次に、実行可能性、静的美観、対話的美観を評価するマルチエージェントシステムであるagentic reward feedbackを提案する。これを基盤として、機能性とコード美学の共同最適化のためにGRPOアルゴリズムにこれらの信号を統合したGRPO-ARを開発する。最後に、コード美学を評価するベンチマークOpenDesignを構築する。実験結果は、AesCode-358Kによる教師ありファインチューニングとagentic reward feedbackを用いた強化学習を組み合わせることで、OpenDesignにおける性能が大幅に向上し、既存のPandasPlotBenchなどのベンチマークにおける結果も向上することを示している。特に、我々のAesCoder-4BはGPT-4oやGPT-4.1を凌駕し、480B-685Bパラメータの大規模オープンソースモデルに匹敵する性能を達成し、本アプローチの有効性を実証している。
画像自己回帰(AR)モデルは、視覚的生成モデルの有力なパラダイムとして登場しました。その有望な性能にもかかわらず、多数のサンプリングステップを必要とするため、生成速度が遅いという課題があります。最近、画像ARモデル向けに少数ステップサンプリングを可能とするDistilled Decoding 1(DD1)が提案されましたが、1ステップ設定では依然として性能劣化が大きく、事前定義されたマッピングに依存するため柔軟性に制限があります。本研究では、画像ARモデルにおける1ステップサンプリングの実現性をさらに推進する新手法、Distilled Decoding 2(DD2)を提案します。DD1とは異なり、DD2は事前定義されたマッピングに依存しません。元のARモデルを教師モデルと見なし、各トークン位置における潜在埋め込み空間の真の条件付きスコアを提供すると考えます。これに基づき、1ステップ生成器を訓練するための新しい条件付きスコア蒸留損失を提案します。具体的には、生成分布の条件付きスコアを予測する別ネットワークを訓練し、過去のトークンを条件とする各トークン位置でスコア蒸留を適用します。実験結果から、DD2は画像ARモデルに対し、ImageNet-256におけるFIDが3.40から5.43へと最小限の増加で1ステップサンプリングを可能にすることが示されました。最も強力なベースラインであるDD1と比較して、DD2は1ステップサンプリングと元のARモデルとの性能差を67%削減し、同時に最大12.3倍の訓練速度向上を達成しました。DD2は、1ステップAR生成という目標に向けた重要な一歩であり、高速かつ高品質なARモデリングへの新たな可能性を開くものです。コードはhttps://github.com/imagination-research/Distilled-Decoding-2 で公開されています。
物理シミュレーションは、空間的に変化する機械的特性に依存することが多いが、これらの特性は従来、労力を要する手作業で作成されてきた。VoMPは、3Dオブジェクトの体積全体にわたるヤング率(E)、ポアソン比(ν)、密度(ρ)を、レンダリングおよびボクセル化可能な任意の表現形式で予測するように訓練された順伝搬型の手法である。VoMPは、ボクセル単位のマルチビュー特徴量を集約し、それを訓練済みのジオメトリトランスフォーマーに渡して、ボクセル単位の材料潜在コードを予測する。これらの潜在コードは、物理的に妥当な材料の多様体上に存在し、実世界データセットから学習されるため、デコードされたボクセル単位の材料の有効性が保証される。オブジェクトレベルの訓練データを得るために、我々はセグメンテーションされた3Dデータセット、材料データベース、視覚言語モデルからの知識を統合するアノテーションパイプラインと新たなベンチマークを提案する。実験により、VoMPが正確な体積特性を推定し、精度と速度の両面で従来技術を大幅に上回ることを示す。
本論文では、モデルが問題を解決できるかどうかだけでなく、その推論過程を評価するために設計されたパズルベースの視覚的課題のベンチマーク「PRISM-Bench」を提案する。最終回答の正答率のみを測定する従来の評価とは異なり、PRISM-Benchは診断タスクを導入する。具体的には、視覚的パズルと、正確に1つの誤りを含む段階的思考連鎖(CoT)が与えられたとき、モデルは最初の誤ったステップを特定しなければならない。この設定により、論理的一貫性、誤り検出、視覚的推論のきめ細かい評価が可能となる。PRISM-Benchのパズルは、多段階の記号的推論、幾何学的推論、類推的推論を必要とし、表面的なパターンマッチングに基づく近道を許さない。最先端のMLLMを用いた評価により、流暢な生成能力と忠実な推論能力の間には持続的な隔たりがあることが明らかになった。説得力のあるCoTを生成するモデルでさえ、単純な論理的誤りを特定できない場合が多々あったのである。回答生成と推論検証を分離することで、PRISM-Benchはマルチモーダル推論能力をより鋭く捉えるレンズを提供し、信頼できるMLLMの開発における診断的評価プロトコルの必要性を浮き彫りにする。
現在の3D/4D生成手法は、写実性、効率性、審美性の最適化が一般的である。しかし、異なる視点間で被写体の意味的同一性を保持することには未だ課題が多い。特定の被写体の1枚または少数の画像を用いた生成手法の適応(パーソナライゼーションまたは被写体駆動生成とも呼ばれる)により、被写体の同一性に沿った視覚コンテンツの生成が可能となる。しかし、パーソナライズド3D/4D生成は依然としてほとんど研究が進んでいない。本研究では、被写体駆動型3D/4D生成のための新規手法であるTIRE(Track, Inpaint, REsplat)を提案する。本手法は、既存の3D生成モデルによって生成された初期3Dアセットを入力とし、ビデオ追跡技術を用いて修正が必要な領域を特定する。次に、被写体駆動型の2Dインペインティングモデルを採用し、特定された領域を段階的に補完する。最後に、修正された2Dマルチビュー観測データを3D空間に再スプラッティングし、一貫性を維持する。大規模な実験により、本手法が従来の最先端手法と比較して、3D/4D生成における同一性保持を大幅に改善することを実証した。プロジェクトウェブサイトはhttps://zsh2000.github.io/track-inpaint-resplat.github.io/で公開されている。
単一画像からの写真写実的な3D全身人体再構成は、映画やビデオゲームへの応用において、内在的な曖昧性と深刻な自己オクルージョンのため、重要でありながら困難な課題である。近年のアプローチはSMPL推定とSMPL条件付き画像生成モデルを活用して新規視点を生成するが、SMPLメッシュから推定される不正確な3D事前分布に悩まされ、難しい人体ポーズの処理や細部の再構築が困難である。本論文では、2D多視点生成モデルと3Dネイティブ生成モデルを初めて統合した新規フレームワークであるSyncHumanを提案する。これにより、挑戦的な人体ポーズ下であっても、単一視点画像からの高品質な衣服着用人体メッシュ再構成が可能となる。多視点生成モデルは細かい2Dの詳細を捉えるのに優れるが、構造的一貫性に課題がある。一方、3Dネイティブ生成モデルは粗いながらも構造的一貫性のある3D形状を生成する。これら二つのアプローチの相補的な強みを統合することで、より効果的な生成フレームワークを構築した。具体的には、まず、提案するピクセル位置合わせ2D-3D同期アテンションを用いて、多視点生成モデルと3Dネイティブ生成モデルを共同でファインチューニングし、幾何学的に位置合わせされた3D形状と2D多視点画像を生成する。細部をさらに改善するため、2D多視点画像から細かい詳細を位置合わせされた3D形状に転写する特徴注入機構を導入し、正確で高精細な再構成を実現する。大規模な実験により、SyncHumanが挑戦的なポーズの画像に対しても、頑健かつ写真写実的な3D人体再構成を達成することを実証した。本手法は、幾何学的精度と視覚的忠実度においてベースラインメソッドを凌駕し、将来の3D生成モデルへの有望な方向性を示している。
大規模言語モデルは、APIを頻繁に幻覚し編集箇所を誤って特定する一方で、言語サーバーは実際のコードに関する検証済みのIDEレベルの事実を計算する。本論文では、LSPサーバーをコーディングエージェントやCI向けに固定・仲介するCLIファーストのオーケストレーション層であるLanser-CLIを提案する。これは決定論的で再生可能なワークフローを提供する。我々の立場は、言語サーバーが構造情報(定義、参照、型、診断)だけでなく、エージェントの計画ループをプログラムの現実に整合させる、機械チェックされた段階的シグナルという実用的なプロセス報酬を提供するという点である。本研究においてLanser-CLIは以下を貢献する:(i) 脆弱な「ファイル:行:列」を超えた堅牢なアドレッシングスキーム(Selector DSLによる記号的、ASTパス、コンテンツ固定セレクタ)と原則に基づく再配置アルゴリズム、(ii) 言語サーバー応答を正規化し、安定したコンテンツハッシュで環境/機能メタデータを捕捉する決定論的分析バンドル、(iii) プレビュー、ワークスペースジェイル、Gitを意識したトランザクション的適用を備えた変更操作(名前変更、コードアクション)の安全性エンベロープ、(iv) 言語サーバー事実(診断差分、曖昧性解消信頼度、安全適用チェック)から導出され、オンラインで計算可能でオフラインで再生可能なプロセス報酬関数。凍結スナップショット下での決定性を形式化し、プロセス報酬の単調性特性を確立することで、プロセス監視及び反事実的分析への適用を可能にする。プロジェクトページ: https://github.com/yifanzhang-pro/lanser-cli
本論文は、ディープフェイク検出タスクにおけるスケーリング則に関する体系的な研究を提示する。具体的には、実画像ドメイン数、ディープフェイク生成手法数、学習画像数に対するモデル性能を分析する。本研究の規模要件を満たす既存データセットが存在しないため、この分野で過去最大となるScaleDFを構築した。これは51の異なるデータセット(ドメイン)から得られた580万枚以上の実画像と、102のディープフェイク手法によって生成された880万枚以上の偽画像を含む。ScaleDFを用いた分析により、大規模言語モデル(LLM)で示されたものと同様のべき乗則スケーリングが観察された。具体的には、実ドメイン数またはディープフェイク手法数が増加するにつれて、平均検出誤差は予測可能なべき乗則減衰を示す。この重要な知見は、目標性能を達成するために必要な追加の実ドメイン数やディープフェイク手法数を予測可能にするだけでなく、進化し続けるディープフェイク技術に対抗するためのデータ中心的なアプローチを可能にする。さらに、スケーリング下におけるディープフェイク検出への事前学習とデータ拡張の役割、およびスケーリング自体の限界についても検証する。
大規模言語モデル(LLM)はゼロショット推論に優れる一方で、複雑な多段階の推論には依然として課題を抱えている。連鎖思考(CoT)やプログラム思考(PoT)といった、中間推論ステップでLLMを拡張する近年の手法は性能を向上させるが、特にアルゴリズム的領域では望ましくない解を生成することが多い。本論文では、タスク固有の指示や明示的なテストケースに依存せず、構造的フィードバックを用いてインスタンスレベルでプログラムを生成・改良する手法であるPer-Instance Program Synthesis(PIPS)を提案する。さらに性能を向上させるため、PIPSはインスタンスごとに直接推論とプログラム合成を動的に選択する信頼度指標を組み込んでいる。3つの先進的LLMと、Big Bench Extra Hard(BBEH)の全タスク、視覚質問応答タスク、関係推論タスク、数学的推論タスクを含む30のベンチマークによる実験では、PIPSがPoTやCoTと比較して絶対調和平均精度を最大でそれぞれ8.6%、9.4%向上させ、アルゴリズムタスクにおいてGemini-2.0-Flashを用いたPoTと比べて望ましくないプログラム生成を65.1%削減することを示した。
テキストから画像への拡散モデル(T2I)の高速化に関する最近の進展により、単一ステップであっても高精細な画像の合成が可能となった。しかし、ワンステップモデルは新規概念の分布を効果的に捉える能力が限られているため、これらのモデルを新規概念に適応させるパーソナライゼーションは依然として課題である。本論文では、ワンステップ拡散パーソナライゼーション(1-SDP)を可能にする双方向概念蒸留フレームワーク「EchoDistill」を提案する。我々のアプローチは、マルチステップ拡散モデル(教師モデル)とワンステップ拡散モデル(学生モデル)を同時に訓練するエンドツーエンドの学習プロセスを含む。概念はまず教師モデルから学生モデルへ蒸留され、その後、学生モデルから教師モデルへと回帰(エコー)される。EchoDistillの過程では、両モデル間でテキストエンコーダを共有し、一貫した意味理解を保証する。続いて、学生モデルは、実画像分布に整合するための敵対的損失と、教師モデルの出力との一貫性を保つための整合性損失を用いて最適化される。さらに、学生モデルがその高速な生成能力を活用して教師モデルにフィードバックする双方向エコー精緻化戦略を導入する。この双方向概念蒸留メカニズムは、学生モデルの新規概念パーソナライゼーション能力を強化するだけでなく、教師モデルの生成的品質も向上させる。我々の実験により、この協調的フレームワークが1-SDP設定において既存のパーソナライゼーション手法を有意に上回り、T2I拡散モデルにおける迅速かつ効果的なパーソナライゼーションの新たなパラダイムを確立することを実証する。
メモリベース言語モデリングは、深層ニューラルネットワークベースの言語モデリングに対する効率的で環境に優しい代替手法として提案する。本手法は、対数線形にスケーラブルな次トークン予測性能と強力な記憶能力を提供する。k近傍分類の高速近似を実装したメモリベース言語モデリングは、CPUに完全に依存し、低いトークン遅延を達成するため、学習時と推論時の両方で比較的小さな環境負荷を残す。その内部動作は単純で完全に透明性が高い。我々はメモリベース言語モデリングの実装であるOLIFANTを、GPT-2およびGPT-Neoと、次トークン予測精度、推定排出量、速度において比較し、モデルに関するいくつかの詳細な分析を提供する。
本論文では、車線検出タスクを車線パラメータ空間におけるノイズ除去拡散過程として扱う、DiffusionLaneと名付けた新しい拡散ベースの車線検出モデルを提案する。まず、教師データの車線パラメータ(始点と角度)にガウシアンノイズを付加してノイズ付き車線アンカーを取得し、モデルはノイジーな車線アンカーを段階的に精緻化して対象車線を得るように学習する。次に、ノイズ付き車線アンカーに起因するエンコーダの特徴表現の弱さに対処するため、ハイブリッド復号化戦略を提案する。具体的には、高品質な車線アンカー生成のために、グローバルレベルとローカルレベルのデコーダを組み合わせたハイブリッド拡散デコーダを設計する。さらに、エンコーダの特徴表現を改善するため、学習段階において補助ヘッドを用いて学習可能な車線アンカーを採用し、エンコーダに対する監督信号を強化する。4つのベンチマーク(Carlane、Tusimple、CULane、LLAMAS)での実験結果から、DiffusionLaneは従来の最先端手法と比較して強力な一般化能力と有望な検出性能を有することが示された。例えば、ResNet18をバックボーンとするDiffusionLaneは、ドメイン適応データセットであるCarlaneにおいて、既存手法を精度で少なくとも1%上回った。さらに、MobileNetV4をバックボーンとするDiffusionLaneはCULaneで81.32%のF1スコアを、ResNet34をバックボーンとする場合はTusimpleで96.89%の精度を、ResNet101をバックボーンとする場合はLLAMASで97.59%のF1スコアを達成した。コードはhttps://github.com/zkyntu/UnLanedet で公開予定である。
拡散トランスフォーマー(DiT)は最先端の生成性能を実現するが、系列長に対する二次的な学習コストにより大規模事前学習は現実的でない。トークン削減は学習コストを削減できるが、単純な手法では表現が劣化し、既存手法はパラメータが過剰か高削減率で失敗する。本研究では、品質を維持しつつ大幅なトークン削減(最大75%)を可能にする簡潔な手法SPRINT(Sparse-Dense Residual Fusion for Efficient Diffusion Transformers)を提案する。SPRINTは浅層と深層の相補的役割を活用する:浅層は全トークンを処理して局所的な詳細を捕捉し、深層は疎な部分集合で演算して計算量を削減し、両者の出力は残差接続により融合される。学習は二段階で実施する:効率性を重視したマスク付き事前学習と、学習-推論ギャップを解消する短期間の全トークンファインチューニングである。ImageNet-1K 256x256において、SPRINTは同等のFID/FDDを維持しつつ学習コストを9.8倍削減し、推論時にはPath-Drop Guidance(PDG)によりFLOPsをほぼ半減させつつ品質を向上させる。これらの結果は、SPRINTが効率的なDiT学習のための簡潔かつ効果的で汎用的なソリューションであることを示す。
拡散モデルとフローマッチングモデルの目覚ましい成功は、制御生成タスクに向けたテスト時適応に関する研究の急増を引き起こしている。画像編集から修復、圧縮、パーソナライゼーションまで多岐にわたる応用例が存在する。しかし、これらのモデルにおけるサンプリング過程の反復的な性質により、プロセス終了時に生成される画像を直接制御するための勾配ベースの最適化を計算的に行うことは非現実的である。この結果、既存手法では通常、各タイムステップを個別に操作する手法が採用されている。本論文ではFlowOptを提案する。これはゼロ次(勾配不要)最適化フレームワークであり、フロー過程全体をブラックボックスとして扱い、モデルへの誤差逆伝播なしにサンプリング経路全体を通じた最適化を可能にする。本手法は高い効率性を有し、ユーザーが中間最適化結果を監視し、必要に応じて早期停止を実行できる。FlowOptのステップサイズに関する十分条件を証明し、これが大域的最適解への収束を保証することを示す。さらに、適切なステップサイズを選択するために、この上限値を経験的に推定する方法を示す。画像編集におけるFlowOptの応用例として、二つのオプションを実証する:(i)反転(所与の画像を生成する初期ノイズの決定)、(ii)編集画像をソース画像に類似させつつターゲットのテキストプロンプトに従うように直接誘導。両ケースにおいて、FlowOptは既存手法とほぼ同数のニューラル関数評価(NFE)を使用しながら、state-of-the-artの結果を達成する。コードと事例はプロジェクトWebページで公開されている。
Muonに代表される行列ベースの前処理付きオプティマイザは、大規模言語モデル(LLM)を含む大規模ニューラルネットワークの学習において、スカラーベースのオプティマイザよりも効率的であることが最近示されている。一方、LLM事前学習におけるオプティマイザの最近のベンチマークでは、MARSのような分散低減技術が、分散低減を採用しない標準的なオプティマイザよりも大幅な高速化を達成できることが実証されている。本論文では、両者の利点を組み合わせるため、MARSの分散低減技術とMuonを統合した新しいオプティマイザであるMARS-Mを提案する。標準的な正則条件の下で、MARS-Mが一次停留点に \(\mathcal{O}(T^{-1/3})\) の速度で収束することを証明する。これはMuonが達成する \(\mathcal{O}(T^{-1/4})\) の収束率を改善するものである。言語モデリングとコンピュータビジョンタスクにおける実証実験の結果、MARS-Mが一貫して損失を低減し、様々なダウンストリームベンチマークで性能向上をもたらすことを示す。MARS-Mの実装はhttps://github.com/AGI-Arena/MARS/MARS_M で公開されている。
大規模言語モデル(LLM)は近年、聴覚音声認識(ASR)、視覚音声認識(VSR)、聴覚・視覚融合音声認識(AVSR)において進展をもたらしている。しかし、ファインチューニング下での内部動態に関する理解は依然として限られている。自然言語処理分野では、最近の研究により、不均衡に高い注意を集めるトークンである「注意シンク」と、シンクトークンの一部特徴がLLM内で巨大な活性化を示す「大規模活性化」現象が明らかにされている。本研究では、マルチモーダル音声認識におけるこれらの現象を初めて検討する。聴覚・視覚LLMの詳細分析を通じて、ASR、VSR、AVSRの全てにおいて、BOSトークンだけでなく中間的な低意味トークンにも注意シンクと大規模活性化が存在することを同定する。大規模活性化がMLP層に起源を持ち、全てのシンクトークンに共通する固定された特徴インデックスに対応することを示す。さらに中間シンクトークンがBOSトークンとの高いコサイン類似性を示し、注意と活性化を増幅することを明らかにする。これらの知見に基づき、BOSと他のトークン間のコサイン類似性を低減する簡易なデコリレーション損失を提案し、中間シンクと大規模活性化を効果的に抑制する。さらに本手法は、高次元の聴覚・視覚特徴ダウンサンプリング条件下で語誤り率(WER)を改善し、低ダウンサンプリング率では安定性を維持する。