翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)における高品質データへの需要が急速に拡大する中、スケーラブルで信頼性が高く、意味的に豊富なデータ準備パイプラインの必要性が高まっている。しかし、現在の実践は依然としてアドホックなスクリプトと緩やかに定義されたワークフローが主流であり、体系化された抽象化が欠如し、再現性を妨げ、モデルインザループによるデータ生成へのサポートが限定的である。これらの課題に対処するため、我々は統一された拡張可能なLLM駆動データ準備フレームワーク「DataFlow」を提案する。DataFlowは、モジュール化され再利用可能で合成可能なデータ変換を実現するシステムレベルの抽象化を設計思想としており、デバッグ可能かつ最適化可能なデータフローを構築するためのPyTorchスタイルのパイプライン構築APIを提供する。本フレームワークは約200の再利用可能な演算子と、テキスト、数学的推論、コード、Text-to-SQL、エージェント型RAG、大規模知識抽出の6つの汎用ドメインに跨るパイプラインで構成される。さらに使いやすさを向上させるため、自然言語仕様を演算子合成、パイプライン計画、反復的検証によって実行可能なパイプラインに自動変換するDataFlow-Agentを導入する。6つの代表的なユースケースにおいて、DataFlowは一貫して下流のLLM性能を向上させた。数学、コード、テキストの各パイプラインは、人手で整備されたデータセットや専門的な合成ベースラインを上回り、Text-to-SQLではSynSQL比で最大3%の実行精度向上、コードベンチマークでは平均7%の改善、MATH/GSM8K/AIMEでは1~3ポイントの向上を達成した。さらに、DataFlowが生成した1万サンプルの統一データセットにより、ベースモデルは100万サンプルのInfinity-Instructデータで学習したモデルを凌駕した。これらの結果は、DataFlowが信頼性・再現性・拡張性を備えたLLMデータ準備の実用的かつ高性能な基盤を提供し、データ中心のAI開発のためのシステムレベル基盤を確立することを示している。
異なるモダリティにわたる深層表現は、本質的に密接に結びついている。本論文では、様々なセマンティックエンコーダとピクセルエンコーダのスペクトル特性を体系的に分析する。興味深いことに、我々の研究はエンコーダの特徴スペクトルとその機能的役割との間に、非常に示唆に富みながらこれまでほとんど探索されていなかった対応関係を明らかにした:セマンティックエンコーダは主に抽象的な意味を符号化する低周波数成分を捕捉するのに対し、ピクセルエンコーダはさらに細粒度の詳細を伝達する高周波数情報を保持する。この発見的な知見は、エンコーダの挙動をその根底にあるスペクトル構造に結びつける統一的な視点を提供する。我々はこれをプリズム仮説と定義する。この仮説では、各データモダリティは、自然世界が共有の特徴スペクトル上へ投影されたものと見なすことができる。これはプリズムによる光の分光と同様である。この知見に基づき、我々はUnified Autoencoding(UAE)を提案する。UAEは革新的な周波数帯域変調器を介してセマンティック構造とピクセル詳細を調和させ、それらのシームレスな共存を可能にする。ImageNetおよびMS-COCOベンチマークにおける大規模な実験により、我々のUAEがセマンティック抽象化とピクセルレベルの忠実性を、最先端の性能で単一の潜在空間に効果的に統合することが実証された。
近年、インコンテキスト生成パラダイムは、データ効率と合成品質の両面で優れた指示付き画像編集の能力を示しています。しかし、指示ベースの動画編集においてこのようなインコンテキスト学習を構築することは容易ではありません。編集領域を特定しない場合、不正確な編集領域の問題や、ノイズ除去過程における編集領域と非編集領域間のトークン干渉が生じる可能性があります。これらの課題に対処するため、我々はReCoを提案します。これはインコンテキスト生成中に編集領域と非編集領域間の制約モデリングを新たに探求する指示付き動画編集パラダイムです。技術的には、ReCoはソース動画とターゲット動画を横方向に連結して共同ノイズ除去を行います。動画拡散学習を較正するために、ReCoは2つの正則化項、すなわち潜在変数正則化と注意機構正則化を活用し、それぞれ1ステップ後方ノイズ除去された潜在変数と注意マップに適用します。前者は、ソース動画とターゲット動画間の編集領域の潜在変数差異を増大させると同時に非編集領域の差異を減少させ、編集領域の修正を強調し外部での意図しないコンテンツ生成を軽減します。後者は、編集領域のトークンがソース動画の対応領域のトークンに向ける注意を抑制し、ターゲット動画における新規オブジェクト生成時の干渉を緩和します。さらに、モデル訓練に資するため50万の指示-動画ペアからなる大規模高品質な動画編集データセットReCo-Dataを提案します。4つの主要な指示ベース動画編集タスクにおける大規模実験により、本提案の優位性が実証されました。
動画拡散モデルの最近の進歩により、動的シーンにおけるカメラ制御された新規視点動画生成への関心が高まっており、制作者にポストプロダクションにおける映画的なカメラ制御機能を提供することを目指している。カメラ制御動画生成における主要な課題は、指定されたカメラポーズへの忠実性を確保しつつ、視点の一貫性を維持し、限られた観測から遮蔽されたジオメトリを推論することである。これに対処するため、既存手法では、軌道-動画ペアデータセットで軌道条件付き動画生成モデルを学習するか、入力動画から深度を推定して目標軌道に沿って再投影し、未投影領域を生成する。しかし、既存手法はカメラポーズに忠実で高品質な動画を生成するのに苦戦している。主な理由は二つある:(1) 再投影ベースの手法は不正確な深度推定による誤差の影響を非常に受けやすい;(2) 既存データセットにおけるカメラ軌道の多様性の不足が学習モデルの性能を制限している。これらの限界を解決するため、我々は深度推定を必要とせず、高いポーズ忠実性を持つカメラ制御動画間生成フレームワーク「InfCam」を提案する。本フレームワークは二つの主要コンポーネントを統合している:(1) 無限遠ホモグラフィワープ:3Dカメラ回転を動画拡散モデルの2D潜在空間内で直接符号化する。このノイズのない回転情報を条件付けとして、残差パララックス項をエンドツーエンド学習で予測し、高いカメラポーズ忠実性を実現する;(2) 既存の合成多視点データセットを多様な軌道と焦点距離を持つシーケンスに変換するデータ拡張パイプライン。実験結果から、InfCamはカメラポーズ精度と視覚的忠実性においてベースライン手法を上回り、合成データから実世界データへよく汎化することが示された。プロジェクトページ:https://emjay73.github.io/InfCam/
動的検索拡張生成は、大規模言語モデル(LLM)における虚構(ハルシネーション)を軽減するため、生成過程で検索を実行するタイミングを適応的に決定する手法である。しかし、既存の手法はモデル内部の信号(ロジットやエントロピーなど)に依存しており、LLMは一般に較正が不十分で誤った出力に対しても高い確信度を示す傾向があるため、根本的に信頼性に欠ける。本研究では、主観的な確信度から、事前学習データに基づく客観的統計量へと転換するQuCo-RAGを提案する。本手法は2段階の不確実性定量化を行う:(1)生成前段階では、長尾知識の欠如を示す低頻度エンティティを特定し、(2)生成段階では、事前学習コーパスにおけるエンティティ共起を検証する。共起がゼロの場合、虚構リスクの兆候となる。両段階でInfini-gramを活用し、4兆トークンに対するミリ秒レイテンシでの検索を実現し、不確実性が高い場合に検索をトリガーする。マルチホップQAベンチマークでの実験では、QuCo-RAGがOLMo-2モデルを用いた最先端ベースラインより5~12ポイントのEMスコア向上を達成し、事前学習データが非公開のモデル(Llama、Qwen、GPT)に対しても最大14ポイントのEM改善効果を転移させることが示された。バイオメディカルQAにおけるドメイン一般化実験により、本パラダイムの頑健性がさらに検証された。これらの結果は、コーパスに根ざした検証が、動的RAGにおける原理的かつ実用的にモデル非依存なパラダイムであることを立証する。コードはhttps://github.com/ZhishanQ/QuCo-RAG で公開されている。
項目(問題や課題)の難易度を正確に推定することは教育評価において極めて重要であるが、コールドスタート問題に悩まされている。大規模言語モデルは超人的な問題解決能力を示す一方で、人間の学習者の認知的苦闘を感知できるかどうかは未解決の問題である。本研究では、医学知識や数学的推論など多様な領域にわたる20以上のモデルを対象に、人間とAIの難易度認識一致に関する大規模な実証分析を行う。我々の知見は、モデル規模の拡大が必ずしも有効ではなく、人間との一致ではなく機械間の共通認識へ収束するという系統的な不一致を明らかにする。高い性能が正確な難易度推定を妨げる傾向が観察され、特定の習熟度を想定するよう明示的に促されても、モデルは生徒の能力限界をシミュレートすることに苦戦する。さらに、モデルが自身の限界を予測できないという内省能力の重大な欠如を確認する。これらの結果は、一般的な問題解決能力が人間の認知的苦闘の理解を意味しないことを示唆し、現行のモデルを用いた自動難易度予測の課題を浮き彫りにする。
長距離にわたる幾何学的に一貫性のある動画生成は、根本的なジレンマに直面している。一貫性を保つにはピクセル空間における3D幾何学への厳密な準拠が求められる一方、最先端の生成モデルはカメラ条件付き潜在空間で最も効果的に動作するからだ。この断絶により、現在の手法は遮蔽領域や複雑なカメラ軌道に苦戦している。この隔たりを埋めるため、我々は3D構造的アンカーと2D生成リファイナーを結合するフレームワーク「WorldWarp」を提案する。幾何学的基盤を確立するため、WorldWarpはGaussian Splatting(3DGS)によって構築されたオンライン3D幾何キャッシュを維持する。履歴コンテンツを明示的に新規視点にワープさせることで、このキャッシュは構造的な足場として機能し、各新規フレームが過去の幾何学を尊重することを保証する。しかし、静的なワーピングでは遮蔽による穴やアーティファクトが不可避的に生じる。この問題に対処するため、我々は「埋め立てと修正」を目的とした時空間拡散(ST-Diff)モデルを採用する。核心的な革新は、時空間的に変化するノイズスケジュールである:空白領域は生成を促すために完全なノイズを受け、ワープ領域は洗練を可能にするために部分的なノイズを受ける。3Dキャッシュを各ステップで動的に更新することにより、WorldWarpは動画チャンク間の一貫性を維持する。結果として、3Dロジックが構造を導きながら拡散ロジックが質感を完成させることで、最先端の忠実度を実現する。プロジェクトページ:https://hyokong.github.io/worldwarp-page/
非構造化環境における軌道計画は、移動ロボットの基本的かつ困難な能力である。従来のモジュール型パイプラインは、知覚・自己位置推定・地図構築・計画の各モジュール間で遅延や誤り連鎖が生じやすい。近年のend-to-end学習手法は、生の視覚観測を直接制御信号や軌道に写像し、現実世界での高い性能と効率を約束する。しかし、既存のend-to-end手法の多くは、正確なセンサ外部キャリブレーションに依存する独立した自己位置推定モジュールを依然として必要としており、ロボット実体や環境を跨ぐ汎化性を制限している。本研究では、これらの課題を解決するLoGoPlannerを提案する。この位置推定基盤型end-to-endナビゲーション枠組みは、(1)絶対メートル尺度で予測を接地する長期視覚幾何学バックボーンのファインチューニングにより、正確な自己位置推定のための暗黙的状态推定を実現、(2)履歴観測からの周辺シーン幾何学の再構築により、信頼性の高い障害物回避のための密で細かな環境認識を提供、(3)上記補助タスクでブートストラップされた暗黙的幾何学をポリシーに条件付けることで、誤り伝播を低減する。LoGoPlannerをシミュレーションと実環境で評価した結果、完全end-to-end設計が累積誤差を低減し、メートル尺度を意識した幾何学メモリが計画の一貫性と障害物回避を強化することで、理想的位置推定を仮定したベースライン比27.3%以上の性能向上と、ロボット実体や環境を跨ぐ強力な汎化性を実証した。コードとモデルはhttps://steinate.github.io/logoplanner.github.io/で公開されている。
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な能力を発揮している。しかし、その有効性は大規模なラベル付きデータ(例:質問応答ペア)またはラベルなしデータセット(例:コードスニペット)を用いた教師あり学習に大きく依存しており、これらは高コストで大規模な取得が困難な場合が多い。この制約に対処するため、本論文はIPCと呼ばれる手法を提案する。これは外部コーパス(ラベルなしコードスニペットすらも)を一切用いず、LLM内部の知識を活用する教師なしコード生成フレームワークである。我々は、LLM内に存在する内部知識と確信度パターンを探るため、問題空間プロービング、テスト理解プロービング、解決策空間プロービング、および知識統合・強化を導入する。さらに、IPCは自己一貫性メカニズムと表現ベースの品質推定を通じて信頼性の高いコード候補を特定し、UCoder(教師なし学習によるコーダー)を学習させる。提案手法を複数のコードベンチマークで検証した結果、教師あり手法と同等の性能を達成しつつ、ラベル付きデータと計算資源への依存を大幅に低減できることを実証する。分析実験により、モデルの内部状態にはコードの品質と正当性に関する豊富な信号が含まれており、これらの信号を適切に利用することでコード生成タスクの効果的な教師なし学習が可能となることが明らかになった。これは、リソースが制約された環境でのコードLLM学習に向けた新たな方向性を開くものである。
高性能な大規模言語モデル(LLM)エージェントの学習は、実世界インタラクションデータの高コスト性と静的な性質によって重大なボトルネックに直面している。本研究ではこの問題に対処するため、エージェントとスケーラブルな生成型環境シミュレータの間で難易度調整された共進化的ゲームを確立するフレームワーク「GenEnv」を提案する。静的なデータセットでモデルを進化させる従来手法とは異なり、GenEnvはデータ進化を実現する。シミュレータは動的なカリキュラムポリシーとして機能し、エージェントの「最近接発達領域」に特化して調整されたタスクを継続的に生成する。このプロセスは、タスクの難易度をエージェントの現在の能力に適合させる、シンプルかつ効果的なα-Curriculum Rewardによって導かれる。GenEnvをAPI-Bank、ALFWorld、BFCL、Bamboogle、TravelPlannerの5つのベンチマークで評価した結果、7Bパラメータベースラインに対して最大+40.3%の性能向上を達成し、大規模モデルの平均性能に匹敵またはそれを上回った。Gemini 2.5 Proベースのオフラインデータ拡張と比較して、GenEnvは使用データ量を3.3分の1に抑えながら、より優れた性能を発揮した。静的監督から適応的シミュレーションへとパラダイムを転換するGenEnvは、エージェント能力をスケーリングするためのデータ効率的な経路を提供する。
拡散型大規模言語モデル(dLLM)は高速推論において大きな可能性を示している。しかし、現在の信頼度駆動型デコード戦略は並列性の制約を受けており、一般的に1フォワードパスあたり1〜3トークン(TPF)しか達成できない。本研究では、dLLM推論時の並列性の度合いがトークン充填順序(TFO)に強く影響されることを明らかにする。そして、優れたTFOを見出すことで推論を加速する、学習不要のプラグアンドプレイアルゴリズムであるLookahead並列デコード(LoPA)を提案する。LoPAは並列ブランチを通じて異なる候補TFOを同時に探索し、ブランチ信頼度に基づいて将来の並列性ポテンシャルが最も高い順序を選択する。LoPAを最先端のD2Fモデルに適用した結果、デコード効率が大幅に向上した。特に、GSM8KデータセットにおいてD2F-DreamのTPFを10.1に向上させながら、Dreamベースラインを上回る性能を維持することに成功した。さらに、この前例のない並列度を実現するため、ブランチ並列性(BP)を特徴とする専用のマルチデバイス推論システムを開発し、マルチGPU環境で単一サンプルあたり1073.9トークン/秒のスループットを達成した。コードはhttps://github.com/zhijie-group/LoPA で公開されている。
視覚的ストーリーテリングには、映画的な品質と長期的な一貫性を備えたマルチショット動画の生成が要求される。本研究では、人間の記憶メカニズムに着想を得て、長編動画のストーリーテリングを、明示的な視覚的メモリを条件とした反復的なショット合成として再定義するパラダイム「StoryMem」を提案する。これにより、事前学習済みの単発動画拡散モデルをマルチショット・ストーリーテラーへ変換する。この実現に向け、新たなMemory-to-Video(M2V)設計を導入した。これは、過去に生成したショットから抽出したキーフレームを、コンパクトかつ動的に更新されるメモリバンクに保持する。保存されたメモリは、Latent空間での連結と負のRoPEシフトを用いて、LoRAファインチューニングのみで単発動画拡散モデルに注入される。さらに、意味的なキーフレーム選択戦略と美的選好フィルタリングにより、生成過程を通じて情報量豊かで安定したメモリが保証される。加えて、提案フレームワークは、滑らかなショット遷移やカスタマイズされたストーリー生成アプリケーションを自然に支援する。評価を促進するため、多様なマルチショット動画ストーリーテリングのベンチマーク「ST-Bench」を構築した。大規模な実験により、StoryMemが従来手法を上回るショット間の一貫性を達成しつつ、高い美的品質とプロンプトへの忠実性を維持することを実証した。これは、コヒーレントな数分規模の動画ストーリーテリングに向けた重要な進展を示すものである。
大規模(視覚)言語モデルにおいて、探索能力は推論時の性能と強化学習(RL)訓練の両方を形成する。確率的サンプリングはしばしば高レベルの多様性に乏しい冗長な推論パスを生成するためである。本論文は、Reasoning Palette という新しい潜在変数調節フレームワークを提案する。これは、モデルに戦略的文脈化のための確率的潜在変数を付与し、トークン生成前に内部計画を誘導する。この潜在文脈は、変分オートエンコーダー(VAE)を介して質問-回答ペアの平均プーリングされた埋め込みから推論され、各サンプリングされた潜在変数は異なる推論文脈を符号化する可能性がある。推論時には、サンプリングされた潜在変数は学習可能なトークンプレフィックスに復号化され、入力プロンプトの先頭に付加されることで、モデルの内部推論軌跡を調節する。このようにして、モデルは出力生成前に推論戦略に関する内部サンプリングを実行し、応答シーケンス全体のスタイルと構造を形成する。簡易な教師ありファインチューニング(SFT)によるウォームアップ段階により、モデルはこの潜在条件付けに適応する。RL最適化内では、Reasoning Palette は多様な推論モードのオンデマンド注入を可能にすることで構造化された探索を促進し、探索効率と持続的学習能力を大幅に向上させる。複数の推論ベンチマークによる実験により、本手法が(視覚)言語モデルの戦略的挙動に対する解釈可能かつ制御可能な制御を実現し、標準的なRL手法を上回る一貫した性能向上を達成することを実証する。
既存のモバイル操作ベンチマークにおいて、AndroidWorldは再現可能な環境と決定論的評価により主流の地位を確立してきた。しかし、最近のエージェントが90%を超える成功率を達成していることは、同ベンチマークの飽和を示しており、より挑戦的なベンチマークの必要性を動機付けている。さらに、その環境はEコマースや企業間コミュニケーションといった主要アプリケーションカテゴリを欠いており、曖昧なユーザー指示と複合的なツール使用を特徴とする現実的なモバイル利用シナリオを反映していない。この課題を解決するため、我々はMobileWorldを提案する。AndroidWorldと同水準の再現可能な評価を維持しつつ、現実世界のモバイル利用をより適切に反映する、大幅に難易度の高いベンチマークであり、20のアプリケーションにわたる201のタスクで構成される。MobileWorldの難易度は二つの側面からなる。第一に、アプリケーション間連携を要する長期タスクを重視している:AndroidWorldと比較して、タスク完了までの平均ステップ数が約2倍(27.8対14.3)、複数アプリケーションを要するタスクの割合が大幅に高い(62.2%対9.5%)という特徴を持つ。第二に、標準的なGUI操作を超えて、エージェントとユーザーの対話やMCP拡張タスクといった新たなタスクカテゴリを導入している。堅牢な評価を確保するため、スナップショットベースのコンテナ環境と、バックエンドデータベース検査やタスクコールバックAPIを含む精密な機能検証を提供する。さらに、ユーザー対話とMCP呼び出しをサポートするため、拡張されたアクション空間を備えたプランナー・エグゼキューター型エージェントフレームワークを開発した。評価結果はAndroidWorldと比較して劇的な性能低下を示し、最高性能のエージェントフレームワークとエンドツーエンドモデルでは、それぞれ51.7%と20.9%の成功率となった。分析により、現行モデルはユーザー対話とMCP呼び出しに著しく苦戦することが明らかになり、より堅牢な次世代モバイル知能に向けた戦略的なロードマップを提供する。
ベンチャーキャピタルによる資金調達ラウンドを締結する前には、弁護士によるデューデリジェンスが行われ、その一環としてキャピタライゼーションテーブルの整合確認が実施される。これは、あらゆる証券(例:株式、オプション、ワラント)および発行条件(例:権利確定スケジュール、加速条件、譲渡制限)が、大量の根拠となる法的文書によって裏付けられていることを検証する作業である。LLMが法分野のベンチマークで性能を向上させ続けている一方で、キャピタライゼーションの整合確認のような専門的な法的ワークフローは、強力なエージェントシステムであっても未だ達成が困難である。このタスクには、複数文書にわたる推論、厳格な証拠の追跡可能性、決定的な出力が要求され、現在のアプローチではこれらを確実に提供することに失敗している。本研究では、キャピタライゼーションの整合確認を、法AIの現実世界ベンチマークの一例として位置づけ、既存のエージェントシステムの性能を分析・比較する。さらに、整合確認の自動化に向けたワールドモデルアーキテクチャを提案し、より広くは応用法的知能の基盤としての可能性を示唆する。
ロボット学習の最近の進歩は、大規模データセットと強力な視覚運動ポリシーアーキテクチャによって推進されてきたが、ポリシーの頑健性は、多様な実証データ収集の多大なコスト、特に把持タスクにおける空間的一般化のためのデータ収集コストによって制限されている。反復的なデータ収集を削減するため、本論文では3D制御インターフェースを介して3D編集性と2D視覚データを橋渡しすることで新たな実証データを生成するフレームワーク、Real2Edit2Realを提案する。本手法ではまず、メートル尺度の3D再構成モデルを用いて、多視点RGB観測からシーン幾何学を再構築する。再構築された幾何学に基づき、点群に対して深度信頼性のある3D編集を施し、新たな把持軌道を生成するとともに、ロボット姿勢を幾何学的に補正して物理的に一貫した深度を回復する。これにより、新たな実証データ合成の信頼性の高い条件が得られる。最後に、深度を主制御信号とし、行動マップ、エッジマップ、レイマップを補助的に用いる多条件ビデオ生成モデルを提案し、空間的に拡張された多視点把持ビデオを合成する。4つの実世界把持タスクにおける実験により、わずか1~5個の元実証データから生成されたデータで訓練したポリシーが、50個の実世界実証データで訓練したポリシーと同等以上の性能を達成可能であり、データ効率を最大10~50倍改善できることを実証した。さらに、高さとテクスチャ編集に関する実験結果は、本フレームワークの柔軟性と拡張性を示しており、統合的なデータ生成フレームワークとしての可能性を示唆している。
本論文では、意味的3Dパーツセグメンテーション、すなわち物体を意味のある名称を持つパーツに分解する課題に取り組む。パーツ注釈付きデータセットは存在するものの、その定義はデータセット間で一貫性がなく、ロバストな学習の妨げとなっている。従来手法は、ラベルなしの分解を行うか、完全な形状注釈を伴わない単一パーツの検索に留まっていた。本研究では、パーツ命名を直接的な集合アライメント課題として定式化するALIGN-Partsを提案する。本手法は形状をパートレット(暗黙的3Dパーツ表現)に分解し、2部グラフ割り当てによりパーツ記述と対応付ける。3Dパーツフィールドからの幾何学的手がかり、マルチビュービジョンフィーチャーからの外観、言語モデル生成のアフォーダンス記述からの意味的知識を組み合わせる。テキストアライメント損失は、パートレットがテキストと埋め込み空間を共有することを保証し、理論的にはオープン語彙のマッチング設定を可能にする。この効率的かつ新奇なワンショット3Dパーツセグメンテーション・命名手法は、スケーラブルな注釈エンジンとしての利用を含む、いくつかの下流タスクへの応用が可能である。本モデルは任意の記述へのゼロショットマッチングと既知カテゴリに対する信頼度較正済み予測をサポートするため、人間による検証を経て、PartNet、3DCoMPaT++、Find3Dを整合させ1,794のユニークな3Dパーツからなる統一オントロジーを構築した。また、新たに作成したTex-Partsデータセットからの例を示す。さらに、命名付き3Dパーツセグメンテーション課題に適した2つの新規評価指標を導入する。
視覚言語モデル(VLM)は一般に、事前学習済みの視覚エンコーダーから抽出した画像トークンを言語モデルのテキストストリームに挿入する方式で学習されます。この手法ではモデル内でテキストと画像情報が相互に完全に注意を払えますが、高解像度画像や長い対話、ストリーミング動画を扱う場合、メモリと計算量の両面で極めて高コストになります。クロスアテンションを活用するVLMはトークン挿入に比べ効率的な代替手段ですが、特に細かな視覚的詳細を要するタスクにおいて性能差が顕著です。本研究では、こうしたモデルを改善する鍵が、専用のクロスアテンション層において局所的なテキスト間相互作用を可能にすることにあることを明らかにしました。この知見に基づき、我々はCASA(Cross-Attention via Self-Attention)を提案します。これはシンプルかつ効率的なパラダイムであり、一般的な画像理解ベンチマークでは完全なトークン挿入方式との性能差を大幅に縮めつつ、ストリーミング動画キャプション生成のような長文脈マルチモーダルタスクに適用する際には、クロスアテンションモデルと同様の拡張性を維持します。サンプルとコードはプロジェクトページ(https://kyutai.org/casa)で公開しています。
我々は、LLMにおける三段論法推論を論理的および自然言語的観点から研究する。この過程で、LLMの基本的な推論能力と、この研究が向かう方向性を探る。研究を支援するため、14の大規模言語モデルを用い、記号的推論および自然言語理解の観点からそれらの三段論法推論能力を調査する。この推論機構がLLMにわたって一律に創発する性質ではないものの、特定のモデルにおける完璧な記号的性能は、LLMが人間の推論のニュアンスを明示するのではなく、次第に形式的推論機構へと変容しつつあるのではないかという疑問を抱かせる。
素材パラメータと3Dジオメトリの手動モデリングは、ゲームや映画産業において時間を要するが不可欠な作業である。近年の3D再構成技術の進歩により、シーンのジオメトリと見た目の正確な近似が可能となったが、こうした手法は、精密な空間変動素材パラメータの不足から、リライティングシナリオでは不十分な場合が多い。一方、2D画像に作用する拡散モデルは、アルベド、粗さ、金属度といった物理ベースレンダリング(PBR)特性の予測において優れた性能を示している。しかし、これらの2D素材マップを再構成された3Dジオメトリに転写することは依然として大きな課題である。本研究では、新規の学習ベース手法と投影ベース手法を組み合わせて、2D素材データを3Dジオメトリに融合するフレームワークを提案する。まず、ガウススプラッティングによるシーンジオメトリの再構成から開始する。入力画像から、拡散モデルがアルベド、粗さ、金属度パラメータの2Dマップを生成する。画像や動画をPBR素材に変換可能な既存の拡散モデルは全て適用できる。これらの予測は、画像ベースの損失を最適化するか、ガウス光線追跡を用いて素材パラメータを直接ガウシアンに投影することにより、3D表現にさらに統合される。微細な精度と多視点一貫性を高めるため、光線追跡された素材特徴を入力として詳細な調整を行う軽量な神経精緻化ステップ(Neural Merger)を追加で導入する。結果により、提案手法が定量的指標と知覚される視覚的真实感の両方において既存技術を凌駕することを示す。これにより、再構成シーンからより正確でリライト可能かつ写実的なレンダリングが可能となり、コンテンツ制作パイプラインにおけるアセット作成ワークフローの真实感と効率が大幅に向上する。
AIアシスタントは、セキュリティ関連シナリオの45%において脆弱性を含むコードを生成し、これらの欠陥を大規模に本番システムへ導入している。しかし、既存のセキュアコーディングデータセットは不十分である。それらはインシデントへの裏付けを欠き、現代のトレーニングに必要な規模を提供せず、開発者が本番環境へデプロイする際に必要とする運用上のセキュリティ文脈が不足している。 我々はSecureCode v2.0を提示する。これは、構造的検証と専門家によるセキュリティレビューを通過した、1,215件のセキュリティに特化したコーディング例からなる本番環境対応のデータセットである。各例は、CVE参照付きで実際に文書化されたセキュリティインシデントに関連付けられ、脆弱な実装と安全な実装を提供し、具体的な攻撃を実証し、多層防御の運用ガイダンスを含む。このデータセットは、11のプログラミング言語(Python、JavaScript、Java、Go、PHP、C#、TypeScript、Ruby、Rust、Kotlin、およびインフラストラクチャとしてのコードのためのYAML)にわたって、11の脆弱性カテゴリ(OWASP Top 10:2025完全版に加え、AI/MLセキュリティ脅威)を網羅している。 我々の品質保証フレームワークは、インシデントへの完全な裏付けを保証する。各例には、SIEM連携戦略、インフラストラクチャ強化の推奨事項(Docker、AppArmor、WAF設定)、および言語に適したフレームワークを用いたテスト手法が含まれる。データセットは、実際の開発者とAIの対話を反映した4ターンの会話構造を採用し、基本的な実装から高度なセキュリティ考慮事項、多層防御ガイダンスへと段階的にエスカレートする。 我々の貢献は以下の通りである:(1) 厳密に検証された1,215の例(学習用989、検証用122、テスト用104に分割)、(2) データセットの一貫性を保証する自動検証フレームワーク、(3) 現実的なセキュリティワークフローを捉えた4ターンの会話構造、(4) SIEM連携戦略を含む包括的な運用セキュリティガイダンス、(5) 言語ごとの完全な実装の正確性、(6) データ、検証ツール、ベンチマークプロトコルのオープンソース公開。
プロフェッショナルな映像合成ワークフローでは、アーティストは前景の被写体と背景レイヤーの間の環境的相互作用(影、反射、埃、飛沫など)を手動で作成する必要がある。既存の映像生成モデルは、このような効果を追加しながら入力映像を維持することが難しく、現在の映像インペインティング手法は、高コストなフレーム単位のマスクを必要とするか、非現実的な結果をもたらす。本論文では、元のシーンを保持しつつ、テキストプロンプトと入力映像レイヤーに条件付けられた現実的な半透明の環境効果を合成する新しいタスクである拡張合成(augmented compositing)を提案する。このタスクに対処するため、カメラポーズ、シーンの静止性、深度情報の教師信号を仮定しない映像効果生成フレームワークOver++を提示する。本タスクに特化したペア効果データセットを構築し、テキスト駆動の編集性を保持する非ペアデータ拡張戦略を導入する。本手法は、密な注釈を必要とせず、オプションのマスク制御とキーフレームガイダンスもサポートする。限られたデータで学習しているにもかかわらず、Over++は多様で現実的な環境効果を生成し、効果生成とシーン維持の両方において既存のベースライン手法を凌駕する。
大規模言語モデル(LLM)の解釈可能性手法は、一般的にテキストによる教師信号から方向性を導出するが、これは外部との接地を欠く場合がある。本研究では、人間の脳活動を学習信号として用いるのではなく、LLMの状態を読み取り・制御するための座標系として利用することを提案する。SMN4Lang MEGデータセットを用いて、位相同期値(PLV)パターンの単語レベル脳アトラスを構築し、独立成分分析(ICA)により潜在軸を抽出する。これらの軸を独立した語彙データベースとNERベースのラベル(品詞/対数頻度は健全性チェックとして使用)で検証した後、LLMのファインチューニングを行わずに、LLMの隠れ状態をこれらの脳軸に写像する軽量アダプタを学習する。この脳由来の方向に沿った制御により、TinyLlamaの中間層において、パープレキシティが一致する対照条件を通過した、堅牢な語彙的(頻度関連)軸が得られた。また、脳軸とテキストプローブの比較では、脳軸において、テキストプローブと比較してより大きな対数頻度シフトが、より低いパープレキシティで観察された。機能/内容軸(軸13)は、TinyLlama、Qwen2-0.5B、GPT-2において一貫した制御効果を示し、パープレキシティが一致するテキストレベルでの裏付けが得られた。TinyLlamaの第4層での効果は大きいが一貫性に欠けるため、二次的なものとして扱う(付録)。脳アトラスをGPTの埋め込み変化特徴なし、またはword2vec埋め込みで再構築した場合でも、軸構造は安定しており(対応する軸間で|r|=0.64-0.95)、循環性の懸念を低減する。探索的fMRIによる固定化は、埋め込み変化と対数頻度の潜在的な対応を示唆するが、効果は血行動態モデルの仮定に敏感であり、集団レベルの証拠としてのみ扱う。これらの結果は、新しいインターフェースを支持する:神経生理学に基づく軸は、LLMの振る舞いに対する解釈可能かつ制御可能な手段を提供する。