翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の性能は、推論時に提供される文脈情報によって根本的に決定されます。本調査では、単純なプロンプト設計を超えて、LLMのための情報ペイロードの体系的な最適化を包含する正式な学問分野として「文脈工学(Context Engineering)」を紹介します。我々は、文脈工学をその基礎的構成要素と、それらを知的システムに統合する洗練された実装に分解する包括的な分類体系を提示します。まず、基礎的構成要素として、文脈検索と生成、文脈処理、文脈管理を検討します。次に、これらの構成要素がどのように建築的に統合され、洗練されたシステム実装(検索拡張生成(RAG)、メモリシステムとツール統合推論、マルチエージェントシステム)が作成されるかを探ります。1300以上の研究論文を体系的に分析することで、本調査はこの分野の技術的ロードマップを確立するだけでなく、重要な研究ギャップを明らかにします。それは、モデル能力間の根本的な非対称性です。高度な文脈工学によって強化された現在のモデルは、複雑な文脈を理解する際に顕著な熟練度を示す一方で、同等に洗練された長文の出力を生成する際には明らかな制限を示します。このギャップを埋めることが、今後の研究における重要な優先事項です。最終的に、本調査は、文脈認識AIを推進する研究者とエンジニアの両方にとって統一されたフレームワークを提供します。
近年の視覚言語モデル(VLM)の進歩により、視覚トークンの数を増やすことで性能が向上してきた。しかし、視覚トークンはテキストトークンよりも大幅に長いことが多い。我々は、現実世界のほとんどのシナリオでは、これほど多くの視覚トークンを必要としないことを観察した。OCR関連のタスクの一部では性能が大幅に低下するが、他の一般的なVQAタスクでは、解像度を1/4にしてもモデルは正確に動作する。そこで、異なるサンプルを異なる解像度で動的に処理し、視覚トークン圧縮の新しいパラダイムであるVisionThinkを提案する。VisionThinkは、ダウンサンプリングされた画像から始め、問題解決に十分かどうかを賢く判断する。十分でない場合、モデルは特別なトークンを出力して高解像度の画像を要求することができる。既存の効率的なVLM手法が固定のプルーニング比率や閾値を使用してトークンを圧縮するのに対し、VisionThinkはケースバイケースでトークンを圧縮するかどうかを自律的に決定する。その結果、OCR関連のタスクでは細かい視覚理解能力を示し、一方でより単純なタスクでは大幅な視覚トークンの節約を実現する。我々は強化学習を採用し、LLM-as-Judge戦略を提案することで、一般的なVQAタスクにRLを成功裏に適用した。さらに、安定した合理的な画像リサイズ呼び出し比率を達成するために、報酬関数とペナルティメカニズムを慎重に設計した。広範な実験により、我々の手法の優位性、効率性、有効性が実証された。コードはhttps://github.com/dvlab-research/VisionThinkで公開されている。
pi^3を紹介します。これは、従来の固定参照視点への依存を断ち切る、視覚的ジオメトリ再構築の新たなアプローチを提供するフィードフォワードニューラルネットワークです。従来の手法では、特定の視点を基準に再構築を行うことが多く、この帰納的バイアスは参照が最適でない場合に不安定性や失敗を引き起こす可能性がありました。対照的に、pi^3は完全な順序等変性アーキテクチャを採用し、参照フレームなしでアフィン不変なカメラポーズとスケール不変な局所点マップを予測します。この設計により、モデルは入力順序に対して本質的にロバストであり、高いスケーラビリティを実現しています。これらの利点により、カメラポーズ推定、単眼/ビデオ深度推定、密な点マップ再構築など、幅広いタスクにおいて、シンプルでバイアスのないアプローチが最先端の性能を達成しています。コードとモデルは公開されています。
長さ一般化、すなわち訓練中に観測されたよりも長い系列の問題を解決する能力は、Transformerベースの大規模言語モデル(LLM)にとって中核的な課題となっています。既存の研究は主に算術演算や記号操作タスクに対するデータ駆動型アプローチに焦点を当ててきましたが、これらのアプローチはタスク固有であり、全体的な性能が限られています。より一般的な解決策を追求するため、本論文は計算可能な推論問題、すなわちアルゴリズムによって解決可能な問題、つまりチューリングマシンによって解決可能な問題に焦点を当てます。この観点から、本論文はLLMの長さ一般化能力を向上させるためにチューリングマシン模倣学習(TAIL)を提案します。TAILは、コンピュータプログラムによってチューリングマシンの実行プロセスを模倣する連鎖思考(CoT)データを合成し、推論ステップを原子状態に線形に拡張することでショートカット学習を軽減し、動的かつ長距離のデータアクセスの困難を緩和するための明示的なメモリフェッチメカニズムを提供します。TAILの信頼性と普遍性を検証するため、8つのアルゴリズムクラスと18のタスクをカバーする挑戦的な合成データセットを構築しました。余計な装飾なしに、TAILは合成データのみを使用してQwen2.5-7Bの長さ一般化能力と各種タスクにおける性能を大幅に向上させ、従来の手法やDeepSeek-R1を凌駕しました。実験結果は、チューリングマシンのキーコンセプトが、思考スタイルではなく、TAILの長さ一般化に不可欠であることを明らかにし、モデルがその注意層においてチューリングマシンの特性と一致する読み書きの振る舞いを示すことを示しています。この研究は、合成データからのLLM推論学習における将来の研究に有望な方向性を提供します。
精密なマルチモーダルアラインメントと指示追従のためには、制御可能なキャプショニングが不可欠である。しかし、既存のモデルはしばしば細かな制御性と信頼性のある評価プロトコルを欠いている。このギャップを埋めるため、我々はAnyCapプロジェクトを提案する。これは、モデル、データセット、評価を包括する統合ソリューションである。我々はAnyCapModel(ACM)を紹介する。これは、ベースモデルの再学習を必要とせずに、既存の基盤モデルのオムニモーダルキャプショニングの制御性を向上させる軽量なプラグアンドプレイフレームワークである。ACMは、ベースモデルからの元のキャプションを再利用しつつ、ユーザー指示とモダリティ特徴を取り入れて改善されたキャプションを生成する。制御可能なマルチモーダルキャプショニングにおけるデータ不足を補うため、我々はAnyCapDataset(ACD)を構築した。これは3つのモダリティ、28種類のユーザー指示タイプ、および30万件の高品質データエントリをカバーする。さらに、我々はAnyCapEvalを提案する。これは、内容の正確性と文体の忠実性を分離することで、制御可能なキャプショニングのためのより信頼性のある評価指標を提供する新しいベンチマークである。ACMは、AnyCapEvalにおいて、多様なベースモデルにわたってキャプション品質を大幅に向上させる。特に、ACM-8BはGPT-4oの内容スコアを45%、スタイルスコアを12%向上させ、MIA-BenchやVidCapBenchなどの広く使用されているベンチマークでも大幅な改善を達成する。
本論文は、疎なビデオ入力を用いた人間の高忠実度視点合成の課題に取り組む。従来の手法では、4D拡散モデルを活用して新規視点のビデオを生成することで、観測不足の問題を解決していた。しかし、これらのモデルから生成されたビデオはしばしば時空間的一貫性を欠き、視点合成の品質を低下させていた。本論文では、4D拡散モデルの時空間的一貫性を向上させるための新しいスライディング反復的ノイズ除去プロセスを提案する。具体的には、各潜在変数が特定の視点とタイムスタンプにおける画像、カメラポーズ、人間のポーズをエンコードする潜在グリッドを定義し、スライディングウィンドウを用いて空間次元と時間次元に沿って交互に潜在グリッドをノイズ除去し、最終的に対応するノイズ除去された潜在変数から目標視点のビデオをデコードする。反復的なスライディングを通じて、情報が潜在グリッド全体に十分に流れることで、拡散モデルが大きな受容野を得て出力の4D一貫性を向上させると同時に、GPUメモリ消費を許容範囲内に抑えることができる。DNA-RenderingおよびActorsHQデータセットでの実験により、本手法が高品質で一貫性のある新規視点ビデオを合成し、既存の手法を大幅に上回ることを実証した。インタラクティブなデモとビデオ結果についてはプロジェクトページを参照:https://diffuman4d.github.io/。
静止画像から表現力豊かな顔面アニメーションを生成することは、困難な課題である。従来の手法では、明示的な幾何学的プリオール(例:顔のランドマークや3DMM)に依存するため、クロスリエナクトメントにおいてアーティファクトが生じやすく、微妙な感情の捕捉に苦労することが多い。さらに、既存のアプローチでは、複数キャラクターのアニメーションに対応しておらず、異なる個人からの駆動特徴が互いに干渉し、タスクを複雑にしている。これらの課題に対処するため、我々はFantasyPortraitを提案する。これは、単一および複数キャラクターのシナリオにおいて、高忠実度で感情豊かなアニメーションを生成可能な拡散トランスフォーマーベースのフレームワークである。我々の手法では、アイデンティティに依存しない顔面ダイナミクスを捕捉するために、暗黙的表現を活用した表情拡張学習戦略を導入し、微細な感情のレンダリング能力を向上させている。複数キャラクターの制御については、独立しながらも協調的な表情生成を保証するマスク付きクロスアテンションメカニズムを設計し、特徴の干渉を効果的に防止している。この分野の研究を推進するため、我々はMulti-ExprデータセットとExprBenchを提案する。これらは、複数キャラクターポートレートアニメーションのトレーニングと評価に特化したデータセットおよびベンチマークである。大規模な実験により、FantasyPortraitが定量的指標と定性的評価の両方において、最先端の手法を大幅に上回り、特に困難なクロスリエナクトメントや複数キャラクターのコンテキストで優れていることが示された。プロジェクトページはhttps://fantasy-amap.github.io/fantasy-portrait/である。
3次元空間における空間推論は、人間の認知の中核をなすものであり、ナビゲーションや操作といった身体性を伴うタスクにおいて不可欠である。しかし、最先端の視覚言語モデル(VLM)は、自己中心的な動きの後のシーンがどのように見えるかを予測するといった単純なタスクでさえ頻繁に苦戦する。これらは2次元画像を認識するが、3次元のダイナミクスを内部モデルとして持っていない。そこで我々は、MindJourneyというテストタイムスケーリングフレームワークを提案する。これは、ビデオ拡散に基づく制御可能な世界モデルとVLMを結合することで、この欠けている能力をVLMに付与するものである。VLMは簡潔なカメラ軌道を反復的にスケッチし、世界モデルは各ステップで対応するビューを合成する。VLMはその後、インタラクティブな探索中に収集されたこのマルチビュー証拠を推論する。ファインチューニングなしで、我々のMindJourneyは代表的な空間推論ベンチマークSATにおいて平均8%以上の性能向上を達成し、VLMと世界モデルを組み合わせたテストタイムスケーリングが、堅牢な3次元推論へのシンプルでプラグアンドプレイな道を提供することを示している。同時に、我々の手法は強化学習を通じて訓練されたテストタイム推論VLMをも改善し、世界モデルを活用したテストタイムスケーリングの可能性を実証している。
私たちは、科学的研究におけるアブレーション研究の設計能力を評価するために設計された最初のベンチマークであるAbGenを紹介します。AbGenは、807本のNLP論文から抽出された1,500の専門家による注釈付き例で構成されています。このベンチマークでは、LLM(大規模言語モデル)に、与えられた研究コンテキストに基づいて特定のモジュールやプロセスの詳細なアブレーション研究設計を生成するタスクが課せられます。DeepSeek-R1-0528やo4-miniなどの主要なLLMを評価した結果、これらのモデルと人間の専門家との間には、アブレーション研究設計の重要性、忠実性、健全性において大きな性能差があることが明らかになりました。さらに、現在の自動評価手法は私たちのタスクに対して信頼性が低く、人間の評価と比較して大きな乖離を示すことを実証しました。これをより深く調査するために、私たちはAbGen-Evalを開発しました。これは、私たちのタスクにおけるLLMの性能を測定するために一般的に使用される自動評価システムの信頼性を評価するためのメタ評価ベンチマークです。私たちはAbGen-Eval上でさまざまなLLM-as-Judgeシステムを調査し、複雑な科学的タスクのためのより効果的で信頼性の高いLLMベースの評価システムを開発するための将来の研究に洞察を提供します。
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)の内部表現を解釈するための強力なツールとして注目を集めているが、訓練コーパスに広く存在しないドメイン固有の特徴を捉えることができない場合が多い。本論文では、完全な再訓練を必要とせずにこの特徴の欠落を解決する残差学習アプローチを提案する。具体的には、事前学習済みSAEのドメイン固有テキストに対する再構成誤差をモデル化するために、二次的なSAEを訓練する。推論時に両モデルの出力を合計することで、複数の専門領域においてLLMのクロスエントロピーと説明分散指標の大幅な改善を実証する。実験結果から、この手法が既存のSAEに新しいドメイン知識を効率的に組み込みながら、一般的なタスクでの性能を維持することが示された。このアプローチにより、研究者は特定の関心領域に対してSAEの解釈可能性を選択的に強化することが可能となり、LLMのターゲット指向のメカニズム的解釈可能性に新たな可能性を開くものである。
言語モデル(LM)は、単純なファインチューニングによって新しいデータ分布に適応するのが難しい。これは、サブワードトークナイザーの硬直性によるもので、通常、適応中に変更されることはない。この柔軟性の欠如は、分布外ドメイン、未見の言語、またはスクリプトにおけるトークン化の非効率性を引き起こし、過剰な断片化を招くことが多い。本研究では、トークン化を適応可能にするために、学習可能なトークナイザーを備えたバイトレベルのLMを開発する。我々のモデルは、入力バイトシーケンスの境界を予測し、それを可変長セグメントにエンコードするサブモジュールを含む。既存のトークナイザーフリー手法では、この境界予測器を、訓練コーパス全体で固定の圧縮率を強制する補助損失を用いて訓練するため、新たな種類の硬直性が導入される。我々は、FLEXITOKENSという簡素化された訓練目的を提案し、適応中に大幅な柔軟性を可能にする。多言語ベンチマーク、形態的に多様なタスク、およびドメインにわたる評価を通じて、FLEXITOKENSが一貫してトークンの過剰断片化を減少させ、サブワードおよび他の勾配ベースのトークナイザーと比較して下流タスクの性能で最大10%の改善を達成することを示す。実験のコードとデータは、https://github.com/owos/flexitokens で公開される。
ビデオフレーム補間(VFI)は、2つの連続する隣接フレームI_0とI_1に基づいて中間フレームI_nを予測することを目的としています(ここでnはビデオ内の時間を表し、拡散モデルのタイムステップtとの表記の重複を避けるために使用されます)。最近のアプローチでは、このタスクに拡散モデル(画像ベースおよびビデオベースの両方)を適用し、強力な性能を達成しています。しかし、画像ベースの拡散モデルは時間情報を抽出できず、非拡散法と比較して相対的に非効率的です。ビデオベースの拡散モデルは時間情報を抽出できますが、トレーニングスケール、モデルサイズ、推論時間の点で大きすぎます。これらの問題を緩和するために、我々はTemporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation(TLB-VFI)を提案します。これは、効率的なビデオベースの拡散モデルです。提案する3Dウェーブレットゲーティングと時間認識オートエンコーダを通じてビデオ入力から豊富な時間情報を抽出することで、我々の方法は、最も挑戦的なデータセットにおいて、最近の画像ベース拡散モデルのSOTAを20%改善するFIDを達成します。同時に、豊富な時間情報の存在により、我々の方法は、パラメータ数を3分の1に削減しながらも強力な性能を達成します。このパラメータ削減により、2.3倍の高速化が実現されます。オプティカルフローガイダンスを組み込むことで、我々の方法は、ビデオベースの拡散モデルと比較して9000倍少ないトレーニングデータを必要とし、20倍以上の少ないパラメータを達成します。コードと結果はプロジェクトページで利用可能です:https://zonglinl.github.io/tlbvfi_page。
近年のマルチモーダル大規模言語モデル(MLLM)の進展は、強力なクロスモーダル推論能力を実現する一方で、特に敵対的なマルチモーダル入力に直面した際の新たな安全性の懸念を引き起こしています。推論時のMLLMの安全性を向上させるため、我々は基盤モデルのファインチューニングを必要としない、モジュール式で適応的な推論時介入技術「AutoSteer」を提案します。AutoSteerは以下の3つのコアコンポーネントを統合しています:(1) モデルの内部層間で最も安全性に関連する差異を自動的に識別する新規の「Safety Awareness Score(SAS)」、(2) 中間表現から有害な出力の可能性を推定するように訓練された適応型安全性プローブ、(3) 安全性リスクが検出された際に生成を調整するために選択的に介入する軽量な「Refusal Head」です。LLaVA-OVおよびChameleonを用いた多様な安全性重視のベンチマーク実験により、AutoSteerがテキスト、視覚、クロスモーダルの脅威に対する攻撃成功率(ASR)を大幅に低減しつつ、一般的な能力を維持することが実証されました。これらの知見は、AutoSteerをマルチモーダルAIシステムのより安全な展開に向けた実用的で解釈可能かつ効果的なフレームワークとして位置づけています。
Voxtral MiniとVoxtral Smallという2つのマルチモーダル音声チャットモデルを発表します。Voxtralは音声とテキスト文書の両方を理解するように訓練されており、多様な音声ベンチマークで最先端の性能を達成しながら、強力なテキスト処理能力を維持しています。Voxtral Smallは、ローカルで実行可能なサイズでありながら、多くのクローズドソースモデルを上回る性能を発揮します。32Kのコンテキストウィンドウにより、最大40分の音声ファイルや長いマルチターン会話を処理できます。また、知識やトリビアに関する音声理解モデルを評価するための3つのベンチマークを提供します。両VoxtralモデルはApache 2.0ライセンスの下で公開されています。
我々は、計算集約的な4次元数値相対論シミュレーションをコンパクトな暗黙的ニューラルネットワーク重みに圧縮するために設計されたニューラル表現「Einstein Fields」を紹介する。一般相対性理論の中核となるテンソル場である計量をモデル化することで、Einstein Fieldsは自動微分を通じて物理量の導出を可能にする。しかし、従来のニューラル場(例えば、符号付き距離場、占有場、放射場など)とは異なり、Einstein Fieldsはニューラルテンソル場であり、一般相対性理論の時空幾何学をニューラル場表現にエンコードする際に、動力学が自然に副産物として現れるという重要な違いがある。Einstein Fieldsは、4次元時空の連続体モデリング、メッシュ非依存性、ストレージ効率、微分精度、使いやすさなど、顕著な可能性を示している。我々は、一般相対性理論のいくつかの標準的なテストベッドでこれらの課題に取り組み、オープンソースのJAXベースライブラリを公開することで、数値相対論に対するよりスケーラブルで表現力豊かなアプローチへの道を開く。コードはhttps://github.com/AndreiB137/EinFieldsで公開されている。