翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルの端末操作能力は近年急速に進歩しているものの、最先端の端末エージェントを支える学習データ戦略の詳細はほとんど公開されていない。本研究はこの課題に取り組み、端末エージェント向けデータエンジニアリング手法の体系的な検証を通じて二つの主要な貢献を行う:(1)シードベースとスキルベースのタスク構築を支援する軽量合成タスク生成パイプライン「Terminal-Task-Gen」、(2)フィルタリング・カリキュラム学習・長文脈学習・スケーリング挙動を含むデータ/学習戦略の総合的分析。本パイプラインにより構築された大規模オープンソースデータセット「Terminal-Corpus」を用いて、Qwen3(8B, 14B, 32B)を初期化したモデル群「Nemotron-Terminal」を学習した結果、Terminal-Bench 2.0において大幅な性能向上を達成:Nemotron-Terminal-8Bは2.5%→13.0%、Nemotron-Terminal-14Bは4.0%→20.2%、Nemotron-Terminal-32Bは3.4%→27.4%に改善し、遥かに大規模なモデルに匹敵する性能を示した。本分野の研究促進のため、モデルチェックポイント及び合成データセットの大半をhttps://huggingface.co/collections/nvidia/nemotron-terminal で公開する。
大規模言語モデルにおける検索ヘッドの既存分析を基盤として、本論文は選択されたヘッドのアテンションスコアを用いて文書-クエリ関連性を推定するようにモデルを訓練する新たなリランキングフレームワークを提案する。このアプローチは、ランキング過程において候補短文リスト全体の包括的情報を活用するリストワイズ解法を提供する。同時に、連続的な関連性スコアを自然に生成するため、リッカート尺度の教師信号を必要とせず任意の検索データセットでの学習が可能である。当フレームワークは軽量かつ効率的であり、小規模モデル(例:40億パラメータ)のみで強力な性能を達成する。大規模な実験により、本手法がWikipediaや長編ナラティブデータセットを含む複数領域において、既存の最先端ポイントワイズ・リストワイズリランカーを凌駕することを実証する。さらに、対話理解とメモリ使用能力を評価するLoCoMoベンチマークにおいて新たな最高性能を確立する。本フレームワークが柔軟な拡張性をサポートすることも実証する。例えば、候補文書に文脈情報を付加することでランキング精度がさらに向上し、中間層のアテンションヘッドを訓練することで性能を犠牲にせず効率性が向上する。
エージェント型マルチモーダルモデルの強化学習では、相互作用の崩壊が頻繁に発生し、モデルがツール使用やマルチターン推論を減少させる方向に学習することで、エージェント行動の利点が制限されてしまう。本論文では、オープンウェイトのマルチモーダルモデル向けに、訓練を安定化し相互作用を持続させる強化学習フレームワーク「PyVision-RL」を提案する。我々のアプローチは、オーバーサンプリング・フィルタリング・ランキングによるロールアウト戦略と、累積的なツール報酬を組み合わせることで、崩壊を防止しマルチターンでのツール使用を促進する。統一された訓練パイプラインを用いて、画像理解と動画理解のための「PyVision-Image」および「PyVision-Video」を開発した。動画推論においては、PyVision-Videoはオンデマンド文脈構築を採用し、推論中にタスク関連フレームを選択的にサンプリングすることで視覚トークン使用量を大幅に削減する。実験結果は強力な性能と改善された効率性を示しており、持続的な相互作用とオンデマンド視覚処理がスケーラブルなマルチモーダルエージェントにとって重要であることを実証している。
テストタイムトレーニング(TTT)におけるキーバリュー結合をシーケンスモデリング層として用いる手法は、一般に、テスト時にキーバリューマッピングを記憶するオンラインメタ学習の一形態と解釈されてきました。しかし、我々の分析により、この記憶ベースの解釈と矛盾する複数の現象が明らかになりました。これらの知見を踏まえ、我々はTTTの定式化を再検討し、広範なTTTアーキテクチャのクラスが、学習された線形注意演算子の一形態として表現できることを示します。これまで不可解だったモデルの挙動を説明できるだけでなく、この視点は複数の実用的利点をもたらします。つまり、原理に基づいたアーキテクチャの簡素化を可能にし、性能を維持しながら効率を向上させる完全並列定式化を認め、多様なTTT変種を標準的な線形注意形式へ系統的に還元することを可能にします。全体として、我々の結果はTTTをテスト時の記憶としてではなく、表現能力が強化された学習済み線形注意として再定義するものです。
物理的構造の理解は、具身化エージェント、インタラクティブデザイン、長期的な操作計画といった実世界応用において不可欠です。しかし、現在主流の視覚言語モデル(VLM)評価は、構造を考慮しない単一ターンの設定(例:VQA)に依然として焦点を当てており、動的環境において幾何学的関係・接触関係・支持関係が共同で動作可能性に制約を課す仕組みをエージェントが推論する能力を適切に評価できていません。この課題を解決するため、我々はCausal Hierarchy of Actions and Interactions(CHAIN)ベンチマークを提案します。これはインタラクティブな3D物理シミュレーション環境であり、モデルが物理的制約に基づいた構造化された行動系列を理解・計画・実行できるかを評価するために設計されています。CHAINは評価の焦点を受動的知覚から能動的問題解決へと移行し、連動式機械パズルや3D積み上げ・梱包タスクなど多様な課題を網羅します。我々は最先端のVLMおよび拡散モデルを統一されたインタラクティブ設定で包括的に評価しました。その結果、最高性能のモデルであっても物理的構造と因果的制約を内部化することが困難であり、信頼性の高い長期的計画の生成ができず、認識した構造を効果的な行動に頑健に変換できないことが明らかになりました。本プロジェクトはhttps://social-ai-studio.github.io/CHAIN/で公開されています。
我々は、任意のモダリティにおける後期相互作用のための効率的なマルチベクトル検索手法を研究する。後期相互作用は、テキスト、画像、視覚的文書、動画における情報検索の主要なパラダイムとして確立されているが、その計算コストとストレージコストは文書長に比例して増大するため、画像・動画・音声リッチなコーパスでは高コストとなる。この制約を解決するため、我々は一定のベクトル予算下でマルチベクトル文書表現を圧縮するクエリ非依存型手法を探求する。索引圧縮のための4つのアプローチを提案する:シーケンスリサイジング、メモリトークン、階層的プーリング、および新規の注意誘導クラスタリング(AGC)である。AGCは注意誘導メカニズムを用いて、文書の意味的に最も salient な領域をクラスタ重心として特定し、トークン集約に重み付けを行う。テキスト(BEIR)、視覚的文書(ViDoRe)、動画(MSR-VTT、MultiVENT 2.0)にわたる検索タスクでこれらの手法を評価した結果、注意誘導クラスタリングが他のパラメータ化圧縮手法(シーケンスリサイジングとメモリトークン)を一貫して上回り、非パラメトリックな階層的クラスタリングよりも索引サイズの柔軟性が高く、完全な非圧縮索引と比較しても遜色ない、あるいは改善された性能を達成することを示す。ソースコードは github.com/hanxiangqin/omni-col-press で公開されている。
ビジョン言語行動(VLA)モデルは、具現化エージェントの知覚、言語、制御を統合するが、特にモデルが長い時間軸と大規模なバックボーンへスケールするにつれて、計算量とメモリ要求が急速に増大するため、実用展開において重大な課題に直面している。これらのボトルネックに対処するため、我々はQuantVLAを提案する。これは訓練不要の学習後量子化(PTQ)フレームワークであり、我々の知る限りではVLAシステム向け初のPTQ手法であり、拡散トランスフォーマー(DiT)行動ヘッドの量子化に成功した初めての事例である。QuantVLAは、3つのスケール較正コンポーネントを組み込んでいる:(1) 言語バックボーンとDiTの全線形層を整数化しつつ、元の演算子スケジュールを維持するために注意機構の射影を浮動小数点のまま保持する選択的量子化レイアウト、(2) 注意ロジットを安定化させる軽量なヘッド単位のスケーリング機構であり、推論時には逆量子化スケールに折り畳まれる注意温度マッチング、(3) 射影後のエネルギードリフトを軽減する層単位の残差インターフェース較正である出力ヘッドバランシング。本フレームワークは追加の訓練を必要とせず、少量のラベルなし較正バッファのみを使用し、アーキテクチャを変更することなく、低ビットの重みと活性化に対して整数カーネルをサポートする。代表的なVLAモデルを用いたLIBEROでの評価において、QuantVLAは全精度ベースラインのタスク成功率を上回り、量子化コンポーネントで約70%の相対的なメモリ節約を達成し、エンドツーエンドの推論レイテンシで1.22倍の高速化を実現した。これは、計算資源、メモリ、電力に厳しい制約下でのスケーラブルな低ビット具現化知能への実用的な道筋を示すものである。
深層研究エージェントはアナリスト級の報告書を生成するが、単一の正解が存在せず、研究品質が多次元的であるため、その評価は依然として困難である。最近のベンチマークでは様々な手法が提案されているが、それらは「統合の幻影(Mirage of Synthesis)」に陥りやすい。すなわち、表面的な流暢性や引用整合性の高さが、背後にある事実認識や推論の欠陥を覆い隠す可能性がある。我々はこの乖離を、4つの垂直領域にわたる分類体系を導入して特徴付け、静的な評価手法が本質的に、時間的妥当性や事実的正確性の評価に必要なツール利用能力を欠いているという重大な能力ミスマッチを明らかにする。この問題に対処するため、評価そのものをエージェント化する「能力パリティ(capability parity)」の原則を具現化するフレームワーク、DREAM(Deep Research Evaluation with Agentic Metrics)を提案する。DREAMは、クエリ非依存の指標と、ツール呼び出し機能を持つエージェントが生成する適応的指標を組み合わせた評価プロトコルを通じて評価を構造化し、時間認識を伴う網羅性、接地検証(grounded verification)、体系的な推論プローブを可能にする。制御評価により、DREAMが既存のベンチマークよりも事実誤りや時間経過に伴う劣化に対して有意に感度が高く、スケーラブルで参照データを必要としない評価パラダイムを提供することを実証する。
拡散モデルの最近の進歩にもかかわらず、AI生成画像には未だに写実性を損なう視覚的アーティファクトが含まれることが多い。より徹底した事前学習や大規模モデルによってアーティファクトを軽減できる可能性はあるが、完全に排除できる保証はなく、アーティファクトの軽減は極めて重要な研究領域となっている。従来のアーティファクトを意識した手法は、人的コストが高く拡張が困難な人手ラベル付きアーティファクトデータセットに依存しており、アーティファクト注釈付きデータセットを確実に取得する自動化手法の必要性が浮き彫りになっている。本論文では、実画像とアーティファクト注入画像のペアを効率的に生成するArtiAgentを提案する。本手法は3つのエージェントで構成される:実画像からエンティティとサブエンティティを認識・接地する知覚エージェント、拡散Transformer内での新規パッチ単位埋め込み操作によりアーティファクト注入ツールを通じてアーティファクトを導入する合成エージェント、合成されたアーティファクトをフィルタリングし各インスタンスに対する局所的・全体的な説明を生成する選定エージェントである。ArtiAgentを用いて、豊富なアーティファクト注釈を持つ10万枚の画像を合成し、多様な応用分野で有効性と汎用性を実証する。コードはリンクで公開されている。
AI支援プログラミングの最近の進歩により、エージェントがコマンドラインインターフェースを通じて複雑なワークフローを実行できるようになったが、既存のベンチマークは短いタスク期間、GitHubスクレイピングによるデータ汚染、細粒度の評価指標の不足によって制限されており、現実的なソフトウェア工学に不可欠な長期的な計画と実行能力を厳密に評価できていない。これらの課題を解決するため、我々は長期的で現実的なタスクにおけるエージェント能力を評価する包括的ベンチマーク「LongCLI-Bench」を提案する。1,000以上のコンピュータサイエンス課題と実世界のワークフローから、スクラッチ開発、機能追加、バグ修正、リファクタリングの4つのエンジニアリングカテゴリにわたる20の高品質な長期タスクを厳選した。LongCLI-Benchでは、要件充足度(fail-to-pass)と回帰回避(pass-to-pass)を測定する二重テストプロトコルを採用し、実行失敗を特定するステップ単位の評価を組み込んでいる。大規模な実験により、最先端のエージェントでさえLongCLI-Benchでの合格率が20%未満であることが明らかになった。ステップ単位の分析では、大半のタスクが完了率30%未満で停滞しており、重大な失敗が初期段階で頻発することが示された。自己修正による改善は限定的である一方、計画注入と対話的ガイダンスによる人間とエージェントの協調は大幅な改善をもたらした。これらの結果は、長期的タスク性能における主要な課題を克服するためには、エージェントの計画・実行能力の進歩と並行して、人間とエージェントの協調ワークフローの開発に重点を置く必要があることを示唆している。
従来の推薦システムのベンチマークは、モデルがユーザーの行動をどれだけ正確に模倣できるかを評価する場合がほとんどです。しかし金融アドバイザリーの領域では、市場の変動性のもとで観測されるユーザー行動はノイズを含んでいたり短絡的であったりし、ユーザーの長期的目標と矛盾する可能性があります。したがって、ユーザーの選択を唯一の正解として扱うことは、行動の模倣と意思決定の質を混同することになります。本研究では、行動の一致を超えたLLMの評価を可能とする、会話型で長期的な視点を持つ株式推薦ベンチマーク「Conv-FinRe」を提案します。オンボーディング面談、段階的な市場状況の提示、アドバイザリー対話を入力として、モデルは所定の投資期間にわたるランキングを生成する必要があります。重要な点として、Conv-FinReは、投資家固有のリスク選好に基づく規範的な効用と記述的な行動を区別するマルチビュー参照を提供し、LLMが合理的な分析に従っているのか、ユーザーのノイズを模倣しているのか、あるいは市場の勢いに駆られているのかを診断することを可能にします。本ベンチマークは実市場データと人間の意思決定軌跡から構築され、制御されたアドバイザリー会話を具体化し、一連の最先端LLMを評価します。結果は、合理的な意思決定の質と行動の一致との間に持続的な緊張関係があることを明らかにしています:効用ベースのランキングで良好な性能を示すモデルはユーザーの選択と一致しないことが多く、逆に行動に沿ったモデルは短期的なノイズに過剰適合する可能性があります。データセットはHugging Faceで公開され、コードベースはGitHubで利用可能です。
LLMエージェントは、広範なユーザー要求を解決可能な汎用システムとして機能することがますます期待されている。既存のベンチマークは専門的なエージェントの開発に向けたドメイン特化環境に焦点を当てるが、汎用エージェントの評価には、統一された環境内で複数のスキルとツールを横断して動作する能力が試される、より現実的な設定が必要である。本論文では、検索、コーディング、推論、ツール利用の領域にわたって汎用LLMエージェントを評価する統一フレームワークを提供するベンチマーク、General AgentBenchを提案する。General AgentBenchを用いて、逐次的スケーリング(反復的インタラクション)と並列的スケーリング(複数軌道のサンプリング)におけるテスト時スケーリング挙動を系統的に調査する。10種類の主要なLLMエージェントの評価により、ドメイン特化評価からこの汎用エージェント設定に移行した際に、性能が大幅に低下することが明らかとなった。さらに、二つの根本的制約——逐次的スケーリングにおける文脈上限と並列的スケーリングにおける検証ギャップ——により、実際にはいずれのスケーリング手法も有効な性能向上をもたらさないことを見出した。コードはhttps://github.com/cxcscmu/General-AgentBench で公開されている。
テストタイムスケーリングは、確率的な推論軌道を集約することでモデル性能を向上させ得る。しかし、限られた予算下で効率的なテストタイム自己一貫性を実現することは未解決の課題である。本論文ではPETS(Principled and Efficient Test-Time Self-Consistency)を提案し、最適化フレームワークを通じた軌道割り当ての原理的検討を開始する。我々の手法の中核は、無限予算時の多数決結果との一致率として定義される新たな指標「自己一貫性率」である。この定式化により、理論的根拠に基づいた効率的なテストタイム割り当てが可能となり、厳密な解析が容易となる。オフライン設定とオンライン設定の双方を検討する。全問題が事前に分かっているオフライン設定では、推論軌道を作業者と見做すことで、軌道割り当て問題を古典的かつ成熟した領域であるクラウドソーシングに関連付ける。この視点により、既存の豊富な理論を活用し、理論的保証と効率的な多数決ベースの割り当てアルゴリズムを導出する。問題が逐次的に到着し、割り当てをその場で決定する必要があるオンラインストリーミング設定では、オフライン枠組みに着想を得た新手法を提案する。本手法は、強力な理論的保証と計算効率を維持しつつ、問題難易度に応じて予算を適応的に割り当てる。実験により、PETSが一様割り当てを常に上回ることを示す。GPQAデータセットでは、PETSは両設定で完全な自己一貫性を達成し、一様割り当てと比較してサンプリング予算をオフライン設定で最大75%、オンライン設定で55%削減する。コードはhttps://github.com/ZDCSlab/PETSで公開されている。
言語モデル(LM)エージェントは、環境との複数回の相互作用を必要とするタスクの解決において顕著な能力を発揮する。しかし、単一の誤りが回復不能な失敗につながる環境、特に厳格な実行可能性制約下では脆弱性が残る。我々は既存のエージェントフレームワークを体系的に分析し、不完全な計画と確率的な実行が主原因であることを明らかにした。これらの課題に対処するため、制約付き実行によるツール誘導型適応計画(TAPE)を提案する。TAPEは、複数の計画をグラフに集約し外部ソルバーを用いて実行可能経路を特定することで計画能力を強化する。実行時には、制約付きデコーディングによりサンプリングノイズを低減し、環境フィードバックが期待状態から逸脱した際には適応的に再計画を行う。Sokoban、ALFWorld、MuSiQue、GSM8K-Hardにおける実験により、TAPEが既存フレームワークを一貫して凌駕し、特に困難な設定で大きな改善(困難設定では平均21.0ポイント、弱い基底モデルでは平均20.0ポイントの成功率向上)を示すことを実証した。コードとデータはこちらで公開している。
大規模言語モデル(LLM)は、スケール化された連鎖思考(CoT)推論から一貫して恩恵を受けているが、同時に大きな計算コストも負っている。この問題に対処するため、効率的な推論は、一般的に強化学習(RL)を用いた報酬形成を通じて、短くかつ正確な思考軌道を促進することを目指す。本論文では、LLMの効率的な推論のメカニズムを体系的に調査する。包括的評価のために、正答率に条件付けられた思考長分布や、2kから32kまでの幅広いトークン予算スペクトルにおける性能など、より細かい指標の採用を提唱する。まず、学習プロセスが「長さ適応」と「推論洗練」という二段階のパラダイムに従うことを明らかにする。その後、統一されたプロトコル下で(約20万GPU時間に及ぶ)大規模な実験を行い、学習プロンプトとロールアウト、報酬形成、最適化戦略を分解して分析する。特に重要な発見は、比較的容易なプロンプトで学習を行うことで、正の報酬信号の密度を確保し、思考長の崩壊を回避できる点である。同時に、学習された長さバイアスは分野間で汎化可能である。我々は全ての発見を貴重な知見と実践的な指針に集約し、さらに0.6Bから30BまでのQwen3シリーズ全体でそれらを検証し、頑健性と汎化性を実証する。
BM25やディリクレ平滑化を伴うクエリ尤度といった検索アルゴリズムは、依然として強力かつ効率的な第一段階のランキング手法であるが、その改善は主にパラメータチューニングと人間の直感に依存してきた。本研究では、評価器と進化的探索によって導かれる大規模言語モデルが、改良された語彙検索アルゴリズムを自動的に発見できるかどうかを調査する。我々は、AlphaEvolveに基づくプログラム進化手法であるRankEvolveを提案する。この手法では、候補となるランキングアルゴリズムが実行可能コードとして表現され、BEIRとBRIGHTに由来する12のIRデータセットにおける検索性能に基づいて、反復的に変異、組み換え、選択が行われる。RankEvolveは、BM25とディリクレ平滑化を伴うクエリ尤度という2つのシードプログラムから開始する。進化によって生成されたアルゴリズムは新規性と有効性を備え、BEIRおよびBRIGHTベンチマーク全体、ならびにTREC DL 19および20への良好な転移性能を示す。我々の結果は、評価器によって導かれるLLMプログラム進化が、新規なランキングアルゴリズムを自動発見するための現実的な道筋であることを示唆している。
我々は、Gemini 3 Deep Thinkを駆動とする数学研究エージェントAletheia(Feng et al., 2026b)の、初開催されたFirstProofチャレンジにおける性能を報告する。チャレンジの規定時間内に、Aletheiaは専門家の多数評価により、10問中6問(問題2, 5, 7, 8, 9, 10)を自律的に解決した。ただし、問題8については専門家の評価が一致しなかった点を付記する。完全な透明性のため、我々のFirstProof解釈を説明し、実験の詳細および評価方法を開示する。生のプロンプトと出力は https://github.com/google-deepmind/superhuman/tree/main/aletheia で公開されている。
Transformerモデルで長い系列を効率的に処理するには、通常、コンテキスト並列化によって演算をアクセラレータ間で分割する必要があります。この手法群における主流なアプローチであるRing AttentionやDeepSpeed Ulyssesなどは、コンテキスト次元にわたるスケーリングを可能にしますが、メモリ効率に重点を置いていないため、サポート可能な系列長が制限されます。Fully Pipelined Distributed Transformerや活性化データのオフローディングといったより高度な技術は、訓練スループットを犠牲にすることで、可能なコンテキスト長をさらに延伸できます。本論文では、アテンションヘッドレベルできめ細かいチャンキングを行う、シンプルかつ効果的なコンテキスト並列化技術であるUPipeを提案します。この技術は、セルフアテンションの活性化メモリ使用量を大幅に削減し、活性化メモリの壁を打破して、はるかに長いコンテキスト長を実現します。我々のアプローチは、32BパラメータのTransformerにおいてアテンション層の中間テンソルのメモリ使用量を最大87.5%削減しつつ、訓練速度では従来のコンテキスト並列化技術と同等の性能を達成します。UPipeは、単一の8xH100ノードでLlama3-8Bを訓練する際に500万トークンのコンテキスト長をサポート可能であり、従来手法を25%以上上回る改善を示します。
離散拡散に基づく言語モデルは、自己回帰モデルよりも高速な生成を実現する可能性から広く注目を集めている。しかし実際には、数ステップの生成体制においてサンプル品質が急激に劣化し、この期待を裏切ることが多い。本論文では、フローベースの連続的デノイジングを活用する言語モデルが、離散拡散モデルを品質と速度の両面で凌駕できることを示す。離散モダリティにおけるフローの基本原理を再検討し、ワンホットトークン符号化に対してユークリッド空間でのデノイジングを行うフローベース言語モデル(FLM)を構築した。本モデルは、クリーンデータの予測をクロスエントロピー目的関数で訓練可能であり、訓練の安定性と生成品質を大幅に改善する単純な時間再パラメータ化を導入する。FLMをその関連フローマップに蒸留することで、数ステップ生成が可能な蒸留フローマップ言語モデル(FMLM)を得る。LM1BおよびOWT言語データセットにおいて、FLMは最先端の離散拡散モデルに匹敵する生成品質を達成する。FMLMを用いた我々の手法は、最近の数ステップ言語モデルを一貫して上回り、ワンステップ生成においてそれら8ステップの品質を超える性能を示す。本研究は、離散モダリティにおける生成的モデリングには離散拡散過程が不可欠であるという広く信じられた仮説に疑問を投げかけ、大規模な高速フローベース言語モデリングへの道を開くものである。コードはhttps://github.com/david3684/flm で公開されている。
現実世界におけるAIエージェントへの要求は、本質的に不完全にしか特定されていない。人間の自然なコミュニケーションは、話し手が聞き手に推論を期待する共有された文脈と暗黙の制約に依存している。現在のエージェント評価基準は明示的な指示への従順性をテストするが、アクセシビリティ要件、プライバシー境界、破滅的リスク、文脈的制約にわたる暗黙の要求をエージェントが推論できるかどうかを評価できていない。我々は、AIエージェントが単なるプロンプトへの対応を超えて、真の目標達成者となれるかをテストする評価フレームワーク「暗黙的知能(Implicit Intelligence)」と、人間可読なYAMLファイルで対話的世界が定義され言語モデルによってシミュレーションされる実行環境「Agent-as-a-World(AaW)」を提案する。本シナリオは、ユーザー要求の表面的な単純さ、正しい解決策に潜む複雑さ、環境探索を通じた制約の発見可能性を特徴とする。205のシナリオで16の先進的およびオープンウェイトモデルを評価した結果、最高性能のモデルでさえシナリオ合格率48.3%に留まり、文字通りの指示遵守と人間のような文脈推論の間の溝を埋めるには大幅な改善の余地があることが明らかになった。
具体化された大規模言語モデル(LLM)はロボットに高水準のタスク推論能力を付与するが、何がなぜ失敗したかを省みることはできず、展開は独立した試行の連続となり、誤りが繰り返されるだけで経験として蓄積されない。人間の反省的実践家の概念に基づき、我々は「反省的テスト時計画」を提案する。これは二つの反省モードを統合したものである:行動内反省(リフレクション・イン・アクション)では、エージェントはテスト時スケーリングを用いて、実行前に内的省察を通じて複数の候補行動を生成・評価する。行動後反省(リフレクション・オン・アクション)では、テスト時トレーニングを用いて、実行後の外的省察に基づき、内的反省モデルと行動方策の両方を更新する。さらに、回顧的省察も組み込んでおり、エージェントが過去の決定を再評価し、後知恵を用いたモデル更新を行い、長期的な信用割り当てを適切に行うことを可能にする。新たに設計したLong-Horizon HouseholdベンチマークとMuJoCo Cupboard Fittingベンチマークによる実験では、ベースラインモデルを大幅に上回る性能向上が確認され、 ablation studyにより行動内反省と行動後反省の相補的役割が検証された。実機実験を含む定性分析は、省察による行動修正の様子を明らかにしている。
離散画像トークナイザーは、トランスフォーマーアーキテクチャのための逐次インターフェースを提供するものとして、現代の視覚・マルチモーダルシステムの主要コンポーネントとして台頭してきた。しかし、既存手法の多くは、依然として再構成と圧縮に最適化されたままであり、物体レベルの意味構造ではなく局所的なテクスチャを捉えるトークンを生成しがちである。本研究では、人間のコミュニケーションの漸進的かつ合成的な性質に着想を得て、構造化された離散視覚トークン系列を学習するフレームワークであるCOMiTを提案する。COMiTは、局所的な画像クロップを反復的に観察し、その離散表現を回帰的に更新することで、固定されたトークン予算内で潜在メッセージを構築する。各ステップで、モデルは新しい視覚情報を統合するとともに、既存のトークン系列を洗練・再編成する。数回のエンコーディング反復後、最終メッセージはフル画像を再構成するフローマッチングデコーダの条件として機能する。エンコーディングとデコーディングは単一のトランスフォーマーモデル内に実装され、フローマッチング再構成損失と意味的表現アライメント損失を組み合わせた端から端までの学習が行われる。実験結果から、意味的アライメントが基礎を提供する一方で、注意深い逐次的なトークン化が、解釈可能な物体中心のトークン構造を誘導し、従来手法に比べて合成的汎化と関係推論を大幅に改善する上で決定的に重要であることが示された。
輸入コンテナ滞留時間(ICDT)予測は、コンテナターミナルの生産性向上における重要な課題である。正確な予測は、ヤードクレーンによるコンテナの再ハンドリング作業の削減を可能にするためである。この目的を達成するには、個々のコンテナの滞留時間を正確に予測する必要がある。しかし、滞留時間の主要な決定要因である所有者情報と貨物情報は、非構造化テキストとして記録されており、機械学習モデルで効果的に活用することが制限されていた。本研究は、生成AI(Gen AI)と機械学習を統合した協調フレームワークを提案することで、この制限に対処する。提案フレームワークは、Gen AIを用いて非構造化情報を標準的な国際コードに変換し、電子データ交換(EDI)の状態更新をトリガーとした動的再予測を行うことで、機械学習モデルがICDTを正確に予測することを可能にする。実コンテナターミナルデータを用いた大規模な実験により、提案手法は、標準化情報を利用しない従来モデルと比較して、平均絶対誤差において13.88%の改善を達成することを実証した。さらに、改善された予測をコンテナ積付け戦略に適用することで、再配置回数を最大14.68%削減可能であり、これによりGen AIがコンテナターミナル運営の生産性向上に寄与する可能性が実証的に検証された。全体として、本研究は、港湾物流におけるGen AIの導入とその有効性について、技術的及び方法論的知見を提供する。
脊柱運動のモデリングは人間の生体力学を理解する基盤であるが、脊柱の複雑な多関節キネマティクスと大規模な3次元注釈データの不足から、コンピュータビジョン分野では未だ十分に研究されていない。本研究では、筋骨格モデリングから導出された解剖学的に一貫性のある3次元脊柱キーポイントを既存の人体姿勢データセットに付与する、生体力学を考慮したキーポイントシミュレーションフレームワークを提案する。このフレームワークを用いて、屋内多カメラ環境で外部制約のない自然な全身動作に対し、脊椎レベルの疎な3次元脊柱注釈を提供する初のオープンデータセットSIMSPINEを構築した。214万フレームに及ぶ本データセットは、微細な姿勢変化からの脊椎キネマティクスのデータ駆動学習を可能とし、筋骨格シミュレーションとコンピュータビジョンの間の隔たりを埋める。さらに、ファインチューニングされた2次元検出器、単眼3次元姿勢リフティングモデル、多視点再構築パイプラインを含む事前学習済みベースラインを公開し、生体力学的に妥当な脊柱運動推定の統一ベンチマークを確立した。具体的には、提案する2次元脊柱ベースラインは、制御環境におけるAUCを0.63から0.80に、実環境における脊柱追跡のAPを0.91から0.93に改善した。本シミュレーションフレームワークとSIMSPINEデータセットは、自然条件下での再現性が高く解剖学的に根拠ある3次元脊柱推定を可能にすることで、視覚に基づく生体力学、動作分析、デジタルヒューマンモデリングの研究を推進する。
一様状態離散拡散モデルは、自己補正能力により少ステップ生成とガイダンスに優れ、これらの設定において自己回帰モデルやマスク拡散モデルよりも好まれる。しかし、祖先サンプラーを用いた場合、サンプリングステップ数を増やしても生成品質が頭打ちになるという課題がある。本研究では、従来手法を一般化し任意のノイズ過程に適用可能な、離散拡散向けPredictor-Corrector(PC)サンプラー群を提案する。一様状態拡散と組み合わせることで、当サンプラーは言語モデリング(OpenWebTextにおける単一語エントロピー同等条件下での低い生成パープレキシティ)および画像モデリング(CIFAR10における優れたFID/ISスコア)の両方で祖先サンプリングを上回る性能を達成した。特に、従来のサンプラーとは異なり、提案するPC手法はサンプリングステップ数を増やすことで継続的に改善する。これらの知見は、マスク拡散が拡散ベース言語モデリングの必然的な将来であるという前提に疑問を投げかけるものである。さらにサンプリング手法に加え、ガウス緩和訓練段階におけるメモリ効率の良いカリキュラムを開発し、Duoと比較して訓練時間を25%、メモリ使用量を33%削減するとともに、OpenWebText及びLM1Bで同等のパープレキシティ、下流タスクで強固な性能を維持することに成功した。コード、チェックポイント、ビデオチュートリアルはhttps://s-sahoo.com/duo-ch2で公開している。
光学文字認識(OCR)技術は、深層学習とマルチモーダルモデルの発展により急速に進歩しているが、その大半の手法はラテン文字や漢字といったリソース豊富な文字体系に焦点を当てている。少数民族言語は、複雑な書記体系、注釈データの不足、歴史的・現代的変種の多様性により十分に研究が進んでおらず、低リソースやゼロショット設定での汎化が困難な課題となっている。これらの課題に対処するため、本論文では少数民族文字向けの汎用フレームワークOmniOCRを提案する。OmniOCRはDynamic Low-Rank Adaptation(Dynamic LoRA)を導入し、モデル容量を層と文字体系間で動的に配分することで、知識を保持しつつ効果的な適応を実現する。スパース性正則化により冗長な更新を剪定し、推論コストを増加させることなくコンパクトで効率的な適応を保証する。TibetanMNIST、水書、古彝文字、東巴文字による評価では、OmniOCRがゼロショット基盤モデルや標準的な事後学習を上回り、優れたパラメータ効率で最高精度を達成し、現状最高のベースラインモデルと比較してこれら4データセットで39%~66%の精度向上を実現した。コード:https://github.com/AIGeeksGroup/OmniOCR。
大規模視覚言語モデル(VLM)は、反復最適化手法を通じて複雑な視覚理解タスクにおいて大きな可能性を示している。しかし、これらのモデルには一般に効果的な自己修正メカニズムが欠如しており、認知バイアスを自律的に修正することが困難である。その結果、マルチターン修正プロセスにおいて、反復的で非効率な試行に陥りやすく、回答品質の安定的な向上が達成できないという課題がある。この問題に対処するため、我々は新しい反復的自己修正フレームワークを提案する。このフレームワークは、モデルに二つの重要な能力(能力リフレクションと記憶リフレクション)を付与する。まず能力リフレクションにより誤りを診断し修正計画を生成し、次に記憶リフレクションで過去の試行を振り返り重複を回避しながら新たな解決策を探索し、最終的に厳密な再推論を通じて回答を最適化する。難易度の高いOCRBench v2ベンチマークによる実験では、OCR-Agentが英語サブセットで+2.0、中国語サブセットで+1.2のスコア向上により現行オープンソースSOTAモデルであるInternVL3-8Bを上回り、視覚理解(79.9)と推論(66.5)の両分野でファインチューニングされた大規模モデルをも凌駕する最先端の結果を達成した。本手法は、構造化された自己認識的リフレクションが、追加の学習を必要とせずにVLMの推論ロバスト性を大幅に強化し得ることを実証している。コード:https://github.com/AIGeeksGroup/OCR-Agent。
テキスト文書の匿名化は、高度に文脈に依存する課題である。すなわち、プライバシー保護と有用性維持の適切なバランスは、データドメイン、プライバシー目標、下流の応用によって変化する。しかし、既存の匿名化手法は、手動で設計された静的な戦略に依存しており、多様な要求に適応する柔軟性に欠け、ドメインを超えた一般化に失敗することが多い。本研究では、**適応的テキスト匿名化**という新しいタスク定式化を提案する。これは、特定のプライバシーと有用性の要求に応じて匿名化戦略を自動的に適応させるものである。我々は、タスク特化型プロンプト最適化のフレームワークを提案する。このフレームワークは、言語モデル向けの匿名化指示を自動的に構築し、異なるプライバシー目標、ドメイン、下流の利用パターンへの適応を可能にする。本手法を評価するため、多様なドメイン、プライバシー制約、有用性目標を持つ5つのデータセットにまたがるベンチマークを構築した。評価した全ての設定において、本フレームワークは既存のベースラインよりも一貫して優れたプライバシーと有用性のトレードオフを達成し、計算効率が高く、オープンソースの言語モデルにおいても有効に機能し、その性能は大規模なクローズドソースモデルに匹敵する。さらに、本手法が、プライバシーと有用性のトレードオフ曲線上における新たな戦略を発見できることを示す。
視覚的テキストレンダリング(VTR)は、テキストから画像を生成する分野において依然として重要な課題であり、高度なモデルであっても歪み、ぼやけ、位置ずれなどの構造的な異常を伴うテキストを生成することが多い。しかし、主要なMLLMや専門的なOCRモデルの多くは、こうした構造的異常をほとんど感知できないことが判明しており、VTRの評価と強化学習(RL)に基づく最適化の両方にとって重大なボトルネックとなっている。その結果、最先端の生成モデル(例:SeedDream4.0, Qwen-Image)でさえ、構造的に正確なテキストを描画するのに苦戦している。この問題に対処するため、我々はTextPeckerを提案する。これは、ノイジーな報酬信号を軽減し、任意のテキスト画像生成モデルと連携可能な、プラグアンドプレイ方式の構造的異常感知RL戦略である。この能力を実現するために、文字レベルの構造的異常注釈を付加した認識データセットを構築し、構造的誤りのカバレッジを拡大するストローク編集合成エンジンを開発した。実験により、TextPeckerが多様なテキスト画像モデルを一貫して改善することが示されている。最適化が十分に行われているQwen-Imageにおいてさえ、中国語テキストレンダリングで構造的忠実度が平均4%、意味的整合性が平均8.7%大幅に向上し、高忠実度VTRの新たな最高性能を確立した。本研究は、VTR最適化における空白を埋め、信頼性が高く構造的に正確な視覚的テキスト生成に向けた基礎的な一歩を提供する。
本論文では、3D基盤モデルが持つ豊富な幾何学的事前知識を活用し、多様な種類の部分観測に対して3D形状補完を可能にする、ゼロショットかつカテゴリに依存しないアプローチ「LaS-Comp」を提案する。我々の貢献は三つある。第一に、相補的な二段階設計を通して、これらの強力な生成的事前知識を補完タスクに利用する:(i)部分観測の幾何学を保存して忠実な補完を保証する明示的置換段階と、(ii)観測領域と合成領域の間のシームレスな境界を確保する暗黙的精緻化段階である。第二に、本フレームワークは学習不要であり、異なる3D基盤モデルと互換性がある。第三に、実世界データと合成データを組み合わせ、多様で挑戦的な部分形状パターンを含む包括的ベンチマーク「Omni-Comp」を導入し、より徹底的で現実的な評価を可能にする。定量的および定性的な実験の両方において、本アプローチが従来の最先端手法を凌駕することを示す。コードとデータはhttps://github.com/DavidYan2001/LaS-Compで公開予定である。
大規模言語モデル(LLM)への需要増大に伴い、推論システムは多様なサービスレベル目標(SLO)を備えた多数の同時リクエストを処理する必要が生じている。これにより、計算集約的なプリフィル段階における先頭ブロッキング(HoL)が深刻化し、長時間実行されるリクエストがリソースを独占することで高優先度リクエストの遅延を招き、時間内初トークン(TTFT) SLO違反が広範に発生している。チャンク化プリフィルは割り込み可能性を実現するものの、応答性とスループットの間には本質的なトレードオフが存在する。チャンクサイズを小さくすると応答レイテンシは改善されるが計算効率が低下し、逆に大きくするとスループットは最大化されるがブロッキングが悪化する。この問題解決には適応的なプリエンプション機構が不可欠であるが、実行粒度とスケジューリングオーバーヘッドの動的バランス調整は依然として主要な課題となっている。 本論文では、プリエンプション粒度とスケジューリング頻度を分離することでこの矛盾を解決するTTFT-有効スループット最適化型推論システムFlowPrefillを提案する。適応的プリフィルスケジューリングを実現するため、FlowPrefillは二つの核心技術を導入する。(1) 演算子レベルプリエンプション:固定小チャンク化に伴う効率低下を回避しつつ、演算子境界を活用した細粒度実行割り込みを可能にする。(2) イベント駆動型スケジューリング:リクエスト到着/完了イベント時のみスケジューリング判断を起動することで、効率的なプリエンプション応答性を維持しつつ制御プレーンオーバーヘッドを最小化する。実稼働環境トレースを用いた評価では、FlowPrefillが先進システムと比較して最大5.6倍の有効スループット向上を達成しつつ、異種SLOを満たすことを実証した。
LLM訓練データの検出は、一般に会員推論攻撃(MIA)問題として定式化される。しかし、従来のMIAは、固定されたモデル重みに対して対数尤度やテキスト生成を用いて受動的に動作する。本研究では、訓練を通じてモデルを能動的に誘導し、所与のテキストを再構築させるMIAの手法群であるActive Data Reconstruction Attack(ADRA)を提案する。我々は、訓練データは非会員データよりも再構築が容易であると仮定し、この再構築可能性の差異を会員推論に利用できると考える。強化学習(RL)が重みに符号化された振る舞いを鋭敏化させるという知見に基づき、対象モデルから初期化した方策をファインチューニングし、方策オン型RLによって能動的にデータ再構築を誘導する。MIAにRLを効果的に適用するため、再構成指標と対比報酬を設計する。最終的なアルゴリズムであるADRA及びその適応的変種ADRA+は、候補データ群が与えられた場合の再構成率と検出性能の両方を改善する。実験結果から、本手法は事前学習・事後学習・蒸留データの検出において、既存のMIAを一貫して上回り、従来の準優勝手法に対し平均10.7%の性能向上を示した。特にADRA+は、事前学習検出タスク(BookMIA)ではMin-K%++より18.8%、事後学習検出タスク(AIME)では7.6%それぞれ改善した。