翻訳付きの日次キュレーションされたAI研究論文
現実世界の映像質問応答シナリオでは、映像が提供する視覚的手がかりは局所的である一方、検証可能な回答はオープンウェブ上に分散している。このためモデルは、フレーム間の手がかり抽出、反復的検索、マルチホップ推論に基づく検証を統合的に行う必要がある。この課題に対処するため、我々は初の映像深層調査ベンチマーク「VideoDR」を構築した。VideoDRは映像条件付きオープンドメイン映像質問応答を中核とし、フレーム間の視覚的アンカー抽出、対話的ウェブ検索、映像とウェブの統合証拠に基づくマルチホップ推論を要求する。厳格な人手注釈と品質管理を通じて、6つの意味領域にわたる高品質な映像深層調査サンプルを取得した。 ワークフローとエージェントの両パラダイムにおいて、複数のクローズドソース及びオープンソースのマルチモーダル大規模言語モデルを評価した結果、エージェント方式が常にワークフロー方式を上回るわけではないことが明らかになった:その優位性は、長い検索連鎖において初期の映像アンカーを維持するモデルの能力に依存する。さらに詳細分析により、目標ドリフトと長期的な一貫性が中核的なボトルネックであることが示された。 総括すると、VideoDRはオープンウェブ環境における映像エージェントの研究ための体系的なベンチマークを提供し、次世代の映像深層調査エージェントが直面する核心的課題を明らかにした。
人間は言語を獲得するはるか以前に中核的な視覚スキルを発達させますが、現代のマルチモーダルLLM(MLLM)は、脆弱な視覚理解を補うために依然として言語的な事前知識に大きく依存しています。私たちは重要な事実を発見しました:最先端のMLLMでさえ、3歳の子供ですら容易に解決できる基本的な視覚課題に一貫して失敗するのです。この隔たりを体系的に調査するため、私たちはMLLMの言語知識に依存しない中核的視覚能力を評価するベンチマーク「BabyVision」を提案します。BabyVisionは4つの主要カテゴリにわたる22のサブクラス、合計388項目の多様な課題で構成されています。実証結果と人間による評価により、主要なMLLMが人間のベースラインを大幅に下回ることが明らかになりました。Gemini3-Pro-Previewは49.7点で、6歳児の水準にも届かず、成人の平均点94.1からは大きく後れを取っています。これらの結果は、知識重視の評価では優れた成績を収めているにもかかわらず、現在のMLLMには基本的な視覚的原始能力が依然として欠如していることを示しています。BabyVisionの進展は、人間レベルの視覚知覚と推論能力に向けた一歩となります。また我们は生成モデルを用いた視覚推論の解決法としてBabyVision-Genと自動評価ツールキットを提案します。再現実験のためのコードとベンチマークデータはhttps://github.com/UniPat-AI/BabyVision で公開されています。
本論文では、Parallel Coordinated Reasoning (PaCoRe) を提案する。これは、現代の言語モデルが持つ根本的な限界、すなわち固定されたコンテキストウィンドウ内での逐次推論を超えて、テスト時計算量(TTC)を大幅にスケールアップできないという問題を克服するために設計された、訓練と推論のフレームワークである。PaCoReは、従来の逐次的なパラダイムから脱却し、メッセージパッシングアーキテクチャによる複数ラウンドの調整を経て、大規模な並列探索によってTTCを推進する。各ラウンドでは、多数の並列推論トラジェクトリを起動し、その発見をコンテキスト限界内のメッセージに圧縮し、これらのメッセージを統合して次のラウンドを導き、最終的に答えを生成する。大規模な結果ベースの強化学習によるエンドツーエンドの訓練により、モデルはPaCoReが必要とする統合能力を習得し、コンテキスト限界を超えることなく、実質数百万トークンに及ぶTTCへとスケールする。このアプローチは様々な領域で顕著な改善をもたらし、特に数学においてフロンティアシステムの性能を凌駕する:80億パラメータモデルがHMMT 2025で94.5%を達成し、実質TTCを約200万トークンにスケールさせることでGPT-5の93.2%を上回った。追従研究を加速させるため、モデルチェックポイント、訓練データ、および完全な推論パイプラインをオープンソースとして公開する。
Transformerアーキテクチャは多くの分野で支配的である一方、その二次的な自己注意機構の計算複雑性が大規模応用における使用を妨げている。線形注意機構は効率的な代替手段を提供するが、直接適用すると性能劣化が生じることが多く、既存の修正手法では通常、深度分離可能畳み込みなどの追加モジュールを通じて計算オーバーヘッドを再導入するため、本来の目的が損なわれる。本研究では、これらの手法における主要な失敗モードとして、モデルが表現の多様性を失う「大域的文脈の崩壊」を特定する。この問題に対処するため、トークン次元に沿って分割されたヘッド内で注意を計算することで多様性を保持するMulti-Head Linear Attention(MHLA)を提案する。MHLAが線形複雑性を維持しながらsoftmax注意の表現力の大部分を回復することを理論的に証明し、複数領域でその有効性を検証する。同一時間計算量条件下で、ImageNet分類では3.6%、自然言語処理では6.3%、画像生成では12.6%、動画生成では41%の性能向上を達成した。
競技プログラミングは、その高度な推論要求と論理的複雑さの高さから、コード大規模言語モデルにとって大きな課題となっている。しかし、現在のコードLLMは依然として実世界データへの依存度が高く、拡張性が制限されている。本論文では、実世界データに依存せずにコード推論モデルの能力を強化するため、生成されたタスク・解答・テストケースのみでコードLLMを訓練する完全合成アプローチを探求する。これを実現するため、特徴量ベース合成を活用し、SynthSmithという新しいデータ合成パイプラインを提案する。SynthSmithは、検証済みの解答とテストを伴う多様で挑戦的なタスクを生成する強力な可能性を示し、教師ありファインチューニングと強化学習の両方をサポートする。提案する合成SFTおよびRLデータセットに基づき、X-Coderモデルシリーズを導入する。このモデルは7Bパラメータのみにも関わらず、LiveCodeBench v5で62.9 avg@8、v6で55.8という顕著な合格率を達成し、DeepCoder-14B-PreviewおよびAReal-boba2-14Bを上回った。詳細な分析により、合成データセットにおいてスケーリング則が成立することを明らかにし、どの次元をスケールさせるのが効果的かを探求する。さらに、コード中心の強化学習に関する洞察を提供し、詳細なアブレーションと分析を通じて性能を形作る主要因を明らかにする。我々の発見は、高品質な合成データのスケーリングと段階的訓練の採用が、実世界のコーディングデータへの依存を軽減しつつ、コード推論を大幅に進歩させ得ることを実証している。
推論モデルとエージェント型AIシステムの最近の進歩により、多様な外部情報への依存が高まっている。しかし、この変化は本質的にノイズを含む入力コンテキストをもたらすが、現在の清浄化されたベンチマークはこの現実を捉えられていない。我々はNoisyBenchを提案する。これはRAG、推論、アライメント、ツール利用タスクにおける11のデータセットを網羅し、ランダム文書、無関係なチャット履歴、困難なネガティブ・ディストラクターを含む多様なノイズタイプに対するモデルの頑健性を体系的に評価するベンチマークである。評価結果から、最先端モデルが文脈的ディストラクターに直面すると最大80%もの性能急落が生じることが明らかになった。特に重要なのは、エージェント型ワークフローがノイズを含むツール出力を過信することでこれらのエラーを増幅しやすく、敵対的意図がなくてもディストラクターが創発的な非アライメントを引き起こし得る点である。プロンプト設計、コンテキストエンジニアリング、SFT、結果報酬型RLでは頑健性を保証できないことが判明した。対照的に、我々が提案する根拠認識報酬(RARE)は、ノイズ内の有用な情報の特定を促進することで耐性を大幅に強化する。最後に、テスト時の計算量増加がノイズ環境では性能悪化につながる逆スケーリング傾向を発見し、アテンション可視化によりモデルが不均衡にディストラクタートークンに注目することを実証し、次世代の頑健な推論可能エージェント構築に向けた重要な知見を提供する。
大規模推論モデル(LRM)は、明示的に多段階の思考連鎖を生成することで顕著な性能を達成するが、この能力には大幅な推論遅延と計算コストが伴う。協調推論は、軽量モデルと大規模モデルの間で作業を選択的に割り当てることで有望な解決策を提供するが、根本的な課題が残っている:どの推論ステップが大規模モデルの能力を必要とし、どのステップが小型モデルの効率性で足りるかの判断である。既存の経路選択戦略は、局所的なトークン確率に依存するか、事後的検証を行うため、大きな推論オーバーヘッドを導入する。本研究では、ステップ単位の協調に対する新たな視点を提案する:推論ステップの難易度は、その最初のトークンから推測可能であるという。LRMにおける「閃きの瞬間」現象に着想を得て、初期トークンのエントロピーがステップの難易度を強力に予測できることを示す。この知見に基づき、訓練不要のステップ単位協調フレームワークであるGlimpRouterを導入する。GlimpRouterは軽量モデルを用いて各推論ステップの最初のトークンのみを生成し、初期トークンのエントロピーが閾値を超えた場合にのみ、そのステップを大規模モデルに振り分ける。複数のベンチマークによる実験により、本手法が推論精度を維持しつつ推論遅延を大幅に削減できることを実証する。例えばGlimpRouterは、AIME25において単体の大規模モデルと比較して精度を10.7%大幅に向上させるとともに、推論遅延を25.9%削減する。これらの結果は、思考の全体評価ではなく「一瞥」に基づいて計算リソースを割り当てるという、簡潔かつ効果的な推論メカニズムの可能性を示唆する。
ビジョン言語モデル(VLM)はコンピュータ利用エージェント(CUA)を大幅に進化させたが、現行のフレームワークは長期ワークフローにおける頑健性と新規ドメインへの汎化性能に課題を残している。これらの制約は、履歴ビジュアルコンテキストの細粒度な制御不足と、視覚情報を考慮したチュートリアル検索機能の欠如に起因する。これらの課題を解決するため、我々はOS-Symphonyを提案する。これは、堅牢な自動化を実現する2つの核心技術をオーケストレータが統括する包括的フレームワークである:(1)マイルストーン駆動型長期メモリを活用するReflection-Memory Agentは、軌道レベル自己修正により長期タスクにおけるビジュアルコンテキスト消失を効果的に抑制;(2)SeeActパラダイムに基づくマルチモーダル検索機能を備えたVersatile Tool Agentは、ブラウザベースのサンドボックス内で視覚的に整合したライブチュートリアルを生成し、未経験シナリオにおける忠実度問題を解決する。実験結果では、OS-Symphonyが様々なモデル規模で大幅な性能向上を達成し、3つのオンラインベンチマークで新たなstate-of-the-artを確立、特にOSWorldでは65.84%を記録した。
拡散言語モデル(DLM)は、反復的な精緻化を通じて並列デコードを可能にすることで、言語モデリングにおける有望な代替手段を提供します。しかし、既存のDLMの多くはハードな二値マスキングと離散的なトークン割り当てに依存しており、初期決定の修正が困難で、中間的な確率表現を十分に活用できていません。本論文では、ハードな二値マスクを進化するソフトトークン分布で置き換える新しい拡散ベースの言語モデリング手法「EvoToken-DLM」を提案します。EvoToken-DLMは、マスク状態から離散出力への漸進的移行を実現し、修正可能なデコードをサポートします。この進化を効果的に支援するため、訓練目標を反復的な確率更新に整合させる連続軌道監督を導入します。複数のベンチマークにおける大規模な実験により、EvoToken-DLMが強力な拡散ベース及びマスク型DLMベースラインを上回り、一貫して優れた性能を達成することが示されました。プロジェクトWebページ:https://aim-uofa.github.io/EvoTokenDLM。
大規模言語モデル(LLM)ベースのエージェントが長期インタラクションで活用されるにつれ、累積的な記憶はパーソナライゼーションと文体的一貫性の維持において重要性を増している。しかし、既存システムの多くは記憶利用において「全てか無か」のアプローチを採用している。すなわち、関連する過去情報を全て取り込むとMemory Anchoring(記憶固定化)が生じエージェントが過去のインタラクションに束縛される一方、記憶を完全に排除すると利用不足や重要な対話履歴の喪失を招く。本論文では、エージェントの記憶依存性を明示的かつユーザ制御可能な次元としてモデル化できることを示す。まず、過去のインタラクションが現在の出力に与える影響を定量化するため、記憶依存性の行動指標を提案する。次に、Steerable Memory Agent(SteeM)フレームワークを開発し、イノベーションを促進する新規開始モードから、対話履歴を厳密に遵守する高忠実度モードまで、ユーザが記憶依存度を動的に調整できる機能を実現する。多様なシナリオでの実験により、本手法が従来のプロンプト手法や硬直的な記憶マスキング戦略を一貫して凌駕し、パーソナライズされた人間-エージェント協働のためにより繊細で効果的な制御を実現することを実証する。
インタラクティブかつ自律的なAIシステムの急速な発展は、我々がエージェント時代に突入したことを示している。ソフトウェアエンジニアリングやコンピューター操作といった複雑なエージェントタスクにおけるエージェントの訓練と評価には、効率的なモデル計算のみならず、膨大なエージェントと環境の相互作用を調整可能な高度なインフラストラクチャが不可欠である。しかし、このような複雑なエージェントタスクにおける大規模な訓練と評価を効果的に支援するオープンソースのインフラストラクチャは存在しない。この課題に対処するため、我々はMegaFlowを提案する。これは、エージェントと環境のワークロードに対して、効率的なスケジューリング、リソース割り当て、きめ細かいタスク管理を実現する大規模分散オーケストレーションシステムである。MegaFlowはエージェント訓練インフラを、統一されたインターフェースを介して相互作用する3つの独立したサービス(モデルサービス、エージェントサービス、環境サービス)に抽象化し、多様なエージェント-環境構成にわたる独立したスケーリングと柔軟なリソース割り当てを可能にする。我々のエージェント訓練環境における導入では、MegaFlowは高いシステム安定性を維持し、効率的なリソース利用を達成しながら、数万の並行エージェントタスクのオーケストレーションに成功している。このような大規模なエージェント訓練を可能にすることで、MegaFlowは新興のエージェントAI領域における重大なインフラギャップを埋めるものである。
高品質なデータの入手が困難になるにつれ、データ不要の自己進化が有望なパラダイムとして登場している。このアプローチにより、大規模言語モデル(LLM)は複雑な問題を自律的に生成・解決し、推論能力を向上させることができる。しかし、マルチターン検索エージェントは、質問の多様性の限界や、多段階推論とツール利用に必要な多大な計算コストのため、データ不要の自己進化において苦戦している。本研究では、検索エージェントが訓練データを一切必要とせず効果的に自己進化を実現するフレームワーク「Dr. Zero」を提案する。具体的には、同一の基盤モデルから初期化されたソルバーを訓練するため、提案者が多様な質問を生成する自己進化フィードバックループを設計する。ソルバーが進化するにつれ、提案者は次第に難易度が高く解決可能な課題を作成するよう誘導され、両エージェントを洗練する自動化されたカリキュラムが確立される。訓練効率を向上させるため、ホップグループ化相対方策最適化(HRPO)も導入する。この手法は構造的に類似した質問をクラスタリングし、グループレベルのベースラインを構築することで、各クエリの難易度と解決可能性を個別に評価する際のサンプリングオーバーヘッドを効果的に最小化する。その結果、HRPOは性能や安定性を損なうことなく、ソルバー訓練に必要な計算量を大幅に削減する。大規模な実験結果により、データ不要のDr. Zeroが完全教師ありの検索エージェントに匹敵あるいは凌駕する性能を発揮し、複雑な推論と検索能力が自己進化のみを通じて出現しうることを実証した。
ビデオ生成モデルは、世界モデルの一形態として、複雑なシーンの時間的変化をモデリングすることでエージェントに未来を想像する能力を与える、AIにおいて最も注目すべきフロンティアの一つとして登場した。自動運転において、このビジョンは「運転世界モデル」を生み出している。これは、自車及び他車の未来を想像する生成的シミュレータであり、スケーラブルなシミュレーション、コーナーケースの安全なテスト、豊富な合成データ生成を可能にする。しかし、研究活動が急速に拡大しているにもかかわらず、この分野には進捗を測定し優先順位を導くための厳格なベンチマークが欠如している。既存の評価は限定的である:汎用的なビデオ指標は安全性に重大な影響を与える映像要素を見落としている;軌道の尤もらしさが定量化されることは稀である;時間的およびエージェントレベルの一貫性が軽視されている;自車の条件付けに基づく制御性が無視されている。さらに、現行のデータセットは実世界での展開に必要な多様な条件を網羅できていない。これらのギャップに対処するため、我々は生成的運転世界モデル初の包括的ベンチマークであるDrivingGenを提案する。DrivingGenは、運転データセットとインターネット規模のビデオソースの両方から選定された多様な評価データセット(様々な天候、時間帯、地理的領域、複雑な運転操作を含む)と、視覚的なリアリズム、軌道の尤もらしさ、時間的一貫性、制御性を総合的に評価する一連の新規指標を組み合わせている。14の最先端モデルをベンチマークした結果、明確なトレードオフが明らかになった:汎用モデルは見た目が良いが物理法則を破り、運転特化型モデルは動きを現実的に捉えるが視覚的品質で遅れをとる。DrivingGenは、信頼性が高く、制御可能で、実用可能な運転世界モデルの発展を促進する統一的な評価フレームワークを提供し、スケーラブルなシミュレーション、計画、データ駆動型意思決定を可能にする。
潜在拡散モデル(LDM)は、通常は変分オートエンコーダ(VAE)などの画像トークナイザーを通じて得られる圧縮された潜在空間で動作することで、高品質な画像を生成する。生成に適したVAEを追求するため、最近の研究では、LDMで一般的に採用されているアプローチと同様に、視覚基盤モデル(VFM)をVAEの表現アライメント目標として活用することが検討されている。これにより一定の性能向上が得られるものの、VAEとLDMの両方に同じアライメント目標を使用することは、それらが本質的に異なる表現要件を有することを見落としている。我々は、LDMが高レベルな意味概念を保持する潜在表現から恩恵を受ける一方で、VAEは意味的分散表現に優れ、属性レベルの情報を構造化された方法で符号化できるべきであると主張する。この問題に対処するため、我々は意味的分散VAE(Send-VAE)を提案する。これは、事前学習済みVFMの意味的階層構造と潜在空間を整合させることで、分散表現学習に最適化されたものである。本手法では、非線形マッパーネットワークを用いてVAEの潜在表現を変換し、VFMと整合させることで、属性レベルの分散表現と高レベル意味概念の間のギャップを埋め、VAE学習に対する効果的なガイダンスを可能にする。我々は、属性予測タスクにおける線形 probing により意味的分散表現を評価し、生成性能の向上との強い相関を示す。最後に、Send-VAEを用いてフローベースのトランスフォーマーSiTを学習し、ImageNet 256x256において、分類器不要指導の有無にかかわらず、それぞれ1.21および1.75という最先端のFIDを達成するとともに、学習を大幅に高速化することを実験的に示す。
現在の視覚言語ベンチマークは、明確で明示的なプロンプトを持つ構造化された質問が主流である。しかし、実際のユーザークエリは非公式で指示が不十分な場合が多い。ユーザーは自然と多くの情報を省略し、画像に文脈を委ねる傾向がある。本研究ではHAERAE-Visionを提案する。これは韓国のオンラインコミュニティから収集した653件の実世界視覚質問(86,000候補から0.76%を選別)から構成され、各質問に明示的な書き換え版をペアリングし、合計1,306のクエリ変種を備える。39のVLMを評価した結果、最先端モデル(GPT-5、Gemini 2.5 Pro)であっても元のクエリでは50%未満の精度しか達成できないことが判明した。重要なのは、クエリを明示化するだけで8~22ポイントの改善が見られ、特に小規模モデルで効果が顕著であった点である。さらに、ウェブ検索を利用しても、指示不足のクエリは検索なしの明示的クエリより性能が劣り、現行の検索技術ではユーザーが省略した情報を補完できないことが明らかになった。これらの結果は、VLMの困難の相当部分がモデル能力そのものではなく、自然なクエリの指示不足に起因することを示し、ベンチマーク評価と実世界展開の間に存在する重大な隔たりを浮き彫りにしている。
大規模言語モデル(LLM)は、ツール統合推論(TIR)パラダイムを採用することで、パラメータ知識の限界を拡張できる。しかし、既存のLLMベースのエージェント学習フレームワークは、回答の正確性に重点を置くことが多く、行動パターンへの特定のアライメントを見落としている。その結果、エージェントはTIRタスク実行時に、冗長なツール呼び出しや不十分なツール呼び出しといった非効率な行動を示すことが多い。TIRタスク実行時の誤った行動パターンを較正し、それによって効果的な軌道を探索する方法は、未解決の問題である。本論文では、ET-Agentを提案する。これは、自己進化型データフライホイールと行動較正学習という2つの相補的視点から、エージェントのツール利用行動を較正する学習フレームワークである。具体的には、自己進化的なデータフライホイールを導入して強化データを生成し、LLMの微調整に用いることでその探索能力を向上させる。これに基づき、誤った行動パターンを最適な行動へと段階的に較正するように設計された、2段階の行動較正学習フレームワークを実装する。さらに詳細な実験により、ET-Agentが正確性、効率性、推論の簡潔性、ツール実行精度といった複数の次元で優位性を持つことを確認する。我々のET-Agentフレームワークは、TIR分野の研究に実用的な知見を提供する。コードはhttps://github.com/asilverlight/ET-Agent で公開されている。
思考連鎖(Chain-of-Thought)が大規模視覚言語モデルに多段階推論能力を付与する一方で、明示的なテキストによる論理付けは、情報伝達量のボトルネックに悩まされている。すなわち、連続的な視覚的詳細が離散的なトークン化の過程で捨象されてしまうのである。近年の潜在空間推論手法はこの課題への対応を試みているが、硬直的な自己回帰目的関数のために、意味的な早期収束に陥りがちである。本論文では、動的ウィンドウ整合学習(Dynamic Windowed Alignment Learning, DWAL)による視覚的推論の再定義を通じて、新たなパラダイム「Laser」を提案する。Laserは一点ごとの予測を強制する代わりに、潜在状態を将来の意味論の動的有効性ウィンドウと整合させる。このメカニズムは「森を見てから木を見る」という認知的階層を強制し、モデルが局所的な詳細に絞り込む前に、大域的特徴の確率的重ね合わせ状態を維持することを可能にする。決定的に、Laserはデコード可能な軌跡を通じて解釈性を維持しつつ、自己洗練型重ね合わせ(Self-Refined Superposition)により制約のない学習を安定化させる。6つのベンチマークによる広範な実験により、Laserが潜在空間推論手法の中で最先端の性能を達成し、強力なベースラインであるMonetを平均5.03%上回ることを実証した。特筆すべきは、推論時のトークン数を97%以上削減するという極めて高い効率性でこれらの性能向上を達成し、分布外領域への頑健な一般化能力も示している点である。
旅行計画の策定は、多面的な情報を統合して旅程を構築する高度な意思決定プロセスである。しかし、既存の旅行計画手法には以下の課題がある:(1) 候補となる観光スポット(POI)を高再現率で選定すること、(2) 単一の推論経路では実行可能解空間の探索能力が制限されること、(3) 硬制約と軟制約の同時最適化が困難であること。これらの課題に対処するため、我々はマルチパス推論と制約ゲート強化学習を特徴とする総合フレームワークTourPlannerを提案する。具体的には、まず空間情報を考慮した候補POIセットを構築するための個人化再現・空間最適化(PReSO)ワークフローを導入する。次に、実行可能解空間の探索能力を向上させるマルチパス推論パラダイムである競合合意連鎖思考(CCoT)を提案する。計画をさらに洗練させるため、シグモイドベースのゲート機構を強化学習段階に統合し、硬制約が満たされた後に軟制約の充足を動的に優先する。旅行計画ベンチマークによる実験結果から、TourPlannerが既存手法を大幅に上回る実行可能性とユーザ嗜好への適合性を達成し、最先端の性能を実現することが示された。
大規模言語モデル(LLMs)が静的な対話インターフェースから自律的な汎用エージェントへと進化するにつれ、長期にわたる一貫性を保証する上で効果的な記憶機能が極めて重要となっている。しかし、既存のベンチマークは主に日常的な会話やタスク指向対話に焦点を当てており、エージェントが変化する目標を追跡しなければならない「**長期プロジェクト指向**」の相互作用を捉えられていない。 このギャップを埋めるため、現実的なプロジェクトシナリオに基づく初のベンチマークである**RealMem**を提案する。RealMemは11のシナリオにわたる2,000を超えるセッション間対話で構成され、自然なユーザークエリを用いて評価を行う。 我々は、プロジェクト基盤構築、マルチエージェント対話生成、記憶及びスケジュール管理を統合し、記憶の動的進化をシミュレートする統合パイプラインを提案する。実験により、現行の記憶システムが、実世界のプロジェクトに内在する長期のプロジェクト状態と動的な文脈依存関係の管理において重大な課題に直面していることが明らかとなった。 コード及びデータセットは[https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench)で公開している。
本論文では、大規模言語モデル(LLM)エージェントの強化学習(RL)のための基盤「OpenTinker」を提案する。本基盤は、アルゴリズム設計、実行、エージェントと環境の相互作用という関心の分離を中核に据えている。モノリシックなエンドツーエンドのRLパイプラインに依存するのではなく、OpenTinkerはエージェント学習システムを、明確に定義された抽象化境界を持つ軽量で構成可能なコンポーネントへと分解する。ユーザーはエージェント、環境、および相互作用プロトコルを指定し、推論と訓練は管理された実行ランタイムに委任される。OpenTinkerは、共有リソース上での訓練と推論のワークロード(LoRAベースおよび全パラメータRL、教師ありファインチューニング、推論を含む)を管理するための集中型スケジューラを導入する。さらに、OpenTinkerをマルチエージェント訓練に拡張するための設計原則について論じる。最後に、実践的なエージェント学習シナリオにおいて本フレームワークの有効性を示す一連のRLユースケースを提示する。
人間は主に概念(例:犬)を通じて世界を理解する。概念は知覚・推論・学習を構造化する抽象的な心的表象である。しかし、大規模言語モデル(LLM)が継続事前学習中にこのような概念をどのように獲得し、保持し、忘れていくかは十分に解明されていない。本研究では、個々の概念の獲得と忘却のプロセス、および複数の概念が干渉と相乗効果を通じてどのように相互作用するかを検討する。これらの行動ダイナミクスをLLM内部の「概念回路」、すなわち特定の概念に関連する計算サブグラフと結びつけ、グラフ指標を導入して回路構造を特徴付ける。分析により以下が明らかになった:(1)LLMの概念回路は概念の学習と忘却において統計的に有意な信号を提供する;(2)概念回路は継続事前学習中、初期増加、漸減、安定化という段階的時間パターンを示す;(3)学習獲得量が大きい概念ほど、その後の訓練での忘却も大きくなる傾向がある;(4)意味的に類似した概念は弱く関連する概念よりも強い干渉を引き起こす;(5)概念的知識の転移可能性には差異があり、ある概念が他の概念の学習を大幅に促進する場合がある。総じて、本研究は概念学習のダイナミクスを回路レベルで可視化し、LLMのための解釈性が高く頑健な概念認識型訓練戦略の設計に示唆を与えるものである。
大規模言語モデル(LLMs)は、自身の不確実性について驚くほど精緻な推定を生成できる。しかし、この表明された信頼度がモデルの推論・知識・意思決定のいずれに結び付いているかは未解明である。これを検証するため、我々はRiskEvalを導入した。これはモデルが異なるエラー罰則に応じて不回答方針を調整するか評価する枠組みである。複数の先進モデルを評価した結果、重大な乖離が明らかになった:モデルは言語的な信頼度表明においてコスト認識性を示さず、高罰則条件下での対応・不回答の決定においても戦略的応答性を欠く。極端な罰則によって頻繁な不回答が数学的に最適戦略となる場合でも、モデルはほとんど不回答を選択せず、効用の崩壊を招く。これは、較正された言語的信頼度スコアだけでは信頼性と解釈性を備えたAIシステムを構築するには不十分であることを示唆する。現行のモデルは不確実性シグナルを最適でリスク感応型の決定に変換する戦略的主体性を欠いているためである。
大規模言語モデル(LLM)における記憶への現在のアプローチは、静的検索拡張生成(RAG)に依存するものが主流であり、これは散発的な検索を招きがちで、複雑な推論に必要な構造的依存関係を捉えられないことが多い。自律エージェントにとって、これらの受動的で平坦なアーキテクチャは、長期的相互作用の動的かつ連想的な性質をモデル化するために必要な認知的組織化を欠いている。この問題に対処するため、我々は構造化エピソード記憶(SEEM)を提案する。これは、関係的事実のためのグラフ記憶層と、物語的進行のための動的エピソード記憶層を統合した階層的フレームワークである。認知的フレーム理論に基づき、SEEMは相互作用のストリームを、精密なプロベナンス(情報源)ポインタによって固定された構造化されたエピソードイベントフレーム(EEF)へ変換する。さらに、断片的な証拠から首尾一貫した物語的文脈を再構築するために、エージェント的連想融合および逆プロベナンス展開(RPE)メカニズムを導入する。LoCoMoおよびLongMemEvalベンチマークによる実験結果は、SEEMがベースライン手法を大幅に上回り、エージェントが優れた物語的一貫性と論理的整合性を維持することを可能にすることを実証している。
AIの革新が急速に進展する中で、ブレークスルーを支える知的プロセス――研究者がどのように研究のギャップを特定し、先行研究を統合し、洞察を生成するか――は十分に解明されていない。科学的推論に関する構造化データの不足が、AI研究エージェントの体系的分析と開発を妨げている。本論文では、高品質なAI研究の背後にある知的統合プロセスを捉えた初のデータセット「Sci-Reasoning」を紹介する。コミュニティによって検証された品質指標と、LLMを加速器として用い、人の検証を経たパイプラインを用いて、NeurIPS、ICML、ICLR(2023-2025)におけるOralおよびSpotlight論文を、その鍵となる先行研究まで遡り、具体的な推論リンクを構造化形式で明示する。我々の分析により、15種類の異なる思考パターンが特定され、そのうち3つの主要戦略が52.7%を占めることが明らかになった:ギャップ駆動再構成 (24.2%)、領域横断的統合 (18.0%)、表現シフト (10.5%)。最も強力なイノベーションのレシピは複数のパターンを組み合わせたものであり、具体的には「ギャップ駆動再構成+表現シフト」、「領域横断的統合+表現シフト」、「ギャップ駆動再構成+領域横断的統合」である。このデータセットは、科学の進歩に関する定量的研究を可能にし、次世代AI研究エージェントを訓練するための構造化された推論軌跡を提供する。
現代の情報システムでは、テキストクエリ、画像、動画クリップ、音声セグメントなど、異なる種類のアイテムを扱うことが多い。これにより、異種モダリティを共有空間にマッピングして直接比較可能にするオムニモーダル埋め込みモデルの開発が促進されている。しかし、最近のオムニモーダル埋め込みモデルの多くは、事前学習済み視覚言語モデル(VLM)バックボーンから継承された暗黙的なアライメントに依然として大きく依存している。実際には、これにより以下の3つの一般的な問題が生じる:(i)類似度ロジットがモダリティ依存のシャープネスを示し、スコアが一貫した尺度にならない;(ii)混合モダリティバッチによって不均衡な難易度分布が生じるため、バッチ内負例の効果が時間とともに低下し、多くの負例が急速に自明化して勾配への寄与がほとんどなくなる;(iii)モダリティ間で埋め込みの一次および二次統計量に不一致が生じ、ランキングの安定性が損なわれる。これらの問題に対処するため、我々は既存のVLMを堅牢なオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメント手法であるe5-omniを提案する。e5-omniは3つのシンプルな構成要素を組み合わせる:(1)類似度尺度を調整するモダリティ対応温度較正、(2)混同を招く負例に焦点を当てつつ偽負例の影響を軽減する制御可能な負例カリキュラムとデバイアス、(3)共有埋め込み空間におけるクロスモーダル幾何学をより適切に一致させる共分散正則化付きバッチ白色化。MMEB-V2とAudioCapsでの実験により、強力な双モーダル及びオムニモーダルベースラインを一貫して上回ることを示し、同じ手法が他のVLMバックボーンにも良好に転移することを確認した。モデルチェックポイントはhttps://huggingface.co/Haon-Chen/e5-omni-7Bで公開している。
大規模言語モデル(LLM)は、低ランク更新を介して少数の学習可能パラメータのみを変更するパラメータ効率型ファインチューニング(PEFT)手法を用いて新たなタスクに適応させることができる。本研究では、その有効性を理解するために量子情報に着想を得た視点を採用する。この視点から見ると、低ランクパラメータ化は自然に低次元の行列積状態(MPS)表現に対応し、パラメータ構造のエンタングルメントに基づく特徴付けを可能にする。そこで我々は、人工ニューラルネットワーク(特にLLM)のパラメータのエンタングルメントエントロピーとして定義される「人工エンタングルメント」を命名し測定する。まず、Tulu3およびOpenThoughts3データセットで学習した1Bおよび8BスケールのLLaMAモデルを用いて、代表的な低ランク適応(LoRA)PEFT手法と完全ファインチューニング(FFT)を比較検討し、以下のことを明らかにする:(i)LoRAにおけるクエリおよび値射影行列の更新における内部人工エンタングルメントは、中心抑制(「エンタングルメントバレー」と命名)を伴う体積則に従い、これはハイパーパラメータに敏感であり、FFTのものとは異なる;(ii)表現空間におけるトークン-トークン相関に対応する注意行列における外部人工エンタングルメントは、対数補正を伴う面積則に従い、LoRAのハイパーパラメータや学習ステップに対して頑健である。ブラックホール物理学における無毛定理との類似性を引き合いに、LoRAとFFTが異なる内部エンタングルメント特性を誘導するにもかかわらず、そのような差異が注意出力には現れないことを示唆し、低ランク更新の有効性をもたらす「無毛」特性を提案する。さらに、ランダム行列理論に基づく理論的支援を提供し、定性的に同様の振る舞いを示すMPS適応PEFT手法への分析を拡張する。
伏線と回収は普遍的な物語技法であり、作者が物語の早い段階で約束事を提示し、具体的で観測可能な結果によって解決する手法である。しかし、ストーリー生成技術が進歩しているにもかかわらず、大規模言語モデル(LLM)は、このような長距離の物語的依存関係を結びつけることに頻繁に失敗し、必要な文脈が存在する場合でも「チェーホフの銃」を撃たないままにすることが多い。既存の評価は、この構造的な失敗を見過ごすことが多く、物語の設定の論理的な履行ではなく、表面的な一貫性に焦点を当てている。本論文では、回収の実現という観点から物語の質を再定義する新しいフレームワークである、符号化された伏線-回収生成(CFPG)を提案する。LLMが伏線として張られた事象の「引き金メカニズム」を直感的に理解するのに苦労することを認識し、CFPGは物語の連続性を実行可能な因果述語の集合へと変換する。BookSumコーパスから伏線-引き金-回収の三つ組を抽出して符号化することにより、伏線として張られた約束事が言及されるだけでなく、時間的・論理的に履行されることを保証する構造化された監督を提供する。実験により、CFPGが回収の正確さと物語の整合性において、標準的なプロンプティング手法を大幅に上回ることを実証する。我々の知見は、物語のメカニズムを明示的に符号化することが、LLMを表面的な流暢さから真の物語能力へと移行させるために不可欠であることを示唆している。
グラフィカルユーザインタフェース(GUI)は人間とコンピュータの相互作用において中心的な役割を果たしているが、複雑なGUIタスクの自動化は自律エージェントにとって依然として大きな課題である。これは主に、スケーラブルで高品質な訓練データの不足に起因している。人間による実演の記録は豊富なデータソースを提供するが、通常は長く、非構造的で、注釈が欠けており、エージェントが学習するのが困難である。 この問題に対処するため、我々はShowUI-Alohaを提案する。これは、デスクトップ環境における野生の人間の画面記録を、構造化され実行可能なタスクへ変換する包括的なパイプラインである。本フレームワークは以下の4つの主要コンポーネントで構成される:画面ビデオと、マウスクリック、キーストローク、スクロールといった正確なユーザ操作を記録する**レコーダ**。生の操作と周囲の視覚的コンテキストを意味的に解釈し、記述的な自然言語キャプションへ変換する**学習器**。解析された実演を読み取り、タスク状態を維持し、文脈に基づく推論に基づいて次の高レベルな行動計画を動的に策定する**プランナ**。OSレベルでこれらの行動計画を忠実に実行し、安全チェックとリアルタイムフィードバックを伴って正確なクリック、ドラッグ、テキスト入力、ウィンドウ操作を行う**実行器**。 これらのコンポーネントが一体となることで、実世界の人間のデータを収集・解析するためのスケーラブルなソリューションを提供し、単に人間を観察するだけで効果的に学習できる汎用GUIエージェントの構築に向けた実現可能な道筋を示す。
ChatGPT、Copilot、Claude、Geminiなどの大規模言語モデル(LLM)がソフトウェア開発ワークフローに統合されるにつれ、開発者がコードコメントにAI関与の痕跡を残すケースが増加している。中でも、生成AIの利用と技術的欠陥の存在の両方を明示的に認めるコメントが存在する。公開されているPythonおよびJavaScriptベースのGitHubリポジトリ(2022年11月~2025年7月)から収集した6,540件のLLM言及コードコメントを分析した結果、81件が技術的負債の自己認証(SATD)を同時に含むことを確認した。開発者は、テストの先送り、不完全な適応、AI生成コードへの理解不足について最も頻繁に言及しており、AI支援が技術的負債が発生するタイミングと理由の両方に影響を与えていることが示唆される。我々は、開発者がAI生成コードを取り入れつつ、その動作や正確性に対する不確実性を明示的に表明する反復事例を記述するための概念的枠組みとして、GenAI誘発型自己認証技術的負債(GIST)を提案する。
大規模言語モデルの学習後調整では、教師ありファインチューニング(SFT)と強化学習(RL)を交互に実施するのが一般的である。これら二つの手法は異なる目的を持つ:SFTはモデル出力と専門家応答間の交差エントロピー損失を最小化するのに対し、RLは人間の選好やルールベース検証器から得られる報酬信号を最大化する。現代の推論モデルは、SFTとRL訓練を交互に行う手法を広く採用している。しかし、両者が分離可能かどうかについての理論的説明は存在しない。我々は、いずれの順序でも分離が不可能であることを証明する:(1)SFT→RL結合:SFT最適性の下でRLはSFT損失を増加させ、(2)RL→SFT結合:SFTはRLによって達成された報酬を低下させる。Qwen3-0.6Bでの実験は予測された性能劣化を確認し、学習後調整においてSFTとRLを事前の性能を損なわずに分離できないことを実証する。
マルチモーダル大規模言語モデル(MLLM)は視覚的理解において顕著な進歩を遂げているが、人間が描くスケッチの非構造的で曖昧な性質に対処する際には困難を示すことが多い。この限界は、モデルが単に問題を解くだけでなく手描き図表の誤りを診断すべき「視覚的採点」という未開拓の課題において特に顕著である。このような診断能力は、複雑な構造的・意味的・メタ認知的推論に依存する。本論文はこの隔たりを埋めるため、手描きSTEM図表の採点者としてのMLLM評価に特化した新規ベンチマーク「SketchJudge」を提案する。SketchJudgeは幾何学、物理学、チャート、フローチャートの4領域にわたる1,015件の手描き学生解答を包含し、多様なスタイルの変種と明確な誤りタイプを特徴とする。SketchJudgeによる評価では、先進的なMLLMでさえ人間の性能に大きく遅れをとることが実証され、記号的でノイズの多い文脈における現行の視覚言語連携の脆弱性を暴く本ベンチマークの有効性が立証された。すべてのデータ、コード、評価スクリプトはhttps://github.com/yuhangsu82/SketchJudge で公開されている。
任意長の系列データを効率的かつ内在的に処理する統一ニューラルネットワークの設計は、系列モデリングにおける中心的な課題である。Transformerの設計上の選択(二次計算量や弱い長さ外挿性など)は、長系列へのスケーリングを制限してきた。本研究では、MegaおよびMegalodon(ゲート付き注意機構を伴う指数移動平均)の設計を継承し、さらに長期依存性の捕捉能力を向上させる複数の技術的要素(タイムステップ減衰正規化、スライディングチャンク注意機構、適応的ワーキングメモリ)を導入した神経アーキテクチャGeckoを提案する。70億パラメータ・2兆訓練トークン規模でLlama2およびMegalodonと実施した管理された事前学習比較において、Geckoは優れた効率性と長文脈スケーラビリティを達成した。Geckoの訓練損失は1.68に達し、Llama2-7B(1.75)およびMegalodon-7B(1.70)を大幅に上回り、Llama2-13B(1.67)に迫る性能を示した。特筆すべきは、Geckoが文脈拡張技術に依存することなく、内在的な長文脈処理・検索能力を発揮し、最大400万トークンの系列を安定して処理し、その注意ウィンドウ長の4倍までの文脈から情報を検索できる点である。コード: https://github.com/XuezheMax/gecko-llm
自己一貫性(Self-consistency)は、推論タスクにおける大規模言語モデルの精度向上を図る手法として広く用いられるようになってきた。この手法は単純明快で、複数の推論経路を生成し、多数決によって最も一般的な回答を選択する。これは確実に精度を向上させるが、この精度向上が真の推論品質の改善を反映しているかどうかは不明なままである。本研究では、これまで検討されてこなかった根本的な疑問、すなわち「推論スケーリングは推論の忠実性(faithfulness)を向上させるのか」を検証する。 我々は、4つの先進モデル(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview、DeepSeek-v3.2)を用い、GSM8Kの数学的推論問題100問に対して包括的な実証研究を行った。分析には、ブートストラップ信頼区間、対応のある比較のためのマクネマー検定、効果量の定量化のためのコーエンのdを採用し、効果を厳密に評価した。結果は、自己一貫性に関する通念に疑問を投げかける顕著なモデル間差を示した。 GPT-5.2は期待通りのパターンを示した:精度は78%から90%(N=5時)に向上し、忠実性は比較的安定(0.540から0.510)していた。Claude Opus 4.5の結果は全く異なる:精度は78%から74.3%に低下した一方で、忠実性はN=5で0.270から0.891へと劇的に上昇した。精度が既に98%のDeepSeek-v3.2は天井効果を示し、忠実性の向上は小幅(0.440から0.541)だった。Gemini-3-flashは精度が81%から86%に向上したが、忠実性はわずかに低下(0.260から0.212)した。 問題の難易度分析によれば、GPT-5.2は難問の82%を解決する一方、容易な問題の誤答は13%のみであった。対照的に、Claudeは容易な問題の23%で誤答しており、これが精度低下の原因と考えられる。これらの知見は実務家にとって重要である:自己一貫性は必ずしも万能ではなく、チームは導入前に特定のモデルをテストすべきである。我々はコードを公開し、これらのトレードオフに対処するための実践的な提言を行う。
大規模な生音声データで事前学習された生成的音声言語モデルは、話者や感情などの属性を保持しながら適切な内容で音声プロンプトを継続でき、音声対話の基盤モデルとして機能する。従来の研究では、これらのモデルは「グローバルトークンパープレキシティ」を用いて評価されることが多いが、これはテキストのパープレキシティ計算式を音声トークンに直接適用したものである。しかし、この手法は音声とテキストのモダリティ間の本質的な差異を見落としており、音声特性の過小評価を招く可能性がある。本研究では、単純なグローバルトークンパープレキシティに代わる、様々な尤度ベースおよび生成ベースの評価手法を提案する。提案する評価手法が、人間による平均オピニオンスコア(MOS)との強い相関によって示されるように、知覚される生成品質をより忠実に反映することを実証する。新たな指標による評価では、音声言語モデルの相対的性能状況が再構築され、最高性能モデルと人間のトップラインとの差が大幅に縮小することが明らかになった。これらの結果は、音声言語モデリングの進歩を正確に評価するためには適切な評価が重要であることを示唆している。
システムログは現代のコンピューティングインフラの監視と診断に不可欠であるが、その規模と複雑さから、信頼性が高く効率的な自動解釈が求められる。重大度レベルはシステムログメッセージに事前定義されたメタデータであるため、単にそれを分類するだけのモデルでは実用的価値が限られ、システムログを解釈する基盤的な能力についてはほとんど明らかにしない。我々は、重大度分類を最終タスクとして扱うよりも、実行時ログ理解力を探るベンチマークとして扱う方が、より多くの情報を提供すると主張する。Linux本番サーバーからの実世界のjournalctlデータを用いて、ゼロショット、少数ショット、検索拡張生成(RAG)プロンプト条件下で、9つの小型言語モデル(SLM)および小型推論言語モデル(SRLM)を評価した。結果は顕著な階層化を示している。Qwen3-4BはRAGにおいて95.64%で最高精度を達成し、Gemma3-1Bは少数ショットプロンプトでの20.25%からRAGにより85.28%に改善した。特筆すべきは、小型のQwen3-0.6Bが、検索なしでは性能が低いにもかかわらず、88.12%の精度に達した点である。対照的に、Qwen3-1.7BやDeepSeek-R1-Distill-Qwen-1.5Bを含むいくつかのSRLMは、RAGと組み合わせると性能が大幅に低下した。効率性の測定でもモデル間の差が明らかになった:ほとんどのGemmaおよびLlama系統のモデルはログあたり1.2秒未満で推論を完了するのに対し、Phi-4-Mini-Reasoningは精度が10%未満であるにもかかわらず、ログあたり228秒を超える時間を要した。これらの知見は、(1) アーキテクチャ設計、(2) 訓練目的、(3) 厳格な出力制約下で検索された文脈を統合する能力が、性能を共同で決定することを示唆する。小型で配備可能なモデルを重視する本ベンチマークは、デジタルツイン(DT)システムのリアルタイム要件に適合し、重大度分類がモデルの能力とリアルタイム配備適性を評価するレンズとして機能し、根本原因分析(RCA)やより広範なDT統合への示唆を与えることを示している。
確定的推論は、古典的ソフトウェアにおける心地よい理想である。同じプログラムに同じ入力を与えれば、常に同じ出力が得られるべきだという考え方だ。大規模言語モデルが実世界に展開されるにつれ、この理想は推論スタックにそのまま輸入されてきた。Thinking Machines Labによる最近の研究は、LLM推論における非決定性の詳細な分析を示し、バッチ不変カーネルと決定論的アテンションがビット単位で同一の出力を保証する方法を提示し、再現性と企業レベルの信頼性の前提条件として確定的推論を位置づけた。 本論文では、我々は正反対の立場をとる。LLMにおいて、確定的推論は「殺す」ものだと主張する。それは不確実性をモデル化する能力を殺し、創発能力を抑制し、推論を単一の脆い経路に収束させ、稀な危険リスクを隠すことで安全性調整を弱体化させる。LLMは固定された関数ではなく、出力に対する条件付き分布を実装するのである。これらの分布を単一の正規の生成結果に収束させることは、一見安心感を与えるかもしれないが、人工的認知の中核的特性を体系的に隠蔽してしまう。我々は代わりに、分布的変動を計測し制御すべき信号として扱う「Stochastic CHAOS」を提唱する。 実証的に、確定的推論が体系的に誤解を招くことを示す。単一サンプルによる確定的評価は、能力と脆弱性の両方を過小評価し、言い換えやノイズの下での故障確率を隠蔽する。創発能力に関連する相転移的な現象は、貪欲デコーディングの下では消失する。確定的な基盤に強制されると、複数経路による推論は劣化し、精度と診断的な洞察力が減少する。最後に、確定的評価は、複数サンプル評価でのみ現れる稀だが危険な振る舞いを隠すことで、安全リスクを過小評価する。
マルチモーダル大規模言語モデル(MLLM)は強力な汎用能力を示す一方で、微細な視覚的識別を必要とする中核的な知覚タスクであり、多くの実世界アプリケーションにおいて重要なFGVC(Fine-Grained Visual Classification)においては依然として課題を抱えている。数学やコーディングなどの困難なタスクの性能向上のために広く採用されている戦略の一つが、Chain-of-Thought(CoT)推論である。しかし、これまでの複数の研究は、CoTが視覚知覚タスクの性能を実際に損なう可能性があると報告している。これらの研究は比較的限定的な視点から問題を検討しており、なぜCoTが知覚重視の性能を低下させるのかは未解明のままであった。我々は、ゼロショット評価と複数の学習パラダイムを通じて、FGVCにおけるCoTの役割を体系的に再検証する。これらの設定において、我々は中心的なパラドックスを発見した:CoTによって引き起こされる性能低下は、主に推論の長さによって駆動されており、より長いテキスト推論が一貫して分類精度を低下させる。我々はこの現象を「思考のコスト」と名付ける。この発見に基づき、我々は二つの主要な貢献を行う:(1) 異種報酬信号のバランスを取る、シンプルで汎用的なプラグアンドプレイ型の正規化手法である\alg(マルチ報酬最適化のための手法)、および(2) アンサンブル報酬と\algを組み合わせ、精度指向の密なフィードバックを提供しつつ推論長を制約するフレームワークであるReFine-RFT。大規模な実験により、我々の発見と提案するReFine-RFTの有効性が実証され、FGVCベンチマークにおいて state-of-the-art の性能を達成した。コードとモデルは https://github.com/jiezhu23/ReFine-RFT で公開されている。
無人航空機(UAV)は、宅配便の配達、交通監視、災害対応、インフラ点検などの用途で、人間の近接領域での運用が増加している。このような人間が存在する環境での安全かつ信頼性の高い運用には、航空視点からの人間の姿勢や動作の正確な知覚が求められる。この視点は、低解像度、急角度の視点、(自己)オクルージョンといった課題により既存の手法を困難にしており、特にリアルタイム性が要求される応用では顕著である。我々は、航空画像向けの軽量トップダウン型人間姿勢推定パイプラインであるFlyPoseを学習し、実装した。マルチデータセット学習により、Manipal-UAV、VisDrone、HIT-UAV及び独自データセットのテストセットにおいて、人物検出の平均精度(mAP)で6.8ポイントの向上を達成した。2D人間姿勢推定では、難易度の高いUAV-Humanデータセットにおいて16.3 mAPの改善を確認した。FlyPoseは、Jetson Orin AGX Developer Kit上で前処理を含む推論遅延が約20ミリ秒であり、四回転翼UAVに搭載して飛行実験中にオンラインで動作する。さらに、困難な航空視点からの手動アノテーションを含む、小規模ながら挑戦的な航空人間姿勢推定データセットFlyPose-104を公開した:https://github.com/farooqhassaan/FlyPose。
空間知能とは、3次元環境内における物体とその関係を認識・推論・記述する能力を指し、具象的知覚とシーン理解の基盤を形成する。3Dキャプショニングは3Dシーンを自然言語で記述することを目的とするが、点群の疎性と不規則性、さらに重要な既存キャプショナの接地性の弱さや、屋内/屋外3Dシーンといった大きく異なる環境間での分布外(OOD)汎化性能の限界により、依然として課題が多い。この課題解決に向け、我々は対照的視覚言語学習と3Dキャプション生成を統合し、さらに推論時検索(TTS)によるパラメータ更新なしのロバスト性向上を図る汎用的3Dキャプションフレームワーク3D CoCa v2を提案する。本手法は、凍結されたCLIPベースの意味論的先験知識、幾何学情報を扱う空間認識型3Dシーンエンコーダ、対照学習とキャプショニング目標を共同最適化するマルチモーダルデコーダを基盤とし、外部検出器や手作りの提案を必要としない。推論時にはTTSが多様なキャプション候補を生成し、コンパクトなシーン要約を用いた報酬誘導選択を実行する。実験では、ScanReferでCIDEr@0.5IoUが+1.50、Nr3Dで+1.61、TOD3CapのゼロショットOOD評価でCIDEr@0.25が+3.8向上し、3D CoCaを上回る結果を示した。コードはhttps://github.com/AIGeeksGroup/3DCoCav2 で公開予定である。
直接選好最適化(DPO)は、大規模言語モデルをペアワイズ選好から整合させるための、強化学習による人間フィードバック(RLHF)に代わる原理的でスケーラブルな手法である。しかし、その内部的な幾何学的特性は十分に解明されておらず、監査、チェックポイント比較、および故障予測が制限されている。本研究では、SPINAL(Scaling-law and Preference Integration in Neural Alignment Layers)を提案する。これは、層ごとの局所的な構造変化を追跡することで、整合化が深さ方向にわたって表現をどのように再形成するかを測定する診断手法である。様々なモデルファミリーにわたって、DPOは最終デコーダーブロック(多くの場合21~30層)に集中した層ごとの較正効果を生み出す。ここでは選好勾配が次のトークン分布に最も直接的に影響する。SPINALは各チェックポイントを(層インデックス、収縮スコア、転送スコア)にわたる深度トレースとして符号化する。収縮スコアは、層のスペクトルの裾がどの程度急速に減衰するか(小さなモードがどの程度速く消失するか)を要約し、高い値はより少ない有効方向への強い収縮を示す。転送スコアは、有界重複測度を用いて、隣接する層間でトークン分布がどれだけシフトするかを要約し、低い値は表現空間を通るより短く滑らかなステップを示す。整合化されたチェックポイントでは、後続層で収縮が急増し、転送が滑らかに減少する。これは、政策の質量が緊密化され安定化されたことと一致する。一方、非整合モデルは、曲率が高く、よりエントロピー的で、幾何学的に非協調的な深度経路をたどる。全体として、整合化は幾何学的に局在化している:最終層が、選好によって誘導される主要な補正を符号化する。SPINALはこの局在化を実用的な監査信号に変換し、整合化がどこに集中し、どの程度強く現れ、訓練中にいつ不安定化し始めるかを定量化する。
非合成的表現(例:慣用句、ことわざ、比喩)は、その意味が個々の単語のみから導き出せないため、ニューラル機械翻訳システムにとって重大な課題となっている。これらの表現は豊かな文化的意味を内包し、比喩的意味と字義的意味の両方を持つため、正確な翻訳が困難である。モデルは合成的なテキストの翻訳には比較的優れていることから、我々は機械翻訳品質推定モデルを報酬関数として用いたGRPOスタイルのファインチューニングにより、モデルが慣用句をより適切に翻訳するよう訓練する手法を検討する。中国語とヒンディー語の慣用句データセットを用いた実験により、慣用句翻訳能力が約14ポイント向上し、一般的な非慣用句的翻訳が暗黙的に約8ポイント向上し、さらに、ある言語で訓練したモデルを別の言語で評価するクロスリンガル翻訳能力が約6ポイント向上することが確認された。全体として、本研究は非合成的翻訳における課題を定量化し、より強力な異文化理解・比喩言語理解能力を持つ大規模言語モデル開発への示唆を提供するものである。
専門性が高く影響力の大きな金融分野のようなドメインにおける言語モデル(LM)の評価は、公開された高品質なドメイン固有データセットの不足により、依然として大きな課題である。既存の汎用ベンチマークは広範な範囲をカバーするが、概念的把握と定量的厳密性の両方を必要とする実世界の金融推論におけるLMの能力を評価するには、深みとドメインへの忠実度が欠如している。このギャップを埋めるため、我々は専門家主導のデータキュレーションと制御されたLMベースの合成を組み合わせたハイブリッド手法により、金融固有の評価ベンチマークを構築するためのスケーラブルな半合成パイプライン「FinForge」を提案する。FinForgeは、信頼できる金融情報源からの手動及びプログラムによるコーパス構築と、Gemini 2.5 Flashを用いた構造化された質問生成及び検証を組み合わせている。本パイプラインの有効性を示すため、143Mトークン、10万件の検証済み文書からなる厳選コーパスに基づき、11の金融サブドメインにわたる5,000件以上的人力検証済み質問-回答ペアで構成されるスナップショットベンチマーク「FinForge-5k」を構築した。FinForge-5kによる最先端のオープンソース及びクローズドソースモデルの評価では、金融推論能力に顕著な差が認められ、主要モデルは80%に近い正解率を達成した。これらの知見は、現在のモデルの限界を診断し、金融ドメイン能力の今後の改善を導く本フレームワークの有用性を裏付けている。全てのコードとデータはhttps://github.com/gtfintechlab/FinForge で公開されている。