翻訳付きの日次キュレーションされたAI研究論文
我々は、大規模言語モデル(LLM)のための量子化強化型強化学習(QeRL)フレームワークを提案する。強化学習(RL)はLLMの推論能力にとって不可欠であるが、GPUメモリを大量に消費し、ロールアウト時間が長くなるというリソース集約的な課題がある。QeRLは、NVFP4量子化とLow-Rank Adaptation(LoRA)を組み合わせることでこれらの課題に対処し、RLのロールアウトフェーズを加速するとともにメモリオーバーヘッドを削減する。効率性に加え、量子化ノイズがポリシーのエントロピーを増加させ、探索を促進し、RL中により良い戦略の発見を可能にすることが明らかとなった。探索をさらに最適化するため、QeRLはAdaptive Quantization Noise(AQN)メカニズムを導入し、トレーニング中にノイズを動的に調整する。実験結果から、QeRLはロールアウトフェーズで1.5倍以上の高速化を実現することが示された。さらに、本フレームワークは、単一のH100 80GB GPU上で32B LLMのRLトレーニングを可能にする初めてのものであり、RLトレーニング全体の高速化も達成した。また、16ビットLoRAやQLoRAと比較して、より速い報酬の成長と高い最終精度を実現しつつ、7BモデルにおけるGSM8K(90.8%)やMATH 500(77.4%)などの数学的ベンチマークでは、フルパラメータのファインチューニングと同等の性能を発揮した。これらの結果は、QeRLがLLMのRLトレーニングにおいて効率的かつ効果的なフレームワークであることを示している。
潜在生成モデリングにおいて、事前学習されたオートエンコーダがピクセルを拡散プロセスのための潜在空間にマッピングする手法は、Diffusion Transformers(DiT)の標準的な戦略となっている。しかし、オートエンコーダのコンポーネントはほとんど進化していない。ほとんどのDiTは、依然として元のVAEエンコーダに依存しており、これにはいくつかの制限が伴う:アーキテクチャの簡潔性を損なう時代遅れのバックボーン、情報容量を制限する低次元の潜在空間、そして純粋に再構成ベースのトレーニングに起因する弱い表現力が生成品質を最終的に制限する。本研究では、VAEを事前学習された表現エンコーダ(例:DINO、SigLIP、MAE)と訓練されたデコーダを組み合わせた、我々が「表現オートエンコーダ(RAE)」と呼ぶモデルに置き換えることを探求する。これらのモデルは、高品質な再構成と意味的に豊かな潜在空間を提供し、スケーラブルなトランスフォーマーベースのアーキテクチャを可能にする。これらの潜在空間は通常高次元であるため、拡散トランスフォーマーがそれら内で効果的に動作するための主要な課題を分析し、理論的に動機付けられた解決策を提案し、それらを実証的に検証する。我々のアプローチは、補助的な表現アライメント損失なしでより速い収束を達成する。軽量で広範なDDTヘッドを備えたDiTバリアントを使用して、ImageNetにおいて強力な画像生成結果を達成する:256x256で1.51 FID(ガイダンスなし)、256x256および512x512で1.13(ガイダンスあり)。RAEは明確な利点を提供し、拡散トランスフォーマーのトレーニングにおける新たなデフォルトとなるべきである。
自己回帰(AR)モデルは自然言語生成の標準として残っているが、厳密に逐次的なデコーディングによる高いレイテンシに依然として悩まされている。最近の拡散モデルにインスパイアされたアプローチ、例えばLlaDAやDreamは、並列生成によってこれを緩和しているが、2つの核心的な制限に直面している。1つは情報損失であり、未確定トークンの予測分布が各ステップで破棄されること、もう1つは早期コミットメントであり、局所的な決定が十分なグローバルな調整なしに行われることである。本論文では、Latent Refinement Decoding(LRD)を紹介する。これは、Latent RefinementとPredictive Feedback Loopからなる2段階のフレームワークである。第1段階では、マスクされた位置を予測トークンとマスク埋め込みの分布混合として維持し、モデルがよりグローバルに一貫した信念を確立できるようにする。第2段階では、確信度の高いトークンを段階的に確定しつつ、不確かなトークンを反復的なフィードバックのために保持する。KLダイバージェンスのダイナミクスは、収束と早期停止のための原則的で信頼性のある基準を提供する。コーディング(HumanEval +6.3、MBPP +2.6)と推論(GSM8K +2.9、MATH500 +3.8)における実験は、LRDが精度を向上させながら最大10.6倍の高速化を実現し、並列シーケンス生成の強力で汎用的な代替手段となることを示している。
近年のマルチモーダル大規模言語モデル(MLLMs)の進展は、映像理解において大きな可能性を示している。しかし、既存のベンチマークは、音声と視覚のモダリティ間の相補的な推論能力を包括的に評価するには至っておらず、しばしばどちらかのモダリティを無視するか、論理的に一貫しない形で統合している。このギャップを埋めるため、我々はOmniVideoBenchを導入する。これは、モダリティの相補性と論理的一貫性を強く重視し、音声と視覚の相乗的な理解を評価するために設計された大規模で厳密なベンチマークである。具体的には、OmniVideoBenchは1000の高品質な質問応答(QA)ペアで構成され、各ペアには段階的な推論トレースが注釈付けされており、数秒から30分までの多様な628本の映像から派生し、完全な正確性と独自性を保証するために手動で検証されている。さらに、OmniVideoBenchは、時間的推論、空間的局所化、計数、因果推論、要約などを含む13の慎重に設計された質問タイプを網羅しており、映像理解の本質的な課題を捉えている。OmniVideoBenchを用いた複数のMLLMsの評価では、モデルの性能と人間の推論との間に顕著なギャップが明らかになり、オープンソースモデルはクローズドソースモデルに大きく遅れをとっており、真の音声視覚推論の難しさが浮き彫りになっている。我々は、より強力で汎用性の高い推論能力を持つMLLMsの開発を促進するために、OmniVideoBenchを公開する予定である。
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の推論能力を向上させるための有望なフレームワークとして最近注目を集めています。しかし、二値検証を用いて最適化されたポリシーは、推論軌道における潜在的に価値ある探索を見落としがちです。ゴールデンプロセス報酬モデル(PRMs)の高いアノテーションコストを考慮し、最近の研究では、エントロピーやロジット空間から収集された尤度などの補助信号を用いてプロセストークンの報酬形成を試みています。本研究では、潜在空間から導出されたフロー報酬を用いてRLVRを形成する新たな視点を提供し、RLFRを提案します。RLFRでは、オフポリシーの高品質データとオンポリシーのリジェクトサンプリングデータからモデルの潜在空間のフローフィールドを構築し、その中でのポリシー潜在の速度偏差を定量化して報酬信号として利用します。RLFRは、確立されたフローフィールドが報酬信号収集のための健全な環境となり得ることを初めて示し、表現力豊かな潜在空間がまだ十分に探索されていないことを強調します。さらに、RLFRは任意のオフポリシーエキスパートデータを報酬信号構成のための参照として圧縮することができ、隠れ状態内に圧縮された効率的な文脈依存性が利用されることを示します。言語およびマルチモーダル推論ベンチマークでの実験は、フロー報酬の信頼性を実証し、補助信号を用いた報酬形成の有望なパラダイムを示唆しています。
検証可能な報酬を用いた強化学習(RLVR)は大規模視覚言語モデル(LVLM)の推論能力を向上させてきたが、既存のマルチモーダル推論手法の多くは、RLVR最適化プロセスにおける視覚知覚の重要な役割を見落としている。本論文では、生成された各トークンの視覚依存度を測定するトークン知覚という新たな視点を通じて、マルチモーダルRLVRの先駆的な探求を行う。Chain-of-Thought(CoT)プロセスの詳細な分析を通じて、2つの重要な知見を明らかにした:第一に、ロールアウト軌跡におけるトークン知覚は疎に分布しており、視覚に基づく推論において高い視覚依存度を持つトークンはごく一部であること、第二に、異なる軌跡はその全体的な視覚依存度において著しい差異を示すことである。これらの観察に基づき、我々はトークン知覚を明示的に活用して学習信号を洗練させる新たな方策勾配アルゴリズム、視覚知覚型方策最適化(VPPO)を提案する。具体的には、VPPOは二重のメカニズムを通じてこれを実現する:軌跡のアドバンテージをその全体的な視覚依存度で再重み付けし、方策更新を知覚的に重要なトークンにのみ集中させる。8つの知覚および推論ベンチマークにおける包括的な評価において、VPPOは主要なオープンソースRLチューニングモデルを大幅に上回る性能を示し、その有効性は7Bおよび32Bモデルスケールにわたって一貫して検証された。我々の発見は、マルチモーダルRLVRを分析するための新たなトークンレベルの知覚的視点を確立するだけでなく、LVLMのマルチモーダル推論能力を大幅に向上させる新たで効果的な最適化戦略を提示するものである。
一般的なSVGモデリングは、断片化されたデータセット、タスク間での手法の転移性の限界、および構造的複雑性の取り扱いの難しさにより、依然として課題が多い。これに対応するため、我々はマルチモーダル大規模言語モデル(MLLM)の強力な転移および汎化能力を活用し、SVGの理解、編集、生成のための統一モデリングを実現する。本論文では、統合されたデータ・ベンチマーク・モデルスイートであるInternSVGファミリーを提案する。その中核となるのは、SVGタスクのための最大かつ最も包括的なマルチモーダルデータセットであるSAgogeであり、静的グラフィックスと動的アニメーションの両方を包含している。このデータセットは、アイコン、長いシーケンスのイラスト、科学図表、動的アニメーションをカバーし、様々な難易度のタスクをサポートし、従来のデータセットと比較してより深い階層構造と豊富な属性を提供する。このリソースに基づいて、SAgogeがカバーする領域と難易度スペクトルに沿った包括的なタスク定義と標準化された評価を備えたコンパニオンベンチマークであるSArenaを導入する。これらの基盤に基づき、SVG固有の特殊トークン、サブワードベースの埋め込み初期化、および短い静的SVGから長いシーケンスのイラストや複雑なアニメーションへと進む二段階トレーニング戦略を備えた、SVGの理解、編集、生成のための統一MLLMであるInternSVGを提案する。この統一的な定式化は、正の転移を誘発し、全体的な性能を向上させる。SArenaおよび従来のベンチマークでの実験により、InternSVGが大幅な向上を達成し、主要なオープンおよびプロプライエタリの競合モデルを一貫して上回ることが確認された。
最近、エージェント型強化学習(agentic RL)の出現により、強化学習(RL)が大規模言語モデル(LLM)のエージェント的推論能力を効果的に向上させることが示されましたが、その主要な設計原則と最適な実践方法はまだ明確ではありません。本研究では、データ、アルゴリズム、推論モードという3つの主要な視点から、エージェント的推論における強化学習を解明するための包括的かつ体系的な調査を行いました。私たちの重要な洞察は以下の通りです:(i) 合成された軌跡を実際のエンドツーエンドのツール使用軌跡に置き換えることで、より強力な教師あり微調整(SFT)の初期化が可能となり、高多様性でモデルを意識したデータセットが探索を維持し、RLの性能を著しく向上させます。(ii) エージェント型RLにおいては、クリップ上限の設定、過剰な報酬形成、適切なポリシーエントロピーの維持など、探索に適した技術が重要であり、これらが訓練効率を向上させます。(iii) ツール呼び出しを少なくする熟慮型戦略は、頻繁なツール呼び出しや冗長な自己推論を上回り、ツールの効率と最終的な精度を向上させます。これらのシンプルな実践を組み合わせることで、エージェント的推論と訓練効率が一貫して向上し、小さなモデルでも難しいベンチマークで強い結果を達成し、将来のエージェント型RL研究のための実用的なベースラインを確立しました。これらの経験的洞察に加えて、私たちは高品質な実際のエンドツーエンドのエージェント型SFTデータセットと高品質なRLデータセットを提供し、AIME2024/AIME2025、GPQA-Diamond、LiveCodeBench-v6を含む4つの難しいベンチマークにおいて、LLMのエージェント的推論能力を向上させるための私たちの洞察の有効性を実証しました。私たちのレシピを用いることで、4Bサイズのモデルでも32Bサイズのモデルと比較して優れたエージェント的推論性能を達成できます。コードとモデルは以下をご覧ください:https://github.com/Gen-Verse/Open-AgentRL
本研究では、パノラマ画像生成のための視点画像とパノラマデータのハイブリッド学習を実行するDiTベースのフレームワークであるDiT360を提案します。生成品質における幾何学的忠実性とフォトリアリズムの維持に関する課題について、その主な原因を大規模で高品質な実世界のパノラマデータの不足に帰着させます。このデータ中心の視点は、モデル設計に焦点を当てた従来の手法とは異なります。基本的に、DiT360には、ドメイン間変換とドメイン内拡張のためのいくつかの主要モジュールがあり、これらはVAE前の画像レベルとVAE後のトークンレベルの両方に適用されます。画像レベルでは、視点画像ガイダンスとパノラマリファインメントを通じてクロスドメイン知識を組み込み、知覚品質を向上させると同時に多様性とフォトリアリズムを正則化します。トークンレベルでは、複数のモジュールにわたってハイブリッドな監視が適用されます。これには、境界連続性のための円形パディング、回転ロバスト性のためのヨーロッパ損失、歪み認識のためのキューブ損失が含まれます。テキストからパノラマ、インペインティング、アウトペインティングタスクに関する広範な実験により、本手法が11の定量的指標にわたってより優れた境界一貫性と画像忠実性を達成することが実証されています。私たちのコードはhttps://github.com/Insta360-Research-Team/DiT360で公開されています。
視聴覚ビデオキャプショニングは、視覚的イベントと聴覚的イベントの間の時間的整合性を保ちながら、意味的に豊かな記述を生成することを目的としており、これによりビデオ理解と生成の両方に貢献します。本論文では、音声と視覚モダリティ間の時間的オーケストレーションによって駆動される強力な視聴覚ビデオキャプショナー、AVoCaDOを紹介します。我々は、2段階のポストトレーニングパイプラインを提案します:(1) AVoCaDO SFTは、新たにキュレーションされた10万7千件の高品質で時間的に整合した視聴覚キャプションのデータセットでモデルをファインチューニングします;(2) AVoCaDO GRPOは、カスタマイズされた報酬関数を活用して、時間的整合性と対話の正確性をさらに向上させると同時に、キャプションの長さを正則化し、崩壊を減少させます。実験結果は、AVoCaDOが4つの視聴覚ビデオキャプショニングベンチマークにおいて既存のオープンソースモデルを大幅に上回り、また視覚のみの設定下でのVDCおよびDREAM-1Kベンチマークにおいても競争力のある性能を達成することを示しています。
現実世界の問題をLLMで効率的に解決するためには、動的なウェブ環境と対話し、外部情報を自律的に取得する能力がますます重要になっています。Search-R1やWebDancerなどの最近の研究は、ウェブタスクの解決において高い性能を示していますが、これらはインタラクティブなウェブ環境を静的なテキストコンテンツに変換するための追加ツールに大きく依存しています。これは、スクロール、クリック、タイピングなど、ブラウザとの多様なインタラクションを含む人間のブラウジング行動とは対照的です。本論文では、人間のブラウジング行動にインスパイアされたブラウザ操作を通じて複雑なタスクを解決する、よりインタラクティブなエージェントであるBrowserAgentを提案します。BrowserAgentは、Playwrightを介して生のウェブページ上で直接動作し、事前に定義されたブラウザ操作を実行します。モデルの汎化能力を向上させるために、2段階のトレーニング(Supervised Fine-Tuning (SFT) と Rejection Fine-Tuning (RFT))を採用しています。Search-R1よりも大幅に少ないトレーニングデータを使用しているにもかかわらず、BrowserAgentはさまざまなOpen-QAタスクにおいてより競争力のある結果を達成します。さらに、ステップ間で重要な結論を保存するための明示的なメモリ機構を導入し、長期的なタスクに対するモデルの推論能力をさらに強化します。特に、BrowserAgent-7Bは、HotpotQA、2Wiki、BamboogleなどのマルチホップQAタスクにおいて、Search-R1に対して約20%の改善を達成できます。これらの結果は、BrowserAgentが、よりインタラクティブでスケーラブルなウェブエージェントのためのより高度なフレームワークとして機能し得ることを示しています。
大規模言語モデル(LLM)エージェントは、複雑で多段階のツール使用タスクにおいて大きな可能性を示していますが、その開発は高品質な訓練データの極端な不足によってしばしば妨げられています。合成データを用いた教師ありファインチューニング(SFT)は過学習を引き起こし、標準的な強化学習(RL)は重要なコールドスタート問題と訓練の不安定性に苦戦します。これらの課題に対処するため、我々は「環境チューニング」という新しい訓練パラダイムを導入します。このアプローチにより、エージェントは事前に収集された専門家の軌跡に依存せず、問題インスタンスから直接複雑な振る舞いを学習できます。環境チューニングは、構造化されたカリキュラム、修正フィードバックを提供する実践的な環境拡張、そして安定した効率的な探索を保証する細かい進捗報酬を通じて、この学習プロセスを調整します。Berkeley Function-Calling Leaderboard(BFCL)ベンチマークからわずか400の問題インスタンスを使用して、我々の手法は強力なベースラインに対して競争力のある分布内性能を達成するだけでなく、SFTベースのアプローチに共通する性能低下を克服し、優れた分布外汎化性能を示します。我々の研究は、静的な軌跡に対する教師ありファインチューニングから、動的な環境ベースの探索へのパラダイムシフトを提示し、より堅牢でデータ効率の良いエージェントの訓練への道を開きます。
エージェント型ワークフローの最近の進展により、専門的な文書生成などのタスクの自動化が可能となった。しかし、これらの手法は主にテキストの品質に焦点を当てており、読みやすさや関心を引くために重要な視覚的な構造やスタイルを軽視している。このギャップは、構造的およびスタイル的な品質の高い文書を生成するための適切な報酬モデルの欠如に起因している。この問題に対処するため、我々は文書の構造とスタイルに基づいて評価を行う文書報酬モデル「DocReward」を提案する。我々は、32のドメインと267の文書タイプをカバーする117Kのペア文書からなるマルチドメインデータセット「DocPair」を構築した。各ペアは、同じ内容を持つが構造とスタイルが異なる高プロフェッショナル度と低プロフェッショナル度の文書を含んでおり、これによりモデルはテキスト品質に依存せずにプロフェッショナル度を包括的に評価できる。DocRewardは、Bradley-Terry損失を用いて文書をスコア付けし、注釈付けされたランキングに矛盾する予測をペナルティすることで訓練される。報酬モデルの性能を評価するため、教育を受けた人間の評価者によってランク付けされた文書バンドルを含むテストデータセットを作成した。注目すべきは、DocRewardがGPT-4oおよびGPT-5をそれぞれ30.6および19.4パーセンテージポイント上回る精度を示し、ベースラインを凌駕することを実証した点である。文書生成の外在的評価において、DocRewardはGPT-5の37.7%の勝率に対して60.8%の大幅に高い勝率を達成し、人間が好む文書を生成するための生成エージェントのガイドとしての有用性を実証した。
LLMエージェントは多段階のタスクを計画できますが、行動が実行される前の計画段階で介入することが、多くの場合、危害を防ぐ最も安全な方法です。なぜなら、特定のリスクは一度実行されると深刻な結果を招く可能性があるからです。しかし、既存のガードレールは主に実行後に作用するため、スケーリングが難しく、計画レベルでの制御可能な監督の余地がほとんどありません。この課題に対処するため、我々は現在の研究における3つの重要なギャップを指摘します:データギャップ、モデルギャップ、評価ギャップです。データギャップを埋めるために、我々はAuraGenを導入します。これは、(i)良性の軌跡を合成し、(ii)難易度を調整したカテゴリラベル付きリスクを注入し、(iii)自動化された報酬モデルを通じて出力をフィルタリングし、実行前の安全性のための大規模で信頼性の高いコーパスを生成する制御可能なエンジンです。ガーディアンモデルギャップを埋めるために、我々はSafironを提案します。これは、クロスプランナーアダプターとコンパクトなガーディアンモデルを組み合わせた基礎的なガードレールです。アダプターは異なる入力形式を統一し、Safironはリスクのあるケースをフラグ付けし、リスクタイプを割り当て、根拠を生成します。広く探索されたデータレシピで2段階でトレーニングされたSafironは、設定間での堅牢な転移を実現します。評価ギャップを埋めるために、我々はPre-Exec Benchをリリースします。これは、多様なツールと分岐する軌跡をカバーする現実的なベンチマークで、人間が検証したシナリオにおける検出、細粒度の分類、説明、クロスプランナー一般化を測定します。大規模な実験により、Pre-Exec Benchにおいて提案されたガードレールが強力なベースラインを一貫して上回ることが示され、アブレーション研究を通じて実践的な指針が得られ、より安全なエージェントシステムのための実用的なテンプレートを提供します。
近年、大規模言語モデル(LLM)とエージェントの研究焦点は、新たな能力のデモンストレーションから、複雑な推論や困難なタスクへの取り組みへと次第に移行してきている。しかし、既存の評価は主に数学/コードコンテストや一般的なタスクに焦点を当てており、既存の多分野学術ベンチマークは十分な推論の深さを欠いており、高度な推論のための厳格なベンチマークが不足している。このギャップを埋めるため、我々は学術知識を獲得し推論する能力を評価するためのAcadreasonベンチマークを導入する。これは、コンピュータサイエンス、経済学、法学、数学、哲学の5つの高度な推論分野にわたる50の専門家による注釈付き学術問題で構成されている。全ての問題は近年のトップクラスの出版物から引用され、厳格な注釈と品質管理を経て、挑戦的かつ解答可能であることが保証されている。我々は10以上の主流のLLMとエージェントに対して系統的な評価を実施した。その結果、ほとんどのLLMは20点未満のスコアであり、最先端のGPT-5でさえ16点に留まった。エージェントはより高いスコアを達成したが、40点を超えるものはなかった。これは、超知的学術研究タスクにおけるLLMとエージェントの現在の能力ギャップを示しており、Acadreasonの課題を浮き彫りにしている。
Leanなどの検証可能な言語を用いた数学問題の解決は、数学とコンピュータサイエンスの両コミュニティに大きな影響を与えてきた。現在の最先端モデルは、高コストなオンライン強化学習(RL)や専門家反復法を用いて訓練されることが多い。しかし、これらのアプローチは固定された問題セットに依存しており、訓練の非効率性を引き起こし、複雑な問題に対処する能力を制限している。これらの制限を克服するため、我々はGAR(Generative Adversarial Reinforcement learning)を提案する。GARは、問題作成者と解決者を敵対的ループで共同訓練する包括的なRL訓練フレームワークである。GARは暗黙的なカリキュラム学習メカニズムを導入し、タスクの難易度を証明者の進化する能力に合わせることで、訓練効率を向上させ、高度な定理の証明においてより強力な性能を発揮することを可能にする。実験結果によると、GAR訓練により、Goedel-Prover-V2-8BとDeepSeek-Prover-V2-7BはMiniF2F-Testベンチマークにおいてpass@32で平均4.20%の相対的改善を達成し、DeepSeek-Prover-V2のProofNet-Testにおけるpass@32は22.58%から25.81%に増加した。形式的証明を超えて、GARは検証可能な環境下での問題生成と解決の共進化のための一般的なRLパラダイムを確立する。
数学的推論能力は、大規模言語モデル(LLM)の知能を測る主要な指標である。しかし、既存のLLMは頑健性と汎化性の欠如を示している。本論文では、これらの欠点を表面的な特徴から答えを導く「偽りの推論」に起因すると位置づける。この課題に対処するため、我々は適応的推論を可能にするAdaRフレームワークを提案する。AdaRでは、モデルが問題解決の論理に基づいて答えを導くようにする。具体的には、変数の値を変化させることで論理的に等価なクエリを合成し、これらのデータに対してRLVRを用いてモデルを訓練し、偽りの論理を抑制しながら適応的論理を促進する。データ品質を向上させるため、元のクエリから問題解決の論理を抽出し、コード実行によって対応する答えを生成した後、健全性チェックを適用する。実験結果は、AdaRが頑健性と汎化性を向上させ、データ効率を維持しながら数学的推論能力を大幅に改善することを示している。分析によれば、データ合成とRLVRは協調的に機能し、LLMにおける適応的推論を可能にしている。その後の分析から、重要な要因の影響やLLMへの指示適用性に関する主要な設計洞察が得られた。本プロジェクトはhttps://github.com/LaiZhejian/AdaRで公開されている。
一般に公正妥当と認められた会計原則(GAAP)の複雑さと、拡張可能なビジネス報告言語(XBRL)提出文書の階層構造により、財務監査の自動化と検証はますます困難になっています。大規模言語モデル(LLM)は非構造化テキストの理解において強力な能力を示していますが、構造化され相互依存し、タクソノミーに基づく財務文書に対する推論能力はほとんど未開拓のままです。このギャップを埋めるため、我々はFinAuditingを導入します。これは、財務監査タスクにおけるLLMを評価するための初のタクソノミー整合型、構造認識型、マルチドキュメントベンチマークです。米国GAAP準拠のXBRL提出文書から構築されたFinAuditingは、構造化監査推論の異なる側面をターゲットとする3つの補完的なサブタスク、FinSM(意味的一貫性)、FinRE(関係的一貫性)、FinMR(数値的一貫性)を定義します。さらに、これらのサブタスクにわたる検索、分類、推論メトリクスを統合した評価フレームワークを提案します。13の最先端LLMに対する広範なゼロショット実験により、現在のモデルは意味的、関係的、数学的次元で一貫性のないパフォーマンスを示し、階層的なマルチドキュメント構造を推論する際に精度が最大60-90%低下することが明らかになりました。我々の調査結果は、現代のLLMがタクソノミーに基づく財務推論において体系的に制限されていることを暴露し、FinAuditingを信頼性のある、構造認識型で規制整合型の財務知能システムを開発するための基盤として確立します。ベンチマークデータセットはHugging Faceで公開されています。
視覚言語モデル(VLM)を用いた具現化推論能力の開発や、高度なVLMを視覚言語行動(VLA)モデルに統合してエンドツーエンドのロボット制御を実現する研究が多く行われている一方で、上流のVLMベースの推論と下流のVLAポリシー学習の間にある重要なギャップに直接取り組む研究はほとんどない。本研究では、Vlaserという、高次元の推論と低次元の制御を統合するための基盤となる視覚言語行動モデルを導入し、具現化推論能力をVLAポリシー学習と連携させるための第一歩を踏み出す。Vlaserは、高品質なVlaser-6Mデータセットに基づいて構築され、空間推論、具現化グラウンディング、具現化QA、タスク計画など、さまざまな具現化推論ベンチマークで最先端の性能を達成する。さらに、異なるVLM初期化が教師ありVLAファインチューニングにどのように影響するかを体系的に検証し、インターネット規模の事前学習データと具現化固有のポリシー学習データの間のドメインシフトを緩和するための新たな知見を提供する。これらの知見に基づき、我々のアプローチはWidowXベンチマークで最先端の結果を達成し、Google Robotベンチマークでも競争力のある性能を示す。
統一マルチモーダルモデルは、大規模言語モデルの推論能力と画像理解・生成の両方を統合し、高度なマルチモーダル知能に向けて大きな可能性を示しています。しかし、コミュニティには、理解と生成の整合性、および複雑な視覚タスクにおける汎化可能性を体系的に評価するための厳密な推論中心のベンチマークがまだ不足しています。この目的のために、我々はGIR-Benchを導入します。これは、統一モデルを3つの補完的な視点から評価する包括的なベンチマークです。まず、理解と生成の一貫性(GIR-Bench-UGC)を調査し、モデルが理解タスクと生成タスクの両方で同じ知識を一貫して活用できるかどうかを問います。次に、論理的制約と暗黙の知識を適用して忠実な視覚コンテンツを生成する推論中心のテキストから画像への生成(GIR-Bench-T2I)が可能かどうかを調査します。第三に、編集における多段階の推論を処理できるかどうかを評価します(GIR-Bench-Edit)。各サブセットについて、各タスクに特化した評価パイプラインを慎重に設計します。これにより、細かい粒度で解釈可能な評価が可能になり、広く普及しているMLLM-as-a-Judgeパラダイムからのバイアスを軽減します。様々な統一モデルと生成専用システムに対する広範なアブレーション研究により、以下のことが明らかになりました:統一モデルは推論駆動の視覚タスクにおいてより優れているものの、理解と生成の間には依然として持続的なギャップが存在します。GIR-Benchのデータとコードはhttps://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}で公開されています。
最近のテキストからビデオ(T2V)モデルは、現実世界の幾何学や物理法則の視覚的シミュレーションにおいて強力な能力を示しており、暗黙的な世界モデルとしての可能性を示唆しています。これに触発され、ビデオ生成の事前知識を活用して、与えられた4Dシーンからの視点計画の実現可能性を探求します。なぜなら、ビデオは内部的に自然な視点を伴った動的なシーンを内包しているからです。この目的のために、事前学習済みのT2Vモデルを視点予測に適応させるための2段階のパラダイムを提案します。まず、4Dシーン表現を適応学習ブランチを通じて事前学習済みT2Vモデルに注入します。ここで、4Dシーンは視点に依存せず、条件付きで生成されたビデオが視点を視覚的に埋め込みます。次に、視点抽出をハイブリッド条件に導かれたカメラ外部パラメータのノイズ除去プロセスとして定式化します。具体的には、生成されたビデオと4Dシーンを入力として、事前学習済みT2Vモデルにカメラ外部パラメータ拡散ブランチをさらに導入します。実験結果は、提案手法が既存の競合手法を上回る優位性を示し、アブレーション研究は主要な技術設計の有効性を検証しています。ある程度、この研究はビデオ生成モデルが現実世界における4Dインタラクションに向けた可能性を証明しています。
拡散型大規模言語モデル(dLLMs)は、複数のトークンを並列にデコードできる能力から、自己回帰モデルに代わる効率的な選択肢として注目を集めています。しかし、dLLMsを人間の嗜好やタスク固有の報酬に合わせて強化学習(RL)を用いて調整することは、その難解な対数尤度が標準的なポリシー勾配法の直接的な適用を妨げるため、困難を伴います。これまでの研究では、エビデンス下界(ELBO)のような代理指標が用いられてきましたが、これらの一方的な近似はポリシー勾配に大きなバイアスを導入する可能性があります。この問題に対処するため、我々は真の対数尤度の上界と下界の両方を活用する「サンドイッチポリシー勾配(SPG)」を提案します。実験結果から、SPGはELBOや1ステップ推定に基づくベースラインを大幅に上回ることが示されました。具体的には、SPGはdLLMs向けの最先端RL手法と比較して、GSM8Kで3.6%、MATH500で2.6%、Countdownで18.4%、Sudokuで27.0%の精度向上を達成しました。
大規模視覚言語モデル(LVLM)は、視覚エンコーダ(VE)と大規模言語モデルを統合し、さまざまなタスクで顕著な成功を収めている。しかし、LVLMには依然として重要な課題が存在する。例えば、入力画像に存在しない物体の説明を生成する「物体幻覚」が挙げられる。本論文では、VE内の不確実な視覚トークンが物体幻覚の主要な要因であると主張する。統計的分析により、高い認識論的不確実性を持つ視覚トークンと幻覚の発生との間に正の相関があることが明らかになった。さらに、理論的および実証的に、初期のVE層における視覚トークンが、小さな敵対的摂動下で大きな表現偏差を示す場合、高い認識論的不確実性を示すことを示す。これらの知見に基づき、VEのみを修正することで物体幻覚を軽減するシンプルかつ効果的な戦略を提案する。提案手法は、不確実な視覚トークンを効率的に識別するための敵対的摂動を用いた代理手法と、VEの中間層におけるセルフアテンションプロセス中にこれらの不確実な視覚トークンをマスキングし、視覚エンコーディングへの影響を抑制することで幻覚を軽減する方法から構成される。大規模な実験により、提案手法がLVLMにおける物体幻覚を大幅に減少させ、他の先行技術と相乗的に機能することが示された。
大規模言語モデル(LLMs)および視覚言語モデル(VLMs)の最近の進展は、数学的推論において著しい進歩を示しているが、補助線の描画や関数のプロットなど、視覚的支援を必要とする問題において依然として重大なボトルネックに直面している。ほとんどのLLMsとVLMsはテキストのみの推論チェーンに制限されており、テキストと画像を交互に生成できるマルチモーダル統一モデルは、そのようなタスクに必要な精度と制御性を欠いている。この問題に対処するため、我々は数学における「画像を用いた思考」のためのコード駆動型連鎖思考(CodePlot-CoT)パラダイムを提案する。本アプローチでは、VLMを活用してテキスト推論と実行可能なプロットコードを生成し、それを「視覚的思考」として画像にレンダリングすることで数学問題を解決する。これを実現するために、まず、視覚的推論を伴う数学問題のための初の大規模な二言語データセットおよびベンチマークであるMath-VRを構築し、178Kのサンプルを収録した。次に、高品質なトレーニングデータを作成するため、複雑な数学的図形をコードに解析するための最先端の画像からコードへの変換器を開発した。最後に、これらのトレーニングデータを使用して、数学問題を解決するためのCodePlot-CoTモデルを訓練した。実験結果は、我々のモデルが新たなベンチマークにおいてベースモデルに対して最大21%の向上を達成し、提案したコード駆動型推論パラダイムの有効性を完全に検証した。我々の研究は、マルチモーダル数学推論の新たな方向性を開拓し、コミュニティに対して初の大規模データセット、包括的なベンチマーク、およびそのような問題に対する強力なアプローチを提供する。今後の研究を促進するため、我々はデータセット、コード、および事前訓練済みモデルをhttps://github.com/HKU-MMLab/Math-VR-CodePlot-CoTで公開している。
大規模言語モデル(LLM)エージェントは、顕著な推論能力を示している。しかし、既存のマルチエージェントフレームワークは、固定された役割や集中制御に依存することが多く、長期的な推論におけるスケーラビリティと適応性が制限されている。本研究では、群知能に着想を得た分散型マルチエージェント推論のための閉ループフレームワークであるSwarmSysを提案する。SwarmSysにおける協調は、探査、活用、検証を繰り返す3つの専門的な役割(Explorers、Workers、Validators)間の反復的な相互作用を通じて生じる。スケーラブルで適応的な協調を実現するため、適応型エージェントおよびイベントプロファイル、埋め込みベースの確率的マッチング、フェロモンに着想を得た強化学習メカニズムを統合し、グローバルな監視なしに動的なタスク割り当てと自己組織化された収束を支援する。記号推論、研究統合、科学プログラミングタスクにおいて、SwarmSysは一貫してベースラインを上回り、精度と推論の安定性の両方を向上させた。これらの結果は、スケーラブルで頑健かつ適応的なマルチエージェント推論のための有望なパラダイムとして、群知能に基づく協調を強調しており、LLMの知能を進化させる上で、協調のスケーリングがモデルのスケーリングに匹敵する可能性を示唆している。
我々は、高い時間的一貫性、説得力のあるシーントランジション、そして制御可能なストリーミングストーリーラインを備えた無限長のビデオを生成可能なStable Video Infinity(SVI)を提案する。既存の長尺ビデオ生成手法は、手作りのアンチドリフト(例えば、修正されたノイズスケジューラ、フレームアンカリング)を介して蓄積されたエラーを軽減しようと試みているが、それらは単一プロンプトの外挿に限定されており、反復的な動きを伴う均質なシーンを生成するに留まっている。我々は、この根本的な課題がエラー蓄積を超えて、トレーニング時の仮定(クリーンデータを見る)とテスト時の自己回帰的現実(自己生成されたエラーのある出力を条件とする)との間の重要な不一致にまで及んでいることを特定した。この仮説のギャップを埋めるため、SVIはエラーリサイクルファインチューニングを組み込んでいる。これは、Diffusion Transformer(DiT)が自己生成したエラーを教師プロンプトとしてリサイクルし、DiTが積極的に自身のエラーを特定し修正することを促す、新たな効率的なトレーニング手法である。これは、閉ループリサイクルを通じてエラーを注入、収集、蓄積し、エラー注入フィードバックから自己回帰的に学習することで実現される。具体的には、(i) DiTが過去に犯したエラーをクリーンな入力に介入させ、フローマッチングにおけるエラー蓄積軌跡をシミュレートする。(ii) 一方向双方向積分を用いて予測を効率的に近似し、残差を用いてエラーを計算する。(iii) 離散化されたタイムステップにわたってエラーをリプレイメモリに動的に蓄積し、新しい入力として再サンプリングする。SVIは、追加の推論コストなしにビデオを秒単位から無限の長さにスケールすることが可能であり、多様な条件(例えば、オーディオ、スケルトン、テキストストリーム)との互換性を維持する。我々は、一貫性、創造性、条件付き設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
ロボット学習のスケーラビリティは、現実世界でのデータ収集に伴う多大なコストと労力によって根本的に制約を受けている。シミュレーションデータはスケーラブルな代替手段を提供するが、視覚的な外観、物理的特性、および物体間の相互作用における大きな隔たりのため、現実世界への一般化にしばしば失敗する。この問題に対処するため、我々はRoboSimGSを提案する。これは、多視点の現実世界画像をスケーラブルで高忠実度かつ物理的にインタラクティブなシミュレーション環境に変換する、新しいReal2Sim2Realフレームワークである。我々のアプローチは、ハイブリッド表現を用いてシーンを再構築する:3D Gaussian Splatting (3DGS) が環境のフォトリアルな外観を捉え、インタラクティブなオブジェクトのためのメッシュプリミティブが正確な物理シミュレーションを保証する。特に、物理的に妥当な関節構造を持つアセットの作成を自動化するために、マルチモーダル大規模言語モデル (MLLM) の使用を先駆的に導入した。MLLMは視覚データを分析し、物体の物理的特性(密度、剛性など)だけでなく、複雑な運動学的構造(ヒンジ、スライドレールなど)も推論する。我々は、RoboSimGSによって生成されたデータのみで訓練されたポリシーが、多様な現実世界の操作タスクにおいて成功裏にゼロショットのシミュレーションから現実への転移を達成することを実証した。さらに、RoboSimGSからのデータは、最先端の手法の性能と一般化能力を大幅に向上させる。我々の結果は、RoboSimGSがシミュレーションと現実の隔たりを埋めるための強力でスケーラブルなソリューションであることを検証する。
近年の3Dヒューマンメッシュリカバリ(HMR)におけるトランスフォーマーベースのモデルは、高い性能を達成しているものの、深いトランスフォーマーアーキテクチャと冗長なトークンにより、高い計算コストと複雑さに悩まされることが多い。本論文では、HMRに特化した2つのマージ戦略を提案する:エラー制約付きレイヤーマージ(ECLM)とマスク誘導型トークンマージ(Mask-ToMe)である。ECLMは、平均関節位置誤差(MPJPE)に最小限の影響しか与えないトランスフォーマーレイヤーを選択的にマージし、Mask-ToMeは、最終予測にほとんど寄与しない背景トークンに焦点を当ててマージを行う。さらに、マージによる性能低下を補うため、時間的文脈を組み込み、大規模なモーションキャプチャデータセットから学習した姿勢の事前知識を活用する拡散ベースのデコーダを提案する。複数のベンチマークでの実験により、本手法がベースラインと比較して性能をわずかに向上させつつ、最大2.3倍の高速化を達成することが示された。
大規模言語モデル(LLMs)はアルゴリズムコード生成において優れた性能を発揮するが、フロントエンド開発では、正しさがレンダリングされたピクセルやインタラクションによって判断されるため、課題を抱えている。本論文では、ReLookを提案する。これは、エージェントがマルチモーダル大規模言語モデル(MLLM)をツールとして活用し、堅牢な生成―診断―改良ループを閉じることを可能にする、視覚に基づいた強化学習フレームワークである。訓練中、エージェントはMLLMをループ内で視覚批評家として使用し、スクリーンショットを用いてコードを評価するとともに、視覚に基づいた実践的なフィードバックの源として活用する。無効なレンダリングに対しては厳格なゼロ報酬ルールを適用し、レンダリング可能性を確保し、報酬ハッキングを防ぐ。行動の崩壊を防ぐため、改善されたリビジョンのみを受け入れる厳格な受容ルールであるForced Optimizationを導入し、単調に改善される軌跡を実現する。推論時には、批評家を分離し、軽量で批評家不要の自己編集サイクルを実行し、ベースデコードと同等の遅延を保ちつつ、得られた成果の大部分を維持する。広く使用されている3つのベンチマークにおいて、ReLookは視覚に基づいたフロントエンドコード生成において強力なベースラインを一貫して上回り、エージェントの知覚、視覚的報酬、および訓練と推論の分離の利点を強調している。
言語モデル(LM)のファインチューニングにおける一つのパラダイムは、大量のトレーニングデータセットを作成することに依存しており、その量と多様性がポストトレーニング後の新規タスクへの汎化を可能にすると仮定しています。実際には、大規模なデータセットを収集することは非効率的であり、それらをトレーニングすることは非常に高コストです。さらに悪いことに、結果として得られるモデルが複雑なシナリオを処理したり、より良い汎化性能を発揮する保証はありません。加えて、既存の技術では、トレーニングサンプルが新たな情報を提供するか、モデルが既に獲得した知識と重複しているかを評価することはほとんどなく、不必要なコストが発生しています。本研究では、より効果的で汎化性の高いエージェンシーLMをその場で作成するための新しいテスト時自己改善手法を探求します。提案されたアルゴリズムは、以下の3つのステップに要約できます:(i) まず、モデルが苦手とするサンプルを特定する(自己認識)、(ii) 次に、検出された不確実なサンプルから類似の例を生成する(自己データ拡張)、(iii) そして、これらの新しく生成されたサンプルをテスト時のファインチューニングに使用する(自己改善)。このアプローチの2つのバリエーションを研究します:テスト時自己改善(TT-SI)では、同じモデルが自身の不確実なケースから追加のトレーニング例を生成し、それらから学習します。これに対して、テスト時蒸留(TT-D)では、より強力なモデルが不確実なケースに対して類似の例を生成し、学生モデルが蒸留された監督を使用して適応できるようにします。さまざまなエージェントベンチマークでの実証評価により、TT-SIはすべてのベンチマークで平均+5.48%の絶対精度向上をもたらし、他の標準的な学習手法を上回りながら、トレーニングサンプルを68倍少なく使用することが示されました。我々の研究結果は、TT-SIの可能性を強調し、テスト時における自己改善アルゴリズムが、自己進化に向けたより有能なエージェントを構築するための新しいパラダイムとしての潜在力を示しています。
言語モデルは、訓練セット(例:MATH)で見たデータと類似したデータに対して、通常の教師ありファインチューニング(SFT)を行っても、ほとんど改善が見られない(いわゆる「飽和」状態)ことが多い。本論文では、より強力な大規模言語モデル(LLM)のメタ認知能力を教師として活用し、学生モデルを訓練する新しいファインチューニング戦略「STAT」を提案する。教師はタスクデータセットを使用して、そのタスクに必要なスキルのリストを作成し、各データポイントに必要なスキルをラベル付けする(Didolkar et al., 2024)。学生の回答を監視することで、教師は学生の「欠落スキルプロファイル」を作成し、各スキルが回答に適用されなかった頻度を追跡する。このアイデアを用いて、以下の2つの方法のいずれかで修正された訓練セットを構築する。STAT-Selでは、教師は既存の訓練例を使用するが、欠落スキルプロファイルに応じて適応的に重み付けを行う。STAT-Synでは、教師は欠落スキルに関連する追加の例を合成する。LlamaおよびQwenモデルを用いた広範な実験を通じて、我々の手法はMATHにおいて最大7.5%の改善をもたらし、一方でSFTは限定的な改善しか提供しないことが示された。さらに、STATは分布外ベンチマーク(例:AIME24/25、AMC23など)において平均4.6%の性能向上をもたらす。重要なことに、STATはGRPOによる強化学習(Shao et al., 2024)と補完的であることがわかった:STATを使用してスキルギャップを解消した後、GRPOがさらなる改善を加える。我々は、スキルターゲット型の適応訓練が現在の訓練パイプラインを広く改善するべきであると結論付ける。コードは以下で公開されている: https://github.com/princeton-pli/STAT。
言語モデルの防御策の堅牢性をどのように評価すべきか?現在、ジェイルブレイクやプロンプトインジェクションに対する防御策(それぞれ、攻撃者が有害な知識を引き出したり、遠隔で悪意のある行動を引き起こしたりするのを防ぐことを目的としている)は、通常、静的な有害な攻撃文字列のセットに対して、または防御策を考慮せずに設計された計算能力の低い最適化手法に対して評価されています。私たちは、この評価プロセスには欠陥があると主張します。 代わりに、防御策の設計に対抗するために攻撃戦略を明示的に変更し、目的を最適化するためにかなりのリソースを費やす適応型の攻撃者に対して防御策を評価すべきです。勾配降下法、強化学習、ランダムサーチ、人間による探索といった一般的な最適化手法を体系的に調整・スケーリングすることで、12の最近の防御策(多様な技術に基づく)のほとんどで90%以上の攻撃成功率を達成しました。重要なことに、これらの防御策の多くは当初、攻撃成功率がほぼゼロと報告されていました。私たちは、将来の防御策の研究では、私たちが説明したようなより強力な攻撃を考慮し、堅牢性について信頼性のある説得力のある主張を行う必要があると考えます。
人間とモデルの性能を比較することは、埋め込みモデルの強みと限界を理解し、意味やニュアンスを捉える点でどこで成功し、どこで失敗するかを明らかにする上で貴重な視点を提供します。しかし、埋め込みタスクにおける人間の性能を測定することが難しいため、このような比較はほとんど行われていません。このギャップを埋めるため、我々はHUME: Human Evaluation Framework for Text Embeddingsを導入します。MTEBのようなフレームワークはモデル評価を広範に提供しますが、人間の性能の信頼できる推定値が欠けており、モデルスコアの解釈可能性を制限しています。我々は、再ランキング、分類、クラスタリング、意味的テキスト類似性を含む16のMTEBデータセットにわたって、言語的に多様な高リソース言語と低リソース言語における人間の性能を測定します。人間の平均性能は77.6%であり、最高の埋め込みモデルの80.1%に比べて低いものの、変動は大きいです。モデルは一部のデータセットではほぼ天井性能に達する一方、他のデータセットでは苦戦しており、データセットの問題や低リソース言語における欠点が明らかになります。我々は、人間の性能ベースライン、タスクの難易度パターンに関する洞察、そしてモデルのより意味のある解釈を可能にし、モデルとベンチマークの開発に情報を提供する拡張可能な評価フレームワークを提供します。我々のコード、データセット、リーダーボードはhttps://github.com/embeddings-benchmark/mtebで公開されています。
大規模推論モデル(LRMs)は、詳細な連鎖的思考(CoT)説明を生成することで、複雑な推論タスクにおいて印象的な性能を達成してきました。しかし、これらの応答はしばしば過度に長く、冗長な推論ステップを含むため、推論コストを膨らませ、使い勝手を低下させています。精度を犠牲にすることなく生成される推論の長さを制御することは、依然として未解決の課題です。体系的な実証分析を通じて、我々は多様なLRMsにおいて、モデルのエントロピーと応答の長さの間に一貫した正の相関関係があることを明らかにしました:思考段階ではより高いエントロピーを示し、長い応答の探索的行動を反映していますが、最終回答段階ではより低いエントロピーを示し、決定論的な解決策を示しています。この観察は、異なる推論段階でのエントロピーが、簡潔さと性能のバランスを取るための制御ノブとして機能し得ることを示唆しています。この洞察に基づき、本論文では、段階依存のエントロピーを報酬設計に組み込んだ報酬メカニズムであるPhase Entropy Aware Reward(PEAR)を紹介します。PEARは、すべてのトークンを均一に扱うのではなく、思考段階での過剰なエントロピーをペナルティ化し、最終回答段階では適度な探索を許容することで、タスクを正しく解決するための十分な柔軟性を保持した簡潔な推論トレースを生成するようモデルを促します。これにより、明示的な長さの目標や厳格な切り捨てルールに依存することなく、応答の長さを適応的に制御することが可能になります。4つのベンチマークにわたる広範な実験により、PEARがモデルスケールにわたって競争力のある精度を維持しながら、応答の長さを一貫して短縮することが実証されました。さらに、PEARは、訓練分布を超えた分布外(OOD)ロバスト性も強く示しています。我々のコードは以下で利用可能です:https://github.com/iNLP-Lab/PEAR。
AIアシスタントが、サラが2つの仕事を掛け持ちするシングルマザーであることを記憶している場合、彼女が裕福なエグゼクティブであった場合とは異なるストレスの解釈をするだろうか?パーソナライズされたAIシステムが長期ユーザーメモリをますます取り入れる中、このメモリが感情推論をどのように形作るかを理解することが重要である。我々は、人間が検証した感情知能テストを用いて15のモデルを評価し、ユーザーメモリが大規模言語モデル(LLM)の感情知能にどのように影響するかを調査した。その結果、同一のシナリオでも異なるユーザープロファイルと組み合わせると、体系的に異なる感情解釈が生じることがわかった。検証済みのユーザー独立感情シナリオと多様なユーザープロファイルにおいて、いくつかの高性能LLMでは、有利なプロファイルに対してより正確な感情解釈が行われるという体系的バイアスが現れた。さらに、LLMは感情理解と支援的推奨タスクにおいて、人口統計学的要因に基づく著しい格差を示し、パーソナライゼーション機構がモデルの感情推論に社会的階層を埋め込む可能性があることを示唆している。これらの結果は、メモリ強化AIにおける重要な課題を浮き彫りにしている:パーソナライゼーションのために設計されたシステムが、意図せずに社会的不平等を強化する可能性があるということである。
ビデオ拡散モデルにおける直感的な物理理解は、汎用的で物理的に妥当な世界シミュレータを構築する上で重要な役割を果たす。しかし、生成において物理的正しさと視覚的外観を分離する難しさから、その能力を正確に評価することは依然として困難な課題である。そこで本研究では、LikePhysを提案する。これは、訓練を必要としない手法であり、デノイジング目的関数をELBOベースの尤度代理として用いて、物理的に妥当なビデオと不可能なビデオを区別することで、ビデオ拡散モデルの直感的な物理理解を評価する。4つの物理領域にまたがる12のシナリオからなるベンチマークを用いてテストを行い、我々の評価指標であるPlausibility Preference Error (PPE)が、人間の選好と強く一致し、最先端の評価ベースラインを上回ることを示す。さらに、現在のビデオ拡散モデルにおける直感的な物理理解を体系的にベンチマークし、モデル設計と推論設定が直感的な物理理解にどのように影響するかを分析し、物理法則にわたる領域固有の能力の変動を明らかにする。実験結果から、現在のモデルが複雑でカオス的なダイナミクスに苦戦しているものの、モデル能力と推論設定のスケーリングに伴い、物理理解が明らかに向上する傾向があることが示された。
現実的で制御可能な3Dヒューマンアバターの生成は、特に民族性、年齢、服装スタイル、詳細な体型といった広範な属性範囲をカバーする場合、長年の課題となっています。生成モデルのトレーニング用に大規模な人間データセットを収集し注釈を付けることは、非常に高コストであり、規模と多様性が限られています。本論文で取り組む中心的な問いは、既存の基盤モデルを蒸留して、理論的に無制限で豊富な注釈付き3Dヒューマンデータを生成できるかどうかです。私たちはInfiniHumanを紹介します。これは、これらのモデルを相乗的に蒸留し、最小限のコストで理論的に無制限のスケーラビリティを持つ豊富な注釈付きヒューマンデータを生成するフレームワークです。私たちはInfiniHumanDataを提案します。これは、ビジョン言語モデルと画像生成モデルを活用して大規模なマルチモーダルデータセットを作成する完全自動のパイプラインです。ユーザー調査では、自動生成されたアイデンティティがスキャンレンダリングと区別できないことが示されています。InfiniHumanDataには、前例のない多様性を持つ111Kのアイデンティティが含まれています。各アイデンティティには、マルチグラニュラリティのテキスト記述、マルチビューRGB画像、詳細な服装画像、およびSMPL体型パラメータが注釈付けされています。このデータセットを基に、テキスト、体型、および服装アセットに条件付けされた拡散ベースの生成パイプラインであるInfiniHumanGenを提案します。InfiniHumanGenは、高速で現実的かつ精密に制御可能なアバター生成を可能にします。広範な実験により、視覚品質、生成速度、および制御性において最先端の手法を大幅に改善することが示されています。私たちのアプローチは、実用的で手頃なソリューションを通じて、細かい制御を伴う高品質なアバター生成を理論的に無制限のスケールで実現します。自動データ生成パイプライン、包括的なInfiniHumanDataデータセット、およびInfiniHumanGenモデルをhttps://yuxuan-xue.com/infini-humanで公開します。
生成モデルは、現代の機械学習の中核を成し、テキスト、視覚、およびマルチモーダルアプリケーションにおける最先端のシステムを支えている。従来、最尤推定(Maximum Likelihood Estimation)が主要な訓練パラダイムとして用いられてきたが、最近の研究では、特に汎化性能やカタストロフィックフォゲッティングに対する脆弱性において、その限界が指摘されている。これに対して、ポリシー勾配法などの強化学習技術は、明示的な報酬信号に依存するが、実際にはそのような信号が利用できない場合が多く、高品質なデータセットのみが利用可能な状況で生成モデルをどのように整合させるかという根本的な問題が残されている。本研究では、この課題を二段階最適化(Bilevel Optimization)フレームワークを用いて取り組む。ここでは、報酬関数を外側の問題の最適化変数として扱い、内側の問題としてポリシー勾配目的関数を定義する。その後、この最適化問題を理論的に解析し、得られた知見が表形式分類やモデルベース強化学習などのアプリケーションに一般化可能であることを示す。コードはhttps://github.com/abenechehab/nll_to_poで公開している。
事前学習された視覚基盤モデル(VFMs)は、豊富な視覚表現を通じてロボット学習を進化させますが、個々のVFMは通常、特定の領域でのみ優れており、タスク間での汎用性が制限されています。複数のVFMをポリシーのための統一表現に蒸留することでこの制限を緩和できますが、しばしば柔軟性のないタスク固有の特徴選択をもたらし、ロボット領域の知識を組み込むためにコストのかかる完全な再学習を必要とします。我々は、ロボット学習のためのVision Expert Transformer(VER)を提案します。事前学習中に、VERは複数のVFMを視覚エキスパートライブラリに蒸留します。その後、軽量のルーティングネットワーク(パラメータの0.4%未満)のみを微調整し、事前学習されたライブラリからタスクに関連するエキスパートを動的に選択して下流のロボットタスクに適用します。さらに、動的エキスパート選択の柔軟性と精度を向上させるために、Patchwise Expert Routing with Curriculum Top-K Annealingを導入します。また、VERは、スケーラブルなエキスパート利用と適応的なロボット領域知識統合のためのパラメータ効率的な微調整をサポートします。17の多様なロボットタスクと複数のポリシーヘッドにわたって、VERは最先端の性能を達成します。VERは、タスクに関連しない領域(例:背景)での大きなノルムの外れ値を減少させ、タスクの重要な領域に集中することがわかります。視覚化とコードはhttps://yixiaowang7.github.io/ver_page/で見つけることができます。
高品質な事前学習データは大規模言語モデル(LLM)の化石燃料とも言えるが、最先端モデルにとってその埋蔵量は減少しつつある。本論文では、ReProという新しいウェブリサイクル手法を紹介する。この手法では、比較的小規模な言語モデルを強化学習を用いて訓練し、事前学習データの効果的かつ忠実な言い換えを生成する。具体的には、1つの品質報酬と3つの忠実性報酬を設計し、有機データを高品質な言い換えに変換しながらその核心的な意味と構造を維持するようLM言い換え器を最適化する。実験では、4Bの言い換え器を訓練し、DCLM-RefinedWebからサンプリングした72Bトークンをリサイクルした。400Mおよび1.4Bモデルでの事前学習結果は、ReProが22の下流タスクにおいて有機データのみのベースラインに対して4.7%-14.0%の相対的な精度向上をもたらすことを示している。ReProはまた、70Bの言い換え器を用いた最先端のウェブリサイクル手法であるReWireや、4倍大きなデータプールを持つ有機データベースラインをも上回る性能を示した。異なる量のリサイクルデータを用いた実験では、ReProが有機データの効率を2-3倍向上させることが明らかになった。個別および分布的分析により、ReProがプロンプトベースの手法と比較してより重要な情報を保持し、有機データの特性を忠実に反映していることが検証された。これらの結果は、ReProがLLM事前学習の化石燃料を効果的に活用するための効率的で制御可能な道筋を提供することを示している。我々はコード、言い換え器、およびリサイクルデータをhttps://github.com/cxcscmu/ReProで公開している。
有機反応機構とは、反応物が中間体や生成物を形成する段階的な素反応のことであり、化学反応性を理解し、新しい分子や反応を設計する上で基本的なものです。大規模言語モデル(LLM)は、合成設計などの化学タスクを理解する上で有望な成果を示していますが、これがどの程度真の化学的推論能力、すなわち有効な中間体を生成し、化学的一貫性を維持し、論理的に一貫した多段階の経路をたどる能力を反映しているかは不明です。この問題に対処するため、我々は有機化学における有機反応機構推論のための初の大規模で専門家が監修したベンチマークであるoMeBenchを導入します。これには、中間体、タイプラベル、難易度評価を含む10,000以上の注釈付き機構ステップが含まれています。さらに、LLMの能力をより正確に評価し、細かいスコアリングを可能にするために、ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークであるoMeSを提案します。最先端のLLMの性能を分析した結果、現在のモデルは有望な化学的直感を示すものの、正確で一貫した多段階推論には苦戦していることが明らかになりました。特に、プロンプト戦略を使用し、提案したデータセットで専門モデルをファインチューニングすることで、主要なクローズドソースモデルよりも性能が50%向上することがわかりました。oMeBenchが、AIシステムが真の化学的推論に向けて進歩するための厳密な基盤となることを期待しています。
テキストから画像(T2I)モデルは高品質な画像を合成できるが、新規または分布外(OOD)のエンティティをプロンプトとして与えた場合、その性能は内在的な知識の制限により大幅に低下する。本論文では、エージェント駆動の世界知識を活用してT2I生成を強化する新たなフレームワーク「World-To-Image」を提案する。このフレームワークでは、ベースモデルが知らない概念に対して、エージェントが動的にウェブを検索し、関連する画像を取得する。この情報を用いてマルチモーダルプロンプト最適化を行い、強力な生成バックボーンを正確な合成へと導く。重要な点として、我々の評価は従来の指標を超え、LLMGraderやImageRewardといった現代的な評価手法を活用して真の意味的忠実度を測定する。実験結果から、World-To-Imageは意味的整合性と視覚的美観の両面において最先端の手法を大幅に上回り、我々が策定したNICEベンチマークにおいてプロンプトに対する精度で+8.1%の改善を達成した。本フレームワークは、3回未満の反復で高い効率性を実現し、変化し続ける現実世界をより良く反映するT2Iシステムの道を開くものである。デモコードはhttps://github.com/mhson-kyle/World-To-Imageで公開されている。
ChatGPTやAlexa+のような現代の対話エージェントは、メタデータ、応答スタイル、ツール使用ルールを指定する事前定義されたポリシーに依存しています。これらのLLMベースのシステムが多様なビジネスやユーザークエリをサポートするために拡張されるにつれ、コンテキスト内プロンプトとして実装されることが多いこれらのポリシーは、ますます複雑で長大になり、忠実な遵守が困難となり、大きな固定計算コストを課しています。マルチモーダルエージェントの台頭に伴い、視覚的およびマルチモーダルな行動を制御するポリシーは重要ですが、まだ十分に研究されていません。これまでのプロンプト圧縮研究は主にタスクテンプレートとデモンストレーションの短縮に焦点を当てており、既存のポリシーアライメント研究はテキストベースの安全ルールのみに焦点を当てています。本論文では、推論中にポリシーを含めることなく、推論集約型のマルチモーダルポリシーをモデルパラメータに内在化する新しいタスクであるMultimodal Policy Internalization(MPI)を紹介します。MPIは、データとアルゴリズムの面で独自の課題を提起します。私たちは、合成および実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築し、TriMPIという3段階のトレーニングフレームワークを提案します。TriMPIは、まず継続的な事前学習を通じてポリシー知識を注入し、次に教師ありファインチューニングを行い、最後にPolicyRolloutを適用します。PolicyRolloutは、GRPOスタイルの強化学習拡張であり、ポリシーを意識した応答をロールアウトに追加して、接地された探索を可能にします。TriMPIは、エンドツーエンドの精度、一般化、忘却に対するロバスト性において顕著な向上を達成します。マルチモーダルポリシー内在化に関する最初の研究として、データセット、トレーニングレシピ、包括的な評価を提供し、将来の研究を促進します。プロジェクトページ: https://mikewangwzhl.github.io/TriMPI。
一般的な大規模言語モデル(LLM)は推論に優れていますが、翻訳用に強化されたモデルは推論タスクに苦戦します。この問題に対処するため、我々は新しい翻訳強化手法を提案します。この手法は、まず指示モデルから始め、並列データに対してのみ層選択的チューニングを適用します。このパイプラインに従い、Qwen3-XPlusモデルを導入しました。このモデルは、高資源言語と低資源言語の両方で翻訳性能が大幅に向上し、スワヒリ語などの低資源言語において15以上のspBLEUと40以上のxCometを達成しました。興味深いことに、小規模な並列データセットのみでトレーニングを行ったQwen3-XPlusは、7つの多言語タスクで平均1ポイント以上の改善を達成しつつ、15の一般的な推論データセットにおいてQwen3指示モデルと同等の熟練度を維持しました。この研究は、多言語強化への有望なアプローチを提供し、複雑さを大幅に削減し、より広範な言語へのアクセス性を向上させます。コードとモデルは公開されています。
ディープリサーチの中核にあるのは、ユーザーの指示に応じて大規模な非構造化テキストから構造化情報を抽出する知識マイニングのタスクです。大規模言語モデル(LLM)はこのような指示の解釈に優れていますが、大規模展開にはコストがかかりすぎる一方で、従来の分類器と抽出器からなるパイプラインは効率的ではあるものの、脆く、新しいタスクに汎化することができません。本論文では、LLMのエージェント的推論と軽量なプロキシモデルを組み合わせた協調的フレームワークであるFalconerを紹介します。Falconerでは、LLMがプランナーとしてユーザーの指示を実行可能なパイプラインに分解し、アノテーターとして小さなプロキシモデルを訓練するための教師データを生成します。このフレームワークは、分類と抽出を「ラベルを取得する」と「スパンを取得する」という2つの基本的な操作に統一し、単一の指示追従モデルで複数のタスク固有のコンポーネントを置き換えることを可能にします。Falconerによって育成されたプロキシモデルと、人間や大規模モデルが提供するアノテーションとの一貫性を評価するために、プランニングとエンドツーエンドの実行の両方をカバーする新しいベンチマークを構築しました。実験の結果、Falconerは指示追従の精度において最先端のLLMに匹敵しつつ、推論コストを最大90%削減し、大規模な知識マイニングを20倍以上高速化することが示されました。これにより、ディープリサーチのための効率的でスケーラブルな基盤が提供されます。
創造的生成とは、ユーザーの意図を反映しながらも事前に予測できない、新しく驚きがあり価値のあるサンプルを合成するプロセスである。このタスクは、人間の想像力を拡張し、既知の領域間の未開拓な空間に存在する視覚的概念を発見することを目指す。テキストから画像への拡散モデルは、ユーザーのプロンプトに忠実に一致するフォトリアルなシーンを描くことに優れているが、真に新しいコンテンツを生成するにはまだ課題がある。既存の生成創造性を高めるアプローチは、画像特徴の補間に依存しており、これにより探索が事前に定義されたカテゴリに制限されるか、埋め込み最適化やモデルのファインチューニングなどの時間を要する手順を必要とする。我々は、VLM-Guided Adaptive Negative-Promptingを提案する。これは、訓練を必要としない推論時の手法であり、生成されたオブジェクトの妥当性を保ちながら、創造的な画像生成を促進する。我々のアプローチは、生成プロセスの中間出力を分析し、従来の視覚的概念から適応的に逸脱させることで、新しく驚きのある出力の出現を促す視覚言語モデル(VLM)を活用する。創造性を新規性と妥当性の両面から評価し、CLIP埋め込み空間における統計的指標を使用する。広範な実験を通じて、計算オーバーヘッドをほとんど伴わずに、創造的新規性の一貫した向上を示す。さらに、既存の手法が主に単一のオブジェクトを生成するのに対し、我々のアプローチは、創造的なオブジェクトの一貫したセットを生成し、複雑な構成的プロンプト内で創造性を維持するといった複雑なシナリオにも拡張可能である。我々の手法は既存の拡散パイプラインにシームレスに統合され、テキスト記述の制約を超えた創造的な出力を生成するための実用的なルートを提供する。
コンテキスト内学習により、大規模モデルは少数のデモンストレーションから新しいタスクに適応できますが、分子設計では限定的な成功しか示していません。ChEMBLなどの既存のデータベースには数百万の生物学的アッセイにわたる分子特性が含まれていますが、各特性のラベル付きデータは依然として不足しています。この制約に対処するため、テキスト記述の代わりに少数の分子-スコア例を使用してタスクコンテキストを定義するデモンストレーション条件付き拡散モデル(DemoDiff)を導入します。これらのデモンストレーションは、ノイズ除去Transformerを導き、ターゲット特性に沿った分子を生成します。スケーラブルな事前学習のために、モチーフレベルで分子を表現し、ノード数を5.5倍削減するNode Pair Encodingを用いた新しい分子トークナイザーを開発しました。薬物と材料の両方をカバーする複数のソースから数百万のコンテキストタスクを含むデータセットをキュレーションし、0.7億パラメータのモデルを事前学習しました。6カテゴリーの33設計タスクにおいて、DemoDiffは100-1000倍大きい言語モデルに匹敵またはそれを上回り、ドメイン固有アプローチの5.25-10.20に対して平均順位3.63を達成しました。これらの結果は、DemoDiffをコンテキスト内分子設計のための分子基盤モデルとして位置づけます。コードはhttps://github.com/liugangcode/DemoDiffで公開されています。
近年、QwenVL、InternVL、GPT-4o、Gemini、Claude SonnetなどのクラウドベースのMLLM(大規模言語モデル)は、数千億パラメータに及ぶ巨大なモデルサイズで優れた性能を発揮していますが、これらはメモリ、電力消費、計算能力の面で、スマートフォンなどのエッジデバイスの制限を大幅に超えています。本論文では、Qwen3のLLMと様々な視覚エンコーダーに基づく、0.6Bから4Bパラメータのモバイル向けMLLMスイートであるAndesVLを紹介します。AndesVLのモデルアーキテクチャ、トレーニングパイプライン、トレーニングデータを包括的に概説し、テキスト豊富な画像理解、推論と数学、複数画像理解、一般的なVQA、幻覚緩和、多言語理解、GUI関連タスクなどの幅広いオープンソースベンチマークにおいて、同規模の最先端モデルと比較して第一線の性能を達成しています。さらに、1+N LoRA(Low-Rank Adaptation)を導入し、
大規模視覚言語モデル(LVLM)の典型的なポストトレーニングパラダイムには、教師ありファインチューニング(SFT)と検証可能な報酬を用いた強化学習(RLVR)が含まれる。SFTは外部のガイダンスを活用して新たな知識を注入する一方、RLVRは内部の強化学習を利用して推論能力と全体的な性能を向上させる。しかし、我々の分析によれば、SFTはしばしば最適でない性能をもたらし、RLVRはモデルの内部知識ベースを超えるタスクに苦戦する。これらの制約を解決するため、我々はViSurf(Visual Supervised-and-Reinforcement Fine-Tuning)を提案する。ViSurfは、SFTとRLVRの両方の強みを単一の段階で統合する統一的なポストトレーニングパラダイムである。我々はSFTとRLVRの目的関数の導出を分析し、ViSurfの目的関数を確立することで、これら二つのパラダイムに対する統一的な視点を提供する。ViSurfの核心は、RLVRのロールアウトに正解ラベルを注入することで、外部の監視と内部の強化学習を同時に提供することにある。さらに、トレーニングプロセスを安定化し最適化するために、三つの新しい報酬制御戦略を導入する。多様なベンチマークにわたる広範な実験により、ViSurfの有効性が実証され、個別のSFT、RLVR、および二段階のSFT→RLVRを上回る性能を示す。詳細な分析はこれらの結果を裏付け、ViSurfの導出と設計原則を検証する。
指示に基づく動画編集は、急速に進化する研究分野として台頭しており、直感的なコンテンツ変換の新たな可能性を提供する一方で、体系的な評価においても重要な課題を提起しています。既存の動画編集ベンチマークは、指示に基づく動画編集の評価を十分にサポートできておらず、さらにソースの多様性の欠如、タスク範囲の狭さ、評価指標の不完全さといった問題を抱えています。これらの課題に対処するため、我々はIVEBenchを導入しました。これは、指示に基づく動画編集の評価に特化して設計された現代的なベンチマークスイートです。IVEBenchは、7つの意味的次元にわたる600本の高品質なソース動画からなる多様なデータベースを備えており、動画の長さは32フレームから1,024フレームまでをカバーしています。さらに、8つの編集タスクカテゴリと35のサブカテゴリを含み、そのプロンプトは大規模言語モデルと専門家のレビューを通じて生成・精緻化されています。特に重要なのは、IVEBenchが動画品質、指示の遵守度、動画の忠実度という3次元の評価プロトコルを確立している点です。これには、従来の評価指標とマルチモーダル大規模言語モデルに基づく評価が統合されています。大規模な実験を通じて、IVEBenchが最先端の指示に基づく動画編集手法をベンチマークする上での有効性が実証され、包括的かつ人間の判断に沿った評価結果を提供する能力が示されました。
地上型レーザースキャン(TLS)点群の正確なセマンティックセグメンテーションは、高コストな手動アノテーションによって制限されています。本研究では、球面投影、特徴量拡張、アンサンブル学習、およびターゲットアノテーションを統合した半自動化された不確実性認識パイプラインを提案し、ラベリング作業を削減しながら高い精度を維持します。本手法では、3D点群を2D球面グリッドに投影し、ピクセルに多様な特徴量を付加し、セグメンテーションネットワークのアンサンブルを訓練して擬似ラベルと不確実性マップを生成します。不確実性マップは、曖昧な領域のアノテーションをガイドします。2D出力は3Dに逆投影され、3層の可視化スイート(2D特徴マップ、3Dカラー化点群、コンパクトな仮想球体)をサポートした密なアノテーション付き点群を生成し、迅速なトリアージとレビュアーのガイドを可能にします。このパイプラインを使用して、マングローブ林のセマンティックセグメンテーションTLSデータセットであるMangrove3Dを構築しました。さらに、データ効率と特徴量の重要性を評価し、2つの重要な質問に答えます:(1)どれだけのアノテーションデータが必要か、(2)どの特徴量が最も重要か。結果は、約12回のアノテーションスキャン後に性能が飽和し、幾何学的特徴量が最も寄与し、コンパクトな9チャネルのスタックがほぼ全ての識別力を捉え、平均IoU(mIoU)が約0.76で頭打ちになることを示しています。最後に、ForestSemanticとSemantic3Dでのクロスデータセットテストを通じて、特徴量拡張戦略の汎用性を確認しました。 本研究の貢献は以下の通りです:(i)可視化ツールを備えた堅牢な不確実性認識TLSアノテーションパイプライン、(ii)Mangrove3Dデータセット、(iii)データ効率と特徴量の重要性に関する実証的ガイダンス。これにより、生態モニタリングを超えたTLS点群のスケーラブルで高品質なセグメンテーションが可能になります。データセットと処理スクリプトは、https://fz-rit.github.io/through-the-lidars-eye/ で公開されています。
モデル構築の改善、特に強化された安全ガードレールの導入により、大規模言語モデル(LLMs)は標準的な安全チェックを通過する能力をますます高めている。しかし、LLMsは会話中に有害な行動、例えば人種差別的な見解を表明するなど、逸脱することがある。これを体系的に分析するため、我々はCoBiaを導入した。CoBiaは軽量な敵対的攻撃のスイートであり、LLMsが会話中に規範的または倫理的な行動から逸脱する条件の範囲を精緻化することを可能にする。CoBiaは、モデルが特定の社会集団について偏見のある主張を行うように設計された会話を作成する。その後、モデルがその捏造された偏見主張から回復し、偏見のあるフォローアップ質問を拒否できるかどうかを評価する。我々は、個人の安全と公平な扱いに関連する6つの社会人口統計学的カテゴリ(性別、人種、宗教、国籍、性的指向、その他)に関連する出力について、11のオープンソースおよびプロプライエタリなLLMsを評価した。評価は確立されたLLMベースのバイアス指標に基づいて行われ、その結果を人間の判断と比較して、LLMsの信頼性と整合性を明らかにした。結果は、意図的に構築された会話がバイアスの増幅を確実に明らかにし、LLMsが対話中に偏見のあるフォローアップ質問を拒否できないことが多いことを示唆している。この形式のストレステストは、相互作用を通じて表面化する深く埋め込まれたバイアスを浮き彫りにする。コードと成果物はhttps://github.com/nafisenik/CoBiaで利用可能である。
大規模推論モデル(LRM)は複雑な推論に優れているが、従来は静的な「凍結世界」設定で評価されてきた。モデルの応答は瞬時に行われると仮定され、リクエストのコンテキストは応答期間中に不変であると想定されている。短期的なタスクでは一般的にこの「凍結世界」の仮定が成り立つが、現代の推論タスク、例えばアシスタントプログラミングでは、モデルが問題を考えるのに数時間を要し、モデルが思考を開始してから最終的な出力を行うまでの間にコードが劇的に変化するため、この仮定は崩れる。本研究では、凍結世界の仮定に挑戦し、2つの現実的な動的シナリオ下でのLRMの堅牢性を評価する。1つは中断で、限られた予算内でのモデルの部分的な出力の品質をテストし、もう1つは動的コンテキストで、進行中の変化に対するモデルの適応力をテストする。長文推論を必要とする数学およびプログラミングのベンチマークにおいて、静的評価は一貫して堅牢性を過大評価していることが明らかになった。静的設定で高い精度を達成する最先端のLRMでさえ、中断されたり変化するコンテキストにさらされたりすると予測不可能な失敗を起こし、推論プロセスの後半で更新が導入されると性能が最大60%低下する。我々の分析はさらに、いくつかの新しい失敗モードを明らかにした。これには、中断された際にモデルが推論を最終的な答えに折り込む「推論漏れ」、時間的プレッシャーの下でモデルが推論を完全に放棄して誤った答えを返す「パニック」、更新された情報を取り入れる際に性能が低下する「自己疑念」が含まれる。
本論文では、大規模言語モデル(LLM)によって生成されたJavaScriptコードが、どのモデルによって生成されたかを明らかにし、信頼性のある著者帰属とモデルのフィンガープリンティングを可能にするかどうかを探る初の大規模研究を提示します。AI生成コードの急速な台頭に伴い、脆弱性の検出、悪意のあるコンテンツのフラグ付け、責任の確保において、帰属が重要な役割を果たしています。AI対人間の検出では通常、AIを単一のカテゴリーとして扱いますが、我々は個々のLLMが、同じファミリーやパラメータサイズのモデル間であっても、独自のスタイル的署名を残すことを示します。この目的のために、20の大規模言語モデルから生成された50,000のNode.jsバックエンドプログラムを含むLLM-NodeJSデータセットを紹介します。各プログラムには4つの変換バリアントがあり、250,000のユニークなJavaScriptサンプルと、多様な研究アプリケーションのための2つの追加表現(JSIRとAST)が得られます。このデータセットを使用して、従来の機械学習分類器と微調整されたTransformerエンコーダをベンチマークし、770MパラメータのCodeT5モデルから派生したカスタムアーキテクチャであるCodeT5-JSAを紹介します。これはデコーダを除去し、修正された分類ヘッドを備えており、5クラス帰属で95.8%、10クラスで94.6%、20クラスで88.5%の精度を達成し、BERT、CodeBERT、Longformerなどの他のテスト済みモデルを凌駕します。分類器が、プログラムのデータフローと構造における深いスタイル的規則性を捉え、表面的な特徴に依存しないことを示します。その結果、マングリング、コメント削除、大幅なコード変換後でも、帰属が有効であることを示します。オープンサイエンスと再現性を支援するため、LLM-NodeJSデータセット、Google Colabトレーニングスクリプト、および関連資料をGitHubで公開しています: https://github.com/LLM-NodeJS-dataset。
ホールスライド画像の診断は、倍率の変更や視野の移動を伴うインタラクティブで多段階のプロセスである。最近の病理学基盤モデルは強力だが、次にどの視野を調べるか、倍率を調整し、説明可能な診断を下すといった実用的なエージェントシステムはまだ不足している。その障壁はデータにある:教科書やオンラインには記載されていない、暗黙的で経験に基づく専門家の視察行動を、臨床的に整合性を持って大規模に監督する方法が存在しないため、大規模言語モデルのトレーニングには含まれていない。我々は、標準的なWSIビューアと連携して、日常的なナビゲーションを目立たずに記録し、ビューアのログを標準化された行動コマンド(離散的な倍率での検査や覗き見)とバウンディングボックスに変換するAIセッションレコーダーを導入した。軽量な人間のループ内レビューにより、AIが草案した根拠をPathology-CoTデータセットに変換し、「どこを見るか」と「なぜそれが重要か」というペアの監督を、ラベリング時間を約6分の1に抑えて生成した。この行動データを用いて、我々はPathologist-o3を構築した。これは、まず関心領域を提案し、その後行動ガイド付き推論を行う2段階のエージェントである。胃腸リンパ節転移の検出において、84.5%の精度、100.0%の再現率、75.4%の正確度を達成し、最先端のOpenAI o3モデルを上回り、バックボーンを超えて汎化した。我々の知る限り、これは病理学における最初の行動に基づくエージェントシステムの一つである。日常的なビューアログを大規模で専門家が検証した監督に変換する我々のフレームワークは、エージェント病理学を実用的にし、人間に整合したアップグレード可能な臨床AIへの道を確立する。
大規模言語モデル(LLM)は「アインシュタインはいつ生まれたか?」という質問には正しく答えられるが、アインシュタインの生涯について書く際には同じ日付を提供できないことがあり、タスクの複雑さに応じてモデルが事実知識にアクセスする方法に根本的な不整合が存在することを明らかにしています。モデルは事実質問応答ベンチマークで印象的な精度を示す一方で、単純なクエリと複雑なクエリの間の信頼性のギャップは十分に理解されておらず、その信頼性を損なっています。本研究では、Short-Long Form Alignment for Factual Question Answering(SLAQ)を導入し、LLMが同じ事実質問に対して(a)単独で(短い形式)と(b)複雑なクエリに統合された形(長い形式)で答える場合を比較する制御された評価フレームワークを提案します。16のLLMと600のクエリを対象に調査した結果、短いクエリと長いクエリに対する回答の間に系統的な不一致が見られました。さらに、位置依存的な精度の低下や、連続した正解または不正解が自己強化パターンを生み出すモメンタム効果も明らかになりました。メカニズム分析を通じて、整合した事実はモデルの内部構造の重複部分を活性化し、メカニズムの類似性に基づく指標が短い形式と長い形式の回答の整合性を最大78%の精度で予測できることがわかりました。本研究は、クエリの複雑さにわたる事実の一貫性をLLMの信頼性の重要な側面として確立し、単純な事実質問での良好な性能がより複雑な知識探索タスクでの信頼性も意味すると暗黙的に仮定する現在の評価手法に疑問を投げかけます。
ビデオインビートウィーニングは、2つの画像フレーム間の滑らかで自然な遷移を作成するため、ビデオ編集や長尺ビデオ合成において不可欠なツールとなっています。この分野における既存の研究は、大規模で複雑、または入り組んだ動きを生成することができません。特に、ユーザーの意図の多様性に対応できず、中間フレームの詳細に対する細かな制御が欠けているため、クリエイティブな意図との不一致が生じています。これらのギャップを埋めるため、我々はMultiCOINを提案します。これは、深度遷移とレイヤリング、モーショントラジェクトリ、テキストプロンプト、動きの局所化のためのターゲット領域など、多様なモーダル制御を可能にするビデオインビートウィーニングフレームワークであり、柔軟性、使いやすさ、細かいビデオ補間の精度のバランスを実現します。これを実現するため、高品質な長尺ビデオを生成する能力が実証されているDiffusion Transformer (DiT) アーキテクチャをビデオ生成モデルとして採用しました。DiTと多様なモーダル制御の互換性を確保するため、すべてのモーション制御を共通のスパースでユーザーフレンドリーなポイントベースの表現としてビデオ/ノイズ入力にマッピングします。さらに、異なる粒度と影響力で動作する制御の多様性を尊重するため、コンテンツ制御とモーション制御を2つのブランチに分離し、必要な特徴をエンコードしてからノイズ除去プロセスをガイドし、モーション用とコンテンツ用の2つのジェネレータを生成します。最後に、多様なモーダル制御をスムーズに学習するための段階的なトレーニング戦略を提案します。広範な定性的および定量的実験により、多様なモーダル制御がよりダイナミックでカスタマイズ可能、かつ文脈的に正確なビジュアルナラティブを実現することが示されました。