翻訳付きの日次キュレーションされたAI研究論文
解釈可能性手法は近年、特に大規模言語モデルの文脈において注目を集めており、言語表現の洞察、エラー検出、幻覚や繰り返しといったモデルの挙動の理解を可能にしている。しかし、これらの技術は自動音声認識(ASR)においては未だ十分に探求されておらず、ASRシステムの性能と解釈可能性の両方を向上させる可能性を秘めている。本研究では、ロジットレンズ、線形プロービング、アクティベーションパッチングといった確立された解釈可能性手法を適応し、体系的に適用することで、ASRシステムにおける音響情報と意味情報が層を跨いでどのように進化するかを検証する。実験を通じて、繰り返し幻覚を引き起こす特定のエンコーダ-デコーダ間の相互作用や、音響表現の深層にエンコードされた意味的バイアスなど、これまで知られていなかった内部ダイナミクスを明らかにした。これらの知見は、音声認識に解釈可能性手法を拡張し適用することの利点を示しており、モデルの透明性と堅牢性を向上させるための今後の研究において有望な方向性を開くものである。
Vision-Language Models(VLM)は、しばしば視覚的幻覚(画像に実際には存在しない内容を述べる)と言語的ショートカット(視覚部分をスキップしてテキストの事前知識に依存する)に悩まされます。これらの問題は、VLMのほとんどのポストトレーニング手法が単純な検証可能な回答マッチングに依存し、最終出力のみを監督するため、中間的な視覚的推論に明示的なガイダンスが与えられないことに起因します。その結果、VLMは視覚信号を疎に受け取り、視覚的知覚よりも言語ベースの推論を優先する傾向があります。これを緩和するため、既存の手法では人間のアノテーションや外部の大規模モデルから蒸留したラベルを使用して視覚的監督を追加しています。しかし、人間のアノテーションは労力とコストがかかり、外部信号は進化するポリシーに適応できないため、分布シフトを引き起こし、報酬ハッキングを招く可能性があります。本論文では、外部の視覚的監督に依存せず、強化学習を通じて視覚的推論を改善する自己報酬型手法「Vision-SR1」を提案します。Vision-SR1は、VLMの推論を視覚的知覚と言語的推論の2段階に分解します。まず、モデルに自己完結した視覚的知覚を生成させ、入力画像を参照せずに質問に答えるのに十分な内容を提示させます。この自己完結性を検証するため、同じVLMモデルを再プロンプトし、生成された知覚のみを入力として言語的推論を行い、報酬を計算します。この自己報酬は最終出力の監督と組み合わされ、視覚的知覚と言語的推論の両方を強化するバランスの取れたトレーニング信号を提供します。実験結果は、Vision-SR1が多様な視覚言語タスクにおいて視覚的推論を改善し、視覚的幻覚を緩和し、言語的ショートカットへの依存を軽減することを示しています。
グラフィカルユーザーインターフェース(GUI)向けの自律エージェントは、科学計算などの専門領域において、長期的な計画と精密な実行の両方が求められるため、大きな課題に直面しています。既存のアプローチでは、汎用エージェントは計画立案に優れるものの実行が不十分であり、専門エージェントはその逆の弱点を示すというトレードオフが存在します。最近の構成論的フレームワークは、プランナーとアクターを組み合わせることでこのギャップを埋めようとしていますが、これらは通常静的で学習不可能であり、経験からの適応が妨げられています。これは、科学領域における高品質なデータの不足を考えると重大な制約です。これらの制約に対処するため、我々はCODAという新しい学習可能な構成論的フレームワークを提案します。CODAは、汎用プランナー(Cerebrum)と専門エグゼキューター(Cerebellum)を統合し、専用の2段階パイプラインを通じて学習されます。第1段階の「専門化」では、分離されたGRPOアプローチを適用し、各科学アプリケーションに対して個別に専門プランナーを学習させ、少数のタスク軌跡からブートストラップします。第2段階の「一般化」では、専門家から得られたすべての成功軌跡を集約し、統合データセットを構築します。このデータセットは、最終プランナーの教師ありファインチューニングに使用されます。これにより、CODAは堅牢な実行能力とクロスドメイン汎化能力を兼ね備えます。ScienceBoardベンチマークの4つの挑戦的なアプリケーションで評価された結果、CODAはベースラインを大幅に上回り、オープンソースモデルの中で新たな最先端を確立しました。
近年、インタラクティブなデジタルヒューマンビデオ生成が広く注目を集め、顕著な進展を遂げています。しかし、多様な入力信号とリアルタイムで相互作用できる実用的なシステムを構築することは、既存の手法にとって依然として課題であり、高いレイテンシ、重い計算コスト、制御性の限界に悩まされることが多いです。本研究では、ストリーミング方式でインタラクティブなマルチモーダル制御と低レイテンシの外挿を可能にする自己回帰型ビデオ生成フレームワークを提案します。標準的な大規模言語モデル(LLM)に最小限の変更を加えることで、本フレームワークは音声、ポーズ、テキストを含むマルチモーダル条件エンコーディングを受け入れ、拡散ヘッドのノイズ除去プロセスを導く空間的・意味的に一貫した表現を出力します。これを支援するため、複数のソースから約20,000時間の大規模な対話データセットを構築し、トレーニングのための豊富な会話シナリオを提供します。さらに、最大64倍の圧縮率を実現する深層圧縮オートエンコーダを導入し、自己回帰モデルの長期間推論負担を効果的に軽減します。双方向会話、多言語人間合成、インタラクティブな世界モデルに関する広範な実験を通じて、本アプローチの低レイテンシ、高効率、きめ細かいマルチモーダル制御性の利点を強調します。
Vision-Language-Action (VLA)モデルは、大規模な視覚言語バックボーンを適応させ、画像と指示をロボットのアクションにマッピングします。しかし、既存のVLAデコーダは、固定された左から右の順序で自己回帰的にアクションを生成するか、バックボーンの外部に連続的な拡散またはフローマッチングヘッドを付加しており、専門的なトレーニングと反復サンプリングを必要とし、統一されたスケーラブルなアーキテクチャを妨げています。本論文では、Discrete Diffusion VLAを提案します。これは、離散拡散を用いて離散化されたアクションチャンクをモデル化し、VLMバックボーンと同じクロスエントロピー目的関数でトレーニングされる単一トランスフォーマーポリシーです。この設計は、拡散の漸進的改良パラダイムを保持しつつ、VLMの離散トークンインターフェースとネイティブに互換性があります。本手法は、容易なアクション要素を先に解決し、難しい要素を後に回す適応的なデコード順序を実現し、二次的なリマスキングを用いて不確実な予測を改良ラウンド間で再訪することで、一貫性を向上させ、堅牢なエラー修正を可能にします。この統一デコーダは、事前学習済みの視覚言語事前分布を保持し、並列デコードをサポートし、自己回帰的ボトルネックを打破し、関数評価の回数を削減します。Discrete Diffusion VLAは、LIBEROで96.3%の平均成功率、SimplerEnv Fractalで71.2%の視覚マッチング率、SimplerEnv Bridgeで49.3%の総合スコアを達成し、自己回帰および連続拡散ベースラインを上回りました。これらの結果は、離散拡散アクションデコーダが精密なアクションモデリングと一貫したトレーニングをサポートし、VLAをより大規模なモデルとデータセットにスケーリングするための基盤を築くことを示しています。
最近の研究では、分析的推論や常識的推論といったソフト推論問題において、Chain-of-Thought(CoT)がもたらす効果が限定的であることが示されています。さらに、CoTはモデルの実際の推論プロセスに忠実でない場合もあります。本研究では、指示チューニングされたモデル、推論モデル、および推論蒸留モデルにおけるソフト推論タスクでのCoTの動態と忠実性を調査しました。その結果、これらのモデルがCoTに依存する方法に違いがあること、またCoTの影響力と忠実性が必ずしも一致しないことが明らかになりました。
近年のテキストから音声(TTA)生成の進展は、短い音声クリップの合成において優れた成果を上げているが、時間的な一貫性と構成的推論を必要とする長編ナラティブ音声の生成には課題を抱えている。このギャップを埋めるため、我々はAudioStoryを提案する。これは、大規模言語モデル(LLM)とTTAシステムを統合し、構造化された長編音声ナラティブを生成する統一フレームワークである。AudioStoryは、強力な指示追従型推論生成能力を有しており、LLMを用いて複雑なナラティブクエリを文脈的な手がかりとともに時間的に順序付けられたサブタスクに分解し、一貫したシーン遷移と感情的なトーンの一貫性を実現する。AudioStoryには2つの魅力的な特徴がある:(1)分離されたブリッジングメカニズム:AudioStoryは、LLMとディフューザーの協力を、イベント内の意味的整合性を図るブリッジングクエリと、イベント間の一貫性を保つ残差クエリという2つの専門化されたコンポーネントに分離する。(2)エンドツーエンドのトレーニング:指示理解と音声生成を単一のエンドツーエンドフレームワーク内に統合することで、AudioStoryはモジュール型トレーニングパイプラインの必要性を排除し、コンポーネント間のシナジーを強化する。さらに、我々はアニメーションサウンドスケープや自然音ナラティブなど多様なドメインを網羅するベンチマークAudioStory-10Kを確立した。広範な実験により、AudioStoryは単一音声生成およびナラティブ音声生成の両方において、従来のTTAベースラインを指示追従能力と音声忠実度の両面で凌駕する優位性を示した。我々のコードはhttps://github.com/TencentARC/AudioStoryで公開されている。
拡散言語モデル(DLMs)は最近、自己回帰的アプローチの代替として登場し、並列シーケンス生成と柔軟なトークン順序を提供している。しかし、その推論速度は依然として自己回帰モデルよりも遅く、主に双方向注意のコストと高品質な出力を得るために必要な多数の精緻化ステップが原因である。本研究では、DLMsの早期回答収束という見過ごされがちな特性に注目し、それを活用する。具体的には、多くの場合、半自己回帰的およびランダムリマスキングスケジュールの下で、最終デコードステップの前に半数のステップで正しい回答を内部で識別できることを示す。例えば、GSM8KとMMLUでは、それぞれ最大97%と99%のインスタンスが、精緻化ステップの半数だけで正しくデコードできる。この観察に基づき、我々はProphetを導入する。これは、トレーニング不要の高速デコードパラダイムであり、早期コミットデコードを可能にする。具体的には、Prophetは、トップ2の予測候補間の信頼度ギャップを基準として、精緻化を続行するか「オールイン」(つまり、残りのトークンを1ステップでデコードする)かを動的に決定する。既存のDLM実装にシームレスに統合され、無視できるオーバーヘッドしか発生せず、追加のトレーニングも不要である。LLaDA-8BとDream-7Bを用いた複数タスクでの実証評価では、Prophetがデコードステップ数を最大3.4倍削減しつつ、高い生成品質を維持することが示された。これらの結果は、DLMデコードをサンプリングをいつ停止するかという問題として再定義し、早期デコード収束が既存の高速化技術を補完するシンプルかつ強力なメカニズムを提供することを示している。我々のコードはhttps://github.com/pixeli99/Prophetで公開されている。
マルチトークン予測(MTP)は、言語モデルの訓練における次トークン予測(NTP)を改善するための補助目的として提案されてきましたが、標準的なNLPベンチマークでは一貫した改善が見られず、性能が低いことが報告されています。本研究では、MTPの正確な未来トークン予測が補助損失として過度に困難であると主張します。代わりに、学習順序予測(TOP)を提案します。TOPは、学習順序損失を用いて、モデルに近接性に基づいて将来のトークンを順序付けることを訓練します。TOPは、MTPの複数のトランスフォーマーレイヤーと比較して、単一の追加のアンベディング層のみを必要とします。340M、1.8B、7BパラメータのモデルをNTP、MTP、TOPの目的で事前訓練しました。8つの標準NLPベンチマークでの結果は、TOPがスケールにおいてもNTPとMTPの両方を全体的に上回ることを示しています。私たちのコードはhttps://github.com/zaydzuhri/token-order-predictionで公開されています。
モデルが複雑な問題を解決するために多段階の推論戦略を活用するにつれて、これらの中間ステップの論理的妥当性を監督することが重要な研究課題となっている。プロセス報酬モデルは、ステップバイステップのフィードバックを提供することでこの課題に対処するが、現在のアプローチには2つの主要な欠点がある。それらは通常、説明を提供せずに分類器として機能し、静的なデータセットを用いた教師ありファインチューニングに依存しているため、一般化が制限される。最近の進展に触発され、我々は段階的報酬モデリングを分類タスクから推論タスクそのものとして再構築する。そこで、ポリシーモデルの推論ステップ(すなわち、メタ推論)について推論し、最終的な判断を下す前に思考トークンを出力する生成的判断モデルを提案する。我々のモデル、StepWiserは、ロールアウトの相対的な結果を用いた強化学習によって訓練される。我々は、このモデルが(i)既存の手法よりも中間ステップにおける判断精度が高いこと、(ii)訓練時にポリシーモデルを改善するために使用できること、(iii)推論時の検索を改善することを示す。
リモートフォトプレチスモグラフィ(rPPG)の進展は、既存の公開データセットが抱える重要な課題によって制限されています。それらの課題とは、データセットの規模が小さいこと、顔の動画に伴うプライバシー上の懸念、そして条件の多様性の欠如です。本論文では、rPPGおよび健康バイオマーカー推定のための、新規で包括的な大規模マルチビュー動画データセットを紹介します。私たちのデータセットは、600名の被験者から得られた3600件の同期された動画記録で構成されており、複数のコンシューマーグレードカメラを用いて異なる角度から、安静時および運動後の様々な条件下で撮影されています。生理状態の多モーダル分析を可能にするため、各記録には100HzのPPG信号と、心電図、動脈血圧、バイオマーカー、体温、酸素飽和度、呼吸数、ストレスレベルなどの拡張された健康指標がペアで記録されています。このデータを用いて、効率的なrPPGモデルを訓練し、その品質をクロスデータセットシナリオにおける既存のアプローチと比較します。私たちのデータセットとモデルの公開は、AI医療アシスタントの開発における進展を大幅に加速するはずです。
スマートフォンはユーザーに多大な利便性をもたらす一方で、様々な種類の個人情報を広範に記録することを可能にします。マルチモーダル大規模言語モデル(MLLMs)を基盤とする既存のスマートフォンエージェントは、様々なタスクの自動化において顕著な性能を発揮しています。しかし、その代償として、これらのエージェントは動作中にユーザーの機密情報に大幅なアクセス権を付与されています。これらのエージェントのプライバシー認識を徹底的に理解するため、私たちは知る限り初の大規模なベンチマークを提示します。このベンチマークは7,138のシナリオを網羅しています。さらに、シナリオ内のプライバシー文脈について、そのタイプ(例:アカウント認証情報)、感度レベル、および位置を注釈しています。その後、利用可能な7つの主要なスマートフォンエージェントを慎重にベンチマークしました。その結果、ベンチマークされたほぼ全てのエージェントが満足のいくプライバシー認識(RA)を示さず、明示的なヒントがあっても性能は60%未満にとどまることが明らかになりました。全体的に、クローズドソースのエージェントはオープンソースのものよりも優れたプライバシー能力を示し、Gemini 2.0-flashが最高のRA 67%を達成しました。また、エージェントのプライバシー検出能力はシナリオの感度レベルと強く関連しており、感度レベルが高いシナリオほど通常識別されやすいことが分かりました。これらの発見が、スマートフォンエージェントに関するユーティリティとプライバシーの不均衡なトレードオフについて研究コミュニティが再考するきっかけとなることを願っています。私たちのコードとベンチマークはhttps://zhixin-l.github.io/SAPA-Benchで公開されています。
視覚言語モデル(VLM)が異なる表現間で一貫した推論を行っているかどうかを評価することは困難です。なぜなら、モダリティ間の比較は通常、タスクの違いや非対称な情報によって混同されるためです。本研究では、SEAMというベンチマークを導入します。SEAMは、既存の標準化されたテキスト表記と視覚表記を持つ4つの領域において、意味的に等価な入力をペアリングします。OCRベースの画像-テキストペアリングとは異なり、異なる表記体系をモダリティ間で採用することで、SEAMはVLMのテキスト-記号的推論能力と視覚-空間的推論能力を厳密に比較評価します。21の最新モデルを対象とした実験では、体系的にモダリティ間の不均衡が観察されました。視覚は言語に比べて全体的な性能が低く、問題が意味的に等価な情報を含んでいるにもかかわらず、クロスモーダルな一致度は比較的低いことがわかりました。エラー分析から、主な要因として2つが明らかになりました。1つは、領域表記におけるトークン化によるテキスト知覚の失敗、もう1つは幻覚を引き起こす視覚知覚の失敗です。また、視覚的変換に対して結果がほぼロバストであることも示しました。SEAMは、モダリティに依存しない推論を測定し改善するための、制御された意味的等価性を保証する設定を確立します。
モーション生成は、仮想キャラクターやエンボディドエージェントのアニメーションにおいて不可欠である。近年のテキスト駆動型手法は大きな進歩を遂げているが、言語記述とモーションの意味論との正確な整合性を達成することや、遅くて多段階の推論に伴う非効率性に課題を抱えている。これらの問題に対処するため、我々はTMR++ Aligned Preference Optimization (TAPO)を提案する。これは、微妙なモーションのバリエーションをテキスト修飾子と整合させ、反復的な調整を組み込むことで意味的基盤を強化する革新的なフレームワークである。さらに、リアルタイム合成を可能にするために、決定論的な整流フローマッチングに基づく高速生成フレームワークであるMotionFLUXを提案する。従来の拡散モデルが数百回のノイズ除去ステップを必要とするのに対し、MotionFLUXはノイズ分布とモーション空間の間の最適輸送経路を構築し、リアルタイム合成を促進する。線形化された確率経路は、逐次的手法に典型的な多段階サンプリングの必要性を低減し、モーション品質を損なうことなく推論時間を大幅に短縮する。実験結果は、TAPOとMotionFLUXが統合されたシステムが、意味的一貫性とモーション品質の両方において最先端の手法を上回り、生成速度も加速することを示している。コードと事前学習済みモデルは公開される予定である。
研究と知識の統合能力は、人間の専門性と進歩の中核をなすものである。新たに登場するシステムの一群は、生成的研究統合を通じてこれらの魅力的な能力を提供することを約束しており、ライブウェブ上での検索を行い、発見された情報源を長文で引用付きの要約に統合する。しかし、そのようなシステムを評価することは未解決の課題である:既存の質問応答ベンチマークは短い事実ベースの回答に焦点を当てており、専門家がキュレートしたデータセットは陳腐化やデータ汚染のリスクを抱えている。どちらも実際の研究統合タスクの複雑さと進化する性質を捉えることに失敗している。本研究では、DeepScholar-benchを紹介する。これは、生成的研究統合を評価するために設計されたライブベンチマークと包括的で自動化された評価フレームワークである。DeepScholar-benchは、最近の高品質なArXiv論文からクエリを抽出し、実際の研究統合タスクに焦点を当てている:先行研究を検索し、統合し、引用することで、論文の関連研究セクションを生成する。我々の評価フレームワークは、知識統合、検索品質、検証可能性という3つの主要な次元にわたってパフォーマンスを包括的に評価する。また、LOTUS APIを効率的に使用して実装された参照パイプラインであるDeepScholar-baseを開発した。DeepScholar-benchフレームワークを使用して、既存のオープンソースシステム、Search AI、OpenAIのDeepResearch、およびDeepScholar-baseの体系的な評価を行った。その結果、DeepScholar-baseは強力なベースラインを確立し、他の各手法と比較して競争力のあるまたはそれ以上のパフォーマンスを達成することがわかった。また、DeepScholar-benchはまだ飽和しておらず、すべてのメトリクスにおいて19%を超えるスコアを達成したシステムはなかった。これらの結果は、DeepScholar-benchの難しさと、生成的研究統合が可能なAIシステムに向けた進歩におけるその重要性を強調している。我々はコードをhttps://github.com/guestrin-lab/deepscholar-benchで公開している。
大規模言語モデル(LLMs)の運用はGPU集約的なタスクであり、特に現代のPrefill-Decode(P/D)分離アーキテクチャにおいて、従来のオートスケーラーでは十分な対応が難しい。このアーキテクチャの変化は強力である一方、異種ハードウェアの非効率的な使用、ネットワークのボトルネック、Prefill段階とDecode段階の間の深刻な不均衡など、重要な運用上の課題を引き起こす。本論文では、P/D分離型運用の核心的な課題に対処する協調的オートスケーリングフレームワーク「HeteroScale」を提案する。HeteroScaleは、異種ハードウェアとネットワーク制約に適応するトポロジー認識スケジューラと、本番環境におけるオートスケーリングシグナルの大規模な実証研究に基づく新規なメトリック駆動ポリシーを組み合わせている。単一の堅牢なメトリックを活用してPrefillプールとDecodeプールを共同でスケーリングすることで、HeteroScaleはアーキテクチャのバランスを維持しつつ、効率的で適応的なリソース管理を実現する。数万のGPUを擁する大規模な本番環境に導入されたHeteroScaleは、平均GPU使用率を26.6パーセンテージポイント向上させ、毎日数十万GPU時間を節約する効果を証明し、厳格なサービスレベル目標を維持している。
材料モデリングのための基盤モデルは急速に進歩していますが、そのトレーニングは依然として高コストであり、最先端の手法を多くの研究グループが利用できない状況が続いています。本論文では、Nequixを紹介します。これは、簡素化されたNequIP設計と現代的なトレーニング手法(等変RMSレイヤー正規化やMuonオプティマイザなど)を組み合わせたコンパクトなE(3)-等変ポテンシャルであり、精度を維持しながら計算リソースを大幅に削減します。JAXで構築されたNequixは70万パラメータを持ち、500 A100-GPU時間でトレーニングされました。Matbench-DiscoveryおよびMDR Phononベンチマークにおいて、Nequixは総合3位を獲得し、他のほとんどの手法の4分の1以下のトレーニングコストで済み、現在のトップモデルよりも桁違いに高速な推論速度を実現しています。モデルウェイトと完全に再現可能なコードベースをhttps://github.com/atomicarchitects/nequixで公開しています。
本論文は、モデルコンテキストプロトコル(MCP)ベースのエージェントシステムにおける新たな脆弱性クラスを特定し、分析する。この攻撃連鎖は、個別に承認された良性のタスクがどのように調整されて有害な創発的挙動を生み出すかを記述し、実証する。MITRE ATLASフレームワークを用いた体系的な分析を通じて、ブラウザ自動化、財務分析、位置追跡、コードデプロイメントなど複数のサービスにアクセス可能な95のエージェントが、正当な操作を連鎖させて、個々のサービスのセキュリティ境界を超える高度な攻撃シーケンスを生成する方法を示す。これらのレッドチーム演習は、現在のMCPアーキテクチャが、大規模なカテゴリの合成攻撃を検出または防止するために必要なクロスドメインセキュリティ対策を欠いているかどうかを調査する。具体的な攻撃連鎖の実証例として、データ流出、財務操作、インフラストラクチャの侵害などを通じて標的型の危害を達成する事例を提示する。これらの発見は、エージェントが複数のドメインにわたって行動を調整できる場合、サービスの分離という基本的なセキュリティ前提が崩れ、追加される能力ごとに指数関数的に拡大する攻撃面が生じることを明らかにする。本研究は、エージェントがMCPベンチマークタスクを完了できるかどうかではなく、それらを過剰に最適化し、人間の期待や安全制約に違反する形で複数のサービスを横断する際に何が起こるかを評価するための最小限の実験的フレームワークを提供する。既存のMCPベンチマークスイートを使用した3つの具体的な実験方向性を提案する。