翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は推論において優れた能力を発揮するが、その振る舞いをタスク目標に適合させるためには、学習後の調整が依然として重要である。既存の強化学習(RL)手法は、高コストな人間によるアノテーションや外部の報酬モデルに依存することが多い。本論文では、モデル自身の自信を報酬信号として利用する「自己信頼による強化学習(Reinforcement Learning via Self-Confidence, RLSC)」を提案する。これにより、ラベル、選好モデル、または報酬設計の必要性が排除される。Qwen2.5-Math-7Bに対して、1問あたり16サンプル、10または20の学習ステップのみで適用した結果、RLSCはAIME2024で+13.4%、MATH500で+21.2%、Minerva Mathで+21.7%、Olympiadbenchで+20.8%、AMC23で+9.7%の精度向上を達成した。RLSCは、推論モデルに対するシンプルでスケーラブルな学習後調整手法を提供し、わずかなサンプルとラベルなしの監督のみを必要とする。
拡散モデリングにおける顕著なブレークスルーにより、ビデオ生成の急速な進化がもたらされたが、現在の基盤モデルは、プロンプトの忠実度、動作の妥当性、視覚的品質を同時にバランスさせるという重要な課題に直面している。本報告では、高性能かつ推論効率の高いビデオ基盤生成モデル「Seedance 1.0」を紹介する。このモデルは、以下の核心的な技術的改善を統合している:(i) 精度と意味のあるビデオキャプションを強化したマルチソースデータキュレーションにより、多様なシナリオにわたる包括的な学習を可能にする。(ii) 提案されたトレーニングパラダイムを備えた効率的なアーキテクチャ設計により、マルチショット生成のネイティブサポートと、テキストからビデオおよび画像からビデオのタスクの共同学習を実現する。(iii) 細粒度の教師ありファインチューニングと、多次元報酬メカニズムを活用したビデオ固有のRLHF(人間によるフィードバックを用いた強化学習)を活用した慎重に最適化されたポストトレーニングアプローチにより、包括的な性能向上を図る。(iv) 多段階蒸留戦略とシステムレベルの最適化を通じて、約10倍の推論速度向上を実現する優れたモデル加速。Seedance 1.0は、1080p解像度の5秒間のビデオをわずか41.4秒(NVIDIA-L20)で生成できる。最先端のビデオ生成モデルと比較して、Seedance 1.0は、優れた時空間的流動性と構造的安定性を備えた高品質かつ高速なビデオ生成、複雑なマルチサブジェクトコンテキストにおける正確な指示遵守、一貫したサブジェクト表現を伴うネイティブなマルチショットナラティブの一貫性において際立っている。
既存の大規模ビデオ生成モデルは計算負荷が高く、リアルタイムおよびインタラクティブなアプリケーションでの採用が妨げられています。本研究では、事前学習済みの潜在ビデオ拡散モデルをリアルタイムかつインタラクティブなビデオ生成器に変換するための自己回帰的敵対的ポストトレーニング(AAPT)を提案します。我々のモデルは、単一のニューラル関数評価(1NFE)を用いて、一度に1つの潜在フレームを自己回帰的に生成します。このモデルは、結果をリアルタイムでユーザーにストリーミングし、次の潜在フレームを生成するための制御としてインタラクティブな応答を受け取ることができます。既存のアプローチとは異なり、我々の手法は自己回帰的生成のための効果的なパラダイムとして敵対的トレーニングを探求します。これにより、1ステップ生成に対してより効率的なアーキテクチャを設計しつつ、KVキャッシュを完全に活用することが可能となるだけでなく、長いビデオ生成中の誤差蓄積を効果的に低減する学生強制方式でのモデルトレーニングも可能となります。実験結果から、我々の8Bモデルは、単一のH100上で736x416解像度、または8xH100上で1280x720解像度のリアルタイム24fpsストリーミングビデオ生成を最大1分間(1440フレーム)達成することが示されました。詳細は研究ウェブサイト(https://seaweed-apt.com/2)をご覧ください。
自己回帰型大規模言語モデル(AR-LLM)は、逐次生成においてしばしば暗黙の並列性を示す。これに着想を得て、我々はネイティブな並列生成を可能にする新しい生成モデル「Multiverse」を提案する。MultiverseはMapReduceパラダイムを内部化し、3つの段階を通じて自動的に生成を行う:(i) 適応的なタスク分解を行うMap段階、(ii) 並列サブタスク実行を行うProcess段階、(iii) ロスレスな結果合成を行うReduce段階。次に、データ、アルゴリズム、システムの協調設計により、現実世界のMultiverse推論モデルを構築し、最先端のAR-LLMからの迅速かつシームレスな移行を可能にする。逐次推論チェーンを出発点として、自動化されたLLM支援パイプラインを用いて構造化トレーニングデータに変換し、高コストな人間のアノテーションを回避してMultiverse 1Kを作成する。アルゴリズム的には、並列推論ステップを分離しつつ、効率的な訓練のための因果的注意機構との互換性を保つMultiverse Attentionを設計する。システム的には、並列推論を可能にするMultiverse Engineを実装する。これには、モデルによって直接トリガーされる専用スケジューラが含まれ、逐次生成と並列生成を動的に切り替える。1,000例を用いた3時間のファインチューニング後、我々のMultiverse-32Bは、同じスケールの主要なAR-LLMと同等の性能を達成する唯一のオープンソース非ARモデルとして立ち、AIME24および25スコアでそれぞれ54%および46%を記録した。さらに、予算管理実験では、Multiverse-32Bが優れたスケーリングを示し、同じコンテキスト長を使用してAR-LLMを平均1.87%上回ることが確認された。このスケーリングは実用的な効率向上にもつながり、さまざまなバッチサイズで最大2倍の高速化を達成する。我々は、データ、モデル重み、エンジン、支援ツール、完全なデータキュレーションプロンプト、詳細な訓練および評価レシピを含むMultiverseエコシステム全体をオープンソースとして公開している。
AI生成コンテンツは、単一のモデルからモジュール型のワークフローへと進化し、特にComfyUIのようなプラットフォームでは、クリエイティブパイプラインにおけるカスタマイズが可能となっている。しかし、効果的なワークフローを構築するためには、多数の専門的なコンポーネントを調整するための高度な専門知識が必要であり、ユーザーにとっては急峻な学習曲線が存在する。この課題に対処するため、我々は自動ワークフロー生成のための初の大規模推論モデルであるComfyUI-R1を提案する。我々がキュレートした4Kのワークフローデータセットを基に、ノード選択、ワークフロー計画、コードレベルのワークフロー表現を含む長い連鎖的思考(CoT)推論データを構築する。ComfyUI-R1は、二段階のフレームワークを通じて訓練される:(1) コールドスタートのためのCoTファインチューニングにより、モデルをComfyUIドメインに適応させる;(2) 推論能力を促進するための強化学習を、細かいルールとメトリックを組み合わせた報酬に基づいて行い、フォーマットの妥当性、構造の整合性、ノードレベルの忠実性を確保する。実験結果では、7Bパラメータのモデルが97%のフォーマット妥当率を達成し、高い合格率、ノードレベルおよびグラフレベルのF1スコアを記録し、GPT-4oやClaudeシリーズなどの主要なクローズドソースモデルを採用した従来の最先端手法を大幅に上回った。さらなる分析により、推論プロセスの重要性と、ワークフローをコードに変換することの利点が明らかとなった。質的比較により、多様なノードを含む複雑なワークフローを合成する我々の強みが示され、AIアート創作における長いCoT推論の可能性が強調された。
我々は、没入的で制約のない探索を可能にする初のエゴセントリックな現実世界シミュレータ「PlayerOne」を紹介する。ユーザーから提供されたエゴセントリックなシーン画像を基に、PlayerOneは対応する世界を正確に構築し、エクソセントリックカメラで捉えたユーザーの実シーン人間の動きに厳密に整合するエゴセントリックな動画を生成する。PlayerOneは、粗から細へのパイプラインで訓練されており、まず大規模なエゴセントリックなテキスト-動画ペアを用いて粗いレベルのエゴセントリック理解のための事前学習を行い、その後、我々の自動構築パイプラインで抽出したエゴセントリック-エクソセントリック動画データセットからの同期した動き-動画データを用いて微調整を行う。さらに、異なるコンポーネントの重要性を考慮し、パートごとの動きを精密に制御可能なパート分離型モーションインジェクションスキームを設計した。加えて、4Dシーンと動画フレームの両方を段階的にモデル化する共同再構成フレームワークを考案し、長時間動画生成におけるシーン一貫性を確保する。実験結果は、様々な人間の動きの精密な制御と多様なシナリオの世界一貫性モデリングにおける優れた汎化能力を示している。これはエゴセントリックな現実世界シミュレーションへの初の試みであり、コミュニティが世界モデリングとその多様な応用の新たなフロンティアに深く入り込むための道を開くものである。
テキストから音楽を生成する技術の最近の進展により、高品質な音楽セグメントや完全な作曲を合成し、さらにはコード進行などの細かい制御信号に応答するモデルが可能となった。最先端(SOTA)のシステムは、トレーニングデータセット、モデリングパラダイム、アーキテクチャの選択など、多くの次元で大きく異なる。この多様性は、モデルを公平に評価し、どの設計選択が性能に最も影響を与えるかを特定する取り組みを複雑にしている。データやアーキテクチャなどの要因は重要であるが、本研究ではモデリングパラダイムに焦点を当てる。その効果を分離するために系統的な実証分析を行い、将来のテキストから音楽を生成するシステムを導くためのトレードオフや新たな行動に関する洞察を提供する。具体的には、最も一般的なモデリングパラダイムである自己回帰デコーディングと条件付きフローマッチングを比較する。すべてのモデルを同一のデータセット、トレーニング設定、および類似のバックボーンアーキテクチャを使用してゼロからトレーニングすることで、制御された比較を行う。生成品質、推論設定に対するロバスト性、スケーラビリティ、テキストおよび時間的に整列した条件付けへの忠実度、オーディオインペインティング形式の編集能力など、複数の軸で性能を評価する。この比較研究は、各パラダイムの異なる強みと限界を明らかにし、テキストから音楽を生成する進化する分野における将来のアーキテクチャとトレーニングの決定に役立つ実践的な洞察を提供する。オーディオサンプル例は以下で利用可能である:https://huggingface.co/spaces/ortal1602/ARvsFM
本論文では、推論モデルの長いデコードに特化したスパースアテンションフレームワークであるSeerAttention-Rを紹介する。SeerAttentionを拡張したSeerAttention-Rは、自己蒸留ゲーティングメカニズムを通じてアテンションのスパース性を学習する設計を保持しつつ、自己回帰デコードに対応するためにクエリプーリングを除去している。軽量なプラグインゲーティングを備えたSeerAttention-Rは柔軟性が高く、既存の事前学習済みモデルに元のパラメータを変更することなく容易に統合できる。0.4Bトークンのみで学習したSeerAttention-Rが、AIMEベンチマークにおいて4Kトークンの予算内で大規模なスパースアテンションブロックサイズ(64/128)のもとでほぼロスレスな推論精度を維持することを実証する。TileLangを使用して、H100 GPU上で90%のスパース性においてFlashAttention-3に対して最大9倍の理論値に近い高速化を達成する高度に最適化されたスパースデコードカーネルを開発した。コードはhttps://github.com/microsoft/SeerAttentionで公開されている。
大規模言語モデル(LLMs)は現在、さまざまな分野で不可欠な存在となり、印象的な性能を発揮している。しかし、その進歩はベンチマークスコアが正確かつ再現可能であるという前提に依存している。本論文では、LLMの性能の再現性が脆弱であることを示す:評価バッチサイズ、GPU数、GPUバージョンなどのシステム構成を変更すると、生成される応答に大きな違いが生じる可能性がある。この問題は特に推論モデルにおいて顕著であり、初期トークンにおけるわずかな丸め誤差が連鎖的に異なる思考プロセスを引き起こし、最終的に精度に影響を及ぼす。例えば、bfloat16精度と貪欲デコードを使用した場合、DeepSeek-R1-Distill-Qwen-7Bのような推論モデルでは、GPU数、タイプ、評価バッチサイズの違いにより、精度が最大9%変動し、応答長が9,000トークンも異なることがある。この変動の根本原因を、限られた数値精度下での浮動小数点演算の非結合性に遡る。本研究は、数値精度がLLM推論の再現性にどのように影響するかを体系的に調査した初めての研究である。さまざまなハードウェア、ソフトウェア、精度設定における慎重に制御された実験を通じて、モデル出力がいつ、どのように分岐するかを定量化する。我々の分析により、再現性にとって重要な浮動小数点精度が、評価実践においてしばしば無視されていることが明らかになった。これに着想を得て、重みを16ビット精度で保存しつつ、すべての計算をFP32で行う軽量な推論パイプライン「LayerCast」を開発し、メモリ効率と数値安定性のバランスを実現した。コードはhttps://github.com/nanomaoli/llm_reproducibilityで公開されている。
**SWE-Flow**を紹介します。これは、テスト駆動開発(TDD)に基づいた新しいデータ合成フレームワークです。既存のソフトウェアエンジニアリングデータが人間が提出した課題に依存しているのに対し、**SWE-Flow**は、ユニットテストから直接増分的な開発ステップを自動的に推論します。ユニットテストは本質的に高レベルの要件を内包しています。**SWE-Flow**の中核は、ランタイム依存グラフ(RDG)の構築です。このグラフは関数間の相互作用を正確に捉え、構造化されたステップバイステップの*開発スケジュール*の生成を可能にします。各ステップで、**SWE-Flow**は部分的なコードベース、対応するユニットテスト、および必要なコード修正を生成し、完全に検証可能なTDDタスクを実現します。このアプローチにより、実際のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。実験結果は、このデータセットでオープンモデルをファインチューニングすることで、TDDベースのコーディングにおけるパフォーマンスが大幅に向上することを示しています。さらなる研究を促進するため、すべてのコード、データセット、モデル、およびDockerイメージを[Github](https://github.com/Hambaobao/SWE-Flow)で公開しています。
o1やDeepSeek-R1のような大規模推論モデル(LRM)は、長い連鎖思考(CoT)を用いた自然言語推論において顕著な進歩を示していますが、複雑な数学的操作を扱う際には非効率または不正確なままです。計算ライブラリやシンボリックソルバーなどの計算ツールを用いてこれらの制約に対処することは有望ですが、技術的な課題を引き起こします:コードインタプリタ(CI)は、モデルの内部テキスト表現を超える外部知識をもたらすため、直接的な組み合わせは効率的ではありません。本論文では、LRMがCIを効果的かつ効率的に活用することを教えるためのポストトレーニングフレームワークであるCoRTを紹介します。最初のステップとして、ヒントエンジニアリングを通じてコード統合型推論データを合成し、LRMとCIの相互作用を最適化するために適切な位置に異なるヒントを戦略的に挿入することで、データ不足の問題に対処します。我々は30の高品質なサンプルを手動で作成し、それらを用いて1.5Bから32Bパラメータのモデルを、教師ありファインチューニング、拒否ファインチューニング、強化学習を用いてポストトレーニングします。実験結果は、ヒントエンジニアリングモデルがDeepSeek-R1-Distill-Qwen-32BとDeepSeek-R1-Distill-Qwen-1.5Bにおいて、それぞれ4%と8%の絶対的な改善を、5つの挑戦的な数学的推論データセットで達成することを示しています。さらに、ヒントエンジニアリングモデルは、32Bモデルでは約30%、1.5Bモデルでは約50%少ないトークンを使用します。モデルとコードはhttps://github.com/ChengpengLi1003/CoRTで利用可能です。
エンドツーエンドの人間アニメーションは、テキスト、画像、音声などの豊富なマルチモーダル条件を伴い、近年目覚ましい進展を遂げています。しかし、既存の手法の多くは単一の主体をアニメーション化し、条件をグローバルに注入するのみで、同じビデオ内に複数の概念が存在し、人間同士の相互作用や人間と物体の相互作用が豊富に現れるシナリオを無視しています。このようなグローバルな仮定は、人間や物体を含む複数の概念に対する精密かつ個別の制御を妨げ、応用を阻んでいます。本研究では、単一エンティティの仮定を捨て、各アイデンティティの時空間的フットプリントにモダリティからの条件を強く、領域特異的に結合する新たなフレームワークを導入します。複数の概念の参照画像が与えられた場合、本手法はマスク予測器を活用して、ノイズ除去されたビデオと各参照外観との間の外観手がかりを照合し、レイアウト情報を自動的に推論します。さらに、対応する領域にローカルな音声条件を反復的に注入し、レイアウトに沿ったモダリティマッチングを確保します。この設計により、制御可能なマルチコンセプトの人間中心ビデオの高品質な生成が可能となります。実験結果とアブレーションスタディは、暗黙的な手法や他の既存手法と比較して、マルチモーダル条件に対する明示的なレイアウト制御の有効性を検証しています。
LLM(大規模言語モデル)は主に同期型コミュニケーションで使用され、人間のユーザーとモデルが交互にやり取りを行います。一方、現実世界の多くの場面は本質的に非同期です。例えば、グループチャット、オンラインチームミーティング、またはソーシャルゲームでは、ターンの概念が存在しないため、いつ発言するかという判断が参加者の意思決定において重要な部分を占めます。本研究では、何を言うかだけでなく、いつ言うかを決定する適応型非同期LLMエージェントを開発します。このエージェントを評価するために、人間の参加者と非同期エージェントを含むオンラインマフィアゲームの独自のデータセットを収集しました。全体として、エージェントはゲームのパフォーマンスにおいても、他の人間プレイヤーと溶け込む能力においても、人間プレイヤーと同等の性能を示しました。分析の結果、エージェントの発言タイミングの決定における行動は人間のパターンに非常に近いことが明らかになりましたが、メッセージの内容には違いが見られました。我々は、LLMエージェント間のより現実的な非同期コミュニケーションの研究を支援し、促進するために、すべてのデータとコードを公開します。この研究は、LLMを現実の人間のグループ設定に統合する道を開くものであり、チームディスカッションの支援から、複雑な社会的ダイナミクスを乗り越える必要がある教育や専門環境まで、幅広い応用が期待されます。
マルチモーダル大規模言語モデル(MLLMs)の急速な進展にもかかわらず、視覚処理の重要性が大きく見過ごされてきた。単純でありながら示唆に富む実験において、興味深いことに、画像キャプションが提供された場合、言語のみのモデルが生の視覚入力を消費するMLLMsと同等またはそれ以上の性能を達成できることがわかった。これは、現在のMLLMsが正確な視覚記述を生成する一方で、推論中にそれらを効果的に統合できないことを示唆している。これに動機づけられ、我々はアルゴリズムの変更や追加の訓練データを必要とせずに知覚的ロバスト性を向上させる単純な視覚摂動フレームワークを提案する。我々のアプローチは、SFT、DPO、GRPOを含む既存のポストトレーニングパイプラインに容易に統合可能な3つのターゲット摂動(ディストラクタ連結、優位性保持ミックスアップ、ランダム回転)を導入する。複数のデータセットにわたる広範な実験を通じて、数学的推論性能の一貫した向上を示し、アルゴリズム変更によって達成されるものと同等の改善を実証した。さらに、視覚摂動を用いてQwen2.5-VL-7Bを訓練することで、オープンソースの7B RLチューニングモデルの中で競争力のある性能を達成した。包括的なアブレーション研究を通じて、異なる摂動戦略の有効性を分析し、各摂動タイプが視覚推論の異なる側面に独自に貢献することを明らかにした。我々の知見は、マルチモーダル数学的推論における視覚摂動の重要な役割を強調している:より良い推論は、より良い視覚から始まる。我々のコードはhttps://github.com/YutingLi0606/Vision-Mattersで公開されている。
視覚-言語-動作モデル(VLA)は多様な操作タスクにおいて有望なロボット行動を示しているが、新規タスクにそのまま適用した場合の成功率は限定的である。これらのポリシーが環境と安全に相互作用するためには、ロボットが停止、バックトラック、または助けを求めることができるよう、タイムリーに警告を発する故障検出器が必要である。しかし、既存の故障検出器は特定の1つまたは少数のタスクでのみ訓練およびテストされており、VLAでは未見のタスクや新規環境での故障も検出できる汎用性が求められる。本論文では、マルチタスク故障検出問題を導入し、VLAのような汎用ロボットポリシー向けの故障検出器SAFEを提案する。VLAの特徴空間を分析し、VLAがタスクの成功と失敗に関する十分な高レベルの知識を持ち、それが異なるタスク間で汎用的であることを明らかにした。この知見に基づき、SAFEはVLAの内部特徴から学習し、タスク失敗の可能性を示す単一のスカラー値を予測するように設計されている。SAFEは成功および失敗したロールアウトで訓練され、未見のタスクで評価される。SAFEは異なるポリシーアーキテクチャと互換性があり、OpenVLA、pi_0、pi_0-FASTを用いてシミュレーション環境および実世界環境で広範にテストされた。SAFEを多様なベースラインと比較し、SAFEが最先端の故障検出性能を達成し、コンフォーマル予測を用いて精度と検出時間の最適なトレードオフを実現することを示す。より詳細な定性的結果はhttps://vla-safe.github.io/で確認できる。
言語は、視覚タスクの性能を指定し評価するための自然なインターフェースを提供する。この可能性を実現するためには、視覚言語モデル(VLM)が視覚情報と言語情報を効果的に統合する必要がある。本研究では、VLMとその視覚エンコーダの直接的な読み取りを比較し、これらのモダリティを統合する能力を理解する。一連の視覚中心のベンチマーク(例:深度推定、対応付け)を通じて、VLMが視覚エンコーダよりも大幅に性能が劣り、ほぼ偶然のレベルにまで低下することがわかった。これらの結果を、VLM全体にわたる一連の分析を通じて調査する。具体的には、1)視覚表現の劣化、2)タスクプロンプトに対する脆弱性、3)タスク解決における言語モデルの役割である。これらの視覚中心のタスクにおけるボトルネックは、この3番目のカテゴリーにあることがわかった。VLMは、モデル全体を通じて容易にアクセス可能な視覚情報を効果的に活用しておらず、LLMに存在する言語の事前知識を継承している。本研究は、オープンソースのVLMの失敗モードを診断し、VLM内の視覚理解に関する将来の調査に有用な一連の評価を提示する。
3Dオブジェクト生成における最近の進展は、品質と効率の両面で大幅な向上をもたらしました。しかし、既存の手法の多くは、すべてのパーツが融合した単一のメッシュを生成するため、個々のパーツを編集または操作する能力が制限されています。重要な課題として、異なるオブジェクトはパーツの数が異なる場合があります。これを解決するため、我々はパーツレベルの3Dオブジェクト生成のための新しいエンドツーエンドフレームワークを提案します。単一の入力画像を基に、我々の手法は任意の数の完全で意味的に意味のあるパーツを持つ高品質な3Dオブジェクトを生成します。我々は、すべてのパーツを2つの補完的なボリュームに整理するデュアルボリュームパッキング戦略を導入し、最終的なオブジェクトに組み立てられる完全で交差したパーツの作成を可能にします。実験結果は、我々のモデルが従来の画像ベースのパーツレベル生成手法よりも優れた品質、多様性、汎化性能を達成することを示しています。
密な画像対応は、視覚オドメトリー、3次元再構成、物体関連付け、再識別など、多くの応用において中心的な役割を果たす。歴史的に、密な対応は、広基線シナリオとオプティカルフロー推定に対して別々に取り組まれてきたが、2つの画像間の内容を一致させるという共通の目標がある。本論文では、ソース画像とターゲット画像の両方で共視可能なピクセルに対して統一されたデータで訓練された統一フロー&マッチングモデル(UFM)を開発する。UFMは、単純で汎用的なトランスフォーマーアーキテクチャを使用し、直接(u,v)フローを回帰する。従来の粗から細へのコストボリュームに比べて、大規模なフローに対して訓練が容易で、より正確である。UFMは、最先端のフローメソッド(Unimatch)よりも28%精度が高く、密な広基線マッチャー(RoMa)よりも62%エラーが少なく、6.7倍高速である。UFMは、統一された訓練が両ドメインで専門的なアプローチを凌駕できることを初めて実証した。この結果は、高速で汎用的な対応を可能にし、マルチモーダル、長距離、リアルタイムの対応タスクに向けた新たな方向性を開くものである。
視線参照推論——他者が何を見ているかを推測する能力——は、自然な人間-AIインタラクションを支える心の理論の重要な構成要素である。制御された研究において、私たちは111の視覚言語モデル(VLM)を対象に、難易度と多様性を操作して撮影した写真を用いてこのスキルを評価し、人間の参加者(N = 65)のパフォーマンスと比較し、混合効果モデルを用いて行動を分析した。その結果、111のVLMのうち94がランダムな推測を上回る結果を示せなかったのに対し、人間はほぼ天井効果に近い精度を達成した。VLMは各選択肢に対してほぼ均等に応答しており、ランダムな推測を行っているのか?ほとんどのVLMが苦戦する中、上位5つのVLMに焦点を当てると、それらのパフォーマンスはタスクの難易度が増すにつれて低下したが、異なるプロンプトやシーンオブジェクト間での変動はわずかであった。これらの行動特性は、ランダムな推測者として考えるだけでは説明できない。むしろ、ヒューリスティックと推測を組み合わせて使用しており、そのパフォーマンスはタスクの難易度に影響を受けるが、知覚的な変動に対しては頑健であると考えられる。これは、視線推論能力を欠くVLMが、人間と自然にインタラクションできる技術にはまだ至っていないことを示唆しているが、可能性は残されている。
ユーザーレベルでのビデオ拡散モデル(VDMs)のファインチューニングにより、トレーニングデータの特定の属性を反映したビデオを生成することは、重要な課題を提示するものの、その実用的な重要性にもかかわらず、まだ十分に探求されていない。一方で、表現アライメント(REPA)などの最近の研究は、内部の隠れ状態を外部の事前学習済み視覚特徴と整合または同化させることで、DiTベースの画像拡散モデルの収束と品質を向上させる可能性を示しており、VDMのファインチューニングへの応用が期待される。本研究では、まずVDMに対するREPAの直接的な適応を提案し、収束には効果的であるものの、フレーム間の意味的一貫性を維持する点では最適ではないことを実証的に示す。この制限に対処するため、隣接フレームの外部特徴とフレームの隠れ状態を整合させる新しい正則化手法であるクロスフレーム表現アライメント(CREPA)を導入する。CogVideoX-5BやHunyuan Videoなどの大規模VDMに対する実証評価により、CREPAがLoRAなどのパラメータ効率の良い手法でファインチューニングされた場合に、視覚的忠実度とフレーム間の意味的整合性の両方を向上させることが示された。さらに、様々な属性を持つ多様なデータセットでCREPAを検証し、その広範な適用性を確認した。プロジェクトページ: https://crepavideo.github.io
大規模言語モデルにとって、自身の知識の境界を認識し、既知と未知のクエリを識別するメカニズムを理解することは重要である。この種の認識は、モデルが適応的な推論を行うのに役立ち、例えばRAG(Retrieval-Augmented Generation)の呼び出し、深くゆっくりとした思考、または棄却メカニズムの採用などが挙げられる。これらは、効率的で信頼性の高いAIの開発に有益である。本研究では、クエリレベルの不確実性を介して知識の境界を検出する方法を提案する。この方法は、モデルがトークンを生成せずに与えられたクエリに対処できるかどうかを判断することを目的としている。そのために、層とトークンにわたる自己評価を活用する、新規でトレーニング不要な方法である「内部信頼度」を導入する。事実に基づくQA(Question Answering)および数学的推論タスクにおける実証結果は、我々の内部信頼度がいくつかのベースラインを上回ることを示している。さらに、提案手法が効率的なRAGおよびモデルカスケーディングに利用可能であり、性能を維持しながら推論コストを削減できることを示す。
人工知能(AI)は、光干渉断層計(OCT)などの眼科画像を分析する際に臨床医を支援する基本的なツールとなっています。しかし、AIモデルの開発には多くの場合、広範なアノテーションが必要であり、既存のモデルは独立した未見のデータに対して性能が低い傾向があります。基盤モデル(FMs)は、膨大なラベルなしデータセットでトレーニングされた大規模なAIモデルであり、これらの課題を克服する可能性を示しています。それにもかかわらず、眼科用の利用可能なFMsは、特にセグメンテーションタスクにおいて広範な検証が不足しており、単一の画像モダリティに焦点を当てています。この文脈において、我々はOCTと走査レーザー眼底検査(SLO)画像を分析するための新しいマルチモーダルFMであるMIRAGEを提案します。さらに、OCT/SLOの分類とセグメンテーションタスクを含む新しい評価ベンチマークを提案します。一般的および専門的なFMsおよびセグメンテーション手法との比較により、MIRAGEが両方のタスクにおいて優れていることが示され、網膜OCT画像分析のための堅牢なAIシステム開発の基盤としての適性が強調されます。MIRAGEと評価ベンチマークは公開されています:https://github.com/j-morano/MIRAGE。
大規模言語モデル(LLMs)は人工知能の急速な進歩を牽引しているが、これらの大規模モデルを効果的かつ信頼性高く訓練することは、依然としてこの分野における最も重要な課題の一つである。この課題に対処するため、我々はPOETという新しい再パラメータ化訓練アルゴリズムを提案する。POETは、直交等価変換を用いてニューロンを最適化する。具体的には、POETは各ニューロンを2つの学習可能な直交行列と1つの固定されたランダム重み行列で再パラメータ化する。重み行列のスペクトル特性を保証するため、POETは目的関数を安定して最適化し、汎化性能を向上させることができる。さらに、POETを大規模ニューラルネットワークの訓練に柔軟かつスケーラブルにするための効率的な近似手法を開発した。広範な実験により、POETの有効性とスケーラビリティがLLMsの訓練において検証された。
医療視覚質問応答(MedVQA)は、臨床意思決定支援システムの開発において有望な分野であるが、その進展は利用可能なデータセットの制約によってしばしば限られている。これらのデータセットは、臨床的な複雑さや視覚的多様性に欠ける場合がある。これらのギャップを埋めるため、我々は消化器内視鏡(GI)のための新たな大規模データセットであるKvasir-VQA-x1を導入する。本研究は、元のKvasir-VQAを大幅に拡張し、より深い臨床推論をテストするために設計された159,549の新たな質問-回答ペアを組み込んでいる。これらの質問を生成するために、大規模言語モデルを用いた体系的な手法を開発し、モデルの推論能力をより適切に評価するために複雑度に基づいて層別化した。また、現実の臨床シナリオに備えるために、一般的な画像アーティファクトを模倣する多様な視覚的拡張を導入した。このデータセットは、標準的なVQA性能を評価するためのトラックと、これらの視覚的摂動に対するモデルの堅牢性をテストするためのトラックの2つの主要な評価トラックをサポートするように構成されている。より挑戦的で臨床的に関連性の高いベンチマークを提供することにより、Kvasir-VQA-x1は、臨床現場で使用されるより信頼性の高い多モーダルAIシステムの開発を加速することを目指している。このデータセットは完全にアクセス可能であり、FAIRデータ原則に準拠しており、広範な研究コミュニティにとって貴重なリソースとなっている。コードとデータは以下のリンクから入手可能である:https://github.com/Simula/Kvasir-VQA-x1 および https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1
初期分布と目標分布の中間軌道を予測することは、生成モデリングにおける中心的な課題である。既存の手法、例えばフローマッチングやシュレーディンガーブリッジマッチングは、単一の確率的経路をモデル化することで、二つの分布間の写像を効果的に学習する。しかし、これらの手法は本質的に単峰的な遷移に限定されており、共通の起源から複数の異なる結果への分岐的または発散的な進化を捉えることができない。この問題に対処するため、我々は分岐シュレーディンガーブリッジマッチング(BranchSBM)を提案する。BranchSBMは、複数の時間依存速度場と成長過程をパラメータ化し、集団レベルの発散を複数の終端分布として表現することを可能にする。我々は、BranchSBMがより表現力豊かであるだけでなく、多経路表面ナビゲーション、均一な前駆状態からの細胞運命分岐のモデル化、摂動に対する発散的な細胞応答のシミュレーションといったタスクにおいて不可欠であることを示す。
大規模言語モデルは、そのパラメトリックな知識と文脈的入力との間にしばしば矛盾を生じ、事実の不整合や虚構(ハルシネーション)を引き起こすことが多い。本論文では、文脈的信頼性のための自己反省的議論(Self-Reflective Debate for Contextual Reliability, SR-DCR)を提案する。これは、トークンレベルの自己信頼度と非対称的なマルチエージェント議論を統合した軽量フレームワークであり、そのような矛盾を裁定するものである。文脈を遮断された批評家が、与えられた文章に基づいて主張する防御者に挑戦し、裁判官モデルが議論を評価して文脈の信頼性を判断する。最終的な回答は、判定結果とモデルの信頼度を組み合わせて選択される。ClashEvalベンチマークでの実験により、SR-DCRが誤解を招く文脈に対する頑健性を一貫して向上させつつ、信頼できる入力に対する精度を維持し、従来の議論や信頼度のみに基づくベースラインを計算オーバーヘッドを最小限に抑えながら上回ることが示された。コードはhttps://github.com/smiles724/Self-Reflective-Debatesで公開されている。
大規模推論モデル(LRM)は、オリンピアードレベルの数学問題を含む幅広いタスクにおいて印象的な推論能力を示しており、その複雑な推論能力の証拠を示しています。多くの推論ベンチマークがSTEM領域に焦点を当てている一方で、LRMがより広範なタスク領域で正しく推論する能力はまだ十分に探求されていません。本研究では、TTT-Benchという新しいベンチマークを紹介します。このベンチマークは、4つの二人用三目並べスタイルのゲームを通じて、LRMの基本的な戦略的、空間的、論理的推論能力を評価するために設計されています。これらのゲームは人間にとって幼少期から簡単に解けるものですが、勝利を確実にするためには、相手の意図やゲームボードの空間的配置について推論する必要があります。私たちは、検証可能な二人用ゲーム問題を生成するためのシンプルでスケーラブルなプログラム的アプローチを提案します。最先端のLRMの多様なセットを評価した結果、難しい数学問題に優れたモデルがこれらの単純な推論ゲームで頻繁に失敗することがわかりました。さらにテストを行ったところ、評価された推論モデルは、TTT-BenchにおいてMATH 500およびAIME 2024と比較して平均でそれぞれ41%および5%低いスコアを示し、大規模なモデルは短い推論トレースを使用して高いパフォーマンスを達成する一方で、ほとんどのモデルが単純で新しいTTT-Benchタスクにおける長期的な戦略的推論状況に苦戦することが明らかになりました。
大規模言語モデル(LLM)の最近の進歩により、多くの研究者が完全自律型AIエージェントの構築に焦点を当てるようになった。本ポジションペーパーでは、このアプローチが正しい方向性であるかどうかを問いかける。なぜなら、これらの自律システムは依然として信頼性、透明性、そして人間の実際の要求を理解する点で問題を抱えているからである。我々は、AIが人間を置き換えるのではなく、人間と協働するLLMベースの人間-エージェントシステム(LLM-HAS)という異なるアプローチを提案する。人間がガイダンスを提供し、質問に答え、制御を維持することで、これらのシステムはより信頼性が高く、適応性のあるものとなる。医療、金融、ソフトウェア開発の事例を通じて、人間とAIのチームワークが、AI単独で働く場合よりも複雑なタスクをよりうまく処理できることを示す。また、これらの協調システムを構築する上での課題について議論し、実践的な解決策を提供する。本論文では、AIの進歩はシステムがどれだけ独立しているかではなく、どれだけ人間と協働できるかによって測られるべきであると主張する。AIの最も有望な未来は、人間の役割を引き継ぐシステムではなく、有意義なパートナーシップを通じて人間の能力を強化するシステムにある。