翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の能力における顕著な進展は、マルチエージェントシステムの探求を促し、ディベートフレームワークが強化された問題解決の有望な手法として浮上している。これらのマルチエージェントディベート(MAD)アプローチでは、エージェントが協力して議論を提示、批判、洗練させることで、単一モデルと比較して改善された推論能力、堅牢性、多様な視点を提供する可能性がある。これまでの研究でMADが活用されてきたにもかかわらず、特に様々な条件下での自己エージェント手法との比較におけるその有効性についての体系的な理解は未だ不十分である。本論文は、MADを協調的な洗練と多様な探索能力を特徴とするテスト時計算スケーリング技術として概念化し、このギャップを埋めることを目指す。数学的推論および安全性関連タスクにおいて、MADと強力な自己エージェントテスト時スケーリングベースラインを比較する包括的な実証調査を実施する。本研究では、タスクの難易度、モデルの規模、エージェントの多様性がMADの性能に及ぼす影響を体系的に検証する。主要な知見として、数学的推論においては、MADは自己エージェントスケーリングと比較して限定的な利点しか提供しないが、問題の難易度が増し、モデルの能力が低下するにつれてより効果的となり、エージェントの多様性はほとんど利益をもたらさないことが明らかになった。一方、安全性タスクにおいては、MADの協調的な洗練は脆弱性を増大させる可能性があるが、多様なエージェント構成を組み込むことで、協調的洗練プロセスを通じて攻撃成功率を段階的に低減できることが示された。我々は、本研究成果が、より効果的かつ戦略的に展開されるMADシステムの将来の開発に向けた重要な指針を提供すると信じる。
既存の推論セグメンテーション手法は、通常、画像-テキストペアと対応するマスクラベルを使用してマルチモーダル大規模言語モデル(MLLMs)を微調整します。しかし、明示的な推論プロセスなしでは、分布外シナリオへの汎化能力が限られています。最近の研究では、グループ相対ポリシー最適化(GRPO)を通じて強化学習を活用し、推論能力を向上させようとしていますが、過剰思考(overthinking)に陥りがちです。これは、タスクの複雑さに関係なく、一様に冗長な推論チェーンを生成するため、計算コストが増大し、推論品質の制御が困難になります。この問題を解決するため、我々はPixelThinkを提案します。これは、外部から推定されたタスクの難易度と内部から測定されたモデルの不確実性を統合し、強化学習の枠組み内で推論生成を調整するシンプルかつ効果的な手法です。このモデルは、シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学習します。包括的な評価を支援するため、ReasonSeg-Diffという拡張ベンチマークを導入しました。これには、注釈付きの推論参照と難易度スコア、およびセグメンテーション精度、推論品質、効率を総合的に評価するための一連のメトリクスが含まれています。実験結果は、提案手法が推論効率と全体的なセグメンテーション性能の両方を向上させることを示しています。我々の研究は、効率的で解釈可能なマルチモーダル理解に向けた新たな視点を提供します。コードとモデルは公開されます。
本研究では、表推論タスクにおける推論時のスケーリングを探索する初の研究を提示します。我々は、推論時のスケーリングを可能にする2つのポストトレーニング戦略を開発し評価しました。1つはフロンティアモデルの推論トレースからの蒸留、もう1つは検証可能な報酬を用いた強化学習(RLVR)です。蒸留に関しては、DeepSeek-R1によって生成された大規模な推論トレースデータセットを導入し、これを用いてLLMをTable-R1-SFTモデルにファインチューニングしました。RLVRに関しては、タスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを取得しました。我々のTable-R1シリーズモデルを、短形式QA、事実検証、自由形式QAなど多様な表推論タスクで評価しました。特に、Table-R1-Zeroモデルは、7BパラメータのLLMのみを使用しながら、GPT-4.1およびDeepSeek-R1の性能に匹敵またはそれを上回りました。また、ドメイン外データセットへの強い汎化能力も示しました。広範なアブレーションおよび定性分析により、指示チューニング、モデルアーキテクチャの選択、クロスタスク汎化の利点、およびRLトレーニング中に本質的な表推論スキルが出現することが明らかになりました。
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、2次元視覚タスクにおける性能が大幅に向上しています。しかし、空間知能の向上は依然として課題です。既存の3D MLLMは、空間認識を組み込むために追加の3Dまたは2.5Dデータに依存しており、画像や動画など2D入力のみのシナリオでの有用性が制限されています。本論文では、純粋に2D観測から視覚ベースの空間推論を行うための新しいフレームワークであるSpatial-MLLMを提案します。従来の動画MLLMが意味理解に最適化されたCLIPベースの視覚エンコーダに依存しているのに対し、我々の鍵となる洞察は、フィードフォワード視覚幾何学基盤モデルから強力な構造事前情報を引き出すことです。具体的には、意味的特徴を抽出するための事前学習済み2D視覚エンコーダと、視覚幾何学モデルのバックボーンから初期化された空間エンコーダを用いて3D構造特徴を抽出する、デュアルエンコーダアーキテクチャを提案します。コネクタは両方の特徴を統合し、空間理解を強化するための統一された視覚トークンを生成します。さらに、推論時に空間的に情報量の多い動画フレームを選択する空間認識フレームサンプリング戦略を提案し、トークン長が限られている場合でも、モデルが空間推論に重要なフレームに焦点を当てることを保証します。アーキテクチャの改善に加えて、Spatial-MLLM-120kデータセットを構築し、教師ありファインチューニングとGRPOを用いてモデルを学習させます。様々な実世界データセットでの広範な実験により、我々のSpatial-MLLMが視覚ベースの空間理解および推論タスクにおいて最先端の性能を達成することが示されています。プロジェクトページ: https://diankun-wu.github.io/Spatial-MLLM/。
大規模言語モデル(LLM)の推論能力を強化学習(RL)を用いて事後学習する最近の研究では、数学問題の解決など、正確に検証および報酬を与えることができるタスクに焦点を当てることが一般的です。一方、本研究では、報酬モデルを用いたLLMの事後学習において、実世界のシナリオでより実践的な考慮事項である報酬ノイズの影響を調査しました。その結果、LLMが大幅な報酬ノイズに対して強いロバスト性を示すことが明らかになりました。例えば、数学タスクにおいて報酬関数の出力の40%を手動で反転させても、Qwen-2.5-7Bモデルは迅速な収束を達成し、ノイズのない報酬で訓練されたモデルが達成する75%の精度と比較して、数学タスクのパフォーマンスを5%から72%に向上させました。驚くべきことに、回答の正しさを検証せずに、キーとなる推論フレーズ(すなわち推論パターン報酬、RPR)の出現のみを報酬とした場合(例:「まず、私は〜する必要がある」)、モデルは厳密な正しさの検証と正確な報酬で訓練されたモデルに匹敵するピークの下流パフォーマンス(Qwen-2.5-7Bで70%以上の精度)を達成しました。最終結果よりも推論プロセスの重要性を認識し、RPRをノイズのある報酬モデルと組み合わせました。RPRはノイズのある報酬モデルを較正し、潜在的な偽陰性を軽減し、オープンエンドタスクにおけるLLMのパフォーマンスを向上させました。これらの発見は、事前学習段階でモデルの基礎能力を向上させることの重要性を示唆するとともに、事後学習技術を進歩させるための洞察を提供します。私たちのコードとスクリプトはhttps://github.com/trestad/Noisy-Rewards-in-Learning-to-Reasonで公開されています。
最近、MLLM(マルチモーダル大規模言語モデル)はビデオ質問応答の分野で広く研究されています。しかし、既存の評価のほとんどは自然なビデオに焦点を当てており、AI生成コンテンツ(AIGC)などの合成ビデオを見落としています。一方、ビデオ生成の分野では、生成されたビデオの品質を評価するためにMLLMを利用する研究もありますが、MLLMがAIGCビデオを解釈する能力についてはほとんど検証されていません。この問題に対処するため、我々は新しいベンチマーク「VF-Eval」を提案します。VF-Evalは、一貫性検証、エラー認識、エラータイプ検出、推論評価という4つのタスクを導入し、MLLMのAIGCビデオに対する能力を包括的に評価します。我々はVF-Evalを用いて13の最先端MLLMを評価し、最も性能の高いモデルであるGPT-4.1でさえ、すべてのタスクで一貫して良好な性能を発揮することが難しいことを明らかにしました。これは、我々のベンチマークの難易度の高さを示しています。さらに、VF-Evalがビデオ生成の改善にどのように役立つかを調査するため、RePromptという実験を実施しました。この実験では、MLLMを人間のフィードバックにより密接に連携させることで、ビデオ生成に有益であることを示しています。
大規模な視覚言語モデル(VLM)の急速な進展により、グラフィカルユーザーインターフェース(GUI)を認識し操作することでユーザーの指示を自律的に遂行する純粋な視覚ベースのGUIエージェントの開発が加速しています。しかし、既存のアプローチは通常オフライン学習フレームワークを採用しており、2つの核心的な制限に直面しています:(1) 要素のグラウンディングとアクションの監督のための高品質な手動アノテーションへの過度な依存、(2) 動的でインタラクティブな環境への適応性の限界。これらの制限に対処するため、我々はZeroGUIを提案します。これは、人間のコストをゼロに抑えつつGUIエージェントのトレーニングを自動化するスケーラブルなオンライン学習フレームワークです。具体的には、ZeroGUIは、(i) 現在の環境状態から多様なトレーニング目標を生成するVLMベースの自動タスク生成、(ii) 手作りの評価関数なしでタスクの成功を評価するVLMベースの自動報酬推定、(iii) GUI環境と継続的にインタラクションし学習する2段階のオンライン強化学習を統合しています。2つの先進的なGUIエージェント(UI-TARSとAguvis)を用いた実験により、ZeroGUIがOSWorldとAndroidLab環境でのパフォーマンスを大幅に向上させることが実証されました。コードはhttps://github.com/OpenGVLab/ZeroGUIで公開されています。
拡散ベースの大規模言語モデル(Diffusion LLMs)は、並列デコード能力を備えた非自己回帰型テキスト生成において有望な成果を示しています。しかし、オープンソースのDiffusion LLMsの実用的な推論速度は、Key-Value(KV)キャッシュの欠如や、複数のトークンを同時にデコードする際の品質低下により、自己回帰モデルに遅れを取ることが多いです。このギャップを埋めるため、我々は双方向拡散モデルに特化した新しいブロック単位の近似KVキャッシュメカニズムを導入し、性能の低下をほとんど伴わずにキャッシュの再利用を可能にしました。さらに、並列デコードにおける生成品質の低下の根本原因を、条件付き独立性の仮定の下でのトークン依存関係の破綻であると特定しました。これに対処するため、信頼度閾値を超えるトークンを選択的にデコードする信頼度認識型並列デコード戦略を提案し、依存関係の違反を軽減しつつ生成品質を維持します。LLaDAおよびDreamモデルを用いた複数のLLMベンチマークでの実験結果は、最小限の精度低下で最大27.6倍のスループット向上を示し、自己回帰モデルとの性能差を縮め、Diffusion LLMsの実用的な展開への道を開きました。
最近の研究では、長い連鎖的思考(CoT)推論が、大規模言語モデル(LLM)の複雑なタスクにおけるパフォーマンスを大幅に向上させることが示されています。しかし、この利点は、ビデオ理解の分野ではまだ実証されていません。既存のベンチマークのほとんどが、拡張されたCoT連鎖の利点を示すために必要な推論の深さを欠いているためです。最近の取り組みでは、ビデオ推論を目的としたベンチマークが提案されていますが、これらのタスクはしばしば知識駆動型であり、視覚的な内容に大きく依存していません。このギャップを埋めるため、我々は視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを導入します。視覚的な豊かさと高い推論の複雑さを確保するため、VideoReasonBenchの各ビデオは、ビデオの一部でのみ見える潜在的な状態に対する細かい操作のシーケンスを描いています。質問は、観察された視覚情報を思い出すこと、潜在的な状態の内容を推論すること、ビデオを超えた情報を予測することという、3つの段階的なビデオ推論スキルを評価します。このタスク設定では、モデルはビデオ内の複数の操作を正確に思い出し、段階的な推論を行ってこれらの質問に対する正しい最終的な答えを得る必要があります。VideoReasonBenchを使用して、18の最先端のマルチモーダルLLM(MLLM)を包括的に評価した結果、ほとんどのモデルが複雑なビデオ推論において低いパフォーマンスを示すことがわかりました。例えば、GPT-4oはわずか6.9%の精度しか達成できませんでしたが、思考を強化したGemini-2.5-Proは56.0%の精度で他のモデルを大きく上回りました。我々の「テストタイムスケーリング」に関する調査は、拡張された思考予算が既存のビデオベンチマークではほとんどまたは全く効果がない一方で、VideoReasonBenchのパフォーマンスを向上させるために不可欠であることをさらに明らかにしました。
コンピュータ支援設計(CAD)は、精密で編集可能な3Dモデルを作成することを可能にし、エンジニアリングと製造において中心的な役割を果たしています。センサーやユーザー提供のデータをCAD再構築の入力として使用することで、設計アプリケーションへのアクセスを民主化することができます。しかし、既存の手法は通常、点群、画像、テキストなどの単一の入力モダリティに焦点を当てており、その汎用性と堅牢性が制限されています。視覚言語モデル(VLM)の最近の進展を活用し、私たちは3つの入力モダリティを同時に処理するマルチモーダルCAD再構築モデルを提案します。大規模言語モデル(LLM)のトレーニングパラダイムに着想を得て、私たちは2段階のパイプラインを採用します:大規模な手続き的に生成されたデータでの教師あり微調整(SFT)と、プログラム的に取得されたオンラインフィードバックを使用した強化学習(RL)微調整です。さらに、私たちはCADタスクにおけるLLMのRL微調整を初めて探求し、Group Relative Preference Optimization(GRPO)などのオンラインRLアルゴリズムがオフラインの代替手法を上回ることを実証します。DeepCADベンチマークでは、私たちのSFTモデルが、3つの入力モダリティすべてにおいて既存の単一モーダルアプローチを同時に上回りました。さらに重要なことに、RL微調整後、cadrilleは3つの挑戦的なデータセット(実世界のデータセットを含む)で新たな最先端の性能を達成しました。
本論文では、Diffusion via Autoregressive models (D-AR) という新しいパラダイムを提案します。これは、画像拡散プロセスを標準的な次トークン予測形式の単純な自己回帰プロセスとして再構築するものです。まず、画像を離散トークンのシーケンスに変換するトークナイザを設計します。ここで、異なる位置のトークンは、ピクセル空間における異なる拡散ノイズ除去ステップにデコードされます。拡散の特性により、これらのトークンは自然に粗から細かい順序に従い、これはそのまま自己回帰モデリングに適しています。したがって、これらのトークンに対して標準的な次トークン予測を適用し、基本的な設計(因果マスクや学習/推論戦略)を変更することなく、この逐次的な自己回帰トークン生成が画像空間における拡散プロセスを直接反映します。つまり、自己回帰モデルがトークンの増分を生成すると、これらのトークンをストリーミング方式で対応する拡散ノイズ除去ステップに直接デコードできます。私たちのパイプラインは、いくつかの興味深い特性を自然に明らかにします。例えば、トークンの一部のみを生成する際に一貫したプレビューをサポートし、ゼロショットでのレイアウト制御合成を可能にします。標準的なImageNetベンチマークでは、775MのLlamaバックボーンと256の離散トークンを使用して、2.09のFIDを達成しました。私たちの研究が、特に大規模言語モデルを用いた視覚合成の統一された自己回帰アーキテクチャに関する将来の研究にインスピレーションを与えることを願っています。コードとモデルはhttps://github.com/showlab/D-ARで公開予定です。
私たちは、未校正の画像コレクションから新規視点合成を行うためのフィードフォワードネットワークであるAnySplatを紹介します。従来のニューラルレンダリングパイプラインが既知のカメラポーズとシーンごとの最適化を要求するのに対し、また最近のフィードフォワード手法が密集したビューの計算負荷に耐えられないのに対し、私たちのモデルはすべてを一発で予測します。単一のフォワードパスで、シーンの幾何学と外観をエンコードする3Dガウシアンプリミティブのセット、および各入力画像に対応するカメラの内部パラメータと外部パラメータを生成します。この統一された設計により、ポーズアノテーションなしでカジュアルにキャプチャされたマルチビューデータセットに容易にスケールします。広範なゼロショット評価において、AnySplatは疎密両方のビューシナリオでポーズを意識したベースラインの品質に匹敵し、既存のポーズフリーアプローチを凌駕します。さらに、最適化ベースのニューラルフィールドと比較してレンダリングの遅延を大幅に削減し、制約のないキャプチャ設定においてリアルタイムの新規視点合成を実現します。プロジェクトページ: https://city-super.github.io/anysplat/
近年進化した大規模推論モデル(LRM)は、長い連鎖思考(CoT)推論能力を用いて複雑なタスクを解決する強力な性能を示している。これらのLRMは主に形式的推論タスクに対する事後学習によって開発されているが、その推論能力が事実探索タスクにおける幻覚(hallucination)を軽減するために一般化されるかどうかは不明瞭であり、議論の的となっている。例えば、DeepSeek-R1は事実探索ベンチマークであるSimpleQAでの性能向上を報告している一方で、OpenAI-o3はさらに深刻な幻覚を観察している。この不一致は自然に次の研究課題を提起する:推論モデルは幻覚を起こしやすいのか?本論文はこの課題を3つの視点から取り組む。(1) まず、LRMにおける幻覚を包括的に評価する。我々の分析によると、コールドスタートの教師ありファインチューニング(SFT)と検証可能な報酬RLを伴う完全な事後学習パイプラインを経たLRMは、幻覚を軽減する。一方で、蒸留のみの手法やコールドスタートファインチューニングなしのRLトレーニングは、より微妙な幻覚を引き起こす。(2) 異なる事後学習パイプラインがLRMの幻覚に与える影響を探るため、行動分析を行う。我々はLRMの事実性に直接影響を与える2つの重要な認知行動を特定する:Flaw Repetition(表面レベルの推論試行が同じ根本的な欠陥のある論理を繰り返す)とThink-Answer Mismatch(最終的な回答が以前のCoTプロセスに忠実に一致しない)。(3) さらに、モデルの不確実性の観点からLRMの幻覚のメカニズムを調査する。我々は、LRMの幻覚の増加が通常、モデルの不確実性と事実の正確性の間の不一致と関連していることを発見する。本研究はLRMにおける幻覚の初期理解を提供する。
言語モデル(LM)は標準的なコーディングベンチマークでは優れた性能を発揮しますが、SWE-BenchにおけるGitHubイシューの解決といった実世界のソフトウェアエンジニアリングタスクでは、特にモデルパラメータが100B未満の場合に苦戦します。計算コストが低いため、実際には小規模なモデルが好まれますが、その性能向上は依然として課題です。既存のアプローチは主に高品質なデータを用いた教師ありファインチューニング(SFT)に依存しており、大規模にデータを整備するにはコストがかかります。代替案として、テストタイムスケーリングがあります:複数の出力を生成し、検証器を用いてスコア付けし、最良のものを選択する方法です。この戦略は効果的ですが、過剰なサンプリングと高コストなスコア付けを必要とするため、実用上の制約があります。本論文では、進化的テストタイムスケーリング(EvoScale)を提案します。これは、生成を進化的プロセスとして扱うサンプル効率の良い手法です。選択と突然変異を介して出力を反復的に洗練することで、EvoScaleは出力分布を高スコア領域にシフトさせ、正しい解を見つけるために必要なサンプル数を削減します。サンプリングと選択の繰り返しによるオーバーヘッドを軽減するため、強化学習(RL)を用いてモデルに自己進化を学習させます。推論時に外部の検証器に依存するのではなく、モデルは自身の生成物のスコアを反復的に自己改善することを学習します。SWE-Bench-Verifiedでの評価では、EvoScaleにより32BモデルであるSatori-SWE-32Bが、100B以上のパラメータを持つモデルの性能を匹敵または上回りながら、少数のサンプルを使用することが可能です。コード、データ、およびモデルは完全にオープンソース化されます。
私たちは、LoRAモデルを用いたマルチコンセプト画像編集のための初のフレームワークであるLoRAShopを紹介します。LoRAShopは、Fluxスタイルの拡散トランスフォーマー内部の特徴量相互作用パターンに関する重要な観察に基づいています。具体的には、コンセプト固有のトランスフォーマー特徴量が、ノイズ除去プロセスの初期段階で空間的に一貫した領域を活性化するという点です。この観察を活用し、事前のフォワードパスで各コンセプトのための分離された潜在マスクを導出し、パーソナライズするコンセプトを囲む領域内でのみ対応するLoRAの重みをブレンドします。その結果、複数の被写体やスタイルを元のシーンにシームレスに統合しつつ、グローバルなコンテキスト、照明、細部を保持した編集が可能となります。実験により、LoRAShopがベースラインと比較して優れたアイデンティティ保持を実現することが示されています。再学習や外部制約を排除することで、LoRAShopはパーソナライズされた拡散モデルを実用的な「LoRAを使ったフォトショップ」ツールに変え、構成的なビジュアルストーリーテリングや迅速なクリエイティブイテレーションの新たな道を開きます。
Transformerは、主に文脈内検索タスクにおける有効性と大規模学習の能力から、シーケンスモデリングにおいて最も人気のある基盤モデルとして確立されています。しかし、その二次的なメモリと時間計算量は、より長いシーケンスへの適用性を制限し、現代的なリカレントニューラルネットワーク(別名、長期リカレントメモリモジュール)などの効果的な代替アーキテクチャの探求を研究者に促してきました。これらのモデルは多様な下流タスクで最近成功を収めていますが、長い文脈理解やより長いシーケンスへの外挿を必要とするタスクでは苦戦しています。私たちは、これらの欠点が設計上の3つの分離した側面に起因していることを観察しました:(1)メモリのアーキテクチャと入力の特徴マッピングによって制限される限られたメモリ容量、(2)最後の入力に対してのみメモリを最適化するオンライン更新の性質、(3)固定サイズのメモリの表現力の低い管理。これら3つの側面を強化するために、私たちはATLASを提案します。ATLASは、現在および過去のトークンに基づいてメモリを最適化することで文脈を記憶する高容量の長期メモリモジュールであり、長期メモリモデルのオンライン性質を克服します。この洞察に基づいて、私たちはDeepTransformersと呼ばれる新しいTransformer風アーキテクチャのファミリーを提示します。これらは元のTransformerアーキテクチャの厳密な一般化です。言語モデリング、常識推論、リコール集約型、および長文脈理解タスクにおける実験結果は、ATLASがTransformerや最近の線形リカレントモデルの性能を凌駕することを示しています。ATLASはさらに、Titansの長文脈性能を向上させ、BABILongベンチマークの10M文脈長で+80%の精度を達成しました。
Show-oやJanusなどの統一マルチモーダル大規模言語モデルは、生成タスクと理解タスクの両方で高い性能を達成しています。しかし、これらのモデルは通常、大規模なデータセットに依存し、事前学習段階で相当な計算リソースを必要とします。さらに、いくつかの事後学習手法が提案されていますが、それらは外部データに依存したり、タスク固有のカスタマイズに限定されることが多いです。本研究では、自己改善型の事後学習アプローチであるUniRLを紹介します。我々のアプローチでは、モデルがプロンプトから画像を生成し、それを各イテレーションで学習データとして使用することが可能で、外部の画像データに依存しません。さらに、生成と理解の2つのタスクが相互に強化される仕組みを提供します:生成された画像は理解に使用され、理解の結果は生成を監督するために使用されます。我々は、モデルを最適化するために、教師ありファインチューニング(SFT)とGroup Relative Policy Optimization(GRPO)を探索します。UniRLには3つの主要な利点があります:(1)すべての学習サンプルが学習中にモデル自身によって生成されるため、外部の画像データを必要としない、(2)個々のタスクの性能を向上させるだけでなく、生成と理解の間の不均衡を軽減する、(3)事後学習段階でわずかな追加の学習ステップしか必要としない。我々は、Show-oとJanusの上でUniRLを評価し、Show-oで0.77、Janusで0.65のGenEvalスコアを達成しました。コードとモデルはhttps://github.com/showlab/UniRLで公開されます。
現実世界のバグを修正するパッチを生成する課題は、大規模言語モデル(LLM)の能力を評価するための重要なベンチマークとして浮上しています。SWE-benchとその派生ベンチマークはこの領域で標準となっていますが、いくつかの重要な制限があります。それらは初期リリース以降更新されておらず、限られたリポジトリセットをカバーし、インスタンス構築と環境設定に多大な手作業を要します。これらの要因はスケーラビリティを妨げ、過学習やデータ汚染のリスクを引き起こします。本研究では、これらの課題を克服するために設計されたライブ更新可能なベンチマーク、SWE-bench-Liveを提案します。初期リリースでは、2024年以降に作成されたGitHubの実際のイシューから派生した1,319のタスクを93のリポジトリにわたって提供します。各タスクには再現可能な実行を保証する専用のDockerイメージが付属しています。私たちのベンチマークの中核となるのは、インスタンス作成から環境設定までの全プロセスを効率化し、手作業のボトルネックを排除してスケーラビリティと継続的更新を可能にする自動化されたキュレーションパイプライン、\methodです。SWE-bench-Liveにおいて、最先端のエージェントフレームワークとLLMを評価した結果、SWE-benchのような静的ベンチマークと比較して、制御された評価条件下でも大きな性能差が明らかになりました。この差異をより深く理解するため、リポジトリの起源、イシューの新しさ、タスクの難易度にわたる詳細な分析を行いました。ライブなリポジトリ活動に基づいた新鮮で多様かつ実行可能なベンチマークを提供することで、SWE-bench-Liveは、動的で現実世界のソフトウェア開発環境におけるLLMとエージェントの厳密で汚染耐性のある評価を促進します。
スパースオートエンコーダ(SAE)は、言語モデルの隠れ状態を解釈可能な潜在方向に分解することで、その解釈可能性において大きな可能性を示してきた。しかし、大規模な辞書サイズを使用する場合、SAEの訓練は依然として困難である。デコーダは効率化のためにスパース対応カーネルを活用できるが、エンコーダは依然として大規模な出力次元を伴う計算集約的な線形演算を必要とする。この問題に対処するため、我々はKronSAEを提案する。これは、クロネッカー積分解を介して潜在表現を因数分解し、メモリと計算のオーバーヘッドを大幅に削減する新しいアーキテクチャである。さらに、二値AND演算を近似する微分可能な活性化関数であるmANDを導入し、因数分解されたフレームワークにおける解釈可能性と性能を向上させる。
人間の選好、LLM-as-a-Judge(LaaJ)、報酬モデルなどの選好メカニズムは、大規模言語モデル(LLM)のアラインメントと評価において中心的な役割を果たします。しかし、これらの選好を駆動する根本的な概念は十分に理解されていません。本研究では、複数のドメインにわたる選好の局所的およびグローバルな概念ベースの説明を自動生成する手法を提案します。提案手法では、LLMを活用して、選択された応答と拒否された応答を区別する概念を特定し、それらを概念ベースのベクトルとして表現します。概念と選好の関係をモデル化するために、ドメイン一般およびドメイン固有の効果を捉える白箱型の階層的マルチドメイン回帰モデルを提案します。提案手法を評価するため、8つの挑戦的で多様なドメインにわたるデータセットを構築し、12のメカニズムを説明します。提案手法は、高い選好予測性能を達成し、ベースラインを上回ると同時に説明可能性も備えています。さらに、2つのアプリケーション駆動型の設定で説明を評価します。第一に、LaaJの説明から得られた概念を用いてLLMの出力をガイドすることで、それらの審査者が一貫して好む応答が得られます。第二に、人間の選好を説明する概念を用いてLaaJにプロンプトを与えることで、その選好予測が改善されます。全体として、本研究はLLM時代における説明可能性の新たなパラダイムを確立します。
動画に埋め込まれた視覚的テキストは、豊富な意味情報を有しており、動画全体の理解と局所的な人間の行動に関する詳細な推論の両方において重要な役割を果たします。しかし、既存の動画理解ベンチマークはテキスト情報をほとんど考慮しておらず、OCRに特化したベンチマークは静止画像に限定されているため、テキストと動的な視覚的コンテキスト間の相互作用を捉える能力が制限されています。このギャップを埋めるため、我々はVidTextという新しいベンチマークを提案します。VidTextは、動画テキスト理解の包括的かつ深い評価を目的として設計されており、以下の特徴を備えています:1) 現実世界の多様なシナリオをカバーし、多言語コンテンツをサポートすることで、動画テキストが自然に現れる多様な設定を包含します。2) 動画レベル、クリップレベル、インスタンスレベルの階層的な評価フレームワークを導入し、全体の要約能力と局所的な検索能力の両方を評価可能にします。3) 視覚的テキストの知覚からテキストと視覚情報のクロスモーダル推論まで、一連のペアになった知覚推論タスクを導入します。18の最先端大規模マルチモーダルモデル(LMM)を用いた広範な実験により、現在のモデルはほとんどのタスクで苦戦しており、改善の余地が大きいことが明らかになりました。さらに、入力解像度やOCR能力などのモデル固有の要因と、補助情報の使用やChain-of-Thought推論戦略などの外部要因の影響を分析しました。VidTextが、動的環境における動画テキストを用いたマルチモーダル推論の未来の研究の基盤となり、現在の動画理解ベンチマークのギャップを埋めることを期待しています。
WhisperやSeamlessM4Tのような音声基盤モデル(SFM)の開発は、音声処理分野を大きく前進させた。しかし、これらのモデルは閉鎖的であり、学習データやコードがアクセス不可能であるため、再現性や公平な評価において重大な課題を抱えている。他の分野では、オープンソース(OS)のコードとデータを用いて完全に透明なモデルを開発することで、オープンサイエンスに向けた大幅な進展を遂げているが、音声分野における同様の取り組みは限られている。このギャップを埋めるため、我々はFAMAを紹介する。FAMAは、英語とイタリア語向けの最初のオープンサイエンスSFMファミリーであり、150,000時間以上のOS音声データを用いて学習されている。さらに、両言語において16,000時間のクリーニングおよび疑似ラベル付き音声を含む新しいデータセットを提示する。結果は、FAMAが既存のSFMと比較して競争力のある性能を達成し、最大8倍の高速化を実現していることを示している。コード、データセット、モデルを含むすべての成果物は、OS準拠のライセンスの下で公開され、音声技術研究におけるオープン性を促進する。
文強勢とは、発話内の特定の単語に置かれる強調のことで、アイデアを際立たせたり対比させたり、新しい情報を導入するために用いられます。これは、明示的に述べられていない潜在的な意図を暗示するためによく使われます。最近の音声対応言語モデル(SLM)の進歩により、音声を直接処理することが可能になり、モデルは文字起こしを経ずに音声信号の豊かな情報にアクセスし、音声質問応答などの音声推論タスクを実行できるようになりました。文強勢が意味や話者の意図を形成する上で重要な役割を果たしているにもかかわらず、このようなモデルの評価や開発においてはほとんど注目されていません。本研究では、このギャップを埋めるため、StressTestというベンチマークを導入します。これは、文強勢パターンに基づいて発話文の解釈を区別するモデルの能力を評価するために特別に設計されたものです。いくつかの主要なSLMの性能を評価した結果、全体的な能力にもかかわらず、このようなタスクではパフォーマンスが低いことがわかりました。この制限を克服するため、新しい合成データ生成パイプラインを提案し、Stress17kというトレーニングセットを作成しました。これは、文強勢の変化によって暗示される意味の変化をシミュレートするものです。そして、この合成データセットでモデルを最適化することが、実世界の録音とよく一致し、SLMの効果的なファインチューニングを可能にすることを実証的に示します。結果は、我々のファインチューニングされたモデルStresSLMが、文強勢推論と検出タスクの両方において、既存のモデルを大きく上回ることを示唆しています。コード、モデル、データ、音声サンプルは、pages.cs.huji.ac.il/adiyoss-lab/stresstestで公開されています。
安全性推論は、大規模言語モデル(LLM)が応答を生成する前に安全性ポリシーについて推論を行う新しいパラダイムであり、過剰拒否やジェイルブレイク脆弱性といった既存の安全性対策の限界を緩和します。しかし、このパラダイムを実装するのは困難です。なぜなら、高品質なポリシー埋め込み型連鎖思考(CoT)データセットを作成し、推論が正確で幻覚やポリシー衝突がないことを保証するには、多大なリソースを要するからです。この課題に対処するため、我々はAIDSAFE(Agentic Iterative Deliberation for Safety Reasoning)を提案します。これは、マルチエージェントの審議を活用して安全性ポリシーに関する推論を反復的に拡張する新しいデータ生成手法です。AIDSAFEのデータ精製段階では、繰り返しや冗長、欺瞞的な思考を排除することで高品質な出力を保証します。AIDSAFEで生成されたCoTは、教師あり微調整(SFT)ベースの安全性トレーニングの強固な基盤を提供します。さらに、DPOトレーニングなどのアライメント段階で必要とされる選好データに対応するため、信念拡張を使用して選択されたCoTサンプルと拒否されたCoTサンプルを作成する補助的な手法を導入します。我々の評価では、AIDSAFEで生成されたCoTが優れたポリシー遵守と推論品質を達成することが示されています。その結果、これらのCoTでオープンソースのLLMを微調整することで、安全性の一般化とジェイルブレイクに対する堅牢性を大幅に向上させつつ、許容可能な有用性と過剰拒否の精度を維持できることが示されました。AIDSAFEで生成されたCoTデータセットは以下で公開されています:https://huggingface.co/datasets/AmazonScience/AIDSAFE
トランスフォーマーなどのシーケンスモデルでは、入力が1次元のシーケンスとして表現される必要があります。画像処理において、これは通常、固定の行優先(ラスタースキャン)順序で画像を平坦化することを意味します。完全な自己注意機構は順序不変性を持ちますが、現代の長シーケンストランスフォーマーでは、この不変性を破り、パッチの順序に対する感度を導入するアーキテクチャの近似がますます使用されています。本論文では、パッチの順序がこのような設定においてモデルの性能に大きな影響を与えることを示し、列優先順序やヒルベルト曲線などの単純な代替案が顕著な精度の変化をもたらすことを明らかにします。これに動機づけられて、タスク最適なパッチ順序を発見するための2段階フレームワークであるREOrderを提案します。まず、さまざまなパッチシーケンスの圧縮性を評価することで、情報理論的な事前分布を導出します。次に、REINFORCEを使用してPlackett-Luceポリシーを最適化することで、順列に対するポリシーを学習します。このアプローチにより、組み合わせ順列空間での効率的な学習が可能になります。REOrderは、ImageNet-1Kにおいて行優先順序よりも最大3.01%、Functional Map of the Worldにおいて13.35%のトップ1精度の向上を実現します。
定理証明は、大規模言語モデル(LLMs)の複雑な推論能力を評価する主要なテストベッドとして機能している。しかし、従来の自動定理証明(ATP)アプローチは、LLMsが事前学習中に獲得した非公式な自然言語知識に基づく強みとあまり整合しない形式的証明システムに大きく依存している。本研究では、自然言語を活用してLLMの数学的推論を強化する包括的な非公式定理証明フレームワークであるDeepTheoremを提案する。DeepTheoremは、多様な数学領域にわたる121Kの高品質なIMOレベルの非公式定理と証明からなる大規模ベンチマークデータセットを含み、正確性、難易度、トピックカテゴリについて厳密に注釈が付けられ、体系的に構築された検証可能な定理バリアントが付随している。我々は、非公式定理証明に特化した新しい強化学習戦略(RL-Zero)を考案し、検証済みの定理バリアントを活用して堅牢な数学的推論を促進する。さらに、証明の正確性と推論ステップの質を検証する包括的な結果およびプロセス評価指標を提案する。広範な実験分析により、DeepTheoremが既存のデータセットや教師ありファインチューニングプロトコルと比較してLLMの定理証明性能を大幅に向上させ、最先端の精度と推論品質を達成することが実証された。我々の知見は、DeepTheoremが自動化された非公式定理証明と数学的探求を根本的に進化させる可能性を強調している。
統一生成モデルは、テキスト生成、画像生成、視覚言語推論など、様々なモダリティにわたるタスクを単一のアーキテクチャとデコードパラダイムで処理することを目指しています。自己回帰型の統一モデルは逐次デコードによる推論の遅さに悩まされ、非自己回帰型の統一モデルは事前学習済みバックボーンの制約による弱い汎化性能に悩まされています。本研究では、テキストと画像の両モダリティにおいて高速かつ並列生成を可能にする統一離散拡散トランスフォーマー「Muddit」を提案します。従来の統一拡散モデルとは異なり、Mudditは事前学習済みのテキストから画像へのバックボーンから得られた強力な視覚的プライアを軽量なテキストデコーダと統合し、統一アーキテクチャの下で柔軟かつ高品質なマルチモーダル生成を実現します。実験結果から、Mudditは品質と効率の両面において、はるかに大規模な自己回帰モデルと比較しても競争力のある、あるいは優れた性能を発揮することが示されています。本研究は、強力な視覚的プライアを備えた純粋な離散拡散が、統一生成のためのスケーラブルで効果的なバックボーンとしての可能性を強調しています。
強化学習アルゴリズムは、大規模言語モデルを人間の好みに合わせ、その推論能力を向上させるために不可欠です。しかし、現在の強化学習アルゴリズムは、緩いオン・ポリシー制約による訓練の不安定性や、補助モデルによる計算効率の低さに悩まされることが多いです。本研究では、これらの課題に対処するために、新規かつ簡素化された強化学習アルゴリズムである「On-Policy RL with Optimal reward baseline (OPO)」を提案します。OPOは、厳密なオン・ポリシー訓練の重要性を強調し、経験的に訓練プロセスを安定させ、探索を強化します。さらに、OPOは理論的に勾配分散を最小化する最適報酬ベースラインを導入します。数学的推論ベンチマークでOPOを評価した結果、追加のモデルや正則化項なしで優れた性能と訓練の安定性を示しました。さらに、OPOはより低いポリシーシフトと高い出力エントロピーを達成し、より多様で反復の少ない応答を促します。これらの結果は、OPOが大規模言語モデルのアライメントと推論タスクにおける安定かつ効果的な強化学習の有望な方向性であることを示しています。実装はhttps://github.com/microsoft/LMOps/tree/main/opoで提供されています。
大規模言語モデル(LLM)エージェントの最近の進展は、科学発見の自動化を大幅に加速させた一方で、重要な倫理的および安全性に関する懸念も同時に引き起こしています。これらの課題を体系的に対処するため、我々はSafeScientistを紹介します。これは、AI駆動の科学探査における安全性と倫理的責任を強化するために明示的に設計された革新的なAI科学者フレームワークです。SafeScientistは、倫理的に不適切または高リスクなタスクを積極的に拒否し、研究プロセス全体で安全性を厳密に重視します。包括的な安全監視を実現するために、プロンプト監視、エージェント協調監視、ツール使用監視、および倫理審査コンポーネントを含む複数の防御メカニズムを統合しています。SafeScientistを補完するために、我々はSciSafetyBenchを提案します。これは、科学的文脈におけるAIの安全性を評価するために特別に設計された新しいベンチマークで、6つの分野にわたる240の高リスク科学タスク、30の特別に設計された科学ツール、および120のツール関連リスクタスクで構成されています。広範な実験により、SafeScientistが従来のAI科学者フレームワークと比較して安全性パフォーマンスを35%大幅に向上させることが示されました。さらに、我々は多様な敵対的攻撃手法に対する安全パイプラインの堅牢性を厳密に検証し、統合アプローチの有効性をさらに確認しました。コードとデータはhttps://github.com/ulab-uiuc/SafeScientistで公開されます。赤色{警告:この論文には攻撃的または有害な可能性のある例データが含まれています。}
世界モデルの最近の進展は、動的環境シミュレーションに革命をもたらし、システムが将来の状態を予測し、潜在的な行動を評価することを可能にしました。自動運転において、これらの能力は、車両が他の道路利用者の行動を予測し、リスクを考慮した計画を立て、シミュレーションでのトレーニングを加速し、新しいシナリオに適応することを支援し、安全性と信頼性を向上させます。現在のアプローチは、堅牢な3D幾何学的整合性を維持するか、オクルージョン処理中にアーティファクトを蓄積するかのいずれかにおいて欠陥を示しており、これらは自動ナビゲーションタスクにおける信頼性の高い安全性評価に不可欠です。これに対処するため、我々はGeoDriveを導入し、堅牢な3D幾何学的条件を運転世界モデルに明示的に統合して、空間理解と行動制御性を向上させます。具体的には、まず入力フレームから3D表現を抽出し、ユーザー指定の自車軌跡に基づいてその2Dレンダリングを取得します。動的モデリングを可能にするため、トレーニング中に動的編集モジュールを提案し、車両の位置を編集することでレンダリングを強化します。広範な実験により、我々の方法が既存のモデルを行動精度と3D空間認識の両方で大幅に上回り、より現実的で適応性があり信頼性の高いシーンモデリングを実現し、安全な自動運転を実現することが示されました。さらに、我々のモデルは新しい軌跡に一般化でき、オブジェクト編集やオブジェクト軌跡制御などのインタラクティブなシーン編集機能を提供します。
チェーン・オブ・ソート(CoT)推論は、大規模言語モデル(LLM)が迅速なSystem-1応答を超えて、熟考型のSystem-2推論に取り組むことを可能にする。しかし、これには冗長な中間出力による著しい非効率性が伴う。最近の潜在空間推論手法は、言語にデコードせずに隠れ状態で操作することで効率を向上させるが、すべてのステップを均一に扱い、重要な推論と補助的なステップを区別せず、計算リソースの最適な利用を妨げている。本論文では、潜在空間におけるショートカット経路を通じて推論ステップ間で計算を動的に割り当てる適応型推論フレームワークであるSystem-1.5推論を提案する。具体的には、System-1.5推論は2種類の動的ショートカットを導入する。モデル深度ショートカット(DS)は、軽量なアダプタ分岐を通じて非重要なトークンを早期に終了させながら、重要なトークンがより深いTransformer層を通過することを可能にし、垂直方向の深度に沿って適応的に推論する。ステップショートカット(SS)は、デコードステップ間で隠れ状態を再利用し、些細なステップをスキップして潜在空間で水平方向に推論する。System-1.5推論のトレーニングは、2段階の自己蒸留プロセスを含む:まず自然言語CoTを潜在空間の連続思考に蒸留し、次に完全経路のSystem-2潜在推論を適応型ショートカット経路(System-1.5推論)に蒸留する。推論タスクにおける実験は、本手法の優れた性能を示している。例えば、GSM8Kにおいて、System-1.5推論は従来のCoTファインチューニング手法と同等の推論性能を達成しつつ、推論速度を20倍以上加速し、トークン生成を平均92.31%削減する。
医師と患者の診察では、多様な患者像に合わせた、文脈を理解した多段階のコミュニケーションが求められます。このような場面で医師向け大規模言語モデル(LLM)を訓練または評価するためには、現実的な患者インタラクションシステムが必要です。しかし、既存のシミュレータは、臨床現場で見られる幅広い患者像を十分に反映できていないことが多いです。この問題を解決するため、私たちはPatientSimを導入しました。これは、医療専門知識に基づいて、臨床シナリオに適した現実的で多様な患者像を生成する患者シミュレータです。PatientSimは以下の要素を使用して動作します:1)MIMIC-EDおよびMIMIC-IVデータセットの実世界データから得られた症状や病歴を含む臨床プロファイル、2)性格、言語能力、病歴の記憶レベル、認知的な混乱レベルという4つの軸で定義された患者像で、これにより37種類のユニークな組み合わせが可能です。私たちは8つのLLMを事実の正確性と患者像の一貫性について評価しました。最も優れたオープンソースモデルであるLlama 3.3は、4人の臨床医によって検証され、フレームワークの堅牢性が確認されました。オープンソースでカスタマイズ可能なプラットフォームとして、PatientSimは特定の訓練ニーズに合わせてカスタマイズ可能な再現性と拡張性を備えたソリューションを提供します。プライバシーに準拠した環境を提供することで、多様な患者の症状に対する医療対話システムの評価のための堅牢なテストベッドとして機能し、医療教育ツールとしても有望です。
Transformerベースの大規模言語モデル(LLM)は、推論中にキー・バリュー(KV)ペアとしてコンテキストをキャッシュします。コンテキストの長さが増えるにつれて、KVキャッシュのサイズも拡大し、メモリのオーバーヘッドが増大し、アテンションのレイテンシも増加します。本論文では、KVzipを紹介します。これは、クエリに依存しないKVキャッシュの削除方法であり、多様なクエリ間で圧縮されたKVキャッシュを効果的に再利用することを可能にします。KVzipは、基盤となるLLMを使用してキャッシュされたKVペアから元のコンテキストを再構築することで、KVペアの重要度を定量化し、重要度の低いペアを削除します。広範な実証評価により、KVzipがKVキャッシュサイズを3~4倍に削減し、FlashAttentionのデコードレイテンシを約2倍に短縮することが示されました。これにより、質問応答、検索、推論、コード理解タスクにおいて、性能の低下はほとんどありませんでした。評価には、LLaMA3.1-8B、Qwen2.5-14B、Gemma3-12Bなどのさまざまなモデルが含まれており、コンテキストの長さは最大170Kトークンに達しました。KVzipは、既存のクエリ依存型KV削除方法を大幅に上回り、特にマルチクエリシナリオにおいて90%のキャッシュ予算比率でも性能低下を招く既存手法に対して優れた結果を示しました。
拡散モデルは驚異的な生成品質を実証しているものの、その代償として多数の関数評価を必要とします。最近、限られたサンプリングステップ下での逆拡散解法の多大な計算負荷を軽減するため、高度なODEベースのソルバーが開発されました。しかし、これらのソルバーはAdams型多段階法に強く影響を受けており、t関連のラグランジュ補間にのみ依存しています。本研究では、t関連のラグランジュ補間が拡散モデルにとって最適ではないことを示し、時間ステップとソルバー係数から構成されるコンパクトな探索空間を明らかにします。この分析に基づき、より最適なソルバーを特定するための新しい微分可能なソルバー探索アルゴリズムを提案します。探索されたソルバーを装備した修正フローモデル(例:SiT-XL/2およびFlowDCN-XL/2)は、ImageNet256においてわずか10ステップでそれぞれ2.40および2.35のFIDスコアを達成します。一方、DDPMモデルであるDiT-XL/2は、わずか10ステップで2.33のFIDスコアに到達します。特に、我々の探索したソルバーは従来のソルバーを大幅に上回る性能を示します。さらに、探索されたソルバーは、様々なモデルアーキテクチャ、解像度、モデルサイズにわたって汎用性を発揮します。
既存の映像理解ベンチマークは、知識ベースの質問と純粋に画像ベースの質問を混同しがちであり、映像理解を他のモダリティと区別する重要な側面である時間的推論能力を明確に分離していない。我々は、高いスコアが真に映像の動的コンテンツの理解力を示しているかどうかを曖昧にする2つの主要な限界を特定した:(1)強力な言語事前分布、すなわちモデルが映像を見ることなく質問に答えられること;(2)シャッフル不変性、すなわち映像フレームが時間的にシャッフルされても、特定の質問に対してモデルが同様の性能を維持すること。これらの問題を緩和するため、我々はVBenchCompを提案する。これは、質問を異なるドメインに分類する自動化されたパイプラインである:LLM-Answerable、Semantic、およびTemporal。具体的には、LLM-Answerableな質問は映像を見ることなく回答可能であり、Semanticな質問は映像フレームがシャッフルされても回答可能であり、Temporalな質問はフレームの正しい時間的順序を理解する必要がある。残りの質問はOthersとしてラベル付けされる。これにより、映像LLMの異なる能力を細かく評価することが可能となる。我々の分析は、従来の総合スコアでは隠されていたモデルの微妙な弱点を明らかにし、将来のベンチマークを設計する際に映像LLMをより正確に評価するための洞察と推奨事項を提供する。
ビデオ生成は、深層生成モデル、特に拡散ベースのアプローチの登場により、大きな進歩を遂げてきました。しかし、複数の参照対象に基づくビデオ生成では、複数対象の一貫性を維持しつつ高い生成品質を確保することが依然として大きな課題となっています。本論文では、多様な参照画像とテキストプロンプトに基づいて、一貫した複数対象のビデオ合成を可能にするマスク付きガイダンスを導入した、任意参照ビデオ生成のための統一フレームワークであるMAGREFを提案します。具体的には、(1) 単一のモデルがアーキテクチャの変更なしに、人間、物体、背景など様々な対象の推論を柔軟に処理できる地域認識型動的マスキングメカニズム、および(2) チャネル次元で動作し、外観特徴をより良く保存するピクセル単位のチャネル連結メカニズムを提案します。我々のモデルは、単一対象のトレーニングから複雑な複数対象のシナリオまで一般化し、一貫した合成と個々の対象に対する精密な制御を実現し、既存のオープンソースおよび商用のベースラインを上回る、最先端のビデオ生成品質を提供します。評価を容易にするため、包括的な複数対象ビデオベンチマークも導入しました。広範な実験により、我々のアプローチの有効性が実証され、スケーラブルで制御可能かつ高忠実度の複数対象ビデオ合成への道が開かれました。コードとモデルは、https://github.com/MAGREF-Video/MAGREF で公開されています。
大規模言語モデル(LLM)は説得において有望な可能性を示していますが、LLM説得エージェントの訓練に関する既存の研究はまだ初期段階にあります。特に、人間は相手の思考や意見を積極的かつ動的にモデル化する能力に長けていますが、現在のLLMはそのような心の理論(Theory of Mind, ToM)推論に苦戦しており、多様性や相手への認識が限られています。この制約を解決するため、我々は「心の理論拡張説得エージェント(Theory of Mind Augmented Persuader, ToMAP)」を提案します。これは、説得エージェントの相手の心理状態に対する認識と分析を強化する2つの心の理論モジュールを組み込むことで、より柔軟な説得エージェントを構築する新しいアプローチです。具体的には、まず説得エージェントに対象となる中心的な主張に対する反論を考慮するよう促し、その後、テキストエンコーダと訓練済みのMLP分類器を使用して、相手がこれらの反論に対して現在どのような立場を取っているかを予測します。我々が慎重に設計した強化学習スキーマにより、説得エージェントは相手関連の情報を分析し、それを活用してより効果的な議論を生成する方法を学びます。実験結果は、ToMAP説得エージェントが3Bパラメータしか含まないにもかかわらず、GPT-4oのようなはるかに大規模なベースラインを上回り、複数の被説得者モデルと多様なコーパスにおいて39.4%の相対的な向上を示しています。特に、ToMAPは複雑な推論チェーンを示し、訓練中の繰り返しが減少することで、より多様で効果的な議論を生成します。ToMAPの相手認識機能は、長い会話にも適しており、より論理的で相手を意識した戦略を採用することを可能にします。これらの結果は、我々の手法の有効性を裏付けるとともに、より説得力のある言語エージェントを開発するための潜在的可能性を強調しています。コードは以下で公開されています:https://github.com/ulab-uiuc/ToMAP。
本論文では、Diff-Instruct、DMD、SIM、SiD、f-distillなど、10以上の既存のワンステップ拡散蒸留手法を、我々が「Uni-Instruct」と名付けた理論駆動型フレームワーク内で統一する。Uni-Instructは、我々が提案するf-ダイバージェンス族の拡散拡張理論に基づいて構築されている。次に、元の拡張f-ダイバージェンスの計算困難性を克服する重要な理論を導入し、拡張f-ダイバージェンス族を最小化することでワンステップ拡散モデルを効果的に訓練する等価かつ計算可能な損失関数を導出する。Uni-Instructによる新たな統一は、既存の手法を高レベルな視点から理解するための新たな理論的貢献を提供するだけでなく、ワンステップ拡散生成において最先端の性能を実現する。CIFAR10生成ベンチマークにおいて、Uni-Instructは無条件生成で1.46、条件付き生成で1.38という記録的なFrechet Inception Distance(FID)値を達成した。ImageNet-64×64生成ベンチマークでは、Uni-Instructはワンステップ生成で1.02という新たなSoTA FIDを達成し、79ステップの教師拡散モデルの2.35を大幅に上回る改善幅(1.02対2.35)を示した。また、Uni-Instructをテキストから3D生成などの幅広いタスクに適用した。テキストから3D生成において、Uni-InstructはSDSやVSDなどの従来手法を生成品質と多様性の両面でわずかに上回る良好な結果を示した。Uni-Instructの確固たる理論的および実証的貢献は、ワンステップ拡散蒸留と拡散モデルの知識転送に関する将来の研究に役立つ可能性がある。
音源分離は、機械が複雑な音響環境を理解するための基盤であり、数多くの音響アプリケーションを支える重要な技術です。現在の教師あり深層学習アプローチは強力ではあるものの、大規模なタスク固有のラベル付きデータを必要とするという制約があり、現実世界の音響シーンの多様性やオープンセットの性質に対応する汎化能力に課題を抱えています。生成基盤モデルの成功に触発され、我々は事前学習済みのテキスト誘導型音響拡散モデルがこれらの制限を克服できるかどうかを調査しました。驚くべき発見として、適切な設定の下で、事前学習済みのテキスト誘導型音響拡散モデルだけでゼロショット音源分離が可能であることがわかりました。我々の手法「ZeroSep」は、混合音声を拡散モデルの潜在空間に逆変換し、テキスト条件付けを用いてノイズ除去プロセスを誘導し、個々の音源を復元するものです。タスク固有の学習や微調整を一切行わずに、ZeroSepは生成拡散モデルを識別的分離タスクに転用し、豊富なテキスト事前情報を通じてオープンセットシナリオを本質的にサポートします。ZeroSepは、様々な事前学習済みテキスト誘導型音響拡散バックボーンと互換性があり、複数の分離ベンチマークで強力な分離性能を発揮し、教師あり手法さえも凌駕します。
大規模言語モデル(LLM)は機能的に正しいソリューションを生成しますが、コード効率性においてしばしば不足が見られ、実世界での展開における重要なボトルネックとなっています。本論文では、この問題に対処するために、実行サンドボックスからの実績フィードバックに基づいてLLMがコードを反復的に改良する閉ループシステムを採用した、新しいテスト時反復最適化フレームワークを提案します。我々は、教師ありファインチューニング(SFT)、直接選好最適化(DPO)、およびグループ相対ポリシー最適化(GRPO)という3つの学習戦略を検討します。VenusデータセットとAPPSベンチマークでの実験により、SFTとDPOは効率性の向上において急速に飽和することが示されました。一方で、実行フィードバックを用いた強化学習(RL)を採用するGRPOは、コード性能を継続的に最適化し、pass@1(47%から62%へ)および効率性において人間の提出物を上回る確率(31%から45%へ)を大幅に向上させました。本研究は、テスト時のコード効率性改善の有効性を示すとともに、LLMが真に自己改善してコード効率性を高めるためのRLの力を明らかにしました。
我々は、軌道ベースの入力を用いてカメラの動き、オブジェクトレベルの移動、細かな局所的な動きをシームレスに統合する、ビデオ生成におけるモーション制御の統一フレームワークを提案する。従来の手法ではこれらのモーションタイプを別々のモジュールやタスク固有の設計で扱っていたのに対し、我々のアプローチは軽量なモーションインジェクターを介してユーザー定義の軌道を事前学習済みの画像-ビデオ生成モデルの潜在空間に投影することで、一貫した解決策を提供する。ユーザーはキーポイントとその動きのパスを指定することで、局所的な変形、オブジェクト全体の動き、仮想カメラのダイナミクス、またはこれらの組み合わせを制御できる。注入された軌道信号は、時間的に一貫性があり意味的に整合したモーションシーケンスを生成するよう生成プロセスを導く。我々のフレームワークは、スタイライズされたモーション効果(例:モーションブラシ)、動的な視点変更、精密な局所モーション操作など、複数のビデオモーション制御タスクにおいて優れた性能を示す。実験結果から、我々の手法は従来のアプローチや商用ソリューションと比較して、大幅に優れた制御性と視覚的品質を提供しつつ、様々な最先端のビデオ生成バックボーンと広く互換性があることが示された。プロジェクトページ: https://anytraj.github.io/。
Diffusion Transformers (DiT) は、動画や画像といった高品質な視覚コンテンツを生成するためのデファクトスタンダードなモデルとなっています。大きなボトルネックは、解像度と動画の長さに対して計算量が二次的に増加するアテンション機構です。この負担を軽減するための論理的な方法の一つが、スパースアテンションです。これは、計算に含まれるトークンやパッチのサブセットのみを選択する手法です。しかし、既存の技術では、極めて高いスパースレベルで視覚品質を維持することができず、無視できない計算オーバーヘッドが発生する可能性があります。この問題に対処するため、我々はRe-ttentionを提案します。Re-ttentionは、Diffusion Modelsの時間的冗長性を活用して、アテンション機構内の確率的正規化シフトを克服し、視覚生成モデルに対して非常に高いスパースアテンションを実現します。具体的には、Re-ttentionは、以前のソフトマックス分布の履歴に基づいてアテンションスコアを再形成し、極めて高いスパースレベルでも完全な二次アテンションの視覚品質を維持します。CogVideoXやPixArt DiTsといったT2V/T2Iモデルでの実験結果は、Re-ttentionが推論中にわずか3.1%のトークンしか必要とせず、FastDiTAttn、Sparse VideoGen、MInferenceといった現代の手法を上回ることを示しています。さらに、我々はレイテンシを測定し、H100 GPU上で無視できるオーバーヘッドコストで、エンドツーエンドで45%以上、セルフアテンションで92%以上のレイテンシ削減を達成できることを示しました。 コードは以下のURLで公開されています: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
13,440の大規模言語モデルを訓練した結果、エントロピー最小化にはわずか1つのラベルなしデータと10ステップの最適化のみで、ルールベースの強化学習において数千のデータと慎重に設計された報酬を用いて得られる性能向上に匹敵する、あるいはそれ以上の改善が達成可能であることが判明しました。この驚くべき結果は、大規模言語モデルのポストトレーニングパラダイムの再考を促す可能性があります。コードはhttps://github.com/zitian-gao/one-shot-emで公開されています。
リバスパズルは、イメージ、空間配置、象徴的置換を通じて言語を符号化する視覚的謎解きであり、現在の視覚言語モデル(VLM)にとって独特の課題を提起します。従来の画像キャプショニングや質問応答タスクとは異なり、リバスパズルの解決には、マルチモーダルな抽象化、象徴的推論、文化的・音声的・言語的な駄洒落の理解が求められます。本論文では、現代のVLMがリバスパズルを解釈し解決する能力を調査するため、単純な絵文字置換から空間依存の手がかり(例:「頭」が「踵」の上)まで多様な英語のリバスパズルを手作業で生成し、注釈を付けたベンチマークを構築しました。異なるVLMの性能を分析した結果、VLMは単純な視覚的手がかりの解読において驚くべき能力を示す一方で、抽象的推論、ラテラルシンキング、視覚的メタファーの理解を必要とするタスクでは著しく苦戦することが明らかになりました。
最近の思考トレースを備えた大規模推論モデル(LRM)は、英語の推論タスクにおいて強力な性能を示している。しかし、他の言語で思考する能力については、あまり研究されていない。この能力は、現実世界のアプリケーションにおいて回答精度と同様に重要である。なぜなら、ユーザーは、推論トレースが自分たちの言語で表現されている場合にのみ、それを監視に役立つと感じるからだ。我々は、XReasoningベンチマークを用いて、2つの主要なLRMファミリーを包括的に評価し、最も先進的なモデルでさえ、他の言語では英語に戻ったり、断片的な推論を生成したりすることが多いことを発見した。これは、多言語推論における大きなギャップを明らかにしている。ユーザーの言語で推論するようモデルに強制するプロンプトベースの介入は、可読性と監視を改善するが、回答精度を低下させ、重要なトレードオフを露呈する。さらに、わずか100例のターゲットを絞った追加学習により、このミスマッチを軽減できるが、いくらかの精度の損失は残ることを示した。我々の結果は、現在のLRMの限られた多言語推論能力を強調し、将来の研究の方向性を示している。コードとデータはhttps://github.com/Betswish/mCoT-XReasoningで入手可能である。
大規模視覚言語モデル(LVLM)の最近の進展により、レポート生成や視覚的質問応答などの医療タスクにおいて有望な応用が可能となってきた。しかし、既存のベンチマークは主に最終的な診断結果に焦点を当てており、モデルが臨床的に意味のある推論を行っているかどうかについての洞察は限られている。この問題に対処するため、我々は公開されているMIMIC-CXR-JPGデータセットに基づいて構築された構造化パイプラインとベンチマークであるCheXStructとCXReasonBenchを提案する。CheXStructは、胸部X線画像から直接、解剖学的領域のセグメンテーション、解剖学的ランドマークと診断測定値の導出、診断指標の計算、臨床的閾値の適用といった一連の中間推論ステップを自動的に導出する。CXReasonBenchはこのパイプラインを活用し、モデルが臨床的に有効な推論ステップを実行できるかどうか、および構造化されたガイダンスからどの程度学習できるかを評価し、診断推論の細分化された透明性のある評価を可能にする。このベンチマークは、12の診断タスクと1,200症例にわたる18,988のQAペアで構成され、それぞれ最大4つの視覚的入力がペアリングされており、解剖学的領域選択と診断測定による視覚的グラウンディングを含むマルチパス、マルチステージの評価をサポートする。評価された10のLVLMの中で最も強力なモデルでさえ、構造化された推論と一般化に苦戦し、抽象的な知識を解剖学的に根拠のある視覚的解釈と結びつけることができないことが多い。コードはhttps://github.com/ttumyche/CXReasonBenchで入手可能である。
Vision-Language Models(VLMs)は、視覚とテキストのモダリティを整合させる強力な能力を示し、マルチモーダル理解と生成における幅広い応用を可能にしています。ゼロショット学習や転移学習のシナリオで優れた性能を発揮する一方で、VLMsは誤分類に対して脆弱であり、しばしば自信過剰な誤った予測を生成します。この制約は、誤った予測が重大な結果を招く可能性のある安全クリティカルな領域において、重要なリスクをもたらします。本研究では、VLMの予測が信頼できるかどうかを推定するという重要な課題に対処するために、トレーニング不要のフレームワークであるTrustVLMを提案します。VLMsにおけるモダリティギャップの観察と、特定の概念が画像埋め込み空間においてより明確に表現されるという洞察に基づき、この空間を活用して誤分類検出を改善する新しい信頼度スコアリング関数を提案します。我々は、17の多様なデータセット、4つのアーキテクチャ、および2つのVLMを用いて、提案手法を厳密に評価し、既存のベースラインと比較してAURCで最大51.87%、AUROCで9.14%、FPR95で32.42%の改善を示し、最先端の性能を実証しました。再トレーニングを必要とせずにモデルの信頼性を向上させることで、TrustVLMは現実世界のアプリケーションにおけるVLMsのより安全な展開の道を開きます。コードはhttps://github.com/EPFL-IMOS/TrustVLMで公開予定です。
我々は、高品質で一貫性のある3Dアセットのテクスチャを生成するための新しい2段階の3Dテクスチャ生成フレームワークであるUniTEXを提案します。既存のアプローチは、生成されたマルチビュー画像を3D形状に再投影した後、UVベースのインペインティングを使用してテクスチャを精製する方法が主流であり、これはトポロジーの曖昧さに関連する課題を引き起こします。この問題に対処するため、我々はUVマッピングの制限を回避し、統一された3D関数空間で直接操作することを提案します。具体的には、まず、テクスチャ関数(TFs)を介してテクスチャ生成を3D空間に持ち上げることを提案します。TFsは、メッシュトポロジーに依存せず、表面近接度に基づいて任意の3Dポイントをテクスチャ値にマッピングする連続的な体積表現です。次に、Transformerベースの大規模テクスチャモデル(LTM)を使用して、画像とジオメトリ入力からこれらのTFsを直接予測することを提案します。さらに、テクスチャ品質を向上させ、強力な2D事前分布を活用するために、高品質なマルチビューテクスチャ合成のための大規模Diffusion Transformers(DiTs)を効率的に適応させるための高度なLoRAベースの戦略を第1段階として開発しました。広範な実験により、UniTEXが既存のアプローチと比較して優れた視覚品質とテクスチャの整合性を達成し、自動化された3Dテクスチャ生成のための汎用的でスケーラブルなソリューションを提供することが実証されました。コードは以下で公開予定です: https://github.com/YixunLiang/UniTEX。
ガウシアンスプラッティング(GS)は最近、2D画像から3Dシーンをレンダリングするための効率的な表現として登場し、画像、動画、そして動的な4Dコンテンツにまで拡張されてきました。しかし、GSベースの表現にスタイル転移を適用すること、特に単純な色の変更を超えたスタイル転移は、依然として困難な課題です。本研究では、CLIPGaussiansを紹介します。これは、テキストおよび画像ガイドによるスタイル転移を2D画像、動画、3Dオブジェクト、4Dシーンといった複数のモダリティにわたってサポートする初の統合型スタイル転移フレームワークです。本手法はガウシアンプリミティブに直接作用し、既存のGSパイプラインにプラグインモジュールとして統合されるため、大規模な生成モデルやゼロからの再学習を必要としません。CLIPGaussiansアプローチは、3Dおよび4D設定における色と形状の共同最適化を可能にし、動画における時間的整合性を実現しながら、モデルサイズを維持します。すべてのタスクにおいて優れたスタイルの忠実度と一貫性を実証し、CLIPGaussiansがマルチモーダルスタイル転移のための普遍的かつ効率的なソリューションであることを検証します。
既存の連鎖思考(CoT)蒸留法は、推論能力を基盤モデルに効果的に転移させることができるが、二つの主要な限界に直面している。推論トレースの過剰な冗長性と、問題の難易度に対する適応性の欠如である。長い推論トレースは推論コストを大幅に増加させ、均一な長さの解決策は基盤モデルが適応的な推論戦略を学ぶことを妨げる。これらの問題を解決するため、我々はパフォーマンスの低下なしに推論トレースを動的に短縮する難易度認識プロンプティング(DAP)法を提案する。本手法では、まず大規模な教師モデルが各問題の難易度を判断し、その後、推論トレースを適切な短い長さに書き換えることで、簡潔でありながら完全な推論トレースを生成する。DAPパイプラインを活用し、100Kの簡潔な推論例からなるLiteCoTという蒸留データセットを構築した。その解決策は平均720トークン(典型的なCoTの1/10の長さ)に過ぎない。LiteCoTを使用して、Qwen2.5アーキテクチャに基づくLiter(1.5B、7B、32B)という新しい推論モデルファミリーを蒸留した。実験では、100Kの難易度に応じて選別されたCoTサンプルでファインチューニングされた学生モデルが、800Kの元の長いCoTサンプルで蒸留されたモデルを上回り、トレーニングと推論コストを大幅に削減することが示された。本手法はまた、11の多様なベンチマークにおいて、短い難易度認識CoTが長い連鎖と同等またはそれ以上の精度を達成し、はるかに少ないトークンを使用する。例えば、挑戦的なAIME24試験において、本手法は約5Kの推論トークンを使用して74.2%のPass@1を達成し、より多くのトークンを消費する他の手法を上回った。コードとデータはhttps://github.com/Evanwu1125/LiteCoTで公開されている。
本論文では、音楽に同期した、振付を考慮した動物ダンス動画を生成するためのキーフレームベースのフレームワークを提案する。テキストから画像を生成するプロンプトやGPT-4oを用いて作成された、特徴的な動物のポーズを表す少数のキーフレームから始め、ダンス合成をグラフ最適化問題として定式化する。具体的には、参照ダンス動画から自動的に推定可能なビートの振付パターンを満たす最適なキーフレーム構造を見つける。また、ダンスにおける対称性を捉えるために不可欠な、鏡像ポーズ画像生成の手法を導入する。中間フレームはビデオ拡散モデルを用いて合成される。わずか6つの入力キーフレームを用いることで、本手法は多様な動物と音楽トラックにわたる最大30秒のダンス動画を生成することが可能である。
フィードフォワード3Dガウススプラッティング(3DGS)モデルは、最近、新規視点合成の有望な解決策として登場し、シーンごとの3DGS最適化を必要とせずにワンパス推論を可能にしています。しかし、そのスケーラビリティは、エンコーダの限られた容量によって根本的に制約されており、入力ビューの数が増加するにつれて性能の低下や過剰なメモリ消費を引き起こします。本研究では、情報ボトルネック原理の観点からフィードフォワード3DGSフレームワークを分析し、ZPressorを導入します。ZPressorは、軽量でアーキテクチャに依存しないモジュールであり、多視点入力をコンパクトな潜在状態Zに効率的に圧縮し、冗長性を排除しながら重要なシーン情報を保持します。具体的には、ZPressorは、ビューをアンカーセットとサポートセットに分割し、クロスアテンションを使用してサポートビューの情報をアンカービューに圧縮し、圧縮された潜在状態Zを形成することで、既存のフィードフォワード3DGSモデルが80GBのGPU上で480P解像度で100以上の入力ビューにスケールすることを可能にします。ZPressorをいくつかの最先端のフィードフォワード3DGSモデルに統合することで、中程度の入力ビュー下での性能が一貫して向上し、大規模ベンチマークDL3DV-10KおよびRealEstate10Kでの高密度ビュー設定下での堅牢性が向上することを示します。ビデオ結果、コード、およびトレーニング済みモデルは、プロジェクトページ(https://lhmd.top/zpressor)で公開されています。
高性能なソフトウェアの開発は、専門的な知識を必要とする複雑なタスクです。本論文では、言語モデルの高性能ソフトウェア開発能力を評価するためのベンチマークであるGSOを紹介します。自動化されたパイプラインを開発し、パフォーマンステストを生成・実行することで、リポジトリのコミット履歴を分析し、10のコードベースにわたる102の難易度の高い最適化タスクを特定しました。これらは多様なドメインとプログラミング言語にまたがっています。エージェントにはコードベースとパフォーマンステストが正確な仕様として提供され、実行効率の改善を求められます。その結果は、専門開発者による最適化と比較して測定されます。定量的評価によると、主要なSWE-Agentは大幅な苦戦を強いられ、成功率は5%未満で、推論時間のスケーリングを行っても改善は限定的でした。定性的分析では、低レベル言語の扱いの難しさ、怠惰な最適化戦略の採用、ボトルネックの正確な特定の困難さといった主要な失敗モードが明らかになりました。今後の研究を促進するため、ベンチマークのコードとアーティファクト、およびエージェントの軌跡を公開します。
事前学習されたマルチモーダル表現(例:CLIP)は印象的な能力を示す一方で、直感に反する判断を引き起こす重要な構成上の脆弱性を有しています。本論文では、マルチモーダル敵対的構成性(Multimodal Adversarial Compositionality, MAC)を提案します。MACは、大規模言語モデル(LLMs)を活用して異なるモダリティにわたるこれらの脆弱性を悪用する欺瞞的なテキストサンプルを生成し、サンプルごとの攻撃成功率とグループごとのエントロピーベースの多様性を通じて評価するベンチマークです。ゼロショット手法を改善するために、多様性を促進するフィルタリングを伴うリジェクトサンプリングによるファインチューニングを活用した自己学習アプローチを提案し、攻撃成功率とサンプル多様性の両方を向上させます。Llama-3.1-8Bのような小規模言語モデルを使用することで、画像、動画、音声を含む様々なマルチモーダル表現における構成上の脆弱性を明らかにする優れた性能を実証しています。
近年、AI駆動の画像生成技術は急速に進歩を遂げています。初期の拡散モデルは知覚的な品質を重視していましたが、GPT-4o-imageのような新しいマルチモーダルモデルは高度な推論を統合し、意味理解と構造構成を改善しています。科学イラスト生成はこの進化を象徴する例です:一般的な画像合成とは異なり、技術的な内容を正確に解釈し、抽象的なアイデアを明確で標準化された視覚表現に変換することを要求します。このタスクははるかに知識集約的で労力を要し、しばしば何時間もの手作業と専門的なツールを必要とします。これを制御可能で知的な方法で自動化することは、実用的な価値を大幅に提供するでしょう。しかし、この分野でAIを評価するためのベンチマークは現在存在しません。このギャップを埋めるため、我々は科学図表生成のための最初のベンチマークであるSridBenchを導入します。これは、13の自然科学およびコンピュータサイエンス分野の主要な科学論文からキュレーションされた1,120のインスタンスで構成され、人間の専門家とMLLMによって収集されました。各サンプルは、意味的忠実度や構造的精度を含む6つの次元に沿って評価されます。実験結果は、GPT-4o-imageのようなトップクラスのモデルでさえ、テキスト/視覚的な明瞭さや科学的正確性において人間のパフォーマンスに遅れをとっていることを明らかにしています。これらの発見は、より高度な推論駆動の視覚生成能力の必要性を強調しています。
放射線レポートは詳細な臨床観察を伝え、時間とともに進化する診断推論を記録します。しかし、既存の評価手法は単一レポートの設定に限定されており、細かな臨床的意味や時間的依存関係を捉えることができない粗い指標に依存しています。本研究では、構造化された放射線レポート生成のためのベンチマークデータセットであるLUNGUAGEを紹介します。このデータセットは、単一レポートの評価と複数の研究にわたる患者レベルの縦断的評価の両方をサポートします。1,473件の注釈付き胸部X線レポートを含み、それぞれ専門家によるレビューが行われています。そのうち80件は、疾患の進行と研究間隔を捉えるための縦断的注釈を含み、これも専門家によってレビューされています。このベンチマークを使用して、生成されたレポートを細かくスキーマに沿った構造化表現に変換し、縦断的解釈を可能にする2段階のフレームワークを開発しました。また、LUNGUAGESCOREという解釈可能な指標を提案します。この指標は、エンティティ、関係、属性レベルで構造化された出力を比較し、患者のタイムラインにわたる時間的一貫性をモデル化します。これらの貢献により、逐次的な放射線レポート作成のための最初のベンチマークデータセット、構造化フレームワーク、および評価指標が確立され、LUNGUAGESCOREが構造化レポート評価を効果的にサポートすることが実証結果によって示されています。コードは以下で公開されています: https://github.com/SuperSupermoon/Lunguage
マルチモーダル大規模言語モデル(MLLMs)の能力が向上するにつれ、チャート理解などのタスクが進展しています。しかし、これらのモデルはしばしば幻覚(hallucination)に悩まされ、生成されたテキストシーケンスが提供された視覚データと矛盾する場合があります。この問題に対処するため、我々は「Post-Hoc Visual Attribution for Charts」を導入し、特定のチャート関連の応答を検証するための細粒度のチャート要素を特定します。我々は、セグメンテーションベースの技術を用いてチャートオブジェクトを識別し、MLLMsと共に細粒度の視覚的帰属を行うための「set-of-marks prompting」を採用する新たなチャート帰属アルゴリズム「ChartLens」を提案します。さらに、金融、政策、経済などの多様な分野から合成および実世界のチャートを収集し、細粒度の帰属アノテーションを特徴とするベンチマーク「ChartVA-Eval」を提示します。評価の結果、ChartLensは細粒度の帰属を26~66%改善することが示されました。
大規模言語モデルは、その知識アクセス、編集可能性、推論能力、説明可能性の観点から、ニューラル知識ベースとして広く研究されてきました。しかし、その知識の構造的パターンに焦点を当てた研究はほとんどありません。このギャップに動機づけられ、我々はグラフの視点からこれらの構造的パターンを調査します。我々は、LLMの知識をトリプレットレベルとエンティティレベルの両方で定量化し、それがノード次数などのグラフ構造特性とどのように関連するかを分析します。さらに、我々は知識のホモフィリーを明らかにし、トポロジー的に近いエンティティが類似した知識レベルを示すことを発見しました。これにより、ローカルな近傍に基づいてエンティティの知識を推定するグラフ機械学習モデルを開発する動機がさらに高まりました。このモデルは、LLMがあまり知らないトリプレットを選択することで、貴重な知識チェックを可能にします。実験結果は、選択されたトリプレットを用いてファインチューニングを行うことで優れた性能が得られることを示しています。
空間知能は、複雑な物理世界で動作するマルチモーダル大規模言語モデル(MLLMs)にとって不可欠である。しかし、既存のベンチマークは単一画像の関係性のみを探るものであり、実世界での展開に求められる複数画像の空間推論を評価するには不十分である。本論文では、複数画像の空間知能に特化したVQAベンチマークであるMMSI-Benchを紹介する。6名の3D視覚研究者が300時間以上を費やし、12万枚以上の画像から1,000の挑戦的で曖昧さのない多肢選択問題を慎重に作成し、それぞれに注意深く設計されたディストラクタと段階的な推論プロセスを組み合わせた。我々は広範な実験を行い、34のオープンソースおよびプロプライエタリなMLLMsを徹底的に評価し、大きなギャップを観察した:最も強力なオープンソースモデルは約30%の精度を達成し、OpenAIのo3推論モデルは40%に達する一方で、人間のスコアは97%であった。これらの結果は、MMSI-Benchの難易度の高さと、今後の研究における大きな改善余地を示している。注釈付きの推論プロセスを活用し、我々は自動化されたエラー分析パイプラインも提供する。このパイプラインは、(1) グラウンディングエラー、(2) オーバーラップマッチングおよびシーン再構築エラー、(3) 状況変換推論エラー、(4) 空間論理エラーの4つの主要な失敗モードを診断し、複数画像の空間知能を進歩させるための貴重な洞察を提供する。プロジェクトページ: https://runsenxu.com/projects/MMSI_Bench
直接選好最適化(Direct Preference Optimization: DPO)は、教師ありの方法で言語モデルを人間の選好に合わせるための標準的な技術となっている。その経験的な成功にもかかわらず、その対数比報酬パラメータ化の背後にある理論的根拠は不完全なままである。本研究では、このギャップを埋めるために、差分情報分布(Differential Information Distribution: DID)を活用する。DIDは、ポリシー更新中に得られる情報を捉えるトークンシーケンスの分布である。まず、選好ラベルが参照ポリシーを目標ポリシーに変換するために必要な差分情報をエンコードする場合、DPOの対数比報酬が選好最適化を通じて目標ポリシーを学習するための唯一最適な形式として現れることを示す。この結果から、拒否された応答に対する最適なサンプリング分布の閉形式表現が自然に導かれる。次に、選好が差分情報をエンコードする条件が、対数マージン順序付きポリシーに関する暗黙の仮定と根本的に関連していることを明らかにする。これは、選好最適化で広く使用されているが、これまで認識されていなかった帰納的バイアスである。最後に、DIDのエントロピーを分析することで、低エントロピーの差分情報を学習することがポリシー分布を強化する一方で、高エントロピーの差分情報が平滑化効果を誘発することを特徴づけ、対数尤度の変位現象を説明する。我々は、合成実験で理論的知見を検証し、それを現実世界の指示追従データセットに拡張する。結果は、高エントロピーの差分情報を学習することが一般的な指示追従に重要である一方、低エントロピーの差分情報を学習することが知識集約的な質問応答に有益であることを示唆している。全体として、本研究は、DPOの目的、選好データの構造、および差分情報の観点から得られるポリシーの振る舞いについて統一的な視点を提供する。
思考連鎖に対する強化学習(RL)は、数学やコーディングなどのタスクにおいて言語モデルを大幅に進化させてきたが、視覚的推論は、モデルが視覚的注意を向け、知覚入力を解釈し、抽象的な推論を空間的証拠に基づかせることを要求するため、さらなる複雑さを導入する。本論文では、ViGoRL(Visually Grounded Reinforcement Learning)を紹介する。これは、各推論ステップを特定の視覚座標に明示的に結び付けるようRLで訓練された視覚-言語モデルである。人間の視覚的意思決定に着想を得たViGoRLは、空間的に根拠のある推論トレースを生成し、各ステップでタスクに関連する領域に視覚的注意を向けることを学習する。細かい探索が必要な場合、我々の新しいマルチターンRLフレームワークにより、モデルは推論が進むにつれて予測された座標に動的にズームインすることが可能となる。空間推論のためのSAT-2やBLINK、視覚探索のためのV*bench、ウェブベースのグラウンディングのためのScreenSpotやVisualWebArenaなど、多様な視覚推論ベンチマークにおいて、ViGoRLは明示的なグラウンディング機構を欠く教師ありファインチューニングや従来のRLベースラインを一貫して上回る。ズームインした視覚的フィードバックを組み込んだマルチターンRLは、ViGoRLの小さなGUI要素のローカライズや視覚探索の性能を大幅に向上させ、V*Benchで86.4%を達成した。さらに、グラウンディングは、領域探索、根拠のあるサブゴール設定、視覚的検証などの他の視覚的行動を増幅することがわかった。最後に、人間による評価では、モデルの視覚的参照が空間的に正確であるだけでなく、モデルの推論ステップを理解するのに役立つことが示された。我々の結果は、視覚的に根拠のあるRLが、モデルに汎用的な視覚推論能力を付与するための強力なパラダイムであることを示している。
ポストトレーニング量子化(PTQ)の主な目的は、元のモデルの出力分布に可能な限り近い圧縮モデルを生成することです。これを実現するために、ほとんどのLLM PTQアルゴリズムは、線形層を独立して即時の活性化誤差を最小化することで量子化します。しかし、この局所的な目的は後続の層の影響を無視するため、これを最小化しても必ずしもモデルが近くなるわけではありません。本研究では、Yet Another Quantization Algorithm(YAQA)を紹介します。これは、各線形層のヘッシアンをフルモデルのKLダイバージェンスに関してクロネッカー分解近似を用いた適応的な丸めアルゴリズムです。YAQAは2つのコンポーネントで構成されています:数百億パラメータのLLMに対して計算可能なフル層ごとのヘッシアンのクロネッカー分解スケッチと、これらのスケッチを使用し理論的保証を伴う量子化器に依存しない丸めアルゴリズムです。広範なモデルと量子化器において、YAQAは元のモデルへのKLダイバージェンスを約30%削減し、下流タスクにおいて最先端の性能を達成しました。
大規模言語モデル(LLM)における創造性評価は、依然として挑戦的な未開拓領域である。現在の評価手法は、非効率的でコストのかかる人間の判断に大きく依存しており、機械の創造性を向上させる進展を妨げている。自動化された手法は存在するものの、心理学的テストからヒューリスティックやプロンプトベースのアプローチまで幅広く、それらはしばしば一般化が難しく、人間の判断との整合性に欠ける。これらの課題に対処するため、本論文では、テキストの創造性を評価するための新たなペアワイズ比較フレームワークを提案し、共有された文脈指示を活用して評価の一貫性を向上させる。また、CreataSetという大規模データセットを導入する。このデータセットは、10万以上の人間レベルの指示-応答ペアと100万以上の合成された創造的な指示-応答ペアを含み、多様なオープンドメインタスクにわたっている。CreataSetを用いて学習を行い、LLMベースの評価ツールであるCrEvalを開発した。CrEvalは、人間の判断との整合性において既存の手法を大幅に上回る優位性を示している。実験結果は、高度に頑健な評価ツールを訓練するために人間が生成したデータと合成データの両方を統合することが不可欠であることを強調し、CrEvalがLLMの創造性を向上させる実用的な有用性を示している。今後の研究を支援するため、すべてのデータ、コード、モデルを近日中に公開する予定である。
本研究では、視覚的トークナイザーとVAE(変分オートエンコーダ)が細粒度の特徴を保持する際の限界を明らかにし、テキストと顔という2つの挑戦的な視覚コンテンツにおける再構成性能を評価するためのベンチマークを提案する。視覚的トークナイザーとVAEは、より効率的な圧縮または量子化された画像表現を提供することで、視覚生成とマルチモーダルモデリングを大きく進展させてきた。しかし、生成モデルの計算負荷を軽減する一方で、画像圧縮に伴う情報損失は、視覚生成品質の上限を根本的に制限している。この上限を評価するために、我々は再構成されたテキストと顔の特徴に焦点を当てる。これらは通常、1) より小さなスケールで存在し、2) 密で豊かなテクスチャを含み、3) 崩壊しやすく、4) 人間の視覚に対して非常に敏感であるという特性を持つ。まず、既存のデータセットから多様なクリアなテキストと顔画像を収集し、キュレーションする。VLMモデルを使用するアプローチとは異なり、評価には確立されたOCRおよび顔認識モデルを採用し、精度を保ちながら、わずか2GBのメモリと4分で完了する非常に軽量な評価プロセスを実現する。このベンチマークを用いて、さまざまなスケールにおける異なる画像トークナイザーとVAEのテキストおよび顔の再構成品質を分析する。その結果、現代の視覚的トークナイザーは、特に小さなスケールにおいて、細粒度の特徴を保持するのに依然として苦戦していることが明らかとなった。さらに、この評価フレームワークをビデオに拡張し、ビデオトークナイザーの包括的な分析を行う。加えて、従来のメトリクスは顔とテキストの再構成性能を正確に反映できないのに対し、我々が提案するメトリクスは有効な補完として機能することを示す。
大規模言語モデル(LLM)は、特に仮説生成において、膨大な文献を分析し、パターンを特定し、研究の方向性を提案する能力を示し、生体医学などの科学分野で大きな可能性を示しています。しかし、生成された仮説の真実性を評価する際に重要な課題があり、その正確性を検証するには多くの時間とリソースを要することがしばしばあります。さらに、LLMにおける幻覚(hallucination)問題は、一見もっともらしいが最終的には誤った仮説を生成する可能性があり、その信頼性を損なう要因となります。これらの課題を体系的に研究するために、我々はTruthHypoというベンチマークを導入し、LLMが真実的な生体医学仮説を生成する能力を評価します。また、KnowHDという知識ベースの幻覚検出器を開発し、仮説が既存の知識にどれだけ基づいているかを評価します。我々の結果は、LLMが真実的な仮説を生成するのに苦労していることを示しています。推論ステップにおける幻覚を分析することで、KnowHDが提供する基盤スコアが、LLMの多様な出力から真実的な仮説をフィルタリングするための有効な指標として機能することを実証します。人間による評価は、KnowHDが真実的な仮説を特定し、科学的発見を加速する上で有用であることをさらに裏付けます。我々のデータとソースコードはhttps://github.com/Teddy-XiongGZ/TruthHypoで公開されています。
単語レベル品質推定(WQE)は、機械翻訳の出力における細かいエラースパンを自動的に識別することを目的としており、翻訳後の編集作業を支援するなど多くの用途が見出されています。現代のWQE技術は、大規模言語モデルのプロンプティングや大量の人手によるラベル付きデータを用いたアドホックなトレーニングを必要とするため、しばしば高コストです。本研究では、翻訳モデルの内部動作から翻訳エラーを識別するために、言語モデルの解釈可能性と不確実性定量化の最近の進展を活用した効率的な代替手法を調査します。12の翻訳方向にわたる14のメトリクスを用いた評価において、複数の人間によるラベルセットを使用することで、メトリクスの性能に対する人間のラベル変動の影響を定量化しました。私たちの結果は、教師なしメトリクスの未開拓の可能性、ラベル不確実性に直面した際の教師あり手法の欠点、そして単一アノテーターによる評価手法の脆弱性を浮き彫りにしています。
Classifier-Free Guidance(CFG)は、条件付き予測と無条件予測を補間することで、生成モデルの制御性を大幅に向上させます。しかし、標準的なCFGはしばしば静的な無条件入力を使用しており、モデルの不確実性が動的に変化する反復生成プロセスにおいて最適とは言えません。本研究では、Adaptive Classifier-Free Guidance(A-CFG)を提案します。これは、モデルの瞬間的な予測信頼度を活用して無条件入力を調整する新しい手法です。反復的(マスク付き)拡散言語モデルの各ステップにおいて、A-CFGは現在生成されているシーケンス内でモデルの信頼度が低いトークンを特定します。これらのトークンは一時的に再マスクされ、動的で局所的な無条件入力が作成されます。これにより、CFGの補正効果が曖昧な領域に正確に焦点を当て、より効果的なガイダンスが実現されます。A-CFGを最先端のマスク付き拡散言語モデルに統合し、その有効性を実証しました。多様な言語生成ベンチマークでの実験により、A-CFGは標準的なCFGを大幅に上回る改善をもたらし、例えばGPQAでは3.9ポイントの向上を達成しました。本研究は、反復生成におけるモデルの不確実性に応じてガイダンスメカニズムを動的に適応させることの利点を強調しています。
大規模言語モデル(LLMs)は、自然言語理解と生成における優れた能力により、質問応答(QA)タスクで顕著な性能を発揮している。しかし、LLMベースのQAは、推論能力の低さ、知識の陳腐化、および虚構生成(hallucination)のため、複雑なQAタスクに苦戦している。最近のいくつかの研究では、これらの課題に対処するために、LLMsと知識グラフ(KGs)を統合したQA手法が提案されている。本調査では、QAのカテゴリとLLMsと統合する際のKGの役割に基づいて、LLMsとKGsを統合する方法論を分類する新しい構造化された分類体系を提案する。我々は、LLMsとKGsを統合したQAにおける最先端の進展を体系的に調査し、これらのアプローチを強み、限界、およびKGの要件の観点から比較・分析する。次に、これらのアプローチをQAと関連付け、異なる複雑なQAの主要な課題にどのように対処しているかを議論する。最後に、進展、評価指標、ベンチマークデータセットをまとめ、未解決の課題と機会を強調する。