翻訳付きの日次キュレーションされたAI研究論文
マルチモーダルな理解と生成を統合することは、最先端のプロプライエタリシステムにおいて印象的な能力を示してきました。本研究では、マルチモーダルな理解と生成をネイティブにサポートするオープンソースの基盤モデルであるBAGELを紹介します。BAGELは、大規模なテキスト、画像、動画、ウェブデータからキュレートされた数兆トークンで事前学習された、統一されたデコーダのみのモデルです。このような多様なマルチモーダルなインタリーブデータでスケールすると、BAGELは複雑なマルチモーダル推論において新たな能力を示します。その結果、標準ベンチマークにおいて、マルチモーダル生成と理解の両方でオープンソースの統合モデルを大幅に上回り、自由形式の画像操作、未来フレーム予測、3D操作、世界ナビゲーションなどの高度なマルチモーダル推論能力を示します。マルチモーダル研究のさらなる機会を促進することを願って、主要な発見、事前学習の詳細、データ作成プロトコルを共有し、コードとチェックポイントをコミュニティに公開します。プロジェクトページはhttps://bagel-ai.org/にあります。
注意機構の効率性は、その二次的な時間複雑性のため重要である。本研究では、2つの主要な貢献を通じて注意機構の効率性を向上させる。第一に、Blackwell GPUの新しいFP4 Tensor Coreを活用して注意計算を高速化する。我々の実装はRTX5090上で1038 TOPSを達成し、RTX5090上で最速のFlashAttentionと比較して5倍の高速化を実現した。実験により、我々のFP4注意機構が様々なモデルの推論をプラグアンドプレイ方式で加速できることが示された。第二に、低ビット注意機構を学習タスクに初めて適用する。既存の低ビット注意機構であるFlashAttention3やSageAttentionは推論にのみ焦点を当てている。しかし、大規模モデルの学習効率も重要である。低ビット注意機構が学習タスクに効果的に適用できるかどうかを探るため、我々は順伝播と逆伝播の両方に対応する正確かつ効率的な8ビット注意機構を設計した。実験結果から、8ビット注意機構はファインチューニングタスクでは性能の損失なく機能するが、事前学習タスクでは収束が遅いことが示された。コードはhttps://github.com/thu-ml/SageAttentionで公開予定である。
報酬モデルは、大規模言語モデルを人間の期待に沿った出力へと導く上で重要な役割を果たします。しかし、テスト時の計算資源を効果的に活用して報酬モデルの性能を向上させるという課題が未解決のまま残っています。本研究では、最終的な報酬を生成する前に慎重な推論プロセスを実行するように特別に設計されたReward Reasoning Models(RRMs)を提案します。RRMsは、連鎖的思考推論(chain-of-thought reasoning)を通じて、適切な報酬が即座に明らかでない複雑なクエリに対して、追加のテスト時計算資源を活用します。RRMsを開発するために、明示的な推論トレースを訓練データとして必要とせず、自己進化型の報酬推論能力を育む強化学習フレームワークを実装しました。実験結果は、RRMsが多様な領域における報酬モデリングのベンチマークで優れた性能を達成することを示しています。特に、RRMsがテスト時の計算資源を適応的に活用して報酬の精度をさらに向上させることができることを実証しました。事前学習済みの報酬推論モデルは、https://huggingface.co/Reward-Reasoning で公開されています。
テスト時の計算リソースのスケーリングは、大規模言語モデル(LLMs)の推論能力を向上させるために重要である。既存のアプローチでは、通常、推論トレースの終了時に得られる検証可能な報酬を最大化するために強化学習(RL)が用いられる。しかし、このような手法は、大きな固定トークン予算の下で最終的な性能のみを最適化するため、学習と展開の両面で効率性が阻害される。本研究では、AnytimeReasonerという新しいフレームワークを提案し、任意の時点での推論性能を最適化することで、トークン効率と変動するトークン予算制約下での推論の柔軟性を向上させることを目指す。これを実現するために、事前分布からサンプリングされたトークン予算に収まるように完全な思考プロセスを切り詰め、モデルに各切り詰められた思考に対して最適な回答を要約させ、検証を行う。これにより、推論プロセスに検証可能な密な報酬が導入され、RL最適化におけるより効果的なクレジット割り当てが可能となる。次に、思考ポリシーと要約ポリシーを分離して最適化し、累積報酬を最大化する。さらに、思考ポリシーを強化する際に学習プロセスの堅牢性と効率性を向上させるため、新しい分散削減手法であるBudget Relative Policy Optimization(BRPO)を導入する。数学的推論タスクにおける実験結果は、提案手法が様々な事前分布の下で全ての思考予算においてGRPOを一貫して上回り、学習とトークン効率の両方を向上させることを示している。
ニューロシンボリック(NeSy)予測モデルは、神経的な知覚とシンボリックな推論を組み合わせて、視覚的推論などのタスクを解決します。しかし、標準的なNeSy予測モデルは、抽出するシンボル間の条件付き独立性を仮定しており、相互作用や不確実性をモデル化する能力が制限されるため、過信的な予測や分布外汎化の低下を引き起こすことがよくあります。この独立性の仮定の限界を克服するために、我々はニューロシンボリック拡散モデル(NeSyDMs)を導入します。これは、シンボル間の依存関係をモデル化するために離散拡散を使用する新しいクラスのNeSy予測モデルです。我々のアプローチは、拡散プロセスの各ステップでNeSy予測モデルからの独立性の仮定を再利用し、スケーラブルな学習を可能にしながら、シンボルの依存関係と不確実性の定量化を捉えます。高次元の視覚的経路計画やルールベースの自動運転を含む合成および実世界のベンチマークにおいて、NeSyDMsはNeSy予測モデルの中で最先端の精度を達成し、強力なキャリブレーションを示しています。
大規模推論モデル(例:OpenAIのo3)における重要なトレンドの一つは、外部ツールをネイティブに活用するエージェント能力です。これには、ウェブブラウザを使用した検索や、画像操作のためのコードの記述・実行を通じて、画像を用いて思考する能力が含まれます。オープンソースの研究コミュニティでは、関数呼び出しやツール統合といった言語のみに焦点を当てたエージェント能力においては大きな進展が見られるものの、画像を用いた真のマルチモーダルなエージェント能力とそのベンチマークの開発は、まだ十分に探求されていません。本研究では、大規模視覚言語モデル(LVLM)に対して柔軟で適応的な推論能力を可能にする「Visual Agentic Reinforcement Fine-Tuning(Visual-ARFT)」の有効性を強調します。Visual-ARFTにより、オープンソースのLVLMは、リアルタイムの情報更新のためにウェブサイトを閲覧し、入力画像を切り抜き、回転、その他の画像処理技術を通じて操作・分析するコードを記述する能力を獲得します。また、LVLMのエージェント的な検索能力とコーディング能力を評価するために設計された「Multi-modal Agentic Tool Bench(MAT)」を、MAT-SearchとMAT-Codingの2つの設定で提示します。実験結果は、Visual-ARFTがMAT-Codingにおいてベースラインを+18.6% F1 / +13.0% EM、MAT-Searchにおいて+10.3% F1 / +8.7% EMで上回り、最終的にGPT-4oを凌駕することを示しています。さらに、Visual-ARFTは2WikiやHotpotQAといった既存のマルチホップQAベンチマークにおいても+29.3% F1 / +25.9% EMの向上を達成し、強力な汎化能力を示しています。これらの発見は、Visual-ARFTがロバストで汎化可能なマルチモーダルエージェントを構築するための有望な道筋を提供することを示唆しています。
DeepSeek-R1は、強化学習を通じて大規模言語モデル(LLM)の推論能力と汎化能力を促進する際に顕著な効果を発揮することが実証されています。しかし、視覚的推論に大きく依存する画像品質評価(IQA)というタスクにおいて、推論を誘導する計算モデリングの可能性は十分に探求されていません。本論文では、VisualQuality-R1という推論を誘導するノーリファレンスIQA(NR-IQA)モデルを提案し、視覚品質の本質的に相対的な性質に適した学習アルゴリズムである強化学習によるランキングを用いて訓練します。具体的には、一対の画像に対して、グループ相対ポリシー最適化を用いて各画像の複数の品質スコアを生成します。これらの推定値は、Thurstoneモデルの下で一方の画像が他方よりも高い品質を持つ比較確率を計算するために使用されます。各品質推定値に対する報酬は、離散化された二値ラベルではなく、連続的な忠実度尺度を用いて定義されます。広範な実験により、提案されたVisualQuality-R1が、識別的な深層学習ベースのNR-IQAモデルや最近の推論誘導品質回帰手法を一貫して上回ることが示されています。さらに、VisualQuality-R1は、文脈的に豊かで人間の判断に沿った品質記述を生成することが可能であり、知覚スケールの再調整を必要とせずに複数のデータセットでの訓練をサポートします。これらの特徴により、VisualQuality-R1は、超解像や画像生成などの幅広い画像処理タスクにおける進捗を信頼性高く測定するのに特に適しています。
大規模言語モデル(LLMs)の標準的な実装であるTransformerは、通常、数十から数百の離散層で構成されています。層を増やすことで性能が向上する可能性がある一方で、このアプローチは効率性に欠けると指摘されてきました。特に、画像生成における拡散モデルやフローベースモデルが示す連続層の優位性を考えると、その非効率性が顕著です。本研究では、Latent Flow Transformer(LFT)を提案します。LFTは、複数の層をフローマッチングによって学習された単一の輸送演算子に置き換えることで、大幅な圧縮を実現しつつ、元のアーキテクチャとの互換性を維持します。さらに、既存のフローベース手法がカップリングを維持する上で抱える課題に対処するため、Flow Walking(FW)アルゴリズムを導入します。Pythia-410Mモデルにおいて、フローマッチングで学習したLFTは24層のうち6層を圧縮し、2層を直接スキップする場合(LMロジットのKLダイバージェンスが0.529)よりも優れた性能(0.407)を示し、この設計の実現可能性を実証しました。FWで学習した場合、LFTはさらに12層を1層に蒸留し、KLを0.736に低減し、3層をスキップする場合(0.932)を上回り、自己回帰型生成とフローベース生成のパラダイム間のギャップを大幅に縮めました。
目的:医療分野における大規模言語モデル(LLM)の進展に伴い、公共の利益を守るための競争力のあるオープンソースモデルの必要性が高まっている。本研究は、データの前処理とトレーニングの主要な段階を最適化し、モデルの安全性(DPOを通じて)と有効性(RAGを通じて)を向上させる方法を示すことで、オープンな医療用LLMの分野に貢献する。4種類のテストを含む評価方法論は、この分野における新たな標準を定義する。その結果得られたモデルは、最高のプライベートな代替モデルと競争力があることが示され、寛容なライセンスで公開される。 方法:Llama 3.1やQwen 2.5などの強力なベースモデルを基盤として、Aloe Betaは合成されたChain of Thoughtの例を活用したカスタムデータセットを使用して公開データを強化する。モデルはDirect Preference Optimizationによるアライメントを経て、ジェイルブレイク攻撃の存在下でも倫理的かつポリシーに沿った性能を重視する。評価には、クローズドエンド、オープンエンド、安全性、および人間による評価が含まれ、結果の信頼性を最大化する。 結果:Aloe Familyの堅実な性能に裏打ちされた、パイプライン全体にわたる推奨事項が提示される。これらのモデルは、医療ベンチマークや医療分野において競争力のある性能を発揮し、医療専門家からも好まれることが多い。バイアスや毒性に関して、Aloe Betaモデルは安全性を大幅に向上させ、未見のジェイルブレイク攻撃に対する耐性を示す。責任あるリリースのために、医療に特化した詳細なリスク評価がAloe Familyモデルに添付される。 結論:Aloe Betaモデル、およびそれらを導くレシピは、オープンソースの医療用LLM分野における重要な貢献であり、最高水準の性能を維持しながら高い倫理的要件を満たす。本研究は、医療分野におけるアライメントされたLLMの開発と報告の新たな標準を確立する。
強化学習(Reinforcement Learning, RL)は最近、大規模言語モデル(Large Language Models, LLMs)の推論能力を向上させる上で大きな可能性を示している。特に、Deepseek-R1-Zeroによって導入された「Zero」強化学習は、中間的な教師あり微調整段階に依存せずに、ベースとなるLLMsを直接RLで訓練することを可能にしている。これらの進展にもかかわらず、現在のLLM推論に関する研究は主に数学やコーディング領域に焦点を当てており、これはデータの豊富さと回答検証の容易さに起因している。これにより、回答表現が多様でデータがより希少な広範な領域へのモデルの適用性と汎用性が制限されている。本論文では、多様な領域にわたるLLMの推論能力を向上させるために設計された新しい訓練パラダイムであるGeneral-Reasonerを提案する。我々の主な貢献は以下の通りである:(1) ウェブクローリングによって収集された検証可能な回答を伴う大規模で高品質な質問データセットを構築し、幅広い学問領域をカバーすること、(2) 従来のルールベースの検証を、連鎖思考(chain-of-thought)と文脈認識能力を備えた生成モデルベースの回答検証器に置き換えることである。我々は一連のモデルを訓練し、物理学、化学、金融、電子工学などの広範な領域をカバーする多様なデータセットで評価を行った。MMLU-Pro、GPQA、SuperGPQA、TheoremQA、BBEH、MATH AMCなどの12のベンチマークにわたる包括的な評価により、General-Reasonerが既存のベースライン手法を上回り、数学的推論タスクにおいても優れた効果を維持しながら、堅牢で汎用性の高い推論性能を達成することが示された。
近年の大規模推論モデル(LRM)は、最終的な応答を生成する前に拡張された思考プロセスを組み込むことで、従来の大規模言語モデル(LLM)を大幅に上回る推論能力を示しています。しかし、過度に長い思考はトークン消費とレイテンシの面で大きなオーバーヘッドを引き起こし、特に単純なクエリでは不必要です。本研究では、ユーザークエリの文脈情報に基づいて思考を実行するかどうかを適応的に決定できる初めてのモデルである大規模ハイブリッド推論モデル(LHRM)を紹介します。これを実現するために、ハイブリッドファインチューニング(HFT)をコールドスタートとして、その後提案されたハイブリッドグループポリシー最適化(HGPO)を用いたオンライン強化学習を行う二段階のトレーニングパイプラインを提案します。さらに、ハイブリッド思考能力を定量的に評価するための指標であるハイブリッド精度を導入します。広範な実験結果は、LHRMが難易度やタイプの異なるクエリに対して適応的にハイブリッド思考を実行できることを示しています。LHRMは既存のLRMやLLMを推論能力と一般的な能力の両面で上回りながら、効率を大幅に向上させます。本研究は、拡張された思考プロセスの適切な使用を再考することを提唱し、ハイブリッド思考システムを構築するための堅実な出発点を提供します。
大規模言語モデル(LLM)はその強力さにもかかわらず、自身の信頼度を正確に伝えることがしばしば困難であり、誤りを起こす可能性を評価しにくく、信頼性が制限される。本研究では、連鎖的思考(CoT)による推論を行う「推論モデル」が、問題解決だけでなく、信頼度を正確に表現する点でも優れた性能を示すことを実証する。具体的には、6つの推論モデルを6つのデータセットで評価し、36の設定のうち33において、非推論モデルよりも厳密に優れた信頼度較正を達成することを明らかにした。詳細な分析により、これらの較正の向上は、推論モデルが持つ「遅い思考」の行動—例えば代替アプローチの探索やバックトラッキングなど—に起因することが示された。これらの行動により、推論モデルはCoTの過程で信頼度を動的に調整し、次第に精度を高めることができる。特に、推論モデルはCoTが展開するにつれて信頼度較正が向上する傾向が見られるが、これは非推論モデルでは観察されない。さらに、CoTから遅い思考の行動を除去すると、較正が大幅に低下する。最後に、これらの利点は推論モデルに限定されないことを示し、非推論モデルも、文脈内学習を通じて遅い思考を行うよう誘導されると、同様の恩恵を受けることを確認した。
最近の推論重視の言語モデルは、最終的な答えを生成する前に長い中間推論パスを生成することで高い精度を達成しています。このアプローチは論理的思考を必要とする問題を解決するのに効果的ですが、長い推論パスはメモリ使用量とトークン生成のスループットを大幅に増加させ、そのようなモデルの実用的な展開を制限しています。私たちは、推論パスの意味的スパース性を活用して推論を加速する、トレーニング不要の方法であるReasoning Path Compression(RPC)を提案します。RPCは、最近生成されたクエリで構成されるセレクターウィンドウを使用して計算された高い重要度スコアを受けるKVキャッシュを保持することで、定期的にKVキャッシュを圧縮します。実験では、RPCがQwQ-32Bの生成スループットを最大1.60倍向上させ、AIME 2024ベンチマークでの精度低下は1.2%であることが示されました。私たちの研究結果は、推論トレースにおける意味的スパース性を効果的に圧縮に利用できることを示しており、推論LLMの効率的な展開に向けた実用的な道を提供します。私たちのコードはhttps://github.com/jiwonsong-dev/ReasoningPathCompressionで利用可能です。
汎用的な推論能力の学習は、長らくAIにおける難題とされてきた。大規模言語モデル(LLMs)に関する最近の研究、例えばDeepSeek-R1では、GRPOのような強化学習技術を用いることで、事前学習済みのLLMsが単純な質問応答ペアを用いて推論能力を発達させることが示されている。本論文では、視覚言語モデル(VLMs)を強化学習と視覚的質問応答ペアを用いて画像データ上で推論を行うように訓練することを目指し、明示的な連鎖的思考(CoT)の監督を一切行わない。我々の研究結果は、VLMに強化学習を単純に適用する――モデルに回答を提供する前に推論連鎖を生成するよう促す――ことで、モデルが簡単な質問からショートカットを学習し、その結果、未知のデータ分布に対する汎化能力が低下する可能性があることを示している。ショートカット学習を緩和する鍵は、モデルに推論の前に画像を解釈するよう促すことであると我々は主張する。そこで、モデルをキャプション-推論-回答という出力形式に従うように訓練する:最初に画像の詳細なキャプションを生成し、その後で広範な推論連鎖を構築する。273KのCoTを含まない視覚的質問応答ペアで訓練し、強化学習のみを使用した場合、我々のモデル「Visionary-R1」は、GPT-4o、Claude3.5-Sonnet、Gemini-1.5-Proといった強力なマルチモーダルモデルを複数の視覚的推論ベンチマークで上回る性能を示した。
インテリジェントゲーム制作は、生成型人工知能を活用してゲームコンテンツを動的に生成・強化する、ゲーム開発における革新的な進歩を表しています。生成モデルの著しい進展にもかかわらず、画像や動画を含む高品質なゲームアセットの包括的な合成は、依然として挑戦的な課題です。プレイヤーの嗜好に合致しつつ、デザイナーの効率を大幅に向上させる高忠実度のゲームコンテンツを作成するため、我々はHunyuan-Gameを提案します。これは、インテリジェントゲーム制作を革新することを目的とした画期的なプロジェクトです。Hunyuan-Gameは、画像生成と動画生成の2つの主要な分野を包含しています。画像生成コンポーネントは、数十億枚のゲーム画像からなる大規模なデータセットに基づいて構築され、ゲームシナリオに特化したカスタマイズされた画像生成モデルの一群を開発しました:(1) 一般的なテキストから画像への生成。(2) ゲームビジュアルエフェクト生成。テキストからエフェクトへの生成および参照画像に基づくゲームビジュアルエフェクト生成。(3) キャラクター、シーン、ゲームビジュアルエフェクトのための透明画像生成。(4) スケッチ、白黒画像、白モデルに基づくゲームキャラクター生成。動画生成コンポーネントは、数百万のゲームおよびアニメ動画からなる包括的なデータセットに基づいて構築され、ゲーム開発における重要な課題に対応し、多様なゲーム動画シナリオに強く適応する5つのコアアルゴリズムモデルを開発しました:(1) 画像から動画への生成。(2) 360度A/Tポーズアバター動画合成。(3) ダイナミックイラスト生成。(4) 生成型動画超解像。(5) インタラクティブゲーム動画生成。これらの画像および動画生成モデルは、高度な美的表現を示すだけでなく、ドメイン固有の知識を深く統合し、多様なゲームおよびアニメのアートスタイルに対する体系的な理解を確立しています。
大規模マルチモーダルモデル(LMMs)は、長尺動画理解(LVU)のための強力なツールとして最近注目を集めており、その性能を評価するための標準化されたLVUベンチマークの開発が進められている。しかし、我々の調査によると、既存のLVUベンチマークには深刻な課題が存在することが明らかになった。第一に、ほとんどの既存ベンチマークは多肢選択問題(MCQs)に大きく依存しており、正解を推測する可能性があるため、評価結果が過大評価されている。第二に、これらのベンチマークに含まれる質問の多くは、入力動画を実際に見ることなくモデルが直接回答できる強い事前情報を持っている。例えば、Gemini-1.5-Proは、Video-MMEの長尺動画からランダムに選んだフレームを与えられた場合でも50%以上の精度を達成できる。また、フレーム数を増やしても既存のベンチマークでの性能向上が必ずしも見られないという直感に反する結果も観察された。その結果、現在のLVUベンチマークの有効性と頑健性が損なわれており、LMMsの長尺動画理解能力を忠実に評価することが困難となっている。この問題に対処するため、我々はVideoEval-Proを提案する。これは、動画全体を理解することを真に要求する、現実的なLVUベンチマークであり、自由記述形式の短答式問題を含んでいる。VideoEval-Proは、知覚と推論タスクを通じて、セグメントレベルおよび動画全体の理解を評価する。21の独自およびオープンソースの動画LMMsを評価した結果、以下の知見が得られた:(1)動画LMMsは、MCQsと比較して自由記述問題で大幅な性能低下(>25%)を示す;(2)驚くべきことに、MCQのスコアが高くても、VideoEval-Proでの自由記述スコアが高くなるわけではない;(3)他のMCQベンチマークと比較して、VideoEval-Proは入力フレーム数を増やすことによる恩恵がより大きい。我々の結果は、VideoEval-Proが長尺動画理解のより現実的で信頼性の高い測定を提供し、この分野の進歩をより明確に示すものであることを示している。
コードスイッチング(CS)は大規模言語モデル(LLM)にとって重要な課題であるが、その理解可能性についてはLLMにおいて十分に検討されていない。本論文では、CS対話を英語の要約に変換することでLLMのCS理解能力を評価するためのCS-Sumを提案する。CS-Sumは、北京語-英語(EN-ZH)、タミル語-英語(EN-TA)、マレー語-英語(EN-MS)の3つの言語ペアにわたるCS対話要約の最初のベンチマークであり、各言語ペアにつき900~1300の人手注釈付き対話を収録している。オープンソースおよびクローズドソースのモデルを含む10種類のLLMを評価し、Few-shot、翻訳-要約、および微調整(LoRA、QLoRAを合成データに適用)のアプローチにおける性能を分析した。その結果、自動評価指標のスコアは高いものの、LLMは対話の完全な意味を変える微妙な誤りを犯すことが明らかとなった。これを受けて、LLMがCS入力を処理する際に犯す最も一般的な3種類のエラーを提示する。エラー率はCSペアおよびLLMによって異なり、特定の言語ペアにおいてより頻繁にエラーを起こすLLMも存在し、コードスイッチングデータに対する専門的なトレーニングの必要性が強調される。
LLMプルーニングは、リソースが限られたデバイスへの展開を可能にするLLM圧縮技術として注目を集めています。しかし、現在の手法では一般に公開されたキャリブレーションサンプルへのアクセスが必要であり、プライバシーが重要な領域ではこれを入手することが困難です。この問題に対処するため、私たちはFedPrLLMを提案します。これは、プライバシー保護を考慮したLLM圧縮のための包括的な連合プルーニングフレームワークです。FedPrLLMでは、各クライアントはローカルのキャリブレーションデータに基づいてプルーニングマスク行列を計算し、それをサーバーと共有してグローバルモデルをプルーニングします。このアプローチにより、各クライアントの知識を活用しながらグローバルモデルの協調的なプルーニングが可能となり、ローカルデータのプライバシーを維持できます。さらに、私たちはFedPrLLMフレームワーク内でのさまざまな可能性を探るため、異なる比較グループ、プルーニング戦略、および重みのスケーリングの決定について広範な実験を行いました。私たちの詳細な評価により、レイヤー比較を行い重みのスケーリングを行わないワンショットプルーニングが、FedPrLLMフレームワーク内で最適な選択であることが明らかになりました。私たちの研究が、プライバシーが重要な分野でのLLMプルーニングの今後の取り組みを導く一助となることを願っています。私たちのコードはhttps://github.com/Pengxin-Guo/FedPrLLMで公開されています。
不可視画像透かしは、画像の所有権を保護し、視覚生成モデルの悪意ある誤用を防ぐことができます。しかし、既存の生成透かし手法は主に拡散モデル向けに設計されており、自己回帰型画像生成モデルに対する透かし技術はほとんど未開拓のままです。本研究では、自己回帰型画像生成モデル向けのトレーニング不要な透かしフレームワークであるIndexMarkを提案します。IndexMarkは、コードブックの冗長性に着想を得ています。つまり、自己回帰的に生成されたインデックスを類似のインデックスに置き換えても、視覚的な差異はほとんど生じません。IndexMarkの中核となるのは、シンプルでありながら効果的なマッチ・アンド・リプレース手法です。この手法は、トークンの類似性に基づいてコードブックから透かしトークンを慎重に選択し、トークン置換を通じて透かしトークンの使用を促進することで、画像品質に影響を与えることなく透かしを埋め込みます。透かしの検証は、生成された画像中の透かしトークンの割合を計算することで行われ、Index Encoderによって精度がさらに向上します。さらに、切り抜き攻撃に対する堅牢性を高めるために、補助的な検証スキームを導入します。実験結果は、IndexMarkが画像品質と検証精度の両面で最先端の性能を達成し、切り抜き、ノイズ、ガウスぼかし、ランダム消去、色のジッター、JPEG圧縮など、さまざまな摂動に対して堅牢性を示すことを実証しています。
広く採用されているにもかかわらず、マルチモーダル大規模言語モデル(MLLMs)は、分布シフト下で未知のクエリに遭遇すると性能が低下するという課題を抱えています。既存のMLLMの汎化性能を向上させる手法は、通常、より多くの指示データまたはより大規模で高度なモデルアーキテクチャを必要とし、いずれも多大な人的労力や計算コストを伴います。本研究では、分布シフト下でのMLLMのロバスト性を向上させるための代替アプローチを、表現学習の観点から提案します。情報ボトルネック(IB)原理に着想を得て、MLLMのためのIBの変分下限を導出し、その実用的な実装としてVisual Instruction Bottleneck Tuning(Vittle)を考案しました。さらに、VittleとMLLMの情報理論的ロバスト性指標との関連性を明らかにすることで、その理論的正当性を示します。45のデータセット(うち30のシフトシナリオを含む)における自由回答形式および選択式の質問応答、および物体幻覚検出タスクにおいて、3つのMLLMを実証的に検証した結果、Vittleが最小十分表現の学習を追求することで、シフト下でのMLLMのロバスト性を一貫して向上させることが示されました。
大規模言語モデルのサイズが指数関数的に増大するにつれ、GPUメモリはこれらのモデルを下流タスクに適応させる際のボトルネックとなっている。本論文では、モデルの重み、勾配、オプティマイザの状態におけるメモリ使用量を最小化し、メモリ効率の良い学習の限界を押し広げることを目指す。我々のアイデアは、ゼロ次最適化を用いて勾配とオプティマイザの状態の両方を排除することである。ゼロ次最適化では、フォワードパス中に重みを摂動させることで勾配方向を特定し、勾配を近似する。重みのメモリ使用量を最小化するために、モデル量子化(例えば、bfloat16からint4への変換)を採用する。しかし、量子化された重みに直接ゼロ次最適化を適用することは、離散的な重みと連続的な勾配の間の精度ギャップのために不可能であり、これには量子化解除と再量子化が必要となる。この課題を克服するために、我々は量子化ゼロ次最適化(QZO)を提案する。QZOは、勾配推定のために連続的な量子化スケールを摂動させ、学習を安定化するために方向微分クリッピング法を使用する。QZOは、スカラーベースおよびコードブックベースのポストトレーニング量子化手法の両方に対して直交的である。bfloat16での全パラメータファインチューニングと比較して、QZOは4ビットLLMの総メモリコストを18倍以上削減し、単一の24GB GPU内でLlama-2-13BとStable Diffusion 3.5 Largeのファインチューニングを可能にする。
視覚言語モデル(VLMs)の多モーダルタスクにおける目覚ましい進展にもかかわらず、RGB入力への依存が空間理解の精度を制限している。点群や深度などの空間的手がかりを統合する既存の手法は、特殊なセンサーを必要とするか、高次推論のための深度情報を効果的に活用できない。そこで、我々は新たな空間感覚と推論手法「SSR」を提案する。このフレームワークは、生の深度データを構造化された解釈可能なテキスト的根拠に変換する。これらのテキスト的根拠は、空間推論能力を大幅に向上させる意味ある中間表現として機能する。さらに、生成された根拠をコンパクトな潜在埋め込みに圧縮するために知識蒸留を活用し、再学習なしで既存のVLMsにリソース効率的かつプラグアンドプレイで統合することを可能にする。包括的な評価を可能にするため、中間的な空間推論アノテーションを豊富に含む百万規模の視覚言語推論データセット「SSR-CoT」を導入し、多タスクベンチマーク「SSRBench」を提示する。複数のベンチマークでの広範な実験により、SSRが深度の利用を大幅に改善し、空間推論を強化することで、VLMsをより人間らしい多モーダル理解に近づけることが示された。プロジェクトページはhttps://yliu-cs.github.io/SSRにて公開されている。
大規模推論モデル(LRM)におけるMixture-of-Experts(MoE)アーキテクチャは、専門家を選択的に活性化することで構造化された認知プロセスを促進し、印象的な推論能力を実現してきた。しかし、既存の推論モデルは、過剰思考や思考不足といった認知的な非効率性に悩まされることが多い。これらの課題を解決するため、我々は「Reinforcing Cognitive Experts(RICE)」と呼ばれる新しい推論時制御手法を提案する。この手法は、追加のトレーニングや複雑なヒューリスティックを必要とせずに、推論性能を向上させることを目的としている。正規化されたPointwise Mutual Information(nPMI)を活用し、「認知専門家」と呼ばれる特殊化された専門家を体系的に特定する。これらの専門家は、「<think>」のようなトークンによって特徴づけられるメタレベルの推論操作を調整する。主要なMoEベースのLRM(DeepSeek-R1およびQwen3-235B)を用いた厳密な定量的および科学的推論ベンチマークでの実証評価により、推論精度、認知効率、クロスドメイン汎化能力において顕著かつ一貫した改善が示された。重要なことに、この軽量なアプローチは、プロンプト設計やデコード制約といった一般的な推論制御技術を大幅に上回りつつ、モデルの一般的な指示追従能力を維持する。これらの結果は、認知専門家の強化が、高度な推論モデルにおける認知効率を向上させるための有望で実用的かつ解釈可能な方向性であることを強調している。
生成AI検索は、複雑なクエリに対するエンドツーエンドの回答を提供することで、情報検索の形を変えつつあり、ユーザーが複数のウェブページを手動で閲覧し要約する必要性を減らしています。しかし、このパラダイムは利便性を高める一方で、従来のウェブ検索の進化を支えてきたフィードバック駆動型の改善ループを断ち切っています。ウェブ検索は、ドキュメントレベルでの大規模で細かいユーザーフィードバック(例:クリック、滞在時間)を収集することで、ランキングモデルを継続的に改善できます。一方、生成AI検索は、クエリ分解、ドキュメント検索、回答生成にまたがるはるかに長い検索パイプラインを経て動作しますが、通常は最終的な回答に対する粗いフィードバックしか受け取りません。これにより、最終的な出力に対するユーザーフィードバックを特定のシステムコンポーネントに効果的にマッピングできないフィードバックループの断絶が生じ、各中間段階を改善しフィードバックループを維持することが難しくなります。本論文では、生成AI検索に細かいプロセスレベルのフィードバックを再導入する次世代パラダイムとしてNExT-Searchを構想します。NExT-Searchは、2つの補完的なモードを統合します:積極的なユーザーが主要な段階で介入できる「ユーザーデバッグモード」と、パーソナライズされたユーザーエージェントがユーザーの好みをシミュレートし、あまりインタラクティブでないユーザーに対してAI支援のフィードバックを提供する「シャドウユーザーモード」です。さらに、これらのフィードバック信号を活用する方法として、現在の検索出力をリアルタイムで洗練するオンライン適応と、インタラクションログを集約してクエリ分解、検索、生成モデルを定期的に微調整するオフライン更新を構想します。生成AI検索パイプラインの主要な段階に人間の制御を復元することで、NExT-Searchは人間のフィードバックと共に継続的に進化できるフィードバック豊富なAI検索システムを構築するための有望な方向性を提供すると考えます。
言語モデルがより強力かつ洗練されるにつれ、それらが信頼性と信頼性を維持することが極めて重要となっています。モデルが操作者を欺いたり、秘密を保持しようとする可能性があるという懸念すべき予備的な証拠が存在します。このような隠された知識を引き出す現在の技術の能力を探るため、私たちはTabooモデルを訓練しました。これは特定の秘密の単語を明示的に述べることなく説明する言語モデルです。重要な点として、この秘密の単語はモデルの訓練データやプロンプトには提示されません。その後、この秘密を明らかにする方法を調査します。まず、非解釈性(ブラックボックス)アプローチを評価します。続いて、メカニズム的解釈性技術(ロジットレンズやスパースオートエンコーダーなど)に基づいた主に自動化された戦略を開発します。評価の結果、概念実証の設定において、両方のアプローチが秘密の単語を引き出すのに有効であることが示されました。私たちの研究結果は、隠された知識を引き出すためのこれらのアプローチの可能性を強調し、より複雑なモデル生物でのこれらの方法のテストと改良を含む、将来の研究に向けたいくつかの有望な方向性を示唆しています。この研究は、言語モデルから秘密の知識を引き出すという重要な問題に取り組むための一歩となることを目指しており、それによって言語モデルの安全で信頼性の高い展開に貢献することを目的としています。
我々は、音声基盤モデルを用いて豊富な話者特性と音声特性を特徴付ける包括的なベンチマークであるVox-Profileを紹介する。既存の研究が話者特性の単一の次元に焦点を当てているのに対し、Vox-Profileは、静的な話者特性(例:年齢、性別、アクセント)と動的な音声特性(例:感情、音声の流れ)の両方を反映した、包括的かつ多次元的なプロファイルを提供する。このベンチマークは、音声科学と言語学に基づいており、領域の専門家と共に開発され、話者と音声の特性を正確に指標化する。我々は、15以上の公開音声データセットと、様々な静的なおよび動的な話者特性と音声特性を対象とした広く使用されている音声基盤モデルを用いたベンチマーク実験を報告する。ベンチマーク実験に加えて、Vox-Profileがサポートするいくつかの下流アプリケーションを紹介する。まず、Vox-Profileが既存の音声認識データセットを拡張し、ASR性能の変動を分析するために使用できることを示す。また、Vox-Profileは音声生成システムの性能を評価するツールとしても使用される。最後に、自動化されたプロファイルの品質を人間による評価と比較し、収束妥当性を示す。Vox-Profileは、https://github.com/tiantiaf0627/vox-profile-release で公開されている。
Geminiは、ユーザーの代わりにタスクを実行するためにますます利用されており、関数呼び出しやツール使用の機能により、モデルがユーザーデータにアクセスできるようになっています。しかし、一部のツールは信頼できないデータへのアクセスを必要とし、リスクを引き起こす可能性があります。攻撃者は、信頼できないデータに悪意のある指示を埋め込むことで、モデルがユーザーの期待から逸脱し、データや権限を誤って扱うように仕向けることができます。本報告書では、Google DeepMindがGeminiモデルの敵対的ロバスト性を評価するためのアプローチを説明し、そのプロセスから得られた主な教訓を記述します。我々は、Geminiが高度な攻撃者に対してどのように振る舞うかを、敵対的評価フレームワークを通じてテストします。このフレームワークは、過去、現在、未来のバージョンのGeminiに対して継続的に実行される一連の適応型攻撃技術を展開します。これらの継続的な評価が、Geminiを操作に対する耐性を高めるために直接どのように役立つかを説明します。
蒸留は、オープンソースの言語モデルの推論能力を向上させるための実用的かつ効果的なアプローチとして注目を集めている。本研究では、1.89百万のクエリからなる共有コーパスに対して、3つの最先端教師モデル(AM-Thinking-v1、Qwen3-235B-A22B、DeepSeek-R1)から検証済みの出力を収集し、推論データ蒸留に関する大規模な実証研究を実施した。3つの並列データセットを構築し、その分布を分析した結果、AM-Thinking-v1蒸留データはトークン長の多様性が高く、パープレキシティが低いことが明らかになった。各データセットで学習した学生モデルは、AIME2024、AIME2025、MATH500、LiveCodeBenchなどの推論ベンチマークで評価された。AMベースのモデルは一貫して最高の性能を発揮し(例:AIME2024で84.3、AIME2025で72.2、MATH500で98.4、LiveCodeBenchで65.9)、適応的な出力行動を示した—難しいタスクに対しては長い応答を、簡単なタスクに対しては短い応答を生成した。これらの結果は、高品質で検証済みの推論トレースの価値を強調している。今後のオープンで高性能な推論指向言語モデルの研究を支援するため、AM-Thinking-v1およびQwen3-235B-A22B蒸留データセットを公開した。データセットはHugging Faceで公開されている:\href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}。
強化学習によるファインチューニング(RFT)は、大規模言語モデル(LLM)の推論能力を向上させるための標準的なアプローチとなっています。しかし、そのモデルの信頼性への影響はまだ十分に検討されていません。本研究では、RFTの重要な副作用として「幻覚税(hallucination tax)」を特定し、体系的に調査します。これは、モデルが回答不可能な質問に対して自信を持って幻覚的な回答を生成するという、拒否行動の劣化を指します。これを調査するため、私たちはSUM(Synthetic Unanswerable Math)を導入しました。これは、不十分または曖昧な情報から推論することで、モデルが回答不可能な質問を認識する能力を探るために設計された高品質な数学問題のデータセットです。結果は、標準的なRFTトレーニングがモデルの拒否率を80%以上減少させ、モデルの幻覚傾向を大幅に増加させることを示しています。さらに、RFT中にSUMをわずか10%組み込むことで、解決可能なタスクでの精度のトレードオフを最小限に抑えつつ、適切な拒否行動が大幅に回復することを実証しました。重要なことに、このアプローチにより、LLMは推論時の計算リソースを活用して自身の不確実性や知識の境界について推論することが可能になり、ドメイン外の数学問題だけでなく、事実に基づく質問応答タスクへの一般化も向上します。
効果的な推論能力を持つ大規模言語モデル(LLM)を設計するには、通常、検証可能な報酬を用いた強化学習(RLVR)や、慎重に選ばれた長い思考連鎖(CoT)を用いた蒸留が必要であり、これらはいずれも大量の学習データに大きく依存します。これは、質の高い学習データが不足している場合に大きな課題となります。本論文では、限られた監督下で推論LLMを開発するための、サンプル効率の良い2段階の学習戦略を提案します。第1段階では、おもちゃのドメインであるKnights & Knaves(K&K)論理パズルから長いCoTを蒸留し、一般的な推論スキルを獲得するためにモデルを「ウォームアップ」します。第2段階では、ウォームアップされたモデルに対して、限られたターゲットドメインの例を用いてRLVRを適用します。実験結果から、この2段階アプローチには以下の利点があることが示されました:(i) ウォームアップフェーズだけで、MATH、HumanEval^{+}、MMLU-Proなどのさまざまなタスクにおいてパフォーマンスが向上する一般化された推論が促進される、(ii) ベースモデルとウォームアップされたモデルの両方を同じ小さなデータセット(100例以下)でRLVR学習させた場合、ウォームアップされたモデルが一貫してベースモデルを上回る、(iii) RLVR学習の前にウォームアップを行うことで、特定のドメインで学習した後も、モデルがクロスドメインの一般化能力を維持できる、(iv) パイプラインにウォームアップを導入することで、RLVR学習中の精度だけでなく、全体的なサンプル効率も向上する。本論文の結果は、データが不足している環境において、ウォームアップが堅牢な推論LLMを構築するための有望な手法であることを示しています。
その驚異的な成功と多様なワークフローへの展開にもかかわらず、言語モデルは時に不真実な応答を生成することがある。これらのモデル内で真実性がどのように機械的に符号化されているかについての我々の理解が限られていることが、その信頼性と安全性を危うくしている。本論文では、ニューロンレベルで真実性の表現を特定する手法を提案する。言語モデルには、主題に依存しない形で真実性を符号化する「真実ニューロン」が含まれていることを示す。様々な規模のモデルで実施した実験により、真実ニューロンの存在が検証され、ニューロンレベルでの真実性の符号化が多くの言語モデルに共通する特性であることが確認された。真実ニューロンの層間分布パターンは、真実性の幾何学に関する先行研究と一致している。TruthfulQAデータセットを通じて発見された真実ニューロンの活性化を選択的に抑制すると、TruthfulQAだけでなく他のベンチマークでも性能が低下し、真実性のメカニズムが特定のデータセットに縛られていないことが示された。我々の結果は、言語モデルにおける真実性の基盤となるメカニズムに関する新たな知見を提供し、その信頼性と信頼度を向上させるための潜在的な方向性を提示するものである。
大規模言語モデル(LLM)の安全性を確保することは、責任ある展開において極めて重要である。しかし、既存の評価では、性能を優先し、失敗モードの特定が軽視されることが多い。本論文では、Phareという多言語診断フレームワークを導入し、LLMの行動を3つの重要な次元(幻覚と信頼性、社会的バイアス、有害なコンテンツ生成)にわたって探査・評価する。17の最先端LLMを評価した結果、おべっか、プロンプトへの感度、ステレオタイプの再生など、すべての安全性次元にわたる体系的な脆弱性のパターンが明らかになった。Phareは、単にモデルをランク付けするのではなく、これらの特定の失敗モードを強調することで、研究者や実務者に、より堅牢で整合性があり信頼性の高い言語システムを構築するための実践的な洞察を提供する。
バグ発見技術の急速な進展により、開発者が合理的に修正できる数を上回る脆弱性が発見され、効果的な自動プログラム修復(APR)手法の緊急な必要性が生じている。しかし、現代のバグの複雑さは、正確な根本原因分析を困難かつ信頼性の低いものにしている。この課題に対処するため、我々はリスクの軽減を図りつつ修復タスクを簡素化するクラッシュサイト修復を提案する。さらに、大規模言語モデル(LLM)のトークンコストを大幅に削減しつつ、効率性と有効性を維持するテンプレートガイド型パッチ生成アプローチを導入する。 我々はプロトタイプシステム「WILLIAMT」を実装し、最先端のAPRツールと比較評価を行った。その結果、最高性能のエージェントであるCodeRover-Sと組み合わせた場合、WILLIAMTはトークンコストを45.9%削減し、オープンソースソフトウェアの脆弱性ベンチマークであるARVOにおいてバグ修正率を73.5%(+29.6%)に向上させることが示された。さらに、WILLIAMTは最先端のLLMへのアクセスがなくても効果的に機能することが実証された。Mac M4 Mini上で動作するローカルモデルでも、妥当な修復率を達成することが確認された。これらの知見は、WILLIAMTの広範な適用性とスケーラビリティを強調するものである。
近年、強力な大規模言語モデル(LLMs)の急速な進展に伴い、幅広いソフトウェアエンジニアリングタスクがLLMsを用いて解決可能となり、生産性とスケーラビリティが大幅に向上しています。これらのモデルのコーディング能力を評価するために、多くのベンチマークデータセットが開発されていますが、それらは主に問題解決や課題解決タスクに焦点を当てています。これに対して、我々はコード移行に特化した新しいコーディングベンチマーク「MIGRATION-BENCH」を紹介します。MIGRATION-BENCHは、Java 8から最新の長期サポート(LTS)バージョン(Java 17、21)への移行を包括的に評価するためのベンチマークとして設計されており、5,102および300のリポジトリから選ばれた完全なデータセットとそのサブセットを含んでいます。選ばれたサブセットは、複雑さと難易度を考慮して選定された代表的なものであり、コード移行分野の研究を支援する多用途のリソースを提供します。さらに、この挑戦的なタスクにおいてLLMsを厳密かつ標準化された方法で評価するための包括的な評価フレームワークを提供します。我々はさらに「SD-Feedback」を提案し、LLMsがリポジトリレベルのコード移行をJava 17に対して効果的に実行できることを実証します。Claude-3.5-Sonnet-v2を用いた選定サブセットにおいて、SD-Feedbackは最小移行と最大移行でそれぞれ62.33%と27.00%の成功率(pass@1)を達成しました。ベンチマークデータセットとソースコードは、それぞれ以下のURLで公開されています: https://huggingface.co/collections/AmazonScience および https://github.com/amazon-science/self_debug。
スパースなエキスパートの混合(SMoE)は、ネットワークの深さや幅を増やすことなく、モデルの複雑さをスケールアップする魅力的なソリューションを提供します。しかし、効果的なSMoEのトレーニングは、計算を行うエキスパートがルーティングプロセスに直接貢献しないという最適ではないルーティングプロセスのために、依然として課題であると私たちは主張します。本研究では、最も高いニューラル応答を持つエキスパートにトークンをルーティングするための新しいメカニズムである「競争」を提案します。理論的には、競争メカニズムが従来のソフトマックスルーティングよりも優れたサンプル効率を享受することを示します。さらに、競争ポリシーを学習するルーターを導入することで、低いトレーニングオーバーヘッドで強力なパフォーマンスを享受する大規模言語モデルをトレーニングするためのシンプルで効果的なアルゴリズムであるCompeteSMoEを開発します。視覚的指示チューニングと言語事前トレーニングタスクの両方における広範な実証評価は、CompeteSMoEの有効性、堅牢性、およびスケーラビリティを最先端のSMoE戦略と比較して実証しています。実装は以下で公開しています:https://github.com/Fsoft-AIC/CompeteSMoE。本研究は、arXiv:2402.02526の以前の研究の改良版です。
大規模言語モデル(LLM)による複雑なタスクの推論は、本質的に解の精度と計算効率のトレードオフを伴う。その後の検証ステップは、性能向上を目的としているものの、独自の難しいトレードオフを導入することでこの状況をさらに複雑にする。具体的には、洗練された生成的報酬モデル(GenRM)は、テスト時にLLMと単純に統合すると計算コストが過大になる可能性がある一方で、より単純で高速な手法は信頼性に欠ける場合がある。これらの課題を克服するため、我々はFlexiVeを提案する。これは、検証予算の柔軟な割り当て戦略を用いて、迅速で信頼性の高い「速い思考」と緻密な「遅い思考」の間で計算リソースを柔軟にバランスさせる新しい生成的検証器である。さらに、Solve-Detect-Verifyパイプラインを提案する。これは、FlexiVeをインテリジェントに統合し、解の完了ポイントを積極的に特定してターゲットを絞った検証をトリガーし、ソルバーに焦点を当てたフィードバックを提供する効率的な推論時スケーリングフレームワークである。実験結果は、FlexiVeがProcessBenchにおける推論トレース内のエラーを正確に特定する優れた精度を達成することを示している。さらに、挑戦的な数学的推論ベンチマーク(AIME 2024、AIME 2025、CNMO)において、我々のアプローチは、自己整合性などのベースラインを推論精度と推論効率の両面で上回る。本システムは、テスト時のLLM推論を強化するためのスケーラブルで効果的なソリューションを提供する。
テストタイムスケーリング(TTS)は、大規模言語モデル(LLM)の推論能力を向上させるのに有効であることが証明されています。検証はTTSにおいて重要な役割を果たし、(1)推論性能と(2)計算効率の両方に同時に影響を与えます。これは、検証の品質と計算コストによるものです。本研究では、検証の従来のパラダイムに挑戦し、検証の粒度(つまり、生成中に検証器がどの程度頻繁に呼び出されるか、最終出力や個々の生成ステップのみを検証することを超えて)が与える影響を体系的に調査する初めての試みを行います。この目的のために、可変粒度探索(VG-Search)を導入します。これは、調整可能な粒度パラメータgを介してビームサーチとBest-of-Nサンプリングを一般化する統一アルゴリズムです。さまざまな計算予算、生成器-検証器構成、およびタスク属性の下でのVG-Searchの広範な実験により、gを動的に選択することで計算効率とスケーリング挙動を改善できることが明らかになりました。これらの知見に基づいて、ビームサーチに対して最大3.1%、Best-of-Nに対して最大3.6%の精度向上を達成し、FLOPsを52%以上削減する適応型VG-Search戦略を提案します。今後の研究を支援するため、コードをオープンソース化します。
ポストトレーニング技術が進化するにつれ、大規模言語モデル(LLM)は構造化された多段階推論能力で強化されることが増えており、これはしばしば強化学習を通じて最適化されています。これらの推論能力を強化されたモデルは、複雑なタスクにおいて標準的なLLMを上回り、現在では多くの商用LLM APIの基盤となっています。しかし、独自の動作を保護し冗長性を減らすため、プロバイダーは通常、推論の痕跡を隠し、最終的な回答のみを返します。この不透明性は重大な透明性のギャップを生み出します:ユーザーは見えない推論トークンに対して課金されますが、これがコストの大部分を占めることが多く、その正当性を検証する手段がありません。これにより、トークンカウントのインフレーションが発生する可能性があります。プロバイダーがトークン使用量を過大報告したり、低品質の合成トークンを注入して料金を膨らませる可能性があります。この問題に対処するため、我々はCoInを提案します。これは、隠されたトークンの量と意味的な妥当性を監査する検証フレームワークです。CoInは、トークン埋め込みのフィンガープリントから検証可能なハッシュツリーを構築してトークンカウントをチェックし、埋め込みベースの関連性マッチングを使用して捏造された推論内容を検出します。実験により、CoInが信頼できる第三者監査人として展開された場合、トークンカウントのインフレーションを最大94.7%の成功率で効果的に検出できることが示され、不透明なLLMサービスにおける課金透明性を回復する強力な能力を示しています。データセットとコードはhttps://github.com/CASE-Lab-UMD/LLM-Auditing-CoInで利用可能です。
大規模言語モデル(LLM)の著しい進展にもかかわらず、標準化された高品質なテスト環境の不足により、その知識記憶能力は未だ十分に探求されていません。本論文では、人間の介入を必要とせず、時間とともに継続的に進化する、現実世界に基づいた大規模な知識注入ベンチマークを新たに提案します。具体的には、Wikipediaの「Did You Know...」エントリから最近追加された人間が記述した事実を活用したWikiDYKを紹介します。これらのエントリは、検証可能性や明確さなどの基準に基づいて、専門のWikipedia編集者によって慎重に選ばれています。各エントリは、簡単な穴埋めプロンプトから複雑なマルチホップ質問まで、多様なタスク形式にまたがる複数の質問-回答ペアに変換されます。WikiDYKは12,290の事実と77,180の質問を含み、Wikipedia編集者による将来の更新ともシームレスに拡張可能です。継続的な事前学習を用いた大規模な実験から、現代のLLMで広く採用されている因果的言語モデル(CLM)が、双方向言語モデル(BiLM)と比較して、信頼性の観点で23%低い精度を示し、知識記憶能力が著しく弱いという驚くべき洞察が得られました。現在のBiLMの規模が小さいことを補うため、BiLMのアンサンブルを外部知識リポジトリとして活用し、LLMと統合するモジュール型協調フレームワークを導入します。実験結果から、このフレームワークが信頼性精度を最大29.1%向上させることが示されました。
本研究は、AIシステムがジェネレーションアルファ(Gen Alpha、2010-2024年生まれ)のデジタル言語をどのように解釈するかについて、独自の評価を提供する。AIと共に育った最初の世代であるGen Alphaは、没入型のデジタルエンゲージメントと、進化するコミュニケーションと既存の安全ツールとの間のミスマッチの拡大により、新たな形態のオンラインリスクに直面している。ゲーム、ミーム、AI駆動のトレンドによって形成された彼らの独特の言語は、人間のモデレーターと自動化システムの両方から有害な相互作用を隠すことが多い。本研究では、4つの主要なAIモデル(GPT-4、Claude、Gemini、Llama 3)が、Gen Alphaの言説内で隠されたハラスメントや操作を検出する能力を評価する。ゲームプラットフォーム、ソーシャルメディア、ビデオコンテンツから収集した100の最新の表現を含むデータセットを使用し、オンライン安全に直接的な影響を及ぼす重大な理解の失敗を明らかにする。本研究の貢献は以下の通りである:(1)Gen Alphaの表現を捉えた初のデータセット;(2)若者保護のためのAIモデレーションシステムを改善するフレームワーク;(3)AIシステム、人間のモデレーター、親を含む多角的な評価、およびGen Alphaの共同研究者からの直接的な意見;(4)言語的分岐が若者の脆弱性をどのように増大させるかの分析。調査結果は、特にGen Alphaが大人が彼らのデジタル世界を理解できない場合に助けを求めることを躊躇することを考慮し、若者のコミュニケーションに適した安全システムを再設計する緊急の必要性を強調する。本研究は、Gen Alphaの研究者の洞察と体系的な学術分析を組み合わせ、重要なデジタル安全の課題に取り組む。
強力なモデルが登場し、アライメントフェイキングなどの新たな手法を用いて検出を回避するようになると、AIリスクの検出はより困難になる。人間の危険な行動(例えば、他者を傷つける可能性のある違法行為)が強く保持された価値観によって導かれることがあることに着想を得て、我々はAIモデル内の価値観を特定することがAIの危険な行動に対する早期警告システムとなり得ると考えた。我々はLitmusValuesを作成し、AIモデルの多様なAI価値クラスに対する優先順位を明らかにする評価パイプラインを構築した。次に、AIRiskDilemmasを収集し、パワーシーキングなどのAI安全リスクに関連するシナリオにおいて価値観を対立させる多様なジレンマのコレクションを作成した。AIモデルの価値観の優先順位をその集約された選択によって測定することで、潜在的なリスクを明らかにする一貫性のある予測された価値観の優先順位セットを得る。LitmusValuesの価値観(例えばCareのような一見無害なものも含む)が、AIRiskDilemmasで観察された危険な行動とHarmBenchで未観測の危険な行動の両方を予測できることを示す。
メディアバイアス検出は、公平でバランスの取れた情報伝達を確保する上で重要な課題であるが、バイアスの主観性や高品質な注釈データの不足により、依然として困難を伴う。本研究では、専門家が注釈を付けたBABEデータセットを用いて、RoBERTaベースのモデルをファインチューニングし、文レベルのバイアス分類を行う。McNemarの検定と5x2クロスバリデーションに基づく対応のあるt検定を用いて、ドメイン適応的に事前学習されたDA-RoBERTaベースラインと比較した場合、我々のモデルが統計的に有意な性能向上を示すことを明らかにした。さらに、アテンションベースの分析により、我々のモデルが政治的に過敏な用語への過剰反応といった一般的な落とし穴を回避し、代わりに文脈上関連性の高いトークンにより意味のある注意を向けていることが示された。メディアバイアスを包括的に検証するため、既存のバイアスタイプ分類器と我々のモデルを組み合わせたパイプラインを提案する。大規模で高度なバイアスコーパスの不足により文レベル分析とデータセットサイズに制約があるものの、我々の手法は良好な汎化性能と解釈可能性を示した。今後の方向性として、文脈を考慮したモデリング、バイアス中和、高度なバイアスタイプ分類について議論する。我々の知見は、メディアバイアス検出のためのより堅牢で説明可能かつ社会的責任を果たすNLPシステムの構築に貢献するものである。
近年、動画コンテンツの制作と消費が大幅に増加しています。魅力的なコンテンツを作成するには、視覚要素と音声要素の慎重なキュレーションが必要です。最適な視点選択やポストエディティングなどの技術を通じた視覚的キューのキュレーションは、メディア制作の中心となってきましたが、その自然な対となる音声は同等の進化を遂げていません。これにより、視覚的顕著性と音響的顕著性の間に乖離が生じることがしばしばあります。このギャップを埋めるため、私たちは新しいタスクを導入します:視覚誘導型音響ハイライトです。このタスクは、付随する動画に導かれて音声を変換し、適切なハイライト効果を提供し、最終的により調和のとれた視聴覚体験を創出することを目指します。このタスクを解決するために、柔軟なトランスフォーマーベースのマルチモーダルフレームワークを提案します。モデルを訓練するために、映画に見られる入念な音声と映像の制作を活用した新しいデータセット、muddy mixデータセットも導入します。これにより、一種の無料の教師信号が提供されます。私たちは、現実世界のシナリオを模倣するために、分離、調整、リミックスの3段階のプロセスを通じて、不十分にミックスされた音声をシミュレートする疑似データ生成プロセスを開発します。私たちのアプローチは、定量的評価と主観的評価の両方で、いくつかのベースラインを一貫して上回ります。また、異なるタイプの文脈的ガイダンスとデータセットの難易度レベルが与える影響を体系的に研究します。プロジェクトページはこちらです:https://wikichao.github.io/VisAH/。
マルチモーダル学習は、異なる感覚モダリティからの情報を統合することで、認知システムの知覚能力を強化します。しかし、既存のマルチモーダル融合研究は、通常、静的な統合を前提としており、脳に見られる重要な動的メカニズムを十分に取り入れていません。具体的には、脳は逆有効性現象を示し、単一モダリティの手がかりが弱いほど、多感覚統合の利点が強くなる一方で、個々のモダリティの手がかりが強い場合、融合の効果は減少します。このメカニズムにより、生物学的システムは、知覚手がかりが乏しいかノイズが多い状況でも、堅牢な認知を達成できます。この生物学的メカニズムに着想を得て、我々はマルチモーダル出力と個々のモダリティからの情報の関係を探り、逆有効性駆動型マルチモーダル融合(IEMF)戦略を提案します。この戦略をニューラルネットワークに組み込むことで、モデルの性能と計算効率が向上し、多様な融合手法において計算コストを最大50%削減できることを実証しました。我々は、音声視覚分類、継続学習、質問応答タスクにおいて実験を行い、本手法の有効性を検証しました。結果は、本手法がこれらのタスクで優れた性能を発揮することを一貫して示しています。普遍性と汎化性を検証するため、人工ニューラルネットワーク(ANN)とスパイキングニューラルネットワーク(SNN)での実験も行い、両ネットワークタイプに対して良好な適応性を示す結果を得ました。本研究は、生物学的にインスパイアされたメカニズムをマルチモーダルネットワークに組み込む可能性を強調し、マルチモーダル人工知能の将来の発展に向けた有望な方向性を提供します。コードはhttps://github.com/Brain-Cog-Lab/IEMFで公開されています。
トークン化は、言語モデルにおける最初の、そしてしばしば過小評価されがちな計算層である。Chain-of-Thought(CoT)プロンプティングが、中間ステップを外部化することでトランスフォーマーモデルに再帰的計算を近似させる一方で、我々はそのような推論の成功がトークン化された入力の構造によって根本的に制限されることを示す。本論文では、特にバイトペアエンコーディング(BPE)のようなサブワードベースの手法が、原子推論単位を統合または曖昧にすることで、記号的計算を妨げる仕組みについて理論的かつ実証的な調査を行う。我々は、トークンの粒度が不適切であることが論理的整合性を乱し、モデルが記号的手続きを一般化するのを妨げることを形式化するために、トークン認識(Token Awareness)という概念を導入する。算術および記号タスクにおける体系的な評価を通じて、トークン構造が推論性能に劇的な影響を与え、CoTを用いても失敗を引き起こす一方で、原子的に整合したフォーマットが強力な一般化を可能にし、小さなモデル(例:GPT-4o-mini)がより大きなシステム(例:o1)を構造化推論において凌駕することを実証する。我々の研究結果は、LLMにおける記号的推論能力が純粋にアーキテクチャに依存するのではなく、トークンレベルの表現に深く条件付けられていることを明らかにする。
世界中の画像位置推定(地球上のどこかで撮影された画像からGPS座標を予測するタスク)は、地域間の視覚的コンテンツの多様性のため、根本的な課題を抱えています。最近のアプローチでは、候補を検索し最適なマッチを選択する2段階のパイプラインを採用していますが、これらは通常、単純な類似性ヒューリスティックと点単位の教師信号に依存しており、候補間の空間的関係をモデル化できていません。本論文では、GeoRankerを提案します。これは、大規模な視覚-言語モデルを活用してクエリと候補の相互作用を共同でエンコードし、地理的近接性を予測する距離認識型ランキングフレームワークです。さらに、絶対距離と相対距離の両方をランク付けする多階層距離損失を導入し、構造化された空間的関係を推論できるようにします。これをサポートするため、マルチモーダル候補情報を備えた地理的ランキングタスクに特化した初のデータセットであるGeoRankingを構築しました。GeoRankerは、2つの確立されたベンチマーク(IM2GPS3KとYFCC4K)において最先端の結果を達成し、現在の最良の手法を大幅に上回る性能を示しています。
マルチホップ質問応答(MHQA)は、質問応答に複雑さの層を追加し、より挑戦的なタスクとします。言語モデル(LM)が複数の検索結果をプロンプトとして与えられると、関連情報を検索するだけでなく、情報源間でマルチホップ推論を行うことが求められます。LMは従来の質問応答タスクでは良好な性能を発揮しますが、因果マスクが複雑な文脈間での推論能力を妨げる可能性があります。本論文では、検索結果(取得された文書)を様々な構成で並べ替えることで、LMがマルチホップ質問にどのように応答するかを探ります。本研究から以下の興味深い知見が得られました:1)Flan-T5ファミリーのようなエンコーダ-デコーダモデルは、サイズが大幅に小さいにもかかわらず、MHQAタスクで因果デコーダのみのLMを一般的に上回る性能を示す;2)ゴールド文書の順序を変更すると、Flan T5モデルとファインチューニングされたデコーダのみのモデルの両方で異なる傾向が現れ、文書の順序が推論チェーンの順序と一致する場合に最適な性能が観察される;3)因果マスクを変更して双方向注意を追加することで、因果デコーダのみのモデルの最終性能を効果的に向上させることができる。これに加えて、MHQAの文脈におけるLMの注意重みの分布を徹底的に調査しました。実験から、正しい答えが得られた場合、注意重みがより高い値でピークに達する傾向があることが明らかになりました。この知見を活用して、ヒューリスティックにLMのこのタスクにおける性能を向上させます。私たちのコードはhttps://github.com/hwy9855/MultiHopQA-Reasoningで公開されています。
大規模言語モデル(LLM)の最近の進展と食品データの豊富さにより、LLMを活用した食品理解の向上を目指す研究が進んでいます。LLMと知識グラフ(KG)を活用したいくつかの推薦システムが存在するものの、食品関連のKGとLLMを統合した研究は限られています。本論文では、食品KGとLLMを活用し、パーソナライズされた食品推薦と関連する微量栄養情報を含むレシピ生成を提供する統合システム「KERL」を紹介します。自然言語の質問が与えられると、KERLはエンティティを抽出し、KGからサブグラフを取得し、それをLLMにコンテキストとして入力して制約を満たすレシピを選択します。次に、システムは各レシピの調理手順と栄養情報を生成します。本手法を評価するため、レシピ関連の質問と制約、個人の嗜好を組み合わせたベンチマークデータセットも開発しました。広範な実験を通じて、提案するKG拡張LLMが既存のアプローチを大幅に上回り、食品推薦、レシピ生成、栄養分析において完全かつ一貫したソリューションを提供することを示します。コードとベンチマークデータセットはhttps://github.com/mohbattharani/KERLで公開されています。
脳活動から画像をデコードする技術は、生成AIモデルの進歩と大規模な超高磁場機能的磁気共鳴画像法(fMRI)データの利用可能性によって最近大きく進展しています。しかし、現在のアプローチは複雑な多段階パイプラインと前処理ステップに依存しており、通常は脳記録の時間次元を圧縮してしまうため、時間分解能を持つ脳デコーダの開発が制限されています。本論文では、動的に変化するfMRI記録から画像を再構築するために設計された新しい単段階拡散モデル、Dynadiff(Dynamic Neural Activity Diffusion for Image Reconstruction)を紹介します。我々のアプローチは3つの主要な貢献を提供します。第一に、Dynadiffは既存のアプローチと比較して訓練を簡素化します。第二に、我々のモデルは時間分解能を持つfMRI信号において、特に高レベルの意味的画像再構築メトリクスで最先端のモデルを上回り、時間を圧縮した前処理済みfMRIデータにおいても競争力を維持します。第三に、このアプローチは脳活動における画像表現の進化を精密に特徴付けることを可能にします。全体として、この研究は時間分解能を持つ脳から画像へのデコードの基盤を築きます。
Transformerベースの言語モデル(LM)の進歩にもかかわらず、根本的な疑問が未解決のまま残っている:推論時にすべての層が活性化されているのか?この疑問を探るため、我々は非学習型かつパラメータフリーの適応的計算手法であるL2適応的計算(LAC)を用いて、非活性化層(Voidsと呼ぶ)を検出する。LACを元の効率重視の用途から、推論中の活性化層を追跡するために適応させた。この手法は活性化のL2ノルムの変化を監視し、Voidsを特定する。指示チューニングされたLMの層活性化を2つのフェーズで分析する:プロンプト処理(PP)では、入力プロンプトの各トークンに対する活性化層を追跡し、応答生成(RG)では、生成された各トークンに対する活性化層を追跡する。さらに、これら2つのフェーズで異なる層が活性化されることを示す。我々の手法の有効性を示すため、Llama、Mistral、Qwenファミリーの3つの指示チューニングLMを、MMLU、GPQA Diamond、BoolQの3つのベンチマークで評価した。例えば、ゼロショット設定のMMLUでは、Qwen2.5-7B-InstructでVoidsをスキップすることで、69.24から71.29に改善し、モデルは層の30%しか使用しない。同様に、GPQA DiamondでのMistral-7B-Instruct-v0.3は、PPとRGの両フェーズで層の70%を使用することで、13.88から18.36に改善した。これらの結果は、推論時にすべての層が均等に寄与するわけではなく、それらの大部分を選択的にスキップすることで、特定のタスクでのモデルの性能を向上させられることを示している。
検索拡張生成(RAG)におけるよく知られた課題として、クエリに関連しない検索された文章が、回答生成用の大規模言語モデル(LLM)を混乱させ、誤った回答を引き起こすことがあります。本論文では、この核心的な問題に光を当て、クエリ(およびLLM)に対する文章の混乱効果を定式化します。我々は、文章の混乱効果を定量化する尺度を提供し、その尺度が複数のLLMにわたって頑健であることを示します。 我々の研究は、RAGシステムを改善するために、難しい混乱を引き起こす文章を特定し活用する新たな方法を導入します。これらの慎重に選ばれた混乱文章を用いてLLMをファインチューニングすることで、従来のRAGデータセットでファインチューニングされたモデルと比較して、最大7.5%の回答精度向上を達成しました。我々の貢献は二つあります。第一に、無関係な文章を単に完全に関連しないものと混乱を引き起こすものに二分する単純な分類を超えたこと、第二に、難しい混乱文章を見つけるための複数の方法を開発し分析したことです。我々の知る限り、他の研究では、難しい混乱文章を特定し活用するためのこれほど包括的なフレームワークを提供したものはありません。
本論文では、視覚言語モデル(VLM)を訓練し、視点取得(VPT)を実行するための概念的フレームワークを提案します。VPTは、人間-ロボットインタラクション(HRI)において重要な、具現化された認知の中核的な能力です。この目標に向けた第一歩として、NVIDIA Omniverseで生成された合成データセットを導入し、空間推論タスクのための教師あり学習を可能にします。各インスタンスには、RGB画像、自然言語による記述、およびオブジェクトの姿勢を表す4X4の変換行列が含まれています。我々は、Z軸距離の推論を基礎的なスキルとして焦点を当て、将来的には完全な6自由度(DOFs)の推論を目指します。このデータセットは、さらなる研究を支援するために公開されています。本研究は、インタラクティブな人間-ロボットシナリオにおいて空間理解が可能な具現化AIシステムに向けた基礎的な一歩となります。
視覚表現は、ロボット操作ポリシーの学習能力と汎化能力において中心的な役割を果たす。既存の手法はグローバルまたは密な特徴量に依存しているが、そのような表現はしばしばタスクに関連する情報と無関係なシーン情報を混在させ、分布シフト下でのロバスト性を制限する。本研究では、視覚入力を完成されたエンティティの集合に分割する構造化された代替案として、オブジェクト中心表現(OCR)を調査する。この表現は、操作タスクにより自然に整合する帰納的バイアスを導入する。我々は、オブジェクト中心、グローバル、密な手法を含む様々な視覚エンコーダを、単純なものから複雑なものまでシミュレーションおよび実世界の操作タスク一式でベンチマークし、照明、テクスチャ、ディストラクタの存在など多様な視覚条件下での汎化性能を評価する。その結果、OCRベースのポリシーは、タスク固有の事前学習なしでも、密な表現やグローバル表現を汎化設定で上回ることが明らかになった。これらの知見は、OCRが動的な実世界のロボット環境において効果的に汎化する視覚システムを設計するための有望な方向性であることを示唆している。