翻訳付きの日次キュレーションされたAI研究論文
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を向上させる強力なアプローチとして登場したが、そのメカニズムはまだ十分に理解されていない。本研究では、トークンエントロピーパターンという新たな視点を通じてRLVRを先駆的に探求し、異なるトークンが推論性能にどのように影響するかを包括的に分析する。Chain-of-Thought(CoT)推論におけるトークンエントロピーパターンを調査した結果、高エントロピーを示すトークンはごく一部であり、これらのトークンがモデルを多様な推論経路に導く重要な分岐点として機能していることが観察された。さらに、RLVRトレーニング中にエントロピーパターンがどのように進化するかを研究すると、RLVRはベースモデルのエントロピーパターンを概ね維持しつつ、主に高エントロピートークンのエントロピーを調整することが明らかになった。これらの発見は、高エントロピートークン(すなわち分岐トークン)がRLVRにとって重要であることを強調している。最終的に、ポリシー勾配更新を分岐トークンに制限することでRLVRを改善し、80/20ルールを超える発見を明らかにした:Qwen3-8Bベースモデルでは全勾配更新と同等の性能を維持しつつ20%のトークンのみを利用し、Qwen3-32B(AIME'25で+11.04、AIME'24で+7.71)およびQwen3-14B(AIME'25で+4.79、AIME'24で+5.21)ベースモデルでは全勾配更新を大幅に上回り、強いスケーリング傾向を示した。対照的に、エントロピーが最も低い80%のトークンに限定してトレーニングを行うと、性能が顕著に低下した。これらの結果は、RLVRの有効性が主に推論方向を決定する高エントロピートークンの最適化に由来することを示唆している。全体として、我々の結果は、トークンエントロピーの視点を通じてRLVRを理解し、高エントロピーの少数トークンを活用してRLVRを最適化することでLLMの推論をさらに改善する可能性を強調している。
大規模なマルチモーダルデータセットで事前学習された視覚言語モデル(VLMs)は、豊富な視覚的および言語的知識を符号化しており、ロボティクスの強力な基盤となっている。ゼロからロボティクス政策を学習するのではなく、最近のアプローチでは、VLMsを視覚言語行動(VLA)モデルに適応させ、自然言語駆動の知覚と制御を可能にしている。しかし、既存のVLAsは通常、数十億のパラメータを持つ大規模なモデルであり、高い学習コストと実世界での展開可能性の限界を引き起こしている。さらに、それらは学術的および産業的なデータセットに依存しており、手頃な価格のロボティクスプラットフォームから収集されたコミュニティデータの増加を見落としている。本研究では、学習と推論のコストを大幅に削減しながら、競争力のある性能を維持する、小型で効率的なコミュニティ駆動型のVLAであるSmolVLAを提案する。SmolVLAは、単一のGPUで学習し、コンシューマーグレードのGPUやCPUに展開するように設計されている。さらに応答性を向上させるため、知覚と行動予測を行動実行から切り離す非同期推論スタックを導入し、チャンク化された行動生成により高い制御レートを実現している。そのコンパクトなサイズにもかかわらず、SmolVLAは10倍大きいVLAsと同等の性能を達成する。シミュレーションおよび実世界のロボティクスベンチマークでSmolVLAを評価し、すべてのコード、事前学習済みモデル、および学習データを公開する。
我々は、検証可能な報酬を伴う強化学習のための推論環境ライブラリ「Reasoning Gym(RG)」を紹介する。RGは、代数、算術、計算、認知、幾何学、グラフ理論、論理、および様々な一般的なゲームを含む複数の領域にわたる100以上のデータ生成器と検証器を提供する。その主な革新点は、従来の推論データセットが通常固定されているのとは異なり、調整可能な複雑さを持つ事実上無限の訓練データを生成する能力である。この手続き的生成アプローチにより、様々な難易度レベルにわたる継続的な評価が可能となる。実験結果は、RGが推論モデルの評価と強化学習の両方において有効であることを示している。
マルチモーダル大規模言語モデル(MLLMs)は推論タスクにおいて有望な能力を示しているが、特に単一モーダルのテキストベースのモデルと比較して、明示的な自己反省と自己修正を必要とする複雑な問題に対しては依然として苦戦している。既存の反省手法は単純であり、事前学習モデルの推論能力と知識の限界が初期訓練時にほぼ固定されているため、有意義で教育的なフィードバックを生成することが困難である。これらの課題を克服するために、我々はマルチモーダル自己反省を強化した推論を実現するGroup Relative Policy Optimization(SRPO)を提案する。これは、マルチモーダルLLMの推論を強化するために明示的に設計された二段階の反省認識強化学習(RL)フレームワークである。第一段階では、高度なMLLMの指導の下で、反省に焦点を当てた高品質なデータセットを構築し、初期応答に基づいて反省を生成することで、ポリシーモデルが推論と自己反省の両方を学習することを支援する。第二段階では、GRPOフレームワーク内で新たな報酬メカニズムを導入し、冗長性を避けつつ、簡潔で認知的に意味のある反省を促す。MathVista、MathVision、MathVerse、MMMU-Proなどの複数のマルチモーダル推論ベンチマークを用いた広範な実験により、Qwen-2.5-VL-7BおよびQwen-2.5-VL-32Bを使用したSRPOが、最先端のモデルを大幅に上回り、推論精度と反省品質の両方で顕著な改善を達成することが実証された。
大規模言語モデル(LLM)の訓練は、その巨大なスケールと異種混在のアーキテクチャにより課題を抱えています。AdamWのような適応型最適化手法は勾配の変動に対処するものの、パラメータごとの学習率推定を効率的かつ効果的に行う点では依然として難があり、訓練の不安定性、収束の遅さ、そしてパラメータ効率的なファインチューニング(PEFT)技術との互換性の低さといった問題を引き起こします。本研究では、勾配グループ化によるスケーリング(SGG)を提案します。これは、動的なグループ化とグループ固有のスケーリングを通じて適応学習率推定を改善する最適化ラッパーです。SGGはまず各層の勾配統計をクラスタにグループ化し、その後クラスタ固有のスケーリングを適用して各パラメータの学習率を調整します。これにより、集団的なグループ単位の制約を課しつつ、精密なパラメータごとの適応を維持します。多様な(M)LLMベンチマークでの実験結果から、SGGは既存の最適化手法とシームレスに統合され、さまざまなモデルサイズにおいて一貫した性能向上とより速い収束を実現することが示されています。バッチサイズや学習率の変動に対する安定性から、SGGはLLM最適化における堅牢な選択肢として確立されています。
テキストからビデオを生成する拡散モデルの最近の進展により、高品質なビデオ合成が可能になりましたが、特にデータや計算リソースが限られている状況での制御可能な生成は依然として課題です。既存の条件付き生成のためのファインチューニング手法は、外部エンコーダやアーキテクチャの変更に依存することが多く、大規模なデータセットを必要とし、通常は空間的に整列した条件付けに限定されるため、柔軟性と拡張性が制限されています。本研究では、事前学習済みのビデオ拡散モデルを多様な条件付き生成タスクに適応させるための効率的で汎用的なアプローチであるTemporal In-Context Fine-Tuning (TIC-FT)を提案します。私たちのキーアイデアは、条件フレームとターゲットフレームを時間軸に沿って連結し、ノイズレベルを段階的に増加させた中間バッファフレームを挿入することです。これらのバッファフレームはスムーズな遷移を可能にし、ファインチューニングプロセスを事前学習モデルの時間的ダイナミクスに整合させます。TIC-FTはアーキテクチャの変更を必要とせず、わずか10~30のトレーニングサンプルで強力な性能を発揮します。私たちは、CogVideoX-5BやWan-14Bなどの大規模ベースモデルを使用して、画像からビデオやビデオからビデオの生成を含むさまざまなタスクでこの手法を検証しました。広範な実験により、TIC-FTが条件の忠実度と視覚品質の両方で既存のベースラインを上回り、トレーニングと推論の両方で高い効率性を維持することが示されました。追加の結果については、https://kinam0252.github.io/TIC-FT/をご覧ください。
大規模言語モデル(LLMs)は、自由形式の言語インタラクションを通じてエージェントが複雑な推論と意思決定を行うことを可能にしました。しかし、オープンエンドの言語行動環境(例えば、交渉や質問ゲーム)では、行動空間はトークンの結合分布として定式化され、指数的に大きな行動空間が生じます。このような空間で行動をサンプリングすると、極端な報酬の希薄化が起こり、大きな報酬の分散が生じ、効果的な強化学習(RL)を妨げます。この問題に対処するため、我々はARIAを提案します。ARIAは、意図空間で報酬を集約することで、効率的かつ効果的な言語エージェントのトレーニングを可能にする方法です。ARIAは、高次元のトークン結合分布空間から自然言語行動を低次元の意図空間に投影し、意味的に類似した行動をクラスタリングして共有報酬を割り当てることを目指します。この意図を考慮した報酬集約は、報酬信号を密にすることで報酬の分散を減らし、より良いポリシー最適化を促進します。広範な実験により、ARIAがポリシー勾配の分散を大幅に減少させるだけでなく、4つの下流タスクで平均9.95%の大幅な性能向上をもたらし、オフラインおよびオンラインのRLベースラインを一貫して上回ることが実証されました。
現実世界におけるエンボディエージェントは、単一のアクションを超えた多段階の解決策を必要とする高レベルの目標を特徴とする、長期的なタスクに直面しています。これらを成功裏にナビゲートするためには、高レベルのタスクプランニング(つまり、目標をサブタスクに分解すること)と低レベルのモーション制御(つまり、正確なロボットアクションを生成すること)の両方が必要です。既存の視覚言語アクション(VLA)モデルと階層的アーキテクチャは、エンボディエージェントタスクにおいて潜在的な可能性を提供しますが、前者はプランニングにおいてしばしば失敗し、後者は調整の問題に悩まされることがあり、どちらもパフォーマンスを妨げます。これらの制限を克服するために、我々は新しい統合型VLAフレームワークであるLoHoVLAを紹介します。LoHoVLAは、大規模な事前学習済み視覚言語モデル(VLM)をバックボーンとして活用し、サブタスク生成とロボットアクション予測のためにそれぞれ言語トークンとアクショントークンを共同で生成します。この共有された表現は、タスク間でのより良い一般化を促進します。さらに、LoHoVLAは、高レベルのプランニングと低レベルの制御の両方に起因するエラーを軽減するために、階層的な閉ループ制御メカニズムを採用しています。LoHoVLAを訓練するために、我々はRavensシミュレータに基づいて構築されたLoHoSetというデータセットを導入しました。このデータセットには、視覚的観察、言語的目標、サブタスク、およびロボットアクションで構成される1,000の専門家デモンストレーションを含む20の長期的タスクが含まれています。実験結果は、LoHoVLAがRavensシミュレータにおける長期的エンボディエージェントタスクにおいて、階層的アプローチと標準的なVLAアプローチの両方を大幅に上回ることを示しています。これらの発見は、一般化可能なエンボディエージェントインテリジェンスを進歩させるための統合型アーキテクチャの可能性を強調しています。
最近、ChatGPT-4oの強力なテキストから画像への生成能力により、ネイティブなマルチモーダル大規模言語モデルに対する評価が高まっています。しかし、そのマルチモーダル能力は画像とテキストに限定されています。画像を超えて、3Dコンテンツを理解し生成する能力も同様に重要です。このギャップを埋めるため、我々はShapeLLM-Omniを提案します。これは、3Dアセットとテキストを任意の順序で理解し生成できるネイティブな3D大規模言語モデルです。まず、3Dベクトル量子化変分オートエンコーダ(VQVAE)を訓練し、3Dオブジェクトを離散潜在空間にマッピングすることで、効率的かつ正確な形状表現と再構成を実現します。3D対応の離散トークンを基盤として、生成、理解、編集を含む大規模な連続訓練データセット「3D-Alpaca」を革新的に構築し、将来の研究と訓練のための豊富なリソースを提供します。最後に、3D-Alpacaデータセット上でQwen-2.5-vl-7B-Instructモデルを指示に基づいて訓練します。我々の研究は、基本的な3D能力を備えたマルチモーダルモデルの拡張に有効な試みを提供し、3DネイティブAIの将来の研究に貢献します。プロジェクトページ:https://github.com/JAMESYJL/ShapeLLM-Omni
ルールベース強化学習(RL)をマルチモーダル大規模言語モデル(MLLMs)に適用することは、特に知覚が重要なタスクにおいて、テキストのみの領域での知見とは異なる独自の課題と可能性をもたらします。本論文では、ジグソーパズルを構造化された実験フレームワークとして用いて、ルールベース視覚RLに関する包括的な研究を行います。ジグソーパズルは、内在的なグラウンドトゥルース、調整可能な難易度、複雑な意思決定を要求する特性を持ち、本研究に最適です。私たちの研究から以下の主要な知見が得られました: 第一に、MLLMsは、最も単純なジグソーパズルにおいて最初はほぼランダムな推測に近い性能を示しますが、ファインチューニングを通じてほぼ完璧な精度を達成し、複雑で未見の構成にも一般化できることがわかりました。 第二に、ジグソーパズルでのトレーニングは、他の視覚タスクへの一般化を誘発し、その効果は特定のタスク構成に依存することが明らかになりました。 第三に、MLLMsは明示的な推論の有無にかかわらず学習し一般化できますが、オープンソースモデルは直接的な回答を好む傾向があります。その結果、段階的な推論のためにトレーニングされた場合でも、最終的な答えを導く過程での思考プロセスを無視することがあります。 第四に、複雑な推論パターンは、新たに生じるというよりも事前に存在しているように見え、その頻度はトレーニングとタスクの難易度に伴って増加することが観察されました。 最後に、RLは教師ありファインチューニング(SFT)よりも効果的な一般化を示し、初期のSFTコールドスタートフェーズがその後のRL最適化を妨げる可能性があることが実証されました。これらの観察はジグソーパズルに基づいており、他の視覚タスクでは異なる可能性がありますが、本研究はルールベース視覚RLとそのマルチモーダル学習における可能性に関する集合的理解という大きなパズルに貴重な一片を提供します。 コードは以下で公開されています:https://github.com/zifuwanggg/Jigsaw-R1
近年のビデオ拡散モデルの進展は、ロボットの意思決定データ生成において強い可能性を示しており、軌跡条件を加えることでさらに細かい制御が可能となっています。しかし、既存の軌跡ベースの手法は主に個々の物体の動きに焦点を当てており、複雑なロボット操作において重要な多物体間の相互作用を捉えることに苦戦しています。この制約は、重なり合う領域における多特徴の絡み合いから生じ、視覚的な忠実度の低下を引き起こします。この問題に対処するため、我々はRoboMasterを提案します。これは、協調的な軌跡定式化を通じて物体間のダイナミクスをモデル化する新しいフレームワークです。従来の手法が物体を分解するのとは異なり、我々のコアアイデアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用中、相互作用後)に分解することです。各ステージは、支配的な物体の特徴を用いてモデル化されます。具体的には、相互作用前と相互作用後ではロボットアームを、相互作用中では操作対象の物体を使用することで、従来の手法で相互作用中に生じる多物体特徴の融合による欠点を軽減します。さらに、ビデオ全体を通じて対象物の意味的一貫性を確保するため、物体の外観と形状を意識した潜在表現を組み込みます。挑戦的なBridge V2データセットおよび実環境評価における広範な実験により、我々の手法が既存のアプローチを上回り、軌跡制御されたロボット操作ビデオ生成において新たな最先端の性能を確立することが実証されました。
強化学習(Reinforcement Learning, RL)は、特に推論タスクにおいて大規模言語モデル(Large Language Models, LLMs)を訓練するためのトレンドとなっている。LLMsに対する効果的なRLは、大規模な並列化を必要とし、効率的な訓練システムの緊急なニーズを提起している。既存の大規模RLシステムの多くは、バッチ設定において生成と訓練を交互に行う同期型であり、各訓練バッチのロールアウトは同じ(または最新の)モデルによって生成される。これはRL訓練を安定化させるが、システムレベルの非効率性を引き起こす。生成はバッチ内の最長の出力が完了するまで待機しなければならず、結果としてGPUの利用率が低下する。本論文では、生成と訓練を完全に分離した完全非同期型RLシステムであるAReaLを提案する。AReaLのロールアウトワーカーは待機することなく新しい出力を継続的に生成し、訓練ワーカーはデータのバッチが収集されるたびにモデルを更新する。AReaLはまた、システムレベルの最適化を組み込むことで、大幅に高いGPU利用率を実現する。RL訓練を安定化させるために、AReaLはロールアウトワーカーと訓練ワーカーのワークロードをバランスさせてデータの陳腐化を制御し、陳腐化を考慮したPPOの変種を採用して古くなった訓練サンプルをより適切に処理する。数学およびコード推論のベンチマークにおける広範な実験により、AReaLは同じ数のGPUを使用した最良の同期型システムと比較して最大2.57倍の訓練速度向上を達成し、最終的な性能も同等または向上させることが示された。AReaLのコードはhttps://github.com/inclusionAI/AReaL/で公開されている。
大規模マルチモーダルモデル(LMMs)は、さまざまな視覚-言語タスクにおいて優れた性能を発揮している。しかし、環境や人間活動の影響を監視するために重要な地球観測(EO)データを包括的に理解するには、しばしば困難を伴う。本研究では、多粒度かつ多センサーのEOデータ理解のための新しい視覚-言語フレームワークであるEarthMindを提案する。EarthMindは、2つのコアコンポーネントを特徴とする:(1)空間的注意プロンプティング(SAP)は、LLM内の注意を再配分し、ピクセルレベルの理解を強化する;(2)クロスモーダル融合は、異種モダリティを共有空間に整列させ、情報密度に基づいてトークンを適応的に再重み付けし、効果的な融合を実現する。多センサー融合評価を促進するために、2,000以上の人間による注釈付き多センサー画像-質問ペアを含む包括的なベンチマークであるEarthMind-Benchを提案する。これは、幅広い知覚および推論タスクをカバーしている。広範な実験により、EarthMindの有効性が実証された。EarthMindは、EarthMind-Benchにおいて、4BスケールでありながらGPT-4oを上回る最先端の性能を達成した。さらに、EarthMindは複数の公開EOベンチマークにおいて既存の手法を凌駕し、多粒度および多センサーの課題を統一フレームワークで処理する可能性を示している。
スケーリング則は、モデルサイズ、計算量、データ量に基づいてモデルの性能を予測可能な形でスケーリングすることを可能にし、機械学習の最近の進展を形作ってきました。同時に、AIにおける計算コストの上昇は、大規模な訓練や推論に伴う急激な計算需要を緩和するために、量子化やスパース化といったモデル圧縮技術の台頭を促してきました。本論文では、スケーリング則と圧縮形式の相互作用を調査し、スパース、スカラー量子化、スパース量子化、さらにはベクトル量子化といった様々な圧縮表現を用いて訓練を行う場合でも、統一的なスケーリングフレームワークがモデルの性能を正確に予測できるかどうかを探ります。私たちの主な貢献は、一般的なスケーリング則の定式化を検証し、それが個別にだけでなく、複数の圧縮タイプにわたって組み合わせて適用可能であることを示すことです。これに基づき、私たちの主な発見は、ランダムなガウスデータにフィットする能力に基づいた単純な「容量」指標が、複数の圧縮表現にわたってパラメータ効率を頑健に予測できることを理論的かつ実証的に示すことです。実用的な側面では、私たちの定式化を拡張し、異なる圧縮形式の精度ポテンシャルを直接比較し、スパース量子化形式での訓練のためのより良いアルゴリズムを導出します。
既存の大規模言語モデル(LLM)は、複雑な指示に従う際に課題に直面しており、特に複数の制約が並列、連鎖、分岐構造で組織化されている場合に顕著です。直感的な解決策として、思考の連鎖(Chain-of-Thought, CoT)がLLMの能力を普遍的に向上させると期待されています。しかし、我々は、従来のCoTが指示を単に言い換える表面的な推論パターンにより、性能に悪影響を及ぼすことを発見しました。これは、制約の構成を解きほぐし、タイプや次元の階層間での関係を特定するのに失敗しているためです。この問題に対処するため、我々は、テスト時の計算スケーリングにおける推論を促進することで、複雑な指示に対処するLLMの能力を向上させる体系的な手法を提案します。まず、既存の分類体系に基づいて複雑な指示を分解し、再現可能なデータ取得方法を提案します。次に、検証可能なルール中心の報酬信号を用いた強化学習(RL)を活用し、指示に従うための推論能力を育成します。複雑な指示下での浅く非本質的な推論の性質に対処するため、サンプルごとの対比を通じて優れたCoTの強化を図ります。また、エキスパートの行動クローニングを活用し、迅速な思考を行うLLMから熟練した推論者への分布シフトを円滑に進めます。7つの包括的なベンチマークでの広範な評価により、提案手法の有効性が確認され、1.5BパラメータのLLMが8BパラメータのLLMに匹敵する性能を達成し、11.74%の向上を実現しました。コードとデータはhttps://github.com/yuleiqin/RAIFで公開されています。
報酬モデリングは、大規模言語モデル(LLM)を人間のフィードバックによる強化学習(RLHF)を用いて整合させる際に、安全な基盤モデルを構築するための重要なステップです。しかし、Bradley-Terry(BT)モデルに基づく報酬モデリングは、グローバルな報酬関数を仮定しており、人間の多様で異質な選好を捉えることができません。そのため、このような過度の単純化は、LLMがパーソナライゼーションや多元的な整合をサポートすることを制限しています。理論的には、人間の選好が多様なサブグループの混合分布に従う場合、単一のBTモデルには還元不可能な誤差が生じることを示します。既存の解決策、例えば細かい注釈を用いた多目的学習などは、この問題に対処するのに役立ちますが、コストがかかり、事前に定義された属性に制約されるため、人間の価値観の豊かさを完全に捉えることができません。本研究では、MiCRoという二段階のフレームワークを提案します。このフレームワークは、明示的な細かい注釈を必要とせずに、大規模な二値選好データセットを活用してパーソナライズされた選好学習を強化します。第一段階では、MiCRoは文脈を考慮した混合モデリングアプローチを導入し、多様な人間の選好を捉えます。第二段階では、MiCRoはオンラインルーティング戦略を統合し、特定の文脈に基づいて混合重みを動的に適応させ、曖昧さを解消します。これにより、最小限の追加監督で効率的かつスケーラブルな選好適応が可能になります。複数の選好データセットを用いた実験により、MiCRoが多様な人間の選好を効果的に捉え、下流のパーソナライゼーションを大幅に改善することが実証されました。
人工知能生成コンテンツ(AIGC)の視覚領域における急速な進展は、拡散ベースのアーキテクチャなどの高度な生成フレームワークによって、非常にリアルな合成画像や動画を生み出しています。これらのブレークスルーは大きな機会を提供する一方で、コンテンツの真正性と完全性に関する重要な懸念も引き起こしています。現在の多くのAIGC検出方法はブラックボックスの二値分類器として機能しており、解釈可能性が限られており、画像と動画の両方を統一されたフレームワークで検出するアプローチは存在しません。この二重の制約は、モデルの透明性を損ない、信頼性を低下させ、実用的な展開を妨げています。これらの課題に対処するため、我々は説明可能なマルチモーダルAIGC検出のために特別に設計された新規で統一された大規模データセットであるIVY-FAKEを紹介します。従来のベンチマークが断片的なモダリティカバレッジと疎なアノテーションに悩まされているのに対し、IVY-FAKEは15万以上の豊富にアノテーションされたトレーニングサンプル(画像と動画)と1万8700の評価例を含み、それぞれが単純な二値ラベルを超えた詳細な自然言語による推論を伴っています。これに基づいて、我々はIvy Explainable Detector(IVY-XDETECTOR)を提案します。これは、画像と動画コンテンツの両方に対して説明可能な検出を共同で行う統一されたAIGC検出および説明可能なアーキテクチャです。我々の統一された視覚言語モデルは、複数の画像および動画検出ベンチマークにおいて最先端の性能を達成し、我々のデータセットとモデリングフレームワークによって可能となった重要な進展を強調しています。我々のデータはhttps://huggingface.co/datasets/AI-Safeguard/Ivy-Fakeで公開されています。
Chain-of-Thought (CoT)プロンプティングは、大規模言語モデル(LLM)における複雑な推論を可能にし、情報検索(IR)への応用も含まれています。しかし、これによりモデルが過剰に思考し、過度に長く意味的に冗長なトレースを生成し、ほとんどまたは全く利益をもたらさない「過剰思考」がしばしば発生します。我々はIRにおける2つの主要な課題を特定しました:類似の状態を再訪する冗長な軌跡と、ユーザーの意図から逸脱する誤った推論です。これらに対処するため、我々はState Machine Reasoning(SMR)を提案します。これは、早期停止と細かい制御をサポートする離散的なアクション(Refine、Rerank、Stop)で構成される遷移ベースの推論フレームワークです。BEIRおよびBRIGHTベンチマークでの実験により、SMRが検索性能(nDCG@10)を3.4%向上させ、トークン使用量を74.4%削減することが示されました。SMRは、タスク固有のチューニングを必要とせず、LLMや検索器を横断して汎用性があり、従来のCoT推論に対する実用的な代替手段を提供します。コードと詳細はhttps://github.com/ldilab/SMRで公開されています。
大規模言語モデル(LLM)をマルチエージェントシステム(MAS)向けに直接トレーニングすることは、複雑な報酬モデリング、動的なエージェント間相互作用、そして高い汎化要件のため、依然として困難です。本論文では、特に教師ありファインチューニング(SFT)と検証可能な報酬を用いた強化学習(RLVR)といったポストトレーニング技術が、マルチエージェントシナリオに効果的に汎化できるかどうかを探ります。我々は経済推論をテストベッドとして活用し、その数学的およびゲーム理論的基盤の強さ、構造化された分析的推論の必要性、そして市場設計、資源配分、政策分析といった実世界の応用との関連性を利用します。我々はRecon(Reasoning like an ECONomist)を紹介します。これは2,100の高品質な経済推論問題からなる手作業でキュレートされたデータセットでポストトレーニングされた7BパラメータのオープンソースLLMです。経済推論ベンチマークとマルチエージェントゲームにおける包括的な評価は、構造化された推論と経済的合理性の明確な改善を示しています。これらの結果は、ドメインに沿ったポストトレーニングが推論とエージェントの整合性を向上させる可能性を強調し、SFTとRLがモデルの振る舞いを形成する上での役割に光を当てます。コードはhttps://github.com/MasterZhou1/Recon で利用可能です。
画像編集は、コンピュータグラフィックス、ビジョン、VFXにおける重要なタスクであり、最近の拡散ベースの手法は高速かつ高品質な結果を達成しています。しかし、非剛体変形、オブジェクトの変更、コンテンツ生成など、大幅な構造的変更を必要とする編集は依然として困難です。既存の少ステップ編集アプローチでは、無関係なテクスチャが生じたり、ソース画像の重要な属性(例:ポーズ)を保持するのに苦労したりする問題があります。本論文では、これらの制限を解決する新しい編集フレームワーク「Cora」を紹介します。Coraは、対応関係を考慮したノイズ補正と補間されたアテンションマップを導入することで、ソース画像とターゲット画像の間のテクスチャと構造をセマンティックな対応関係を通じて整合させ、必要に応じて新しいコンテンツを生成しつつ、正確なテクスチャ転移を可能にします。Coraは、コンテンツ生成と保存のバランスを制御する機能を提供します。広範な実験により、Coraがポーズ変更、オブジェクト追加、テクスチャ調整など多様な編集において、構造、テクスチャ、アイデンティティを維持する点で定量的・定性的に優れていることが示されています。ユーザースタディでは、Coraが代替手法を上回る優れた結果を提供することが確認されました。
大規模言語モデル(LLM)を動力源とするウェブブラウジングエージェントは、人間のようにウェブブラウザを操作し、日常的なタスクの自動化に向けた高度に透明な道筋を提供する。ウェブエージェントが一般ブラウジングタスクにおいてますます能力を発揮し、熟練を示すにつれて、重要な疑問が浮かび上がる:彼らは一般ブラウジングを超えて、退屈で複雑なタスク、あるいは人間がしばしば避けるような雑務を堅実に処理できるのか?本論文では、WebArenaの範囲を一般ブラウジングからより労力を要し退屈なタスクへと拡張するために設計された、532の慎重に選ばれたタスクからなる新たな完全再現可能なベンチマーク、WebChoreArenaを紹介する。WebChoreArenaは、以下の3つの主要な課題を体系的に統合している:(i) 観察において大量の情報を正確に検索することを要求する大規模メモリタスク、(ii) 正確な数学的推論を要求する計算タスク、(iii) 複数のウェブページにわたる長期的な記憶を必要とする長期記憶タスク。完全再現可能で広く採用されている4つのWebArenaシミュレーション環境を基盤として構築されたWebChoreArenaは、厳密な再現性を確保し、確立されたWebArenaベンチマークとの公平で直接的な比較を可能にし、エージェントの進歩に関する重要な洞察を提供する。我々の実験結果は、GPT-4o、Claude 3.7 Sonnet、Gemini 2.5 Proに代表されるLLMの進化に伴い、WebChoreArenaにおける性能の大幅な向上が観察されることを示している。これらの知見は、WebChoreArenaが最先端のLLMの進歩をより明確に測定するのに適していることを示唆している。しかしながら、結果はまた、Gemini 2.5 Proを用いても、WebArenaと比較して改善の余地が依然として大きいことを示しており、WebChoreArenaがもたらす増大した課題を浮き彫りにしている。
今日のAIシステムは、人間が設計した固定のアーキテクチャを持ち、自律的かつ継続的に自己改善を行うことはできません。AIの進歩そのものを自動化することが可能です。安全に行われれば、それはAI開発を加速し、その恩恵をより早く享受できるようになるでしょう。メタ学習は新しいアルゴリズムの発見を自動化できますが、一次的な改善と適切な探索空間の人間による設計に制限されています。ゲーデルマシンは、理論的に自己改善するAIの代替案を提案しました:それは証明可能な有益な方法で繰り返し自身を変更します。しかし、ほとんどの変更が純利益をもたらすことを証明することは、実際には不可能です。我々はダーウィン・ゲーデルマシン(DGM)を紹介します。これは自己改善システムであり、自身のコードを反復的に変更し(それによって自身のコードベースを変更する能力も向上させ)、各変更をコーディングベンチマークを使用して実証的に検証します。ダーウィンの進化論とオープンエンド研究にインスパイアされたDGMは、生成されたコーディングエージェントのアーカイブを維持します。アーカイブからエージェントをサンプリングし、基盤モデルを使用してサンプルされたエージェントの新しい興味深いバージョンを作成することで、アーカイブを拡大します。このオープンエンドな探索は、多様で高品質なエージェントの成長するツリーを形成し、探索空間を通じて多くの異なるパスの並列探索を可能にします。実証的に、DGMは自動的にそのコーディング能力を向上させ(例えば、より良いコード編集ツール、長いコンテキストウィンドウ管理、ピアレビューメカニズム)、SWE-benchでのパフォーマンスを20.0%から50.0%に、Polyglotでは14.2%から30.7%に増加させました。さらに、DGMは自己改善やオープンエンドな探索を行わないベースラインを大幅に上回りました。すべての実験は安全対策(例えば、サンドボックス化、人間の監視)を講じて行われました。DGMは、自己改善するAIに向けた重要な一歩であり、無限のイノベーションへと展開するパスに沿って自身の踏み石を集めることができます。
視覚言語モデル(VLM)は、効果的なマルチモーダル推論を行い、論理的に一貫した意思決定を下すことが期待されており、図表理解や空間問題解決などのタスクにおいて重要です。しかし、現在のVLMの推論能力は、大規模で構造化されたトレーニングデータセットの不足に悩まされています。このギャップを埋めるため、我々はVisualSphinxを提案します。これは、初の大規模合成視覚論理推論トレーニングデータです。画像合成と接地された回答を伴う課題に対処するため、ルールから画像を合成するパイプラインを提案します。このパイプラインは、シード質問からパズルのルールを抽出・拡張し、パズルサンプルのアセンブリのための接地合成画像合成のコードを生成します。実験により、VisualSphinxを使用してGRPOでトレーニングされたVLMは、データセットの論理的一貫性と可読性の恩恵を受け、論理推論タスクにおいて性能が向上することが示されました。VisualSphinxから発展した強化された推論能力は、代数推論、算術推論、幾何学推論などの他の推論タスクにも役立ちます。
ネガティブガイダンス(望ましくない属性を明示的に抑制すること)は、特に少ステップサンプリング体制において、拡散モデルにおける基本的な課題として残っています。Classifier-Free Guidance(CFG)は標準的な設定ではうまく機能しますが、サンプリングステップの大幅な圧縮下では、ポジティブブランチとネガティブブランチの予測が乖離するため失敗します。本論文では、Normalized Attention Guidance(NAG)を提案します。これは、L1ベースの正規化と精緻化を伴うアテンション空間での外挿を適用する、効率的でトレーニング不要なメカニズムです。NAGは、CFGが崩壊する状況下でも効果的なネガティブガイダンスを復元しつつ、忠実度を維持します。既存のアプローチとは異なり、NAGはアーキテクチャ(UNet、DiT)、サンプリング体制(少ステップ、多ステップ)、モダリティ(画像、動画)を横断して汎用的に機能し、最小限の計算オーバーヘッドでユニバーサルプラグインとして動作します。広範な実験を通じて、テキストアライメント(CLIPスコア)、忠実度(FID、PFID)、人間が知覚する品質(ImageReward)において一貫した改善を示します。アブレーションスタディは各設計要素を検証し、ユーザースタディはNAGガイド出力に対する有意な選好を確認します。再トレーニングを必要としないモデル非依存の推論時アプローチとして、NAGはすべての最新の拡散フレームワークに対して容易なネガティブガイダンスを提供します(付録に疑似コードあり!)。
拡散ベースの言語モデルは、並列かつ制御可能な生成を可能にすることで、自己回帰(AR)モデルに対する魅力的な代替手段を提供する。このモデルファミリーの中でも、マスク拡散モデル(MDM)は最も高い性能を達成しているが、依然としてARモデルに比べてパープレキシティの点で劣り、推論時の効率性に関する重要な機能、特にKVキャッシュを欠いている。本研究では、ARとMDMのパラダイムを融合させた新しいモデルファミリーであるEso-LMsを導入し、それぞれの限界を克服しながら、それらのパープレキシティ間の滑らかな補間を可能にする。Eso-LMsは、標準的な言語モデリングベンチマークにおいて新たな最先端の性能を達成した。特に、**MDMに初めてKVキャッシュを導入**し、並列生成を維持しながら推論効率を大幅に向上させた。最適化されたサンプリングスケジュールと組み合わせることで、本手法は標準的なMDMよりも最大**65倍**、従来の半自己回帰アプローチよりも**4倍**高速な推論を実現した。コードとモデルチェックポイントはプロジェクトページで提供している: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
Open Whisper-style Speech Models (OWSM)プロジェクトは、学術規模のリソースを用いて一連の完全オープンな音声基盤モデルを開発してきましたが、その学習データは依然として不十分です。本研究では、Creative Commonsライセンスを持つ大規模なウェブクロールデータセットであるYODASを統合することで、OWSMを強化します。しかし、YODASの取り込みは容易ではありません。その「野生」の性質により、誤った言語ラベルや音声-テキストの不一致といった課題が生じます。これに対処するため、公開ツールキットを用いたスケーラブルなデータクリーニングパイプラインを開発し、75言語にわたる166,000時間の音声データセットを作成しました。この精選されたデータセットと既存のOWSMデータを用いて学習した新しいOWSM v4モデルシリーズは、多言語ベンチマークにおいて以前のバージョンを大幅に上回る性能を示します。さらに、WhisperやMMSといった最先端の産業用モデルと比較しても、複数のシナリオで同等またはそれ以上の性能を発揮します。クリーニングされたYODASデータ、事前学習済みモデル、および関連するすべてのスクリプトを、ESPnetツールキットを通じて公開する予定です。
従来の研究では、3Dシーンをビデオとして解釈することで、マルチモーダル大規模言語モデル(MLLM)の3D理解への応用が検討されてきました。これらのアプローチは一般的に、点群や再構築された鳥瞰図(BEV)マップなどの包括的な3Dデータ入力を必要とします。本研究では、追加の3D入力を必要とせず、ビデオデータから直接3D空間を理解し推論するMLLMの能力を向上させることで、この分野を前進させます。我々は、ビデオ-3Dジオメトリ大規模言語モデル(VG LLM)という新規で効率的な手法を提案します。このアプローチでは、ビデオシーケンスから3D事前情報を抽出する3D視覚ジオメトリエンコーダを採用し、この情報を視覚トークンと統合してMLLMに入力します。大規模な実験により、我々の手法がビデオソースから直接学習した3Dシーン理解と空間推論に関連する様々なタスクにおいて大幅な改善を達成したことが示されました。特に、明示的な3Dデータ入力を必要としない我々の4Bモデルは、既存の最先端手法と比較して競争力のある結果を達成し、VSI-Bench評価においてGemini-1.5-Proを上回る性能を示しました。
近年の生成AIと大規模言語モデル(LLMs)の進展により、非常にリアルな合成コンテンツの作成が可能となり、誤情報や操作などの悪用の可能性に対する懸念が高まっている。さらに、機械生成テキスト(MGT)の検出は、現実世界のシナリオへの一般化を評価する堅牢なベンチマークの欠如により、依然として困難である。本研究では、最先端のMGT検出器(例:Mage、Radar、LLM-DetectAIve)の耐性を、言語学的に考慮された敵対的攻撃に対してテストするためのパイプラインを提案する。検出器を挑戦するために、Direct Preference Optimization(DPO)を使用して言語モデルを微調整し、MGTのスタイルを人間が書いたテキスト(HWT)に近づける。これにより、検出器が依存するスタイルの手がかりを利用し、新たに生成されたテキストの検出をより困難にする。さらに、アラインメントによって引き起こされる言語的変化と、検出器がMGTテキストを検出するために使用する特徴を分析する。我々の結果は、比較的少数の例で検出器を容易に欺くことができ、検出性能が大幅に低下することを示している。これは、検出方法を改善し、未見のドメインテキストに対して堅牢にする重要性を強調している。
検証可能な報酬を用いた強化学習(RLVR)によって訓練された大規模言語モデル(LLM)は、ソフトウェアプログラミングや数学的問題など、明示的で自動化可能な検証を伴うタスクにおいて画期的な成果を達成してきた。しかし、RLVRを電子設計自動化(EDA)、特に自然言語(NL)仕様からVerilogなどのハードウェア記述言語(HDL)を自動生成するタスクに拡張する際には、以下の3つの主要な課題が存在する:自動化された正確な検証環境の欠如、高品質なNL-コードペアの不足、そしてRLVRの計算コストの高さである。これに対処するため、我々はVerilog生成LLMを訓練するためのRLVRフレームワークであるCodeV-R1を提案する。まず、ゴールデンリファレンスに対して堅牢な等価性チェックを行うルールベースのテストベンチジェネレータを開発した。次に、オープンソースのVerilogスニペットとLLMが生成したNL記述をペアリングし、生成されたテストベンチを通じてコード-NL-コードの一貫性を検証し、不等価な例をフィルタリングして高品質なデータセットを生成するラウンドトリップデータ合成手法を提案する。さらに、推論能力のコールドスタートのための蒸留と、サンプリングレートを適応的に調整することで訓練コストを削減できる新規のRLVRアルゴリズムである適応型DAPOを組み合わせた2段階の「蒸留→RL」訓練パイプラインを採用した。その結果得られたモデル、CodeV-R1-7Bは、VerilogEval v2およびRTLLM v1.1においてそれぞれ68.6%と72.9%のpass@1を達成し、従来の最先端モデルを12~20%上回り、671BのDeepSeek-R1の性能に匹敵、あるいはそれを上回る結果を示した。我々は、EDAおよびLLMコミュニティの研究を促進するため、モデル、訓練パイプライン、およびデータセットを公開する予定である。
オープンベンチマークは、大規模言語モデルの評価と進歩にとって不可欠であり、再現性と透明性を提供します。しかし、そのアクセス容易さゆえに、テストセットの汚染の標的となりやすいという課題があります。本研究では、DyePackというフレームワークを紹介します。これは、バックドア攻撃を活用して、モデルの損失、ロジット、または内部詳細へのアクセスを必要とせずに、トレーニング中にベンチマークテストセットを使用したモデルを特定するものです。銀行が強盗をマークするために現金に染料パックを混ぜるように、DyePackはテストデータにバックドアサンプルを混ぜて、それを使用してトレーニングしたモデルをフラグします。我々は、確率的ターゲットを持つ複数のバックドアを組み込んだ原則的な設計を提案し、すべてのモデルをフラグする際に正確な偽陽性率(FPR)の計算を可能にします。これにより、偽の告発を確実に防ぎつつ、検出されたすべての汚染事例に対して強力な証拠を提供します。DyePackを、3つのデータセットにわたる5つのモデルで評価し、多肢選択問題と自由記述生成タスクの両方をカバーしました。多肢選択問題では、MMLU-Proで0.000073%、Big-Bench-Hardで0.000017%という保証されたFPRで、8つのバックドアを使用してすべての汚染モデルを検出することに成功しました。自由記述生成タスクでは、Alpacaで6つのバックドアを使用して、保証された偽陽性率がわずか0.127%で、すべての汚染モデルを特定しました。
トークン化効率は、大規模言語モデル(LLM)の性能とコストにおいて重要な役割を果たすが、ほとんどのモデルは汎用コーパス向けに最適化された静的なトークナイザーに依存している。これらのトークナイザーの固定された語彙は、ドメイン固有または言語固有の入力に適応できないことが多く、結果としてトークン列が長くなり、計算コストが高くなる。本論文では、zip2zipというフレームワークを紹介する。このフレームワークは、推論時にLLMが動的にトークン語彙を調整できるようにし、生成されるトークン数を減らすことで推論を高速化する。zip2zipは、以下の3つの主要なコンポーネントで構成される:(1)Lempel-Ziv-Welch(LZW)圧縮に基づくトークナイザー。これは、トークンを再利用可能な「ハイパートークン」に逐次圧縮する。(2)新しく形成されたハイパートークンの埋め込みを実行時に計算する埋め込み層。(3)ハイパートークン化された圧縮シーケンス上で動作するようにモデルを訓練する因果的言語モデリングの変種。既存のLLMは、パラメータ効率的なファインチューニングにより10 GPU時間でzip2zip化できることを示す。結果として得られるzip2zip LLMは、推論時にハイパートークンを効果的に使用することを学習し、入力および出力シーケンスの長さを20~60%削減し、推論遅延を大幅に改善する。
タスク指向型対話システムは、ユーザーの発話が意味的には完結しているものの、適切なシステム動作に必要な構造的情報が欠けている場合にしばしば困難に直面します。これは、ユーザーが自身のニーズを完全に理解していない一方で、システムが正確な意図定義を必要とするためです。現在のLLMベースのエージェントは、言語的に完結した表現と文脈的にトリガー可能な表現を効果的に区別することができず、協調的な意図形成のためのフレームワークを欠いています。本論文では、UserLLM(完全な内部アクセス)とAgentLLM(観測可能な行動のみ)の間の対話を通じて非対称な情報ダイナミクスをモデル化するフレームワークSTORMを提案します。STORMは、表現の軌跡と潜在的な認知遷移を捉えた注釈付きコーパスを生成し、協調的理解の発展を体系的に分析することを可能にします。私たちの貢献は以下の通りです:(1) 対話システムにおける非対称な情報処理の形式化、(2) 協調的理解の進化を追跡する意図形成のモデル化、(3) タスクパフォーマンスと並行して内部的な認知改善を測定する評価指標。4つの言語モデルにわたる実験では、中程度の不確実性(40-60%)が特定のシナリオにおいて完全な透明性を上回ることが明らかになり、モデル固有のパターンが人間とAIの協働における最適な情報完全性の再考を示唆しています。これらの発見は、非対称な推論ダイナミクスの理解に貢献し、不確実性を調整した対話システム設計に情報を提供します。
モデル蒸留は、大規模システムの能力を保持したまま、より小型で展開可能な言語モデルを作成するために不可欠となっています。しかし、広範な展開は、敵対的な操作に対する耐性に関する懸念を引き起こします。本論文では、訓練中に偏ったコンテンツを敵対的に注入することによる蒸留モデルの脆弱性を調査します。我々は、敵対者が最小限のデータ汚染を通じて教師モデルに微妙なバイアスを注入し、それが学生モデルに伝播し、大幅に増幅されることを実証します。我々は2つの伝播モードを提案します:非標的伝播(バイアスが複数のタスクに影響を与える)と、特定のタスクに焦点を当てつつ他の場所では正常な動作を維持する標的伝播です。わずか25の汚染サンプル(0.25%の汚染率)で、学生モデルは標的シナリオにおいて76.9%の確率で偏った応答を生成します - これは教師モデルの69.4%よりも高い値です。非標的伝播では、未見のタスクにおいて、学生モデルで敵対的バイアスが6倍から29倍も頻繁に現れます。我々は、6種類のバイアスタイプ(標的広告、フィッシングリンク、物語操作、安全でないコーディング慣行)、様々な蒸留方法、テキストとコード生成にまたがる異なるモダリティにおいて、これらの発見を検証します。我々の評価は、これらの攻撃に対する現在の防御策 - パープレキシティフィルタリング、バイアス検出システム、LLMベースの自動評価フレームワーク - の欠点を明らかにします。結果は、蒸留モデルにおける重大なセキュリティ脆弱性を暴露し、専門的な保護策の必要性を強調します。我々は、効果的な敵対的バイアス緩和戦略を構築するための実践的な設計原則を提案します。
ビデオ異常理解(VAU)は、スマートシティ、セキュリティ監視、災害警報システムなどのアプリケーションにおいて不可欠であるが、細粒度の時空間知覚と曖昧さに対する堅牢な推論能力を要求するため、依然として課題が多い。異常検出の進展にもかかわらず、既存の手法は解釈可能性に欠け、異常事象の因果関係や文脈を捉えることに苦戦している。この制約は、異常シナリオにおける推論能力を評価するための包括的なベンチマークの不在によってさらに悪化している。これらの課題に対処するため、我々はマルチモーダル大規模言語モデル(MLLMs)に基づくデータ効率的なフレームワーク「VAU-R1」を提案し、強化学習による微調整(RFT)を通じて異常推論を強化する。さらに、ビデオ異常推論に特化した初のChain-of-Thoughtベンチマーク「VAU-Bench」を提案する。これは、多肢選択式QA、詳細な根拠、時間的アノテーション、記述的なキャプションを特徴とする。実験結果は、VAU-R1が多様な文脈において質問応答の精度、時間的グラウンディング、推論の一貫性を大幅に向上させることを示している。我々の手法とベンチマークは、解釈可能で推論を意識したビデオ異常理解の強固な基盤を確立する。コードはhttps://github.com/GVCLab/VAU-R1で公開されている。
有害な言語を無害なテキストに書き換えるタスクであるデトックス化は、オンライン上での有害コンテンツの増加に伴い、その重要性が高まっています。しかし、特にヘイトスピーチに対するデトックス化のための高品質な並列データセットは、人間によるアノテーションのコストとセンシティビティのため、依然として不足しています。本論文では、GPT-4o-miniを活用した新しいLLM-in-the-loopパイプラインを提案し、自動デトックス化を実現します。まず、ParaDetoxパイプラインを人間のアノテーターではなくLLMで置き換えて再現し、LLMが人間のアノテーションと同等の性能を発揮することを示します。これを基に、ヘイトスピーチのデトックス化に特化した大規模な並列データセットであるPARADEHATEを構築します。PARADEHATEを8,000以上のヘイト/非ヘイトテキストペアのベンチマークとして公開し、幅広いベースラインメソッドを評価します。実験結果から、PARADEHATEでファインチューニングされたBARTなどのモデルが、スタイルの正確性、コンテンツの保持、流暢さにおいて優れた性能を達成し、LLMが生成するデトックス化テキストが人間のアノテーションに代わるスケーラブルな代替手段として有効であることを示しています。
検索拡張生成(Retrieval-Augmented Generation, RAG)は、回答の最新性と事実性を向上させる。しかし、既存の評価では、これらのシステムが現実世界のノイズや内部および外部の検索コンテキスト間の矛盾、あるいは急速に変化する事実にどの程度対応できるかを十分に検証していない。本研究では、動的で時間感度の高いコーパスに対するクエリおよび文書の摂動を統合的にストレステストするためのフレームワークおよび大規模ベンチマークである「検索対応ロバストネス評価(Retrieval-Aware Robustness Evaluation, RARE)」を提案する。RAREの中核的な特徴の一つは、カスタマイズされたコーパスから単一ホップおよび多段ホップの関係を自動的に抽出し、人手を介さずに多段階の質問セットを生成する知識グラフ駆動の合成パイプライン(RARE-Get)である。このパイプラインを活用し、400の専門家レベルの時間感度の高い金融、経済、政策文書と48,322の質問からなるデータセット(RARE-Set)を構築した。このデータセットの分布は、基盤となる情報源の変化に伴って進化する。ロバストネスを定量化するために、クエリ、文書、または現実世界の検索結果が体系的に変更された際にモデルが正しいままであるか、または回復する能力を捉える検索条件付きロバストネス指標(RARE-Met)を形式化した。結果として、RAGシステムは摂動に対して驚くほど脆弱であり、文書のロバストネスはジェネレータのサイズやアーキテクチャに関わらず一貫して最も弱い点であることが示された。また、RAGシステムはすべてのドメインにおいて、単一ホップクエリよりも多段ホップクエリで一貫して低いロバストネスを示した。
大規模言語モデル(LLMs)は、単一解答の多肢選択タスクにおいて評価されることが増えているが、現実世界の問題の多くは、選択肢の中からすべての正解を特定することを必要とする。この能力はまだ十分に探求されていない。本研究では、読解、法律、生物医学など多様な領域における「すべて該当するものを選択せよ」(SATA)形式の質問に対してLLMsを評価するための初の専用ベンチマーク、SATA-BENCHを導入する。27のオープンソースおよびプロプライエタリモデルの評価により、重要なギャップが明らかとなった:最も強力なモデルでさえ、41.8%の完全一致率しか達成できず、LLMsがすべての正解を確実に特定できないことが暴露された。この弱点は、2つの核心的な課題に起因していることがわかった:選択バイアス(モデルが内容に関わらず特定の選択肢を好む)と、カウントバイアス(モデルが正解の数を予測できない)である。これらの問題に対処するため、我々はChoice Funnelを提案する。これは、トークンのバイアス除去と適応的閾値設定を組み合わせたデコーディング戦略であり、モデルを完全かつ正確な選択へと導くものである。Choice Funnelは、競合するベースラインと比較して最大29%高い完全一致率を達成し、推論コストを64%以上削減する。我々の研究結果は、現在のLLMsにおける根本的な限界を明らかにし、複数解答推論の診断と改善のための新しい枠組みを提供する。SATA-BENCHとChoice Funnelを公開し、現実的な複数解答アプリケーションにおける堅牢な意思決定のためのLLM開発を促進する。
テキストガイドによる3D編集は、意味的に関連する局所的な3D領域を正確に編集することを目的としており、3Dゲームから映画制作まで、さまざまな実用的なアプリケーションにおいて大きな可能性を秘めています。既存の手法は通常、ビューを区別せずに2Dビューを編集し、それを3D空間に投影するというパラダイムに従っています。しかし、これらの手法は異なるビュー間の相互依存関係を考慮しておらず、結果として一貫性のないマルチビュー編集が行われます。本研究では、理想的な一貫性のある3D編集は、編集が顕著なビューから編集が疎なビューへと編集の意味を伝播させる「プログレッシブビュー」パラダイムを通じて達成できると主張します。具体的には、Primary-view Sampler、Key-view Render、Full-view Refinerを主な構成要素とする新しいフレームワーク「Pro3D-Editor」を提案します。Primary-view Samplerは、編集が最も顕著なビューを動的にサンプリングし、それをプライマリビューとして編集します。Key-view Renderは、Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA)を通じて、プライマリビューから他のキービューへ編集の意味を正確に伝播させます。Full-view Refinerは、編集されたマルチビューに基づいて3Dオブジェクトを編集および洗練します。広範な実験により、本手法が編集の精度と空間的一貫性において既存の手法を凌駕することが実証されています。
計算コストの拡大と限られたリソースは、所定のイテレーション予算内で最適な学習を達成することを目指す、予算制約付きイテレーショントレーニングの重要性を強調しています。学習率スケジュールは、特に予算制約付きシナリオにおいて、異なるネットワークやタスクのパフォーマンスを根本的に支配しますが、その設計は依然としてヒューリスティックで、理論的基盤を欠いています。さらに、最適な学習率スケジュールは、広範な試行錯誤を必要とし、トレーニングプロセスを非効率にします。本研究では、理論的に裏付けられた学習率スケジュールであるUnified Budget-Aware (UBA)スケジュールを提案します。このスケジュールは、異なる制約付きトレーニング予算下で、多様なアーキテクチャやタスクにおいて、一般的に使用されるスケジュールを一貫して上回ります。まず、ランドスケープの曲率変動に対するロバスト性を明示的に考慮する、新しいトレーニング予算対応最適化フレームワークを構築することで、このギャップを埋めます。このフレームワークから、柔軟性と簡潔さのトレードオフを提供する単一のハイパーパラメータvarphiによって制御されるUBAスケジュールを導出し、ネットワークごとの数値最適化の必要性を排除します。さらに、varphiと条件数との間に理論的な関連性を確立し、アプローチに解釈と正当性を加えます。また、異なるvarphi値に対する収束性を証明します。理論分析と実験結果を通じて、その選択に関する実践的なガイドラインを提供します。広範な実験結果は、UBAが、ResNetやOLMoなどのネットワークアーキテクチャやスケールにわたる、異なるトレーニングイテレーション予算下での多様な視覚および言語タスクにおいて、一般的に使用されるスケジュールを一貫して上回ることを示しています。
本論文は、包括的な理論的ガイドラインを確立し、新たな評価フレームワークを導入することで、アラビア語言語モデル評価における重要なギャップに対処する。まず、既存のアラビア語評価データセットを分析し、言語的精度、文化的整合性、方法論的厳密性における重大な問題を特定する。これらの制約を大規模言語モデル(LLM)において解決するため、アラビア語深度ミニデータセット(ADMD)を提示する。ADMDは、10の主要ドメイン(42のサブドメイン、図1参照)にわたる490の挑戦的な質問を慎重に選定したコレクションである。ADMDを用いて、GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B、Qwen-Maxの5つの主要な言語モデルを評価する。その結果、異なるドメイン間でモデルの性能に大きなばらつきが見られ、深い文化的理解と専門知識を必要とする領域で特に課題が顕著であった。Claude 3.5 Sonnetは全体の精度で30%と最も高く、アラビア語の数学理論、アラビア語、イスラム教のドメインで相対的な強さを示した。本研究は、アラビア語言語モデル評価の改善に向けた理論的基盤と実践的洞察を提供し、技術的能力と並んで文化的コンピテンスの重要性を強調するものである。
本論文は、包括的な理論的ガイドラインを確立し、新たな評価フレームワークを導入することで、アラビア語言語モデル評価における重要なギャップに対処する。まず、既存のアラビア語評価データセットを分析し、言語的精度、文化的整合性、方法論的厳密性における重大な問題を特定する。これらの制約を大規模言語モデル(LLM)において解決するため、アラビア語深度ミニデータセット(ADMD)を提示する。ADMDは、10の主要ドメイン(42のサブドメイン、図1参照)にわたる490の挑戦的な質問を慎重に選定したコレクションである。ADMDを用いて、GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B、Qwen-Maxの5つの主要な言語モデルを評価する。その結果、異なるドメイン間でモデルの性能に大きなばらつきが見られ、深い文化的理解と専門知識を必要とする領域で特に課題が顕著であった。Claude 3.5 Sonnetは全体の精度で30%と最も高く、アラビア語の数学理論、アラビア語、イスラム教のドメインで相対的な強さを示した。本研究は、アラビア語言語モデル評価の改善に向けた理論的基盤と実践的洞察を提供し、技術的能力と並んで文化的コンピテンスの重要性を強調するものである。
複雑で新奇なオブジェクト配置を含むテキストからの画像生成は、現在のテキストから画像(T2I)モデルにとって依然として重要な課題である。従来のレイアウトベースの手法は、2Dレイアウトを用いた空間的制約によってオブジェクト配置を改善するが、3D位置の把握に苦戦し、品質と一貫性を犠牲にすることが多い。本研究では、既存のT2Iモデルを再学習することなく、構成的画像生成を改善するための新しいフレームワークであるComposeAnythingを提案する。我々のアプローチでは、まず大規模言語モデル(LLM)の連鎖的思考推論能力を活用して、テキストから2.5Dセマンティックレイアウトを生成する。このレイアウトは、深度情報と詳細なキャプションを付加した2Dオブジェクトバウンディングボックスで構成される。このレイアウトに基づいて、意図した構図を捉えた空間的および深度を考慮した粗いオブジェクトの合成物を生成し、拡散ベースのT2Iモデルにおける確率的ノイズ初期化を置き換える強力で解釈可能な事前情報として機能させる。この事前情報は、オブジェクト事前強化と空間制御されたノイズ除去を通じてノイズ除去プロセスを導き、構成的なオブジェクトと一貫性のある背景をシームレスに生成するとともに、不正確な事前情報の洗練を可能にする。ComposeAnythingは、2D/3D空間配置、多数のオブジェクト、およびシュールな構図を含むプロンプトに対して、T2I-CompBenchおよびNSR-1Kベンチマークにおいて最先端の手法を上回る性能を示す。人間による評価では、我々のモデルがテキストを忠実に反映した構図を持つ高品質な画像を生成することがさらに実証された。
本論文では、話者のマルチモーダル入力を条件として、同期した言語的および非言語的なリスナーのフィードバックをオンラインで生成することを目的とした新たなタスクであるOnline Multimodal Conversational Response Generation (OMCRG)を紹介する。OMCRGは自然な二者間の相互作用を反映し、生成された音声とリスナーの顔の反応の同期を実現する上で新たな課題を提起する。これらの課題に対処するため、我々は音声と顔の反応を橋渡しする中間モダリティとしてテキストを革新的に導入する。これにより、高品質なマルチモーダルなリスナー応答を自己回帰的に生成するMultimodal Large Language Model (MLLM)であるOmniResponseを提案する。OmniResponseは、事前学習されたLLMを基盤とし、生成されたテキストトークンを時間的に固定するChrono-Textと、顔の反応と同期した音声を生成する制御可能なオンラインTTSモジュールであるTempoVoiceという2つの新たなコンポーネントを活用する。さらに、OMCRG研究を支援するため、同期した分割画面ビデオ、マルチチャンネル音声、文字起こし、および顔の動作アノテーションを含む696の高品質な二者間相互作用からなる新たなデータセットであるResponseNetを提示する。ResponseNetを用いた包括的な評価により、OmniResponseが意味的な音声内容、視聴覚同期、および生成品質の点でベースラインモデルを大幅に上回ることが実証された。
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な成功を収めているが、その推論プロセスは依然として計算効率が低い。我々は、多くの一般的なLLMに見られる共通の失敗モードである「過剰思考(overthinking)」を観察した。これは、モデルが単純なクエリに対しても冗長で本筋から外れた推論過程を生成する現象である。最近の研究では、固定のトークン予算を強制することでこれを緩和しようと試みているが、これは特に難しい問題において「思考不足(underthinking)」を引き起こす可能性がある。実証分析を通じて、この非効率性はしばしば不明確な問題解決戦略に起因することを特定した。これを形式化するため、我々はベイジアン予算配分モデル(BBAM)を開発し、推論を不確実性が異なる一連のサブ質問としてモデル化し、正確性と計算効率のトレードオフを捉えるためのE^3メトリックを導入した。BBAMの理論的結果に基づき、我々はPlan-and-Budgetを提案する。これはモデルに依存しないテスト時フレームワークであり、複雑なクエリをサブ質問に分解し、適応的スケジューリングを用いて推定された複雑度に基づいてトークン予算を割り当てる。Plan-and-Budgetは、様々なタスクとモデルにおいて推論効率を向上させ、最大で+70%の精度向上、-39%のトークン削減、およびE^3において+187.5%の改善を達成した。特に、より小規模なモデル(DS-Qwen-32B)を、より大規模なモデル(DS-LLaMA-70B)の効率に匹敵するレベルまで引き上げることに成功し、再学習なしで性能ギャップを埋めるPlan-and-Budgetの能力を実証した。我々のコードはanonymous.4open.science/r/P-and-B-6513/で公開されている。
大規模言語モデル(LLM)のコーディングタスクにおけるメカニズムを探求した研究はいくつか存在するが、そのほとんどは単一言語設定におけるプログラミング言語(PL)に焦点を当てている。本論文では、LLMの概念空間における複数のPLと英語の関係を調査する。2つのLlamaベースモデルを用いて、21のPLペアに対してFew-shot翻訳タスクを実施した。このタスク中の中間層の埋め込みをデコードすることで、概念空間が英語(PLキーワードを含む)に近く、中間層の後半では英語トークンに高い確率を割り当てていることを観察した。11のPLと英語のニューロン活性化を分析した結果、言語固有のニューロンは主に下位層に集中しているが、各PLに排他的なニューロンは上位層に現れる傾向があることがわかった。複数の他のPLと高度に整合しているPLでは、言語固有のニューロンを特定することは不可能である。これらのPLは、他のPLよりも大きなキーワードセットを持つ傾向があり、翻訳タスクの入力/出力PLに関係なく、モデルの概念空間に近い位置にある。我々の知見は、LLMが内部でPLをどのように表現しているかを示し、モデルの概念空間における構造的パターンを明らかにするものである。コードはhttps://github.com/cisnlp/code-specific-neuronsで公開されている。
私たちはSealQAを紹介します。これは、ウェブ検索が矛盾した、ノイズの多い、または役に立たない結果をもたらす事実探求型の質問に対して、検索拡張言語モデルを評価するための新しいチャレンジベンチマークです。SealQAには3つのバリエーションがあります:(1) Seal-0(メイン)と(2) Seal-Hardで、これらは事実の正確性と推論能力を評価し、Seal-0はチャットモデル(例:GPT-4.1)が通常ほぼゼロの精度しか達成できない最も難しい質問に焦点を当てています。そして(3) LongSealで、これはSealQAを拡張し、「干し草の山の中の針」設定での長文脈、複数ドキュメントの推論をテストします。私たちの評価は、現在のモデルの重要な限界を明らかにしています:最先端のLLMでさえ、すべてのSealQAバリエーションでパフォーマンスが低いです。Seal-0では、o3やo4-miniのようなツールを備えた最先端のエージェントモデルは、最善の推論努力でもそれぞれ17.1%と6.3%の精度しか達成しません。私たちは、DeepSeek-R1-671Bやo3-miniのような高度な推論モデルがノイズの多い検索結果に非常に脆弱であることを発見しました。特に、テスト時の計算量を増やしても、o3-mini、o4-mini、o3全体で信頼性のある向上は得られず、パフォーマンスがしばしば頭打ちになるか、早期に低下することさえあります。さらに、最近のモデルは「真ん中で迷子になる」問題の影響を受けにくくなっていますが、LongSealでは、多数のディストラクターに直面した場合、関連するドキュメントを確実に特定することにまだ失敗します。今後の研究を促進するために、私たちはSealQAをhuggingface.co/datasets/vtllms/sealqaで公開します。
大規模言語モデル(LLM)は最近、予測タスクに適用されるようになり、これらのシステムが人間の性能に匹敵するかそれを上回ると主張する研究も現れています。本論文では、コミュニティとしてそのような結論に注意を払うべきであると主張します。なぜなら、LLMの予測性能を評価することは独特の課題を伴うからです。私たちは、主に2つのカテゴリの問題を特定しました:(1)時間的なリークの多様な形態による評価結果の信頼性の難しさ、(2)評価性能から現実世界の予測への外挿の難しさです。先行研究における体系的な分析と具体的な例を通じて、評価の欠陥が現在および将来の性能主張について懸念を引き起こす可能性を示します。私たちは、LLMの予測能力を確信を持って評価するためには、より厳密な評価方法論が必要であると主張します。
Distribution Matching Distillation(DMD)は、Stable Diffusion(SD)1.5などのテキストから画像への拡散モデルに成功裏に適用されてきた。しかし、バニラDMDは、SD 3.5やFLUXなどの大規模なフローベースのテキストから画像へのモデルにおいて収束の困難に直面している。本論文では、まず大規模モデルにバニラDMDを適用する際の問題点を分析する。次に、スケーラビリティの課題を克服するため、生成器と偽分布の間の距離を正則化するための暗黙的分布アライメント(IDA)を提案する。さらに、教師モデルからタイムステップの重要度分布を再配置するためのセグメント内ガイダンス(ISG)を提案する。IDAのみを用いることで、DMDはSD 3.5で収束し、IDAとISGの両方を用いることで、DMDはSD 3.5とFLUX.1 devで収束する。スケールアップした識別器モデルなどの他の改善点とともに、我々の最終モデルであるSenseFlowは、SDXLなどの拡散ベースのテキストから画像モデルや、SD 3.5 LargeやFLUXなどのフローマッチングモデルにおいて、蒸留において優れた性能を達成する。ソースコードはhttps://github.com/XingtongGe/SenseFlowで公開予定である。
ニューラル音声コーデックは、生の音声波形を離散的なトークン表現に効率的にマッピングする点で大きな進歩を遂げており、現代の音声生成モデルの基盤となっています。しかし、既存のコーデックの多くは、主に再構成品質を最適化することを目的としており、しばしばエンコードされたトークンの下流モデル化可能性を犠牲にしています。このボトルネックを克服する必要性に動機づけられ、我々はMagiCodecを紹介します。これは、単一層のストリーミングTransformerベースの新しい音声コーデックです。MagiCodecは、ガウスノイズ注入と潜在正則化を取り入れた多段階トレーニングパイプラインを設計しており、生成されたコードの意味表現力を向上させながら、高い再構成忠実度を維持することを明示的に目指しています。我々は、周波数領域におけるノイズ注入の効果を解析的に導出し、高周波成分を減衰させ、堅牢なトークン化を促進するその有効性を実証します。広範な実験的評価により、MagiCodecが再構成品質と下流タスクの両方において最先端のコーデックを凌駕することが示されています。特に、MagiCodecによって生成されたトークンは、自然言語で観察されるようなZipf-like分布を示し、言語モデルベースの生成アーキテクチャとの互換性を向上させます。コードと事前学習済みモデルは、https://github.com/Ereboas/MagiCodec で公開されています。
検索拡張型言語モデル(Retrieval-Augmented Language Models, RALMs)は、外部知識を専門モジュールを介して検索し、生成能力を強化する古典的なパラダイムを表している。近年のエージェント技術の進展により、大規模言語モデル(Large Language Models, LLMs)が自律的に検索、計画、推論のためのツールを利用できるようになった。既存の訓練ベースの手法は有望であるものの、そのエージェント能力は訓練時に使用されるタスク固有のデータの特性によって制限されている。エージェントの汎用的な検索能力をさらに向上させるため、我々は新たな事前学習フレームワーク「MaskSearch」を提案する。事前学習段階では、モデルが検索ツールを活用して大量の事前学習データ上のマスクされたスパンを埋める「Retrieval Augmented Mask Prediction(RAMP)」タスクを導入し、LLMsに汎用的な検索および推論能力を習得させる。その後、モデルは下流タスクに対して訓練され、さらなる改善を図る。訓練には、教師あり微調整(Supervised Fine-tuning, SFT)と強化学習(Reinforcement Learning, RL)の両方を適用する。SFTでは、エージェントベースと蒸留ベースの手法を組み合わせて訓練データを生成し、プランナー、リライター、オブザーバーからなるマルチエージェントシステムを起点として、自己進化する教師モデルを構築する。一方、RLでは、DAPOを訓練フレームワークとして採用し、回答報酬と形式報酬からなるハイブリッド報酬システムを採用する。さらに、マスクされたスパンの数に基づいて、モデルが容易なインスタンスからより困難なインスタンスへと段階的に学習するカリキュラム学習アプローチを導入する。我々は、オープンドメインのマルチホップ質問応答シナリオにおいて、本フレームワークの有効性を評価する。広範な実験を通じて、MaskSearchがLLMベースの検索エージェントのドメイン内およびドメイン外の下流タスクにおける性能を大幅に向上させることを実証する。
大規模言語モデル(LLMs)が人間の生活に深く統合され、意思決定にますます影響を与えるにつれ、これらのモデルが主観的な選好、意見、信念を示すかどうか、またその程度を評価することが重要である。これらの傾向は、モデル内のバイアスに起因する可能性があり、それらがモデルの行動を形成し、ユーザーに提供するアドバイスや推奨事項に影響を与え、特定の視点を強化する可能性がある。本論文では、社会的、文化的、倫理的、個人的な領域にわたるLLMsの主観的傾向を評価するために開発されたベンチマークである「選好、意見、信念調査(POBs)」を紹介する。我々はこのベンチマークを主要なオープンソースおよびクローズドソースのLLMsに適用し、信頼性、中立性、一貫性などの望ましい特性を測定した。さらに、推論と自己反映メカニズムを通じてテスト時の計算量を増やすことがこれらの指標に与える影響を調査した。他のタスクでは有効であるが、我々の結果は、これらのメカニズムが我々の領域では限定的な改善しかもたらさないことを示している。さらに、新しいモデルバージョンが一貫性を失い、特定の視点に偏りつつあることが明らかになり、盲点と懸念すべき傾向が浮き彫りになった。POBS: https://ibm.github.io/POBS
私たちは、人間の文章から大部分のトークン(例えば90%)を逐語的にコピーするという極端な制約下でLLMが生成する新たな長編ナラティブ、フランケンテキストを紹介します。このタスクは、書き込みプロンプトを満たし、異なるテキスト断片を統合し、それでも一貫した物語を生み出すという、制御可能な生成の難しいテストとなります。フランケンテキストを生成するために、モデルに人間が書いた文章を選択して組み合わせることで草案を作成するよう指示し、その後、ユーザー指定のコピー比率を維持しながら草案を反復的に修正します。生成されたフランケンテキストを、文章の質、指示の遵守度、検出可能性の3つの軸で評価します。Gemini-2.5-Proはこのタスクで驚くほどうまく機能し、そのフランケンテキストの81%が一貫性があり、100%がプロンプトに関連しています。特に、これらの出力の最大59%がPangramのような検出器によって人間が書いたものと誤分類され、AIテキスト検出器の限界が明らかになりました。人間の注釈者は、特に長い生成物において、セグメント間の急激なトーンの変化や一貫しない文法を通じてフランケンテキストを識別できることがあります。難しい生成タスクを提示するだけでなく、フランケンテキストは、この新たなグレーゾーンの著者性に対する効果的な検出器の構築、混合著者性検出のためのトレーニングデータの提供、人間とAIの共著プロセスを研究するためのサンドボックスとしての役割を果たします。
人間の一般的な目的(無害性や幻覚のないことなど)に沿った視覚言語モデル(VLM)は、視覚タスクを管理する上で人間の貴重なアシスタントとなっています。しかし、多様な背景を持つ人々は、同じ状況でも異なる認知を持っています。その結果、彼らはVLMアシスタントに対して個別化された期待を持つ可能性があります。これは、現実世界での支援のために、VLMアシスタントを個別化された状況認知に合わせる必要性を強調しています。この問題を研究するために、まず、社会学的概念である「役割集合(Role-Set)」に基づいて個人を特徴付けることで問題を簡素化します。次に、個別化された整合性が達成されているかどうかを確認するために、個人の行動を評価することを提案します。さらに、18,000のインスタンスと20の異なる役割集合を持つ個人を含むベンチマーク「PCogAlignBench」を構築します。最後に、個別化された整合性のための認知認識型かつ行動ベースの報酬モデルを構築するフレームワーク「PCogAlign」を提示します。実験結果と人間による評価は、PCogAlignBenchの信頼性と提案されたPCogAlignの有効性を示しています。構築したベンチマークとコードはhttps://github.com/NLPGM/PCogAlignでオープンソースとして公開します。
最近の研究では、少数の高品質なデータセットを用いたLLMの教師ありファインチューニングが、強力な推論能力を発揮することが示されています。しかし、完全なファインチューニング(Full FT)は強力である一方で、計算コストが高く、特にデータが限られている場合には過学習や破滅的忘却に陥りやすいという課題があります。以前、モデルパラメータの一部のみを更新することで顕著な成功を収めたスパースファインチューニングは、効率性と効果性の間の有望なトレードオフを提供します。しかし、LLM時代においては、推論に本当に重要なパラメータを特定する難しさから、その活用が遅れていました。本研究では、低ランク近似後に最大の大きさを持つ重みがファインチューニングの重要な重みであると主張し、これを「主重み(Principal Weights)」と呼びます。驚くべきことに、大きさに基づくスパースファインチューニングはLLMファインチューニングのベースラインとしては性能が低いものの、ランク削減後には非常に効果的になります。これらの知見に基づき、我々は「低ランク情報を活用したスパースファインチューニング(Low-rank Informed Sparse Fine-Tuning, LIFT)」を提案します。LIFTは、トレーニング全体を通じて上位5%の主重みのみを更新し、推論タスクにおいてFull FTを上回る性能を一貫して達成しつつ、人気のあるパラメータ効率的なファインチューニング手法と同等のメモリ効率を維持します。算術推論などのターゲットドメインでの強力な性能に加え、LIFTはFull FTやLoRAと比較して最大20%多くのソースドメイン知識を保持します。我々のコードは以下で公開されています:https://github.com/zihanghliu/LIFT。
視覚データを通じて都市の社会経済状況を理解することは、持続可能な都市開発と政策計画にとって困難でありながらも不可欠な課題です。本研究では、衛星画像やストリートビュー画像から社会経済指標を予測する大規模言語視覚モデル(LLVM)の能力を評価するための包括的なベンチマークであるCityLensを紹介します。私たちは、世界17都市にわたる多モーダルデータセットを構築し、経済、教育、犯罪、交通、健康、環境という6つの主要な領域をカバーすることで、都市生活の多面的な性質を反映しています。このデータセットに基づいて、11の予測タスクを定義し、3つの評価パラダイム(直接指標予測、正規化指標推定、特徴ベース回帰)を活用します。これらのタスクに対して17の最先端LLVMをベンチマークしました。結果として、LLVMは有望な知覚能力と推論能力を示す一方で、都市の社会経済指標を予測する上ではまだ限界があることが明らかになりました。CityLensは、これらの限界を診断し、LLVMを用いて都市の社会経済パターンを理解・予測するための将来の取り組みを導く統一フレームワークを提供します。私たちのコードとデータセットはhttps://github.com/tsinghua-fib-lab/CityLensで公開されています。
本論文は、大規模多言語継続事前学習の実践における重要な設計決定、すなわち並列データの包含について調査する。具体的には、Llama3ファミリーモデルの500言語への大規模多言語適応における二言語翻訳データの影響を研究する。この目的のために、2,500以上の言語ペアからなるMaLA二言語翻訳コーパスを構築した。その後、Llama3ファミリーのベースモデルから継続的に事前学習を行い、671Bトークンに及ぶ多様なデータミックスを広範に使用して、4つの大規模多言語モデルからなるEMMA-500 Llama 3スイートを開発し、二言語翻訳データの有無による継続事前学習の効果を探る。7つのタスクと12のベンチマークにわたる包括的な評価により、二言語データは特に低リソース言語において言語転移とパフォーマンスを向上させる傾向があることが示された。MaLAコーパス、EMMA-500 Llama 3スイートの成果物、コード、およびモデル生成物をオープンソースとして公開する。
神経信号から連続的な言語を解読することは、神経科学と人工知能の交差点において依然として重要な課題である。本研究では、頭蓋内脳波(iEEG)記録から知覚された音声の意味内容を再構築する新しいフレームワーク「Neuro2Semantic」を提案する。我々のアプローチは2つの段階から構成される:第1に、LSTMベースのアダプタが神経信号を事前学習済みのテキスト埋め込みと整合させる。第2に、補正モジュールがこれらの整合された埋め込みから直接、連続的で自然なテキストを生成する。この柔軟な手法は、従来の解読アプローチの限界を克服し、制約のないテキスト生成を可能にする。Neuro2Semanticは、わずか30分の神経データで高い性能を達成し、低データ設定において最近の最先端手法を上回る。これらの結果は、脳-コンピュータインターフェースや神経解読技術における実用的な応用の可能性を示唆している。
バイノーラルレンダリングは、モノラル音声と話者および聴取者の位置に基づいて、自然な聴覚を模倣するバイノーラル音声を合成することを目的としている。この問題を解決するために多くの手法が提案されているが、レンダリング品質とストリーミング推論に課題を抱えている。現実世界の録音と区別がつかない高品質なバイノーラル音声を合成するためには、バイノーラルキュー、室内残響、環境音の正確なモデリングが必要である。さらに、実世界のアプリケーションではストリーミング推論が求められる。これらの課題に対処するため、我々はBinauralFlowと呼ばれるフローマッチングに基づくストリーミングバイノーラル音声合成フレームワークを提案する。バイノーラルレンダリングを回帰問題ではなく生成問題と見なし、高品質な音声をレンダリングするための条件付きフローマッチングモデルを設計した。さらに、過去の情報のみに基づいて現在の音声フレームを推定する因果的U-Netアーキテクチャを設計し、生成モデルをストリーミング推論に適応させた。最後に、ストリーミングSTFT/ISTFT操作、バッファバンク、中点ソルバー、早期スキップスケジュールを組み込んだ連続推論パイプラインを導入し、レンダリングの連続性と速度を向上させた。定量的および定性的な評価により、我々の手法がSOTAアプローチを凌駕することを示した。知覚研究では、我々のモデルが現実世界の録音とほぼ区別がつかないことが明らかとなり、42%の混同率を示した。
R1のようなモデルの推論と計画能力が進歩しているにもかかわらず、大規模言語モデル(LLMs)は、正確な計算、記号操作、最適化、アルゴリズム的推論を必要とするタスクにおいて依然として苦戦しています。これらは、テキストベースの推論ではコード実行の厳密性を欠く領域です。主要な課題は、LLMがテキスト推論とコード生成のどちらを使用するかを判断できるようにすることです。OpenAIは必要に応じてコードインタプリタを呼び出すモデルを訓練していますが、事前訓練されたLLMを効果的にコード活用し、多様なタスクに汎化させるための公的な研究ガイドラインは不足しています。本論文では、R1-Code-Interpreterを紹介します。これは、テキストのみのLLMを拡張し、多段階の教師あり微調整(SFT)と強化学習(RL)を通じて、段階的な推論中に複数のコードクエリを自律的に生成するように訓練したものです。144の推論と計画タスク(訓練用107、テスト用37)をキュレーションし、各タスクには200以上の多様な質問を用意しました。Qwen-2.5モデル(3B/7B/14B)を様々なSFTとRL戦略で微調整し、異なる回答形式、推論モデルと非推論モデル、コールドスタートとウォームスタート、GRPO対PPO、マスクされたコード出力とマスクされていないコード出力を調査しました。狭い領域での従来のRL研究とは異なり、コードインタプリタの訓練はタスクの多様性と高コストなコード実行のため、大幅に困難であり、SFT段階の重要性が浮き彫りになりました。最終モデルであるR1-CI-14Bは、37のテストタスクにおける平均精度を44.0%から64.1%に向上させ、GPT-4o(テキストのみ:58.6%)を上回り、コードインタプリタを使用したGPT-4o(70.9%)に接近しました。これは、コード生成を通じた自己チェック行動の出現によるものです。データセット、コード、モデルはhttps://github.com/yongchao98/R1-Code-Interpreterおよびhttps://huggingface.co/yongchao98で公開されています。
マルチモーダル大規模言語モデル(MLLMs)は、視覚的質問応答などのタスクにおいて優れた性能を発揮するが、その推論が記憶された世界知識に依存しているのか、あるいは入力画像に含まれる視覚情報に依存しているのかは依然として不明である。これを調査するため、我々は視覚的に現実的な反事実(counterfactual)を集めた新しいデータセット「Visual CounterFact」を導入した。このデータセットは、世界知識の事前情報(例:赤いイチゴ)と視覚的入力(例:青いイチゴ)を直接対立させるものである。Visual CounterFactを用いて、モデルの予測が最初は記憶された事前情報を反映するが、中盤から後半の層では視覚的証拠にシフトすることを示した。この動的プロセスは、二つのモダリティ間の競争を明らかにし、評価中に視覚的入力が事前情報を上書きすることを示している。この挙動を制御するため、我々は「Pixels Versus Priors(PvP)ステアリングベクトル」を提案した。これは、活性化レベルでの介入を通じて、モデルの出力を世界知識または視覚的入力のいずれかに制御するメカニズムである。平均的に、PvPは色の予測の92.5%、サイズの予測の74.6%を事前情報から反事実にシフトさせることに成功した。これらの発見は、マルチモーダルモデルにおける事実的挙動を解釈し制御するための新しいツールを提供するものである。
大規模で一貫性の高い感情音声データの取得は、音声合成において依然として課題となっています。本論文では、ラベルなしの動画データから高品質で一貫性のある感情音声を抽出するための完全自動化されたマルチモーダルパイプライン「MIKU-PAL」を提案します。顔検出と追跡アルゴリズムを活用し、マルチモーダル大規模言語モデル(MLLM)を用いた自動感情分析システムを開発しました。その結果、MIKU-PALは人間レベルの精度(MELDで68.5%)と優れた一貫性(Fleiss kappaスコア0.93)を達成しつつ、人間によるアノテーションよりもはるかに低コストかつ高速であることを実証しました。MIKU-PALによる高品質で柔軟かつ一貫性のあるアノテーションにより、最大26種類の細粒度な音声感情カテゴリをアノテーションすることが可能であり、人間のアノテーターによる83%の合理性評価を得ています。提案システムに基づき、さらに細粒度な感情音声データセット「MIKU-EmoBench」(131.2時間)を公開し、感情テキスト読み上げおよび視覚的音声クローニングの新たなベンチマークとして提供します。
本研究は、ソースデータにアクセスすることなくターゲットドメインに適応するモデルであるSource-Free Domain Adaptation(SFDA)を調査する。新しい拡張技術であるShuffle PatchMix(SPM)と、新たな再重み付け戦略を導入し、性能を向上させる。SPMは画像パッチをシャッフルしブレンドすることで、多様で挑戦的な拡張を生成し、再重み付け戦略は信頼性の高い疑似ラベルを優先してラベルノイズを軽減する。これらの技術は、PACSのような小規模データセットにおいて特に有効であり、過学習や疑似ラベルノイズが大きなリスクとなる。PACS、VisDA-C、DomainNet-126の3つの主要なベンチマークにおいて、最先端の結果を達成した。特にPACSでは、シングルターゲット設定で7.3%(79.4%から86.7%)、マルチターゲット設定で7.2%の改善が観察され、DomainNet-126とVisDA-Cではそれぞれ2.8%と0.7%の向上が得られた。この高度な拡張技術と頑健な疑似ラベル再重み付けの組み合わせにより、SFDAの新たなベンチマークが確立された。コードは以下で公開されている:https://github.com/PrasannaPulakurthi/SPM
量子操作の効率的なコンパイルは、量子コンピューティングのスケーリングにおける主要なボトルネックとなっている。現在の最先端の手法は、探索アルゴリズムと勾配ベースのパラメータ最適化を組み合わせることで低いコンパイル誤差を達成しているが、長時間の実行時間を要し、量子ハードウェアや高コストの古典シミュレーションへの複数回の呼び出しが必要となるため、そのスケーリングは困難である。最近、機械学習モデルが代替手段として登場しているが、現状では離散的なゲートセットに限定されている。本論文では、ターゲットとなるユニタリ操作をコンパイルするために、回路の構造と連続パラメータを同時に生成するマルチモーダルなノイズ除去拡散モデルを提案する。このモデルは、離散的なゲート選択とパラメータ予測のための2つの独立した拡散プロセスを活用する。本モデルをさまざまな実験でベンチマークし、量子ビット数、回路深度、およびパラメータ化ゲートの割合にわたる手法の精度を分析する。最後に、迅速な回路生成を活用して特定の操作に対する大規模な回路データセットを作成し、これらを利用して量子回路合成に関する新たな洞察を発見するのに役立つ貴重なヒューリスティックを抽出する。