翻訳付きの日次キュレーションされたAI研究論文
本論文では、Chain-of-Model(CoM)と呼ばれる新しい学習パラダイムを提案する。このパラダイムは、因果関係を各層の隠れ状態に連鎖形式で組み込むことで、モデルトレーニングにおけるスケーリング効率とデプロイ時の推論柔軟性を大幅に向上させる。我々は、Chain-of-Representation(CoR)の概念を導入し、各層の隠れ状態を隠れ次元レベルでの複数のサブ表現(すなわち連鎖)の組み合わせとして定式化する。各層において、出力表現の各連鎖は、入力表現におけるその前のすべての連鎖のみを参照することができる。その結果、CoMフレームワークに基づいて構築されたモデルは、前のモデル(すなわち連鎖)に基づいて連鎖を増やすことでモデルサイズを段階的に拡大し、異なる連鎖数を使用することでさまざまなサイズの複数のサブモデルを提供し、弾力的な推論を可能にする。この原理に基づいて、我々はChain-of-Language-Model(CoLM)を考案し、CoMのアイデアをTransformerアーキテクチャの各層に組み込む。CoLMに基づいて、さらにKV共有メカニズムを導入したCoLM-Airを提案する。この設計は、最初の連鎖内ですべてのキーと値を計算し、その後すべての連鎖間で共有するものであり、シームレスなLM切り替えやプリフィリングの加速などの追加の拡張性を実証する。実験結果は、我々のCoLMファミリーが標準Transformerと同等の性能を達成しつつ、トレーニング効率を向上させるための段階的スケーリングや、弾力的な推論のための複数の異なるモデルサイズの提供など、より大きな柔軟性を同時に実現することを示しており、言語モデル構築に向けた新たな道を切り開くものである。我々のコードは、将来https://github.com/microsoft/CoLMで公開される予定である。
近年、大規模な推論モデルは人間のような深い思考を採用することで、様々なタスクで印象的な性能を達成してきました。しかし、この長い思考プロセスは推論のオーバーヘッドを大幅に増加させ、効率性が重要なボトルネックとなっています。本研究ではまず、比較的単純なタスクにおいて、推論モデルに思考をスキップさせて直接最終的な解答を生成させる「NoThinking」が、性能と効率の両面でより優れた選択肢であることを示します。この知見に基づき、我々はAdaptThinkという新しい強化学習アルゴリズムを提案します。AdaptThinkは、問題の難易度に基づいて最適な思考モードを適応的に選択するよう推論モデルを教えるものです。具体的には、AdaptThinkは以下の2つのコアコンポーネントを特徴とします:(1) 全体の性能を維持しつつ、モデルにNoThinkingを選択させることを促す制約付き最適化目標、(2) オン・ポリシー訓練中にThinkingとNoThinkingのサンプルをバランスよく取り入れる重要度サンプリング戦略。これにより、コールドスタートを可能にし、訓練プロセス全体を通じて両方の思考モードを探索・活用できるようになります。実験結果から、AdaptThinkは推論コストを大幅に削減しつつ、さらなる性能向上をもたらすことが示されました。特に、3つの数学データセットにおいて、AdaptThinkはDeepSeek-R1-Distill-Qwen-1.5Bの平均応答長を53%削減し、精度を2.4%向上させました。これは、推論の質と効率のバランスを最適化するための適応的思考モード選択の可能性を示唆しています。我々のコードとモデルはhttps://github.com/THU-KEG/AdaptThinkで公開されています。
大規模言語モデル(LLMs)は顕著な能力を示す一方で、高度な推論を必要とするタスクにおいて課題に直面することが多い。Chain-of-Thought(CoT)プロンプティングは推論能力を大幅に向上させるが、すべてのクエリに対して無差別に長い推論ステップを生成するため、特に単純な入力に対しては計算コストと非効率性が顕著となる。この重要な課題に対処するため、我々はAdaCoT(Adaptive Chain-of-Thought)を提案する。AdaCoTは、LLMがCoTをいつ呼び出すかを適応的に決定する新しいフレームワークであり、適応的推論をパレート最適化問題として定式化し、モデルの性能とCoT呼び出しのコスト(頻度と計算オーバーヘッド)のバランスを取ることを目指す。我々は、強化学習(RL)に基づく手法、特にProximal Policy Optimization(PPO)を利用して、ペナルティ係数を調整することでCoTトリガーの決定境界を動的に制御し、暗黙的なクエリの複雑さに基づいてCoTの必要性を判断することを可能にする。重要な技術的貢献として、多段階RLトレーニング中に決定境界の崩壊を防ぐために設計されたSelective Loss Masking(SLM)を提案し、堅牢で安定した適応的トリガーを実現する。実験結果は、AdaCoTがパレートフロンティアをうまくナビゲートし、複雑な推論を必要としないクエリに対してCoTの使用を大幅に削減することを示している。例えば、本番トラフィックのテストセットにおいて、AdaCoTはCoTトリガー率を3.18%まで低減し、平均応答トークンを69.06%削減しながら、複雑なタスクにおいて高い性能を維持した。
推論能力を備えた言語モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を発揮してきた。しかし、すべてのクエリに対して精緻な推論を適用することは、多くの問題が単純な解決策を許容する場合において、しばしば大幅な計算非効率を招く。これにより、LLMが「いつ考えるべきかを学習できるか?」という未解決の疑問が生じる。この問いに答えるため、我々はThinklessを提案する。これは、タスクの複雑さとモデルの能力に基づいて、短い形式と長い形式の推論を適応的に選択することをLLMに可能にする学習可能なフレームワークである。Thinklessは強化学習のパラダイムの下で訓練され、簡潔な応答のための<short>と詳細な推論のための<long>という2つの制御トークンを採用する。本手法の中核となるのは、Decoupled Group Relative Policy Optimization(DeGRPO)アルゴリズムである。これは、ハイブリッド推論の学習目的を2つの要素に分解する:(1) 推論モードの選択を制御する制御トークン損失、(2) 生成された回答の精度を向上させる応答損失。この分離された定式化により、各目的の寄与を細かく制御することが可能となり、訓練を安定化させ、従来のGRPOで観察された崩壊を効果的に防止する。実験的には、Minerva Algebra、MATH-500、GSM8Kなどのいくつかのベンチマークにおいて、Thinklessは長い連鎖的思考の使用を50%~90%削減し、推論言語モデルの効率を大幅に向上させることができた。コードはhttps://github.com/VainF/Thinklessで公開されている。
Transformerのアテンションメカニズムは二次複雑度を持ち、長いシーケンスに対して高い推論コストとレイテンシを引き起こします。しかし、アテンションマトリックスはほとんどがスパースであり、効率的な推論のために多くのエントリを計算から省略できることを意味します。スパースアテンション推論手法はこの計算負荷を軽減することを目指していますが、同時に厄介な性能低下も伴います。私たちは、この性能低下の一因が、スパース計算がアテンション出力の分布シフトを引き起こすことにあることを発見しました。この分布シフトにより、デコード時のクエリがプレフィル段階の適切なキーとうまく整合しなくなり、性能の低下を招きます。私たちは、この分布シフトを補正するためのシンプルで新規かつ効果的な手順を提案します。これにより、スパースアテンション出力の分布を二次アテンションの分布に近づけることができます。私たちの手法は、任意のスパースアテンション手法の上に適用可能であり、スライディングウィンドウアテンションとシンクトークンを組み合わせた場合、131K RULERベンチマークにおいて二次アテンションの精度の88%を回復し、平均36%ポイントの性能向上をもたらします。また、わずかなオーバーヘッドを追加するだけで、完全な二次アテンションに対して約98.5%のスパース性を維持できるため、1Mトークンのプレフィル処理においてFlash Attention 2よりも32倍高速なモデルを実現します。
グラフィカルユーザーインターフェース(GUI)グラウンディング、すなわち自然言語の指示をグラフィカルユーザーインターフェース上の特定のアクションにマッピングする能力は、コンピュータ利用エージェントの開発における重要なボトルネックとなっている。現在のベンチマークは、グラウンディングタスクを短い参照表現として過度に単純化しており、ソフトウェアの常識、レイアウト理解、細かい操作能力を必要とする現実世界のインタラクションの複雑さを捉えられていない。これらの制限に対処するため、我々はOSWorld-Gを導入した。これは、テキストマッチング、要素認識、レイアウト理解、精密操作など多様なタスクタイプにわたる564の詳細に注釈付けされたサンプルからなる包括的なベンチマークである。さらに、タスクの多視点分解を通じて生成された最大のコンピュータ利用グラウンディングデータセットJediを合成し、公開した。Jediには400万の例が含まれている。Jediでトレーニングされたマルチスケールモデルは、ScreenSpot-v2、ScreenSpot-Pro、および我々のOSWorld-Gにおいて既存のアプローチを上回ることでその有効性を実証した。さらに、Jediによる改善されたグラウンディングが、複雑なコンピュータタスクにおける一般的な基盤モデルのエージェント能力を直接向上させ、OSWorldにおいて5%から27%に改善されることを示した。詳細なアブレーション研究を通じて、グラウンディング性能に寄与する主要な要因を特定し、異なるインターフェース要素に対する専門データを組み合わせることで、新しいインターフェースへの合成的汎化が可能になることを検証した。すべてのベンチマーク、データ、チェックポイント、コードはオープンソース化されており、https://osworld-grounding.github.ioで公開されている。
モデルマージは大規模言語モデルの性能向上に向けた有望な技術として注目を集めているが、大規模事前学習への応用はまだ十分に検討されていない。本論文では、事前学習プロセスにおけるモデルマージ技術の包括的な調査を提示する。数百万から1000億を超えるパラメータ規模の密結合型およびMixture-of-Experts(MoE)アーキテクチャを用いた広範な実験を通じて、一定の学習率で訓練されたチェックポイントをマージすることで、性能の大幅な向上が達成されるだけでなく、アニーリング挙動の正確な予測が可能になることを実証した。これらの改善は、モデル開発の効率化と訓練コストの大幅な削減につながる。マージ戦略とハイパーパラメータに関する詳細なアブレーション研究は、その基盤となるメカニズムに対する新たな知見を提供するとともに、新規の応用可能性を明らかにした。包括的な実験分析を通じて、オープンソースコミュニティに対して効果的なモデルマージのための実践的な事前学習ガイドラインを提供する。
ビデオ拡散Transformer(DiT)のスケーリングは、その二次元3Dアテンションによって制限されていますが、ほとんどのアテンションの質量は少数の位置に集中しています。この観察を基に、我々はVSA(Variable Sparse Attention)を開発しました。これは、訓練と推論の両方で完全なアテンションを置き換える、訓練可能でハードウェア効率の高いスパースアテンションです。VSAでは、軽量な粗い段階でトークンをタイルにプールし、高重みの重要なトークンを特定します。細かい段階では、それらのタイル内でのみトークンレベルのアテンションを計算し、ブロック計算レイアウトに従うことでハード効率を確保します。これにより、エンドツーエンドで訓練可能な単一の微分可能なカーネルが得られ、事後のプロファイリングを必要とせず、FlashAttention3のMFUの85%を維持します。我々は、60Mから1.4BパラメータまでのDiTを事前訓練し、大規模なアブレーション研究とスケーリング則実験を行いました。VSAは、拡散損失の低下なしに訓練FLOPSを2.53倍削減するパレート点に到達します。オープンソースのWan-2.1モデルにVSAを適用すると、アテンション時間が6倍速くなり、エンドツーエンド生成時間が31秒から18秒に短縮され、品質は同等です。これらの結果は、訓練可能なスパースアテンションが完全なアテンションの実用的な代替手段であり、ビデオ拡散モデルのさらなるスケーリングの鍵となることを示しています。
現実の画像がどのように見えるかを測定することは、人工知能研究における複雑な課題である。例えば、砂漠で掃除機を持つ少年の画像は常識に反している。本論文では、大規模視覚言語モデル(LVLM)とTransformerベースのエンコーダを用いて、画像の常識的一貫性を評価する新規手法「Through the Looking Glass(TLG)」を提案する。LVLMを活用してこれらの画像から原子的事実を抽出することで、正確な事実の混合を得る。次に、符号化された原子的事実に対してコンパクトなアテンションプーリング分類器をファインチューニングする。我々のTLGは、コンパクトなファインチューニングコンポーネントを活用しつつ、WHOOPS!およびWEIRDデータセットにおいて新たな最先端の性能を達成した。
近年の動的3Dシーン再構成技術の進展は、時間的整合性が向上した高精細な3D新視点合成を可能にし、有望な結果を示しています。その中でも、4Dガウシアンスプラッティング(4DGS)は、高精細な空間的および時間的変動をモデル化する能力から、注目を集める手法として登場しました。しかし、既存の手法では、静的な領域に冗長に割り当てられた4Dガウシアンによって、計算量とメモリ使用量が大幅に増加し、画像品質の低下も引き起こす問題があります。本研究では、静的な領域を3Dガウシアンで適応的に表現し、動的な要素に対しては4Dガウシアンを保持する新しいフレームワークであるハイブリッド3D-4Dガウシアンスプラッティング(3D-4DGS)を提案します。本手法は、完全な4Dガウシアン表現から始め、時間的に不変なガウシアンを反復的に3Dに変換することで、パラメータ数を大幅に削減し、計算効率を向上させます。一方で、動的なガウシアンは完全な4D表現を保持し、複雑な動きを高精細に捉えます。本手法は、ベースラインの4Dガウシアンスプラッティング手法と比較して、視覚品質を維持または向上させながら、大幅に短い学習時間を実現します。
推論能力は、人間の知能の中核をなす要素であり、AGI(人工汎用知能)の追求において、大規模言語モデル(LLMs)にとって依然として重要な課題となっている。モデルの性能はトレーニングのスケーリング則に従って向上しているものの、特にトレーニングアルゴリズムに関しては、破滅的忘却や新規トレーニングデータの限られた可用性といった重大な課題が残されている。代替手段として、テスト時のスケーリングは、パラメータ更新なしにテスト時の計算量を増やすことで推論性能を向上させる。このパラダイムにおける従来の手法がトークン空間に焦点を当てていたのに対し、我々はより効果的な推論とテスト時スケーリング則へのより良い準拠を実現するために、潜在空間を活用することを提案する。我々は、モデルの潜在空間内でテスト時インスタンスレベル適応(TTIA)を通じてLLMの推論を強化する新たなフレームワークであるLatentSeekを紹介する。具体的には、LatentSeekは、自己生成された報酬信号に導かれて、潜在表現を反復的に更新するためにポリシー勾配を活用する。LatentSeekは、GSM8K、MATH-500、AIME2024を含む一連の推論ベンチマークにおいて、複数のLLMアーキテクチャにわたって評価される。結果は、LatentSeekがChain-of-Thoughtプロンプティングやファインチューニングベースの手法といった強力なベースラインを一貫して上回ることを示している。さらに、我々の分析は、LatentSeekが非常に効率的であり、平均的な複雑さの問題に対して通常数回の反復で収束する一方、追加の反復からも恩恵を受けることを示しており、潜在空間におけるテスト時スケーリングの可能性を強調している。これらの発見は、LatentSeekをLLMの推論能力を強化するための軽量でスケーラブルかつ効果的なソリューションとして位置づけている。
マルチモーダル大規模言語モデル(MLLMs)は視覚と言語の理解において目覚ましい進歩を遂げているものの、複雑な多段階推論においては依然として課題を抱えており、論理的に一貫しないまたは部分的に正しい解を生成することが多い。この主な制約は、中間推論ステップに対する細かい監督の欠如にある。この問題に対処するため、我々は完全自動化かつスケーラブルなフレームワーク内で訓練されたプロセス報酬モデル(MM-PRM)を提案する。まず、多様な数学的推論データで訓練された強力なマルチモーダルモデルであるMM-Policyを構築する。次に、検証可能な解答付きの10,000件のマルチモーダル数学問題から成る精選データセットMM-K12を作成し、これをシードデータとして活用する。モンテカルロ木探索(MCTS)ベースのパイプラインを利用して、人間のラベリングなしで70万件以上のステップレベルのアノテーションを生成する。得られたPRMは、Best-of-N推論設定において候補となる推論パスをスコア付けするために使用され、ドメイン内(MM-K12テストセット)およびドメイン外(OlympiadBench、MathVistaなど)のベンチマークにおいて大幅な改善を達成する。さらなる分析により、ソフトラベル、小さな学習率、およびパスの多様性がPRMの性能を最適化する上で有効であることが確認された。MM-PRMは、プロセス監督がマルチモーダル推論システムの論理的堅牢性を強化するための強力なツールであることを示している。我々はすべてのコードとデータをhttps://github.com/ModalMinds/MM-PRMで公開している。
ルールベース強化学習(RL)の最近の進展により、ルールベースの報酬を用いた言語モデル(LM)の推論能力が大幅に向上している。しかし、GRPO、REINFORCE++、RLOOなどの既存のRL手法は、大きなポリシー更新や不適切なクリッピングによって訓練の不安定性が生じ、訓練の崩壊を引き起こすことが多い。この問題に対処するため、本論文では、LMにおけるポリシー学習を安定化するための新しいアルゴリズムであるClipped Policy Gradient Optimization with Policy Drift(CPGD)を提案する。CPGDは、KLダイバージェンスに基づくポリシードリフト制約を導入してポリシー更新を動的に正則化し、比率の対数に対するクリップ機構を活用して過剰なポリシー更新を防ぐ。CPGDの理論的正当性を示し、実証分析を通じて従来の手法で観察された不安定性を軽減することを実証する。さらに、CPGDが訓練の安定性を維持しながら性能を大幅に向上させることを示す。我々の実装は理論的厳密性と実用性のバランスを取り、LMのポストトレーニングにおけるRLの堅牢な代替手段を提供する。コードはhttps://github.com/ModalMinds/MM-EUREKAで公開している。
大規模言語モデル(LLMs)は大きな進歩をもたらしてきたが、パラメータ数とコンテキストウィンドウの増大に伴い、計算コスト、エネルギー消費、および金銭的コストが膨大になっている。本論文では、EfficientLLMを紹介する。これは、LLMの効率化技術を大規模に評価する初の包括的なベンチマークおよび実証研究である。生産クラスのクラスタ(48xGH200、8xH200 GPU)で実施された本研究では、以下の3つの主要な軸を体系的に探求している:(1) アーキテクチャの事前学習(効率的な注意機構のバリエーション:MQA、GQA、MLA、NSA;スパースなMixture-of-Experts(MoE))、(2) ファインチューニング(パラメータ効率的手法:LoRA、RSLoRA、DoRA)、(3) 推論(量子化手法:int4、float16)。我々は、ハードウェアの飽和度、レイテンシとスループットのバランス、および炭素コストを捉えるために、6つの細分化されたメトリクス(メモリ利用率、計算利用率、レイテンシ、スループット、エネルギー消費、圧縮率)を定義した。0.5Bから72Bパラメータまでの100以上のモデルと技術の組み合わせを評価し、以下の3つの核心的な洞察を得た:(i) 効率化には定量化可能なトレードオフが存在する:単一の手法が普遍的に最適であることはない。例えば、MoEはFLOPsを削減し精度を向上させるが、VRAMを40%増加させる。一方、int4量子化はメモリとエネルギーを最大3.9倍削減するが、精度は3-5%低下する。(ii) 最適解はタスクとスケールに依存する:MQAは制約のあるデバイスにおいてメモリとレイテンシの最適なトレードオフを提供し、MLAは品質が重要なタスクにおいて最低のパープレキシティを達成し、RSLoRAは14Bパラメータを超える場合にのみLoRAの効率を上回る。(iii) 技術はモダリティを超えて一般化する:我々は評価を大規模視覚モデル(Stable Diffusion 3.5、Wan 2.1)および視覚言語モデル(Qwen2.5-VL)に拡張し、効果的な転移性を確認した。データセット、評価パイプライン、およびリーダーボードをオープンソース化することで、EfficientLLMは次世代の基盤モデルの効率と性能のバランスを探る研究者やエンジニアにとって不可欠なガイダンスを提供する。
低ランク適応(LoRA)は、凍結された事前学習済みの重みに2つの学習可能な低ランク行列の積を導入することで、連合学習(FL)における言語モデルの効率的なファインチューニングに広く使用されています。しかし、差分プライバシー付き確率的勾配降下法(DP-SGD)と組み合わせると、LoRAは大きなノイズ増幅に直面します。DP-SGDはサンプルごとの勾配を摂動させ、LoRAの更新行列(BA)の行列乗算がこの効果を増幅します。一方の行列(例えばA)を凍結するとノイズは減少しますが、モデルの表現力が制限され、しばしば最適でない適応が生じます。この問題に対処するため、我々は特異値分解(SVD)に基づくグローバルな再パラメータ化を導入するシンプルかつ効果的な手法であるFedSVDを提案します。本手法では、各クライアントはB行列のみを最適化し、それをサーバーに送信します。サーバーはB行列を集約し、前回のAを用いて積BAを計算し、その結果をSVDを用いて再分解します。これにより、BAの正規直交右特異ベクトルからなる新しい適応行列Aと、残りのSVD成分を含む更新されたB行列が得られます。この再パラメータ化により、二次的なノイズ増幅を回避しつつ、Aが集約された更新の主方向をより良く捉えることが可能になります。さらに、Aの正規直交構造はBの勾配ノルムを制限し、DP-SGD下でより多くの信号を保持します。これは我々の理論的解析によって確認されています。その結果、FedSVDは様々なプライバシー設定とベンチマークにおいて安定性と性能を一貫して向上させ、プライベートおよび非プライベートの両方の体制下で関連するベースラインを上回る性能を示します。
推論時のスケーリング技術は、再学習を必要とせずに推論時に追加の計算リソースを活用することで、大規模言語モデル(LLM)の推論能力を大幅に向上させてきました。同様に、Chain-of-Thought(CoT)プロンプティングおよびその拡張版であるLong CoTは、豊富な中間推論軌跡を生成することで精度を向上させますが、これらのアプローチはトークンコストが高く、レイテンシに敏感な環境での展開を妨げています。本研究ではまず、推論を完了前に停止し直接最終回答を生成する「切り詰められたCoT」が、完全なCoTサンプリングと同等の精度を維持しつつ、劇的に少ないトークンで実現できることを示します。この知見を基に、我々はFractured Samplingを提案します。これは、完全なCoTと解答のみのサンプリングの間を補間する統一的な推論時戦略であり、以下の3つの直交する軸に沿って調整されます:(1)推論軌跡の数、(2)各軌跡における最終解答の数、(3)推論トレースが切り詰められる深さ。5つの多様な推論ベンチマークと複数のモデル規模にわたる広範な実験を通じて、Fractured Samplingが一貫して優れた精度とコストのトレードオフを達成し、Pass@k対トークンバジェットにおいて急峻な対数線形スケーリングの利得をもたらすことを実証します。我々の分析は、これらの次元間で計算リソースをどのように配分すれば性能を最大化できるかを明らかにし、より効率的でスケーラブルなLLM推論への道を開きます。
大規模言語モデル(LLM)は、入力プロンプト(質問)に対して異なるレベルの確信度を示す。一部のプロンプトは一貫性があり、意味的に類似した回答を生成するが、他のプロンプトは多様または矛盾する出力を生み出す。この変動は、LLMが入力プロンプトに対する不確実性を反映しており、モデルが特定の問題をどの程度確信を持って理解しているかを示す信号である。しかし、従来のGroup Relative Policy Optimization(GRPO)は、ポリシー更新中にすべてのプロンプトを均等に扱い、モデルの知識境界に関するこの重要な情報を無視している。この制限を解決するため、我々はSEED-GRPO(Semantic Entropy EnhanceD GRPO)を提案する。SEED-GRPOは、入力プロンプトの意味的エントロピーに対するLLMの不確実性を明示的に測定する。意味的エントロピーは、与えられたプロンプトに対して生成された複数の回答の意味の多様性を測定し、これを使用してポリシー更新の大きさを調整する。この不確実性を考慮したトレーニングメカニズムにより、質問の不確実性に基づいてポリシー更新の大きさを動的に調整することが可能となる。これにより、不確実性の高い質問に対してはより保守的な更新を行いながら、確信度の高い質問に対しては元の学習信号を維持することができる。5つの数学的推論ベンチマーク(AIME24 56.7、AMC 68.7、MATH 83.4、Minerva 34.2、およびOlympiadBench 48.0)での実験結果は、SEED-GRPOが平均精度において新たな最先端の性能を達成し、不確実性を考慮したポリシー最適化の有効性を検証している。
大規模な視覚言語モデルは、多様な視覚知覚タスクを処理する本質的な能力を有しています。本論文では、VisionReasonerを紹介します。これは、共有モデル内で複数の視覚知覚タスクを推論し解決する統一フレームワークです。具体的には、新しいマルチオブジェクト認知学習戦略と体系的なタスク再構成を設計することで、VisionReasonerは視覚入力を分析する推論能力を強化し、多様な知覚タスクを統一フレームワークで扱います。このモデルは、ユーザーのクエリに応答する前に、構造化された推論プロセスを生成します。統一された視覚知覚能力を厳密に評価するため、VisionReasonerを検出、セグメンテーション、カウントという3つの重要な領域にまたがる10の多様なタスクで評価しました。実験結果は、VisionReasonerが統一モデルとして優れた性能を発揮し、COCO(検出)でQwen2.5VLに対して29.1%、ReasonSeg(セグメンテーション)で22.1%、CountBench(カウント)で15.3%の相対的な差で上回ることを示しています。
チャート理解は、大規模視覚言語モデル(LVLM)にとって独特の課題を提示する。なぜなら、高度なテキスト的および視覚的推論能力の統合を必要とするためである。しかし、現在のLVLMはこれらのスキル間に顕著な不均衡を示しており、テキストでは難しい視覚的推論において不足が見られる。本研究では、視覚的推論のみで解決可能な合成データセットを用いたケーススタディを行い、視覚的複雑性が増すにつれてモデルの性能が著しく低下する一方で、人間の性能は堅牢であることを示す。次に、ChartMuseumという新しいチャート質問応答(QA)ベンチマークを紹介する。このベンチマークは、184のソースから収集された実世界のチャートに基づいて専門家が注釈を付けた1,162の質問を含み、複雑な視覚的およびテキスト的推論を評価するために特別に構築された。従来のチャート理解ベンチマークでは、最先端のモデルが同様の性能を示し、飽和に近い状態であったが、本ベンチマークでは、モデルと人間の性能間に大きなギャップが明らかになり、モデルの能力を効果的に区別することができる。具体的には、人間の正解率は93%であるのに対し、最高性能のモデルGemini-2.5-Proは63.0%、主要なオープンソースLVLMであるQwen2.5-VL-72B-Instructは38.5%に留まっている。さらに、主に視覚的推論を必要とする質問では、すべてのモデルがテキスト推論が中心の質問性能から35%-55%の性能低下を経験する。最後に、定性的なエラー分析を通じて、現在のLVLMにとって困難な視覚的推論の特定のカテゴリーを明らかにする。
検索意図の正確な認識は、リソース制約やネスト構造や依存関係を持つ複雑なクエリにおいて、特にRetrieval-Augmented Generation(RAG)システムにおいて依然として困難な課題である。本論文では、このギャップを埋めるために、言語学的文法規則とコンパイラ設計に着想を得たニューロシンボリックフレームワークであるQCompilerを提案する。QCompilerは、複雑なクエリを形式化するために、最小限でありながら十分なBackus-Naur Form(BNF)文法G[q]を理論的に設計する。従来の手法とは異なり、この文法は冗長性を最小化しつつ完全性を維持する。これに基づき、QCompilerはクエリを抽象構文木(AST)にコンパイルするためのクエリ式翻訳器、字句構文解析器、および再帰下降処理器を含む。リーフノードにおけるサブクエリの原子性は、より正確な文書検索と応答生成を保証し、RAGシステムの複雑なクエリへの対応能力を大幅に向上させる。
大規模言語モデルとシンボリックプランナーを統合することは、自然言語でのプランニングと比較して検証可能で根拠のあるプランを得るための有望な方向性であり、最近の研究ではこのアイデアを視覚言語モデル(VLM)を用いて視覚領域に拡張しています。しかし、VLMに基づくシンボリックアプローチとVLMを直接使用してプランニングする方法との厳密な比較は、共通の環境、評価プロトコル、モデルカバレッジの不足によって妨げられてきました。本論文では、シンボリック述語とVLMを用いた視覚的プランニングのための最初のオープンソースベンチマークであるViPlanを紹介します。ViPlanは、古典的なBlocksworldプランニング問題の視覚的バリアントと、シミュレートされた家庭用ロボティクス環境という2つのドメインにおいて、難易度が段階的に増す一連のタスクを特徴としています。我々は、複数のサイズの9つのオープンソースVLMファミリーと、選択されたクローズドモデルをベンチマークし、VLMに基づくシンボリックプランニングとモデルを直接使用してアクションを提案する方法の両方を評価しました。その結果、正確な画像の根拠付けが重要なBlocksworldではシンボリックプランニングが直接的なVLMプランニングを上回り、一方で常識的な知識とエラーからの回復能力が有益な家庭用ロボティクスタスクではその逆が真であることがわかりました。最後に、ほとんどのモデルと方法において、Chain-of-Thoughtプロンプティングを使用することに有意な利点がないことを示し、現在のVLMが視覚的推論にまだ苦戦していることを示唆しています。
報酬モデルは、言語モデルの出力を人間の選好に合わせるために不可欠であるが、既存のアプローチでは制御性と解釈可能性の両方が不足していることが多い。これらのモデルは通常、狭い目的に対して最適化されており、より広範な下流タスクへの汎用性が制限されている。さらに、そのスカラー出力は文脈的な推論なしでは解釈が困難である。これらの課題に対処するため、我々はR3という新しい報酬モデリングフレームワークを提案する。R3はルーブリックに依存せず、評価次元を横断して汎用性があり、解釈可能で論理的なスコア割り当てを提供する。R3は、言語モデルの評価をより透明かつ柔軟に行うことを可能にし、多様な人間の価値観やユースケースとの堅牢な整合を支援する。我々のモデル、データ、およびコードは、https://github.com/rubricreward/r3 でオープンソースとして公開されている。
我々はSLEDを提案する。これは、音声波形を連続的な潜在表現の系列に符号化し、エネルギー距離を目的関数として自己回帰的にモデル化する、新たな音声言語モデリング手法である。エネルギー距離は、シミュレーションサンプルと目標サンプルを対比することで分布間のギャップを解析的に測定し、基盤となる連続自己回帰分布を効率的に学習することを可能にする。SLEDは残差ベクトル量子化への依存を回避することで、離散化誤差を除去し、既存の音声言語モデルで一般的な複雑な階層的アーキテクチャの必要性を解消する。これにより、音声情報の豊かさを保ちつつ推論効率を維持しつつ、全体のモデリングパイプラインを簡素化する。実験結果は、SLEDがゼロショット音声合成とストリーミング音声合成の両方で優れた性能を発揮し、汎用音声言語モデルとしての幅広い応用可能性を示している。
大規模言語モデル(LLMs)の最近の進歩は、AI共科学者とも呼ばれる自動化された科学的発見のビジョンを促進してきた。これまでの研究では、これらのシステムを仮説の構築、コードの合成、または原稿の起草を担う生成的な共著者として位置づけてきた。本研究では、補完的な応用として、LLMsを検証者として活用し、学術論文の検証を自動化することを探求する。そのために、83本の公開論文と、実際の著者や人間のアノテーターとのクロスバリデーションによって確認された、誤報や撤回を引き起こすほど重大な91の誤りをペアにしたデータセットSPOTを導入する。SPOTにおいて最先端のLLMsを評価した結果、21.1%の再現率または6.1%の精度を超えるモデルはなく(o3が最高スコアを達成し、他はほぼゼロ)、信頼度の推定値も一様に低く、8回の独立した実行においてもモデルが同じ誤りを再発見することは稀であり、その信頼性が損なわれていることが明らかになった。さらに、ドメインエキスパートとの質的分析により、最も強力なモデルでさえ、誤解から生じる学生レベルの誤りに似たミスを犯すことが示された。これらの発見は、現在のLLMsの能力と、信頼性のあるAI支援学術検証の要件との間に大きな隔たりがあることを強調している。
人間画像アニメーションは、デジタルヒューマンにおける幅広い応用により、急速に注目を集め発展してきました。しかし、既存の手法は主に2Dレンダリングされたポーズ画像に依存しており、これが一般化を制限し、オープンワールドアニメーションに必要な3D情報を捨ててしまう問題があります。この問題を解決するため、我々はMTVCrafter(Motion Tokenization Video Crafter)を提案します。これは、人間画像アニメーションのために生の3Dモーションシーケンス(すなわち4Dモーション)を直接モデル化する初めてのフレームワークです。具体的には、4DMoT(4D motion tokenizer)を導入し、3Dモーションシーケンスを4Dモーショントークンに量子化します。2Dレンダリングされたポーズ画像と比較して、4Dモーショントークンはより堅牢な時空間的キューを提供し、ポーズ画像とキャラクター間の厳密なピクセルレベルアラインメントを避けることで、より柔軟で分離された制御を可能にします。次に、MV-DiT(Motion-aware Video DiT)を導入します。4D位置エンコーディングを用いた独自のモーションアテンションを設計することで、MV-DiTはモーショントークンを4Dのコンパクトでありながら表現力豊かなコンテキストとして活用し、複雑な3D世界における人間画像アニメーションを効果的に実現します。これにより、この分野における重要な進歩を遂げ、ポーズ誘導型人間ビデオ生成の新たな方向性を開拓します。実験結果は、我々のMTVCrafterがFID-VIDで6.98という最先端の結果を達成し、2番目に優れた手法を65%上回ることを示しています。堅牢なモーショントークンにより、MTVCrafterは様々なスタイルやシナリオにおける多様なオープンワールドキャラクター(単体/複数、全身/半身)にもうまく一般化します。我々のビデオデモとコードは以下にあります:https://github.com/DINGYANB/MTVCrafter。
画像生成モデルは広範な応用を実現している。一例として、TarFlowモデルはトランスフォーマーアーキテクチャとNormalizing Flowモデルを組み合わせ、複数のベンチマークで最先端の結果を達成している。しかし、因果的な形式のアテンションが逐次計算を必要とするため、TarFlowのサンプリングプロセスは極めて遅い。本論文では、一連の最適化戦略を通じて、Gauss-Seidel-Jacobi(略してGS-Jacobi)反復法を用いることで、TarFlowサンプリングを大幅に加速できることを示す。具体的には、TarFlowモデル内のブロックが異なる重要性を持つことを発見した:少数のブロックが画像生成タスクにおいて主要な役割を果たす一方、他のブロックは比較的寄与が少ない;また、一部のブロックは初期値に敏感で数値オーバーフローを起こしやすいが、他のブロックは比較的頑健である。これら2つの特性に基づき、Convergence Ranking Metric(CRM)とInitial Guessing Metric(IGM)を提案する:CRMはTarFlowブロックが「単純」(少ない反復で収束する)か「困難」(より多くの反復を必要とする)かを識別するために使用され、IGMは反復の初期値が良好かどうかを評価するために使用される。4つのTarFlowモデルでの実験により、GS-Jacobiサンプリングが生成画像の品質(FIDで測定)を維持しながらサンプリング効率を大幅に向上させることが示され、Img128condで4.53倍、AFHQで5.32倍、Img64uncondで2.96倍、Img64condで2.51倍の高速化を達成し、FIDスコアやサンプル品質の低下を招くことなく実現した。コードとチェックポイントはhttps://github.com/encoreus/GS-Jacobi_for_TarFlowでアクセス可能である。
Tiny QA Benchmark++ (TQB++)は、大規模言語モデル(LLM)パイプラインに、わずか数秒で実行可能な最小限のコストでユニットテストスタイルの安全網データセットを提供する、超軽量で多言語対応のスモークテストスイートです。Comet Opikプロンプト最適化SDKの開発における迅速なフィードバックループの必要性から生まれ、重厚なベンチマークを待つことが開発者の作業フローを妨げる問題を解決します。TQB++は、52項目の英語ゴールドセット(20 kB未満)と、プロバイダーに依存しないLiteLLM上に構築された小さな合成データジェネレータのPyPIパッケージを組み合わせています。このジェネレータにより、実践者は任意の言語、ドメイン、難易度で独自の小さなパックを作成でき、既にアラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語、トルコ語に対応した10の既成パックが用意されています。各データセットには、CroissantメタデータとOpenAI-Evals、LangChain、標準CIツール用のプラグアンドプレイファイルが同梱されており、チームはGPU予算に触れることなく、プルリクエストゲート、プロンプトエンジニアリングループ、およびプロダクションダッシュボードに決定論的マイクロベンチマークを直接組み込むことができます。TQB++の完全な実行はパイプラインのレイテンシに数秒しか追加しませんが、MMLUやBIG-Benchのような大規模スイートが設定を完了する前に、プロンプトテンプレートのエラー、トークナイザーのドリフト、およびファインチューニングの副作用を確実に検出します。このフレームワーク全体が公開され、生成AIエコシステム全体で継続的かつリソース効率の高い品質保証を加速することを目的としています。
医師と患者の双方が、臨床症例の診断に大規模言語モデル(LLMs)を利用する機会が増えています。しかし、数学やコーディングなどの分野とは異なり、医療診断では最終的な答えだけでなく、その推論プロセスも正確であることが求められます。現在、MedQAやMMLUなどの広く使用されている医療ベンチマークは、最終的な答えの正確性のみを評価しており、臨床推論プロセスの質や忠実性を見落としています。この制約を解決するため、我々はMedCaseReasoningを導入しました。これは、LLMsが臨床医が作成した診断推論と整合する能力を評価するための初めてのオープンアクセスデータセットです。このデータセットには14,489の診断質問と回答ケースが含まれており、それぞれがオープンアクセスの医療症例報告から導出された詳細な推論ステートメントとペアになっています。我々は、MedCaseReasoningを用いて最先端の推論LLMsを評価し、その診断と推論に重大な欠陥があることを発見しました。例えば、トップパフォーマンスのオープンソースモデルであるDeepSeek-R1は、10ショット診断精度でわずか48%を達成し、臨床医の推論ステートメントの64%しか言及しませんでした(リコール)。しかし、MedCaseReasoningから導出された推論トレースを用いてLLMsをファインチューニングすることで、診断精度と臨床推論リコールがそれぞれ平均29%と41%の相対的な向上を示すことを実証しました。オープンソースのデータセット、コード、およびモデルはhttps://github.com/kevinwu23/Stanford-MedCaseReasoningで利用可能です。
ビデオ生成における大きな進展にもかかわらず、物理的に妥当な人間の動作を合成することは依然として持続的な課題であり、特に細粒度のセマンティクスと複雑な時間的ダイナミクスのモデリングにおいて顕著です。例えば、「0.5回転のスイッチリープ」のような体操のルーティンを生成することは、現在の手法にとって大きな困難を伴い、しばしば不満足な結果をもたらします。このギャップを埋めるために、我々はFinePhysを提案します。これは、効果的な骨格ガイダンスを得るために物理学を組み込んだ細粒度の人間動作生成フレームワークです。具体的には、FinePhysはまずオンライン方式で2Dポーズを推定し、その後、コンテキスト内学習を通じて2Dから3Dへの次元リフティングを行います。純粋にデータ駆動型の3Dポーズの不安定性と解釈可能性の限界を緩和するために、我々はさらにオイラー・ラグランジュ方程式に基づく物理ベースのモーション再推定モジュールを導入し、双方向の時間的更新を通じて関節加速度を計算します。物理的に予測された3Dポーズは、データ駆動型のポーズと融合され、拡散プロセスに対するマルチスケールの2Dヒートマップガイダンスを提供します。FineGymの3つの細粒度動作サブセット(FX-JUMP、FX-TURN、FX-SALTO)で評価された結果、FinePhysは競合するベースラインを大幅に上回りました。包括的な定性的結果は、FinePhysがより自然で妥当な細粒度の人間動作を生成する能力をさらに実証しています。
テストタイムスケーリング(TTS)は、モデルのパラメータを変更することなく、推論時に追加の計算を割り当てることで推論性能を向上させるアプローチを指す。既存のTTS手法は、より多くの中間ステップを生成することで離散的なトークン空間で動作するが、最近のCoconutおよびSoftCoTの研究では、連続的な潜在空間で思考を行うことで推論性能をさらに向上させることが示されている。このような潜在的な思考は、自己回帰的なトークン生成に伴う情報損失なしに有益な思考を符号化し、連続空間での推論に対する関心を高めている。離散的なデコードでは、繰り返しサンプリングを行うことで多様な推論経路を探索できるが、連続空間における潜在表現は与えられた入力に対して固定されるため、すべてのデコード経路が同じ潜在思考から始まるという制約があり、多様な探索が制限される。この制限を克服するため、我々はSoftCoT++を導入し、SoftCoTをテストタイムスケーリングのパラダイムに拡張することで、思考経路の多様な探索を可能にする。具体的には、複数の専門化された初期トークンを通じて潜在思考を摂動させ、ソフト思考表現間の多様性を促進するためにコントラスティブ学習を適用する。5つの推論ベンチマークと2つの異なるLLMアーキテクチャにわたる実験により、SoftCoT++がSoftCoTを大幅に向上させ、自己整合性スケーリングを伴うSoftCoTをも凌駕することが示された。さらに、自己整合性などの従来のスケーリング技術との強い互換性も示されている。ソースコードはhttps://github.com/xuyige/SoftCoTで公開されている。
ビデオ拡散モデル(DMs)は高品質なビデオ合成を可能にしています。しかし、その膨大な計算量とメモリ要求は、ハイエンドGPU上での実世界での展開において深刻な課題を引き起こしています。一般的に採用されている解決策として、量子化は画像DMsのコスト削減において顕著な成功を収めていますが、ビデオDMsへの直接的な適用は効果的ではありません。本論文では、極低ビット量子化(例:4ビット以下)下での高性能かつ推論効率の高いビデオDMsに特化した新しい量子化対応トレーニング(QAT)フレームワークであるQVGenを提案します。まず、QATの収束を促進するために勾配ノルムを低減することが重要であることを理論的に分析します。この目的のために、補助モジュール(Phi)を導入して大きな量子化誤差を軽減し、収束を大幅に向上させます。Phiの推論オーバーヘッドを排除するために、ランク減衰戦略を提案します。具体的には、特異値分解(SVD)と提案されたランクベースの正則化ガンマを繰り返し適用して、寄与の低い成分を特定し、減衰させます。この戦略により、性能を維持しながら推論オーバーヘッドをゼロにします。1.3Bから14Bまでのパラメータサイズを持つ4つの最先端(SOTA)ビデオDMsにわたる広範な実験により、QVGenが4ビット設定下でフル精度に匹敵する品質を初めて達成することが示されました。さらに、既存の手法を大幅に上回ります。例えば、3ビットのCogVideoX-2Bは、VBenchにおいてDynamic Degreeで+25.28、Scene Consistencyで+8.43の改善を達成しました。
近年、OpenAI-o1やDeepSeek-R1のような大規模推論モデル(LRM)の登場により、数学やコーディングなどの複雑な問題において驚異的な能力が示されています。いくつかの先駆的な研究では、LRMの成功をニューラル機械翻訳(MT)に応用しようと試みています。彼らは強化学習(RL)を用いて、深い推論能力を持つMTモデルを構築しようとしています。いくつかの進展は見られるものの、これらの試みは一般的に英語や中国語などの高リソース言語に焦点を当てており、他の言語での性能は不明瞭です。さらに、従来の研究における報酬モデリング手法は、MTにおける強化学習の潜在能力を十分に引き出していません。本研究ではまず、ポリシーMTモデルの翻訳結果を強力なLRM(DeepSeek-R1-671B)と比較し、その比較を定量化して報酬を提供する新しい報酬モデリング手法を設計します。実験結果は、この報酬モデリング手法の優位性を示しています。Qwen2.5-7B-Instructを基盤として、訓練されたモデルは文学翻訳において新たな最先端の性能を達成し、OpenAI-o1やDeepSeek-R1を含む強力なLRMを上回りました。さらに、我々の手法を11言語の多言語設定に拡張します。RLにおける軽量な報酬モデリングを慎重に設計することで、単一方向からの強力なMT能力を複数(90)の翻訳方向に簡単に転送し、印象的な多言語MT性能を達成することができます。
デジタル病理学(DP)における最近の進展、特に人工知能とFoundation Modelsを通じた進展は、大規模で多様性に富み、詳細な注釈が付けられたデータセットの重要性を浮き彫りにしています。その重要な役割にもかかわらず、公開されているWhole Slide Image(WSI)データセットは、しばしば十分な規模、組織の多様性、包括的な臨床メタデータを欠いており、AIモデルの堅牢性と汎用性を制限しています。これに対応して、我々はHISTAIデータセットを紹介します。これは、様々な組織タイプからなる60,000枚以上のスライドを含む、大規模でマルチモーダルなオープンアクセスのWSIコレクションです。HISTAIデータセットの各症例には、診断、人口統計情報、詳細な病理学的注釈、標準化された診断コードを含む広範な臨床メタデータが付属しています。このデータセットは、既存のリソースで特定されたギャップを埋めることを目指し、イノベーション、再現性、臨床的に関連性の高い計算病理学ソリューションの開発を促進します。データセットはhttps://github.com/HistAI/HISTAIでアクセス可能です。
選好データセットは、人間のフィードバックからの強化学習(RLHF)を用いて汎用ドメインの指示追従型言語モデルを訓練するために不可欠です。各データリリースは、将来のデータ収集に対する期待を高めるため、公開されている選好データの品質と多様性を常に向上させる必要があります。このニーズに対応するため、私たちはHelpSteer3-Preferenceを紹介します。これは、CC-BY-4.0ライセンスの下で利用可能な高品質な人間による注釈付き選好データセットで、40,000以上のサンプルを含んでいます。これらのサンプルは、STEM、コーディング、多言語シナリオなど、大規模言語モデル(LLM)の多様な実世界のアプリケーションにわたっています。HelpSteer3-Preferenceを使用して、私たちはRM-Bench(82.4%)とJudgeBench(73.7%)で最高のパフォーマンスを達成する報酬モデル(RM)を訓練しました。これは、既存のRMから報告された最高の結果に対して大幅な改善(約10%の絶対値)を表しています。私たちは、HelpSteer3-Preferenceが生成型RMの訓練にも適用可能であり、私たちのRMを使用してポリシーモデルをRLHFで整合させる方法も示します。データセット(CC-BY-4.0):https://huggingface.co/datasets/nvidia/HelpSteer3#preference
人間とコンピュータのインタラクションは、私たちの好みや習慣から日常行動のタイミングや目的までを理解するテクノロジーを長らく構想してきた。しかし、現在のユーザーモデルは断片的で、特定のアプリに特化しており、これらのビジョンを実現するために必要な柔軟な推論能力を備えていない。本論文では、コンピュータとのあらゆるインタラクションを観察することでユーザーについて学習する汎用ユーザーモデル(GUM)のアーキテクチャを提案する。GUMは、ユーザーの非構造化された観測データ(例えば、デバイスのスクリーンショット)を入力として受け取り、そのユーザーの知識や好みを捉えた信頼度付きの命題を構築する。GUMは、友人とのメッセージからユーザーが参加する結婚式の準備をしていると推論したり、複数の編集の停滞と関連文献の閲覧への切り替えを観察することで、ユーザーが共同作業者のフィードバックに苦戦していることを認識したりすることができる。GUMは、マルチモーダルな観測からユーザーに関する新しい命題を推論し、関連する命題を文脈として取得し、既存の命題を継続的に修正するアーキテクチャを導入する。GUMが可能にする応用の幅広さを示すために、チャットベースのアシスタントに文脈を追加する方法、OS通知を管理して重要な情報を選択的に表示する方法、アプリ間でユーザーの好みに適応するインタラクティブエージェントを可能にする方法を実証する。また、GUMを使用してユーザーに代わって有用な提案を発見し実行するプロアクティブアシスタント(GUMBO)を具体化する。評価において、GUMはユーザーについて較正された正確な推論を行い、GUMを基に構築されたアシスタントは、ユーザーが明示的にリクエストしないアクションをプロアクティブに特定し実行することがわかった。全体として、GUMは非構造化された文脈を理解するためにマルチモーダルモデルを活用する方法を導入し、HCIの長年のビジョンとユーザーのニーズを予測する全く新しいインタラクティブシステムを可能にする。
同綴異義語の曖昧性解消は、特に低リソース言語において、書記素から音素への変換(G2P)における重要な課題です。この課題は二つの側面があります:(1) バランスの取れた包括的な同綴異義語データセットの作成は労力とコストがかかり、(2) 特定の曖昧性解消戦略は追加の遅延を引き起こすため、スクリーンリーダーやその他のアクセシビリティツールのようなリアルタイムアプリケーションには適していません。本論文では、これらの両方の問題に対処します。まず、同綴異義語に焦点を当てたデータセットを構築するための半自動化パイプラインを提案し、このパイプラインを通じて生成されたHomoRichデータセットを紹介し、それをペルシャ語の最先端の深層学習ベースのG2Pシステムを強化するために適用することでその有効性を実証します。次に、オフラインの豊富なデータセットを活用して、スクリーンリーダーのような遅延に敏感なアクセシビリティアプリケーションに適した高速なルールベースの手法の開発に役立てるというパラダイムシフトを提唱します。この目的のために、最もよく知られているルールベースのG2Pシステムの一つであるeSpeakを改良し、高速な同綴異義語対応バージョンであるHomoFast eSpeakを作成しました。私たちの結果は、深層学習ベースのシステムとeSpeakシステムの両方において、同綴異義語の曖昧性解消精度が約30%向上することを示しています。
初期の洞窟住人は、身振り手振り、発声、そして単純な信号に頼って、調整や計画を立て、捕食者を避け、資源を共有していました。今日、人間は複雑な言語を用いて協力し、驚くべき成果を達成しています。このコミュニケーションの進化を駆動するものは何でしょうか?言語はどのように出現し、適応し、チームワークにとって不可欠なものとなるのでしょうか?言語の起源を理解することは依然として課題です。言語学と人類学における主要な仮説は、言語が初期の人間の協力における生態的および社会的な要求を満たすために進化したと主張しています。言語は孤立して生まれたのではなく、共有された生存目標を通じて発展したのです。この見方に触発され、我々はマルチエージェントの採集ゲームにおける言語の出現を調査します。これらの環境は、コミュニケーションの進化に影響を与えたと考えられる認知的および生態的な制約を反映するように設計されています。エージェントは、他のエージェントや環境についての部分的な知識しか持たない共有グリッドワールドで動作し、高価値のターゲットを拾うや時間的に順序付けられたアクションを実行するなどのゲームを完了するために調整する必要があります。エンドツーエンドの深層強化学習を使用して、エージェントはアクションとコミュニケーション戦略をゼロから学習します。我々は、エージェントが自然言語の特徴である恣意性、交換可能性、転位性、文化的伝播、および構成性を持つコミュニケーションプロトコルを開発することを発見しました。我々は各特性を定量化し、人口規模や時間的依存性などの異なる要因が、出現する言語の特定の側面をどのように形成するかを分析します。我々のフレームワークは、部分的な観察可能性、時間的推論、および具現化されたマルチエージェント設定における協力的な目標から言語がどのように進化するかを研究するためのプラットフォームとして機能します。我々はすべてのデータ、コード、およびモデルを公開します。
高性能な小型言語モデル(SLM)の訓練は、大規模な教師モデルからの知識蒸留や枝刈りを行っても依然としてコストがかかる。既存の研究では、主に以下の3つの課題に直面している:(1) ハードプルーニングによる情報損失、(2) 表現の非効率なアライメント、(3) 特にフィードフォワードネットワーク(FFN)からの有益な活性化の未活用。これらの課題に対処するため、我々はLow-Rank Clone(LRC)を提案する。これは、強力な教師モデルとの動作等価性を目指してSLMを構築する効率的な事前訓練手法である。LRCは、教師モデルの重みを圧縮することでソフトプルーニングを可能にし、学生モデルの活性化(FFN信号を含む)を教師モデルのそれとアライメントさせることで活性化クローンを実現する一連の低ランク射影行列を訓練する。この統一された設計により、明示的なアライメントモジュールを必要とせずに知識伝達を最大化する。オープンソースの教師モデル(例:Llama-3.2-3B-Instruct、Qwen2.5-3B/7B-Instruct)を用いた広範な実験により、LRCは数兆トークンで訓練された最先端モデルに匹敵またはそれを上回る性能を達成しつつ、わずか200億トークンを使用して1,000倍以上の訓練効率を実現することが示された。我々のコードとモデルチェックポイントは、https://github.com/CURRENTF/LowRankClone および https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf で公開されている。
セキュリティテキストにおける攻撃手法を正確に識別することは、効果的なサイバー防御において極めて重要です。しかし、既存の手法は根本的なトレードオフに直面しています。つまり、ドメイン精度が限定的な汎用モデルに依存するか、あるいは大規模なラベル付きデータセットやカスタムのハードネガティブマイニング、ノイズ除去などのタスク固有の最適化を必要とするリソース集約的なパイプラインに依存するかのいずれかであり、専門ドメインではこうしたリソースがほとんど利用できない状況です。 本論文では、このギャップを埋めるために、ドメイン固有の検索拡張生成(RAG)フレームワークであるTechniqueRAGを提案します。このアプローチでは、既存の検索エンジン、指示チューニングされた大規模言語モデル(LLM)、および最小限のテキスト-手法ペアを統合します。提案手法は、ドメイン内の限られた例に基づいて生成コンポーネントのみをファインチューニングすることでデータ不足に対処し、リソース集約的な検索トレーニングの必要性を回避します。従来のRAGは、検索と生成を組み合わせることで幻覚(hallucination)を軽減しますが、汎用検索エンジンに依存するため、ノイズの多い候補が導入され、ドメイン固有の精度が制限されることがあります。これを解決するため、ゼロショットLLMによる再ランキングを導入し、検索された候補を攻撃手法と明示的に整合させることで、検索品質とドメイン特異性を向上させます。 複数のセキュリティベンチマークでの実験により、TechniqueRAGは、大規模なタスク固有の最適化やラベル付きデータを必要とせずに、最先端の性能を達成することが実証されました。さらに、包括的な分析を通じて、さらなる洞察が得られています。
イメージシグナルプロセッサ(ISP)は、現代のスマートフォンカメラにおいて、RAWセンサー画像データをRGB画像に変換する基本的なコンポーネントであり、知覚品質に重点を置いています。最近の研究では、ディープラーニングアプローチの可能性と、プロフェッショナルカメラに近い品質で詳細を捉える能力が注目されています。学習型ISPを開発する際の困難でコストのかかるステップは、スマートフォンカメラセンサーで撮影されたRAWデータを高品質な参照画像にマッピングするピクセル単位で整列したペアデータの取得です。本研究では、この課題に対処するため、RAW画像と対応する内容のグラウンドトゥルースデータ間の直接的な対応関係を必要としない、学習可能なISPの新しいトレーニング方法を提案します。私たちの非ペアアプローチは、事前学習済みネットワークからの特徴マップを処理する複数のディスクリミネータを用いた敵対的トレーニングに導かれた多項損失関数を採用し、ターゲットRGBデータセットから色とテクスチャ特性を学習しながらコンテンツ構造を維持します。モバイルデバイスに適した軽量なニューラルネットワークアーキテクチャをバックボーンとして使用し、Zurich RAW to RGBおよびFujifilm UltraISPデータセットで私たちの方法を評価しました。ペアトレーニング方法と比較して、私たちの非ペア学習戦略は強い可能性を示し、複数の評価指標で高い忠実度を達成しました。コードと事前学習済みモデルはhttps://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Dataで利用可能です。
複雑な科学技術文書、特に多モーダルな解釈を必要とするもの(例えば画像中の数式)における微妙な技術的誤りを特定することは、大規模言語モデル(LLM)にとって大きな課題である。LLMの内在的な誤り修正傾向が不正確さを隠してしまうためだ。この探索的な概念実証(PoC)研究では、Persistent Workflow Prompting(PWP)の原則に基づいた構造化されたLLMコンテキスト条件付けを、推論時にこのLLMの挙動を調整する方法論的戦略として調査する。このアプローチは、APIアクセスやモデルの変更を必要とせず、標準的なチャットインターフェースのみを利用して、汎用LLM(具体的にはGemini 2.5 ProとChatGPT Plus o3)の精密な検証タスクにおける信頼性を向上させることを目的としている。この方法論を探るため、既知のテキストおよび画像ベースの誤りを含む単一の複雑なテスト論文内の化学式の検証に焦点を当てた。いくつかのプロンプト戦略を評価した結果、基本的なプロンプトは信頼性に欠けることが判明したが、PWP構造を適応させてLLMの分析的思考を厳密に条件付けるアプローチは、両モデルにおいてテキスト誤りの特定を改善するように見えた。特に、この方法はGemini 2.5 Proを導き、手動レビュー中に見落とされていた微妙な画像ベースの数式誤りを繰り返し特定させたが、ChatGPT Plus o3はこのタスクで失敗した。これらの予備的な発見は、詳細指向の検証を妨げる特定のLLM動作モードを浮き彫りにし、PWPに基づくコンテキスト条件付けが、科学的・技術的文書における緻密な誤り検出を必要とするタスクにおいて、より堅牢なLLM駆動の分析ワークフローを開発するための有望で非常にアクセスしやすい技術を提供することを示唆している。この限定的なPoCを超えた広範な検証が、より広範な適用可能性を確認するために必要である。
本研究では、大規模言語モデル(LLMs)を現実世界のタスク、特にフリーランスソフトウェア開発における自律エージェントとして探求する。本論文では、経済データに基づくフリーランスプログラミングおよびデータ分析タスクにおいてLLMsを評価する新しいベンチマークを提示する。このベンチマークは、Kaggleのフリーランス求人データセットから作成された合成タスクを用いて構築され、すべてのジョブの価格はUSDで標準化されている(固定プロジェクト価格の中央値は約250ドル、平均は306ドル)。各タスクには、構造化された入力出力テストケースと推定価格が付属しており、自動化された正解チェックと金銭的パフォーマンス評価を可能にしている。このアプローチは、OpenAIの最近のSWE-Lancerベンチマーク(1,400件の実Upworkタスク、総額100万ドル)に触発されているが、本フレームワークはプログラム的にテスト可能なタスクと予測価格値を使用して評価を簡素化し、高い拡張性と再現性を実現している。このベンチマークにおいて、4つの最新LLMs(Claude 3.5 Haiku、GPT-4o-mini、Qwen 2.5、Mistral)を評価する。各モデルの精度(タスク成功率とテストケース通過率)と達成した総「フリーランス収益」(解決されたタスクの価格の合計)を報告する。結果は、Claude 3.5 Haikuが最も優れており、約152万ドルを獲得し、GPT-4o-miniが149万ドルでそれに続き、Qwen 2.5(133万ドル)とMistral(70万ドル)が続くことを示している。タスクごとのエラーの分布を分析し、最も強力なモデルが最も多くのタスクを解決し、どのプロジェクトでも完全に失敗することが稀であることを観察する。これらの結果が、AIがフリーランス開発者としての実現可能性、自動化ベンチマークアプローチの利点と限界、構造化されたタスクにおけるパフォーマンスと現実世界のフリーランスジョブの真の複雑さとのギャップに与える影響について議論する。
科学論文の査読は、データの制約や専門家の推論の複雑さから、大規模言語モデル(LLMs)にとって大きな課題となっています。本報告では、このギャップを埋めるために設計された、広く適用可能なプロンプトエンジニアリング手法であるPersistent Workflow Prompting(PWP)を紹介します。この手法は、標準的なLLMチャットインターフェース(コード不要、API不要)を利用して実現されます。我々は、実験化学論文の批判的分析を目的とした概念実証PWPプロンプトを提示し、詳細な分析ワークフローを定義する階層的でモジュール型のアーキテクチャ(Markdownで構造化)を特徴としています。このPWPプロンプトは、メタプロンプティング技術とメタ推論を反復的に適用し、専門家の査読ワークフロー(暗黙知を含む)を体系的にコード化することを目指して開発されました。セッションの開始時に一度提出されるこのPWPプロンプトは、その後のクエリによってトリガーされる永続的なワークフローをLLMに提供し、現代の推論LLMを体系的で多様な評価に導きます。デモンストレーションでは、PWPに導かれたLLMがテストケースにおける主要な方法論的欠陥を特定し、LLMの入力バイアスを軽減しながら、主張と証拠を区別する、テキスト/写真/図の分析を統合してパラメータを推論する、定量的な実現可能性チェックを実行する、推定値を主張と比較する、事前の妥当性を評価するといった複雑なタスクを実行する様子を示しています。透明性を確保し、再現を容易にするために、完全なプロンプト、詳細なデモンストレーション分析、およびインタラクティブチャットのログを補足資料として提供します。特定の応用を超えて、この研究はメタ開発プロセスそのものに対する洞察を提供し、詳細なワークフローの形式化に基づいたPWPが、複雑な科学的タスクに対して手軽に利用可能なLLMを使用した高度な分析を可能にする潜在能力を強調しています。