翻訳付きの日次キュレーションされたAI研究論文
Phi-4-MiniとPhi-4-Multimodalを紹介します。これらはコンパクトでありながら高い能力を備えた言語モデルとマルチモーダルモデルです。Phi-4-Miniは、高品質なウェブデータと合成データでトレーニングされた38億パラメータの言語モデルで、複雑な推論を必要とする数学やコーディングタスクにおいて、類似サイズの最近のオープンソースモデルを大幅に上回り、その2倍のサイズのモデルと同等の性能を発揮します。この成果は、高品質な数学とコーディングデータセットを重視した慎重に選ばれた合成データレシピによってもたらされています。前身のPhi-3.5-Miniと比較して、Phi-4-Miniは多言語アプリケーションをより良くサポートするために20万トークンの拡張された語彙サイズを特徴とし、また、長いシーケンス生成をより効率的にするためのグループクエリアテンションを備えています。Phi-4-Multimodalは、テキスト、視覚、音声/オーディオの入力モダリティを単一のモデルに統合したマルチモーダルモデルです。その新しいモダリティ拡張アプローチは、LoRAアダプターとモダリティ固有のルーターを活用して、さまざまなモダリティを干渉なく組み合わせた複数の推論モードを可能にします。例えば、音声/オーディオモダリティのLoRAコンポーネントがわずか4億6000万パラメータであるにもかかわらず、現在OpenASRリーダーボードで首位を獲得しています。Phi-4-Multimodalは、(視覚+言語)、(視覚+音声)、および(音声/オーディオ)入力を含むシナリオをサポートし、幅広いタスクにおいてより大きな視覚言語モデルや音声言語モデルを上回ります。さらに、Phi-4-Miniの推論能力を向上させるために、追加のトレーニング実験を行いました。この実験バージョンは、コンパクトな38億パラメータのサイズにもかかわらず、DeepSeek-R1-Distill-Qwen-7BやDeepSeek-R1-Distill-Llama-8Bを含む、はるかに大きなモデルと同等またはそれ以上の推論性能を達成しています。
大規模推論モデルにおける強化学習ファインチューニング(Reinforcement Fine-Tuning, RFT)は、OpenAIのo1のようなモデルが自身の回答に対するフィードバックから学習する手法であり、特にファインチューニング用のデータが限られているアプリケーションにおいて有用です。DeepSeek-R1のような最近のオープンソース研究は、検証可能な報酬を用いた強化学習がo1を再現するための重要な方向性の一つであることを示しています。R1スタイルのモデルは言語モデルにおいて成功を収めていますが、マルチモーダル領域への応用はまだ十分に探求されていません。本研究では、視覚タスクにおけるRFTの応用範囲をさらに拡張するVisual Reinforcement Fine-Tuning(Visual-RFT)を提案します。具体的には、Visual-RFTはまず大規模視覚言語モデル(Large Vision-Language Models, LVLMs)を使用して、各入力に対して推論トークンと最終回答を含む複数の応答を生成し、次に提案する視覚知覚検証可能な報酬関数を用いて、Group Relative Policy Optimization(GRPO)のようなポリシー最適化アルゴリズムを通じてモデルを更新します。我々は、物体検出のためのIntersection over Union(IoU)報酬など、異なる知覚タスクに対して異なる検証可能な報酬関数を設計しました。細粒度画像分類、少数ショット物体検出、推論グラウンディング、およびオープン語彙物体検出ベンチマークにおける実験結果は、Visual-RFTが教師ありファインチューニング(Supervised Fine-tuning, SFT)と比較して競争力のある性能と高度な汎化能力を示すことを明らかにしています。例えば、Visual-RFTは約100サンプルを用いたワンショット細粒度画像分類において、ベースラインよりも24.3%の精度向上を達成しました。少数ショット物体検出においても、Visual-RFTはCOCOの2ショット設定で21.9、LVISで15.4の改善を示しました。我々のVisual-RFTは、LVLMsのファインチューニングにおけるパラダイムシフトを表しており、ドメイン固有タスクにおける推論と適応性を強化するデータ効率的で報酬駆動型のアプローチを提供します。
ニューラルラジアンスフィールド(NeRF)と3Dガウシアンスプラッティングは、3D再構成と新視点合成タスクに革命をもたらしました。しかし、極端な新視点からのフォトリアルなレンダリングを実現することは依然として困難であり、表現全体にわたってアーティファクトが残存しています。本研究では、単一ステップの拡散モデルを通じて3D再構成と新視点合成を強化する新しいパイプライン、Difix3D+を提案します。我々のアプローチの中核となるのは、3D表現の制約不足領域によって引き起こされるレンダリングされた新視点のアーティファクトを除去・強化するために訓練された単一ステップ画像拡散モデル、Difixです。Difixはパイプラインにおいて2つの重要な役割を果たします。まず、再構成フェーズにおいて、再構成からレンダリングされた疑似トレーニングビューをクリーンアップし、それを3Dに蒸留し直すために使用されます。これにより、制約不足領域が大幅に強化され、全体的な3D表現の品質が向上します。さらに重要なことに、Difixは推論時においてもニューラルエンハンサーとして機能し、不完全な3D監督と現在の再構成モデルの限られた能力から生じる残存アーティファクトを効果的に除去します。Difix3D+は一般的なソリューションであり、NeRFと3DGSの両方の表現と互換性のある単一モデルであり、3D一貫性を維持しながら、FIDスコアでベースラインに対して平均2倍の改善を達成します。
テスト時推論は、熟練した人間の専門家のように、言語モデルが複雑な課題についてより長く慎重に「考える」ことを可能にする強力なパラダイムとして登場しました。強化学習(RL)は検証可能なタスクにおいて言語モデルの自己改善を促進できますが、一部のモデルは大幅な向上を示す一方で、他のモデルはすぐに頭打ちになります。例えば、Countdownゲームにおいて、Qwen-2.5-3BはLlama-3.2-3Bを同じRLトレーニング下で大きく上回ることがわかりました。この差異は重要な疑問を提起します:効果的な自己改善を可能にする本質的な特性とは何か?私たちは、熟練した人間の問題解決者と成功した言語モデルの両方が採用する4つの主要な認知行動――検証、バックトラッキング、サブゴール設定、後方連鎖――を分析することでこの疑問を探るフレームワークを導入します。私たちの研究は、Qwenが自然にこれらの推論行動を示すのに対し、Llamaは当初それらを欠いていることを明らかにしました。制御された行動データセットを用いた体系的な実験では、これらの推論行動を含む例でLlamaを事前に準備することで、RL中に大幅な改善が可能になり、Qwenの性能に匹敵またはそれを上回ることがわかりました。重要なことに、答えの正しさではなく、推論行動の存在が決定的な要因であることが証明されました――適切な推論パターンを含む誤った解で事前準備されたモデルは、正しい解で訓練されたモデルと同等の性能を達成します。最後に、OpenWebMathデータを用いた継続的な事前学習を活用し、推論行動を増幅するようにフィルタリングすることで、LlamaモデルはQwenの自己改善の軌跡に匹敵するようになりました。私たちの発見は、初期の推論行動と改善能力の間に基本的な関係を確立し、なぜ一部の言語モデルが追加の計算を効果的に活用する一方で、他のモデルが頭打ちになるのかを説明します。
大規模言語モデル(LLM)を用いた超長シーケンスの生成は、ますます重要になっているが、特に100Kトークンに及ぶシーケンスにおいては、依然として非常に時間のかかるタスクである。従来の推測的デコード手法は存在するものの、単にその生成限界を拡張してもプロセスを加速することはできず、むしろ逆効果となる可能性がある。詳細な分析を通じて、効率的な生成を妨げる3つの主要な課題を特定した:頻繁なモデルの再読み込み、動的なキー・バリュー(KV)管理、そして繰り返し生成である。これらの問題に対処するため、TOKENSWIFTという新しいフレームワークを導入し、ターゲットモデルの本来の品質を維持しながら、超長シーケンスの生成プロセスを大幅に加速することを目指した。実験結果は、TOKENSWIFTが様々なスケール(1.5B、7B、8B、14B)とアーキテクチャ(MHA、GQA)のモデルにおいて、3倍以上の高速化を達成することを示している。この加速により、超長シーケンス生成における時間の大幅な節約が実現され、TOKENSWIFTは前例のない長さにおいてもスケーラブルで効果的なソリューションとして確立された。コードはhttps://github.com/bigai-nlco/TokenSwiftで公開されている。
近年の音楽生成技術は大きな注目を集めているが、既存のアプローチには重大な限界が存在する。現在の生成モデルの一部は、ボーカルトラックまたは伴奏トラックのいずれかのみを合成することができる。ボーカルと伴奏を組み合わせて生成できるモデルもあるが、それらは通常、入念に設計された多段階のカスケードアーキテクチャや複雑なデータパイプラインに依存しており、スケーラビリティを妨げている。さらに、ほとんどのシステムは短い音楽セグメントの生成に限定されており、フルレングスの楽曲を生成することはできない。また、広く使用されている言語モデルベースの手法は、推論速度が遅いという課題を抱えている。これらの課題に対処するため、我々はDiffRhythmを提案する。これは、潜在拡散モデルに基づく初の楽曲生成モデルであり、最大4分45秒のボーカルと伴奏を備えた完全な楽曲をわずか10秒で合成することができ、高い音楽性と明瞭さを維持している。その驚異的な能力にもかかわらず、DiffRhythmはシンプルでエレガントに設計されている。複雑なデータ準備を不要とし、直感的なモデル構造を採用し、推論時には歌詞とスタイルプロンプトのみを必要とする。さらに、非自己回帰構造により高速な推論速度を実現している。このシンプルさが、DiffRhythmのスケーラビリティを保証している。加えて、再現性とさらなる研究を促進するため、大規模データに基づく事前学習済みモデルと完全なトレーニングコードを公開する。
近年、生成型検索ベースの推薦システムが有望なパラダイムとして登場しています。しかし、現代の推薦システムの多くは、検索段階でのセレクターとしてのみ生成モデルを機能させる「検索とランク付け」戦略を採用しています。本論文では、カスケード型学習フレームワークを統一生成モデルに置き換えるOneRecを提案します。私たちの知る限り、これは現実世界のシナリオにおいて、現在の複雑で精巧に設計された推薦システムを大幅に上回る初めてのエンドツーエンド生成モデルです。具体的には、OneRecは以下の要素を含みます:1)エンコーダ-デコーダ構造。ユーザーの過去の行動シーケンスをエンコードし、ユーザーが興味を持つ可能性のある動画を徐々にデコードします。計算量のFLOPsを比例的に増加させることなくモデル容量を拡張するため、スパースなMixture-of-Experts(MoE)を採用しています。2)セッションワイズ生成アプローチ。従来の次アイテム予測とは対照的に、手動で作成したルールに依存して生成結果を適切に組み合わせるポイントバイポイント生成よりも、より洗練され文脈的に一貫性のあるセッションワイズ生成を提案します。3)Direct Preference Optimization(DPO)と組み合わせた反復的選好整合モジュール。生成結果の品質を向上させるため、NLPにおけるDPOとは異なり、推薦システムは通常、各ユーザーの閲覧リクエストに対して結果を表示する機会が一度しかないため、正例と負例を同時に取得することができません。この制限に対処するため、ユーザー生成をシミュレートし、サンプリング戦略をカスタマイズする報酬モデルを設計しました。大規模な実験により、限られた数のDPOサンプルでもユーザーの興味選好を整合させ、生成結果の品質を大幅に向上させることが実証されました。OneRecを快手のメインシーンに導入し、視聴時間が1.6%増加するという大幅な改善を達成しました。
不確実性の推定は、大規模言語モデル(LLM)を評価する上で極めて重要であり、特に誤った回答が重大な結果を招く高リスク領域においてはその重要性が増す。この問題に取り組む多くのアプローチは、特定の種類の不確実性に焦点を当てる一方で、他の種類を無視している。本研究では、トークン単位のエントロピーとモデル自身による判定(MASJ)という推定方法が、異なる質問トピックに対する多肢選択問題解答タスクにおいてどのように機能するかを調査した。実験では、1.5Bから72Bまでの異なるサイズの3つのLLM(Phi-4、Mistral、Qwen)と14のトピックを検討した。MASJはランダムな誤り予測器と同程度の性能を示す一方で、応答エントロピーは知識依存領域におけるモデルの誤りを予測し、質問の難易度の有効な指標として機能した:生物学ではROC AUCが0.73であった。しかし、この相関は推論依存領域では消失し、数学問題ではROC-AUCが0.55であった。より根本的には、エントロピー測定には一定量の推論が必要であることが判明した。したがって、データ不確実性に関連するエントロピーは不確実性推定フレームワークに統合されるべきであり、MASJは改良が必要である。さらに、既存のMMLU-Proサンプルにはバイアスがあり、異なるサブドメインに必要な推論量をバランスさせることで、LLMの性能をより公平に評価できるようにすべきである。
線形リカレントモデリングを備えたトランスフォーマーは、線形時間での学習と定数メモリでの推論を実現します。その効率性と性能が実証されているにもかかわらず、このような非標準的なアーキテクチャをゼロから事前学習することは依然としてコストが高く、リスクを伴います。大規模言語モデル(LLM)の線形化は、事前学習済みの標準モデルを線形リカレント構造に変換し、より効率的な展開を可能にします。しかし、現在の線形化手法では、通常、追加の特徴マップモジュールを導入する必要があり、これには大規模なファインチューニングが必要であり、最先端の線形リカレントモデルで使用されるゲーティングメカニズムを見落としています。これらの問題に対処するため、本論文ではLiger(Linearizing LLMs to gated recurrent structuresの略)を提案します。Ligerは、事前学習済みのLLMをゲート付き線形リカレントモデルに変換する新しいアプローチであり、追加のパラメータを導入することなく実現します。事前学習済みのキーマトリックス重みを再利用して多様なゲーティングメカニズムを構築し、追加のコンポーネントをゼロから学習する必要なく、さまざまなゲート付きリカレント構造を形成します。Low-Rank Adaptation(LoRA)を用いた軽量なファインチューニングにより、Ligerは線形化されたゲート付きリカレントモデルの性能を元のLLMと同等に回復します。さらに、Liger Attentionという層内ハイブリッドアテンションメカニズムを導入し、線形化プロセス中に0.02%の事前学習トークンでTransformerベースのLLMの93%を回復し、1Bから8Bパラメータのモデルで検証されたように、複数のベンチマークで競争力のある結果を達成します。コードはhttps://github.com/OpenSparseLLMs/Linearizationで公開されています。
Diffusionモデルは2D画像の生成において大きな成功を収めてきました。しかし、3Dコンテンツ生成の品質と汎用性は依然として限定的です。最先端の手法では、大規模な3Dアセットをトレーニングに必要とすることが多く、これらを収集することは困難です。本研究では、Kiss3DGen(Keep It Simple and Straightforward in 3D Generation)を紹介します。これは、よく訓練された2D画像Diffusionモデルを3D生成に転用することで、3Dオブジェクトの生成、編集、および強化を行う効率的なフレームワークです。具体的には、Diffusionモデルを微調整して「3Dバンドル画像」を生成します。これは、複数の視点からの画像とそれに対応する法線マップで構成されるタイル表現です。法線マップは3Dメッシュの再構築に使用され、複数視点画像はテクスチャマッピングを提供し、完全な3Dモデルを生成します。このシンプルな方法は、3D生成問題を2D画像生成タスクに効果的に変換し、事前訓練済みDiffusionモデルの知識を最大限に活用します。さらに、Kiss3DGenモデルが様々なDiffusionモデル技術と互換性があり、3D編集、メッシュおよびテクスチャの強化などの高度な機能を可能にすることを示します。広範な実験を通じて、本手法の有効性を実証し、高品質な3Dモデルを効率的に生成する能力を示します。
テスト時の計算量を増やすことは、大規模言語モデル(LLM)の応答品質を向上させるための直接的なアプローチです。Best-of-Nサンプリングや多数決を用いたSelf-Consistencyはシンプルで効果的ですが、各クエリに対して固定数のサンプル応答を必要とし、その複雑さに関わらず同じ計算量を使用します。これにより、単純な質問に対しては計算リソースが無駄になり、より難しい質問に対しては十分な探索が行われない可能性があります。本研究では、モデルの応答に対する信頼度を利用することで、テスト時のスケーリング効率を改善できると主張します。しかし、LLMは過信しやすく、信頼度の推定が不正確であることが知られています。この課題を解決するため、Self-Consistencyから得られた信頼度をモデル自体に蒸留するSelf-Calibrationを導入します。これにより、テスト時に1回のフォワードパスで信頼度を正確に推定できるようになります。さらに、様々な難易度のクエリに対応するため、信頼度に基づく効率的なテスト時スケーリング手法を設計します。具体的には、Best-of-Nに対するEarly-Stoppingや、校正された信頼度を用いたSelf-Consistencyなどが含まれます。3つのLLMと6つのデータセットを用いた実験により、本手法の有効性が実証されました。特に、Best-of-Nに信頼度ベースのEarly Stoppingを適用した場合、MathQAの精度が81.0から83.6に向上し、16回のサンプル予算内で推論時の信頼度ベースサンプリング戦略の効果が確認されました。
大規模言語モデル(LLM)は多岐にわたるタスクで優れた性能を発揮するが、トークンごとの自己回帰的生成プロセスが推論速度を著しく低下させる。投機的デコードは、出力分布の忠実性を維持しつつ生成遅延を削減する有望なドラフト・検証フレームワークを提供する。しかし、ドラフトモデルは追加の計算オーバーヘッドを導入し、性能のボトルネックとなり、最初のトークンまでの時間(TTFT)を増大させる。これまで、ドラフトモデルのオーバーヘッドを軽減するアプローチは主にヒューリスティックに依存しており、ドラフト言語モデルの品質に匹敵するものはほとんどなかった。これらの課題に対処するため、我々はDuoDecodingを提案する。これは、ドラフトモデルとターゲットモデルをそれぞれCPUとGPUに戦略的に配置し、ドラフト品質を維持しながら並列デコードを可能にする新規アプローチである。本手法は、ハードウェアを考慮した最適なドラフト予算を組み込み、アイドル時間を最小化し、動的なマルチシーケンスドラフトングによりドラフト品質を向上させる。7つのタスクにわたる広範な実験により、DuoDecodingは生成遅延を最大2.61倍高速化し、TTFTを従来の投機的デコードの83%に削減できることを示した。コードはhttps://github.com/KaiLv69/DuoDecodingで公開されている。
大規模なデータセットを分析するには、迅速なクエリ実行が必要ですが、膨大なデータセットに対するSQLクエリの実行は遅くなりがちです。本論文では、ユーザーが入力を完了する前にクエリ実行を開始し、結果をほぼ瞬時に表示できるかどうかを探ります。我々は、大規模言語モデル(LLM)を活用して、データベーススキーマ、ユーザーの過去のクエリ、および未完成のクエリに基づいて、可能性の高いクエリを予測するシステム「SpeQL」を提案します。正確なクエリ予測は不可能であるため、SpeQLは部分的なクエリを2つの方法で推測します:1)クエリ構造を予測し、事前にクエリをコンパイルおよび計画し、2)元のデータベースよりもはるかに小さいが、ユーザーの最終的なクエリに必要なすべての情報を含むと予測される一時的なテーブルを事前に計算します。さらに、SpeQLは推測されたクエリやサブクエリの結果をリアルタイムで継続的に表示し、探索的分析を支援します。ユーティリティ/ユーザー調査では、SpeQLがタスク完了時間を改善し、参加者はその推測的な結果表示がデータのパターンをより迅速に発見するのに役立ったと報告しました。調査では、SpeQLはユーザーのクエリ遅延を最大289倍改善し、オーバーヘッドを1時間あたり4ドルと合理的な範囲に抑えました。
大規模なデータプールから高品質な訓練データを選択することは、命令チューニングを行う言語モデルにおいて重要なステップです。なぜなら、注意深く選別されたデータセットは、より大規模でノイジーなデータセットで訓練されたモデルをしばしば上回るからです。命令チューニングのための自動化されたデータ選択手法は、通常、小規模なプール(10万~20万サンプル)から小規模なデータセット(約1万サンプル)を選択することでテストされます。しかし、実際に展開されている人気のある命令チューニング済みモデルは、数十万から数百万のサンプルを、さらに大規模なデータプールからサブサンプリングして訓練されることが多いです。本研究では、これらの設定においてデータ選択手法がどの程度スケールするかを体系的に調査し、最大580万サンプルのプールから最大250万サンプルを選択し、7つの多様なタスクで評価しました。その結果、最近提案された多くの手法が、この設定においてランダム選択に及ばない(かつより多くの計算リソースを使用する)こと、さらには選択対象となるデータプールが大きくなるにつれて性能が低下することを示しました。しかし、事前訓練済み言語モデルの隠れ状態の重み付き平均プーリングを使用する表現ベースのデータ選択手法(RDS+)のバリエーションが、すべてのテストされた設定において、より複雑な手法を一貫して上回り、かつ計算効率も高いことがわかりました。我々の研究結果は、提案された自動選択手法のスケーリング特性をより詳細に検討すべきであることを強調しています。コード、データ、およびモデルはhttps://github.com/hamishivi/automated-instruction-selectionで公開しています。
ユーザー生成コンテンツ(UGC)コミュニティ、特にマルチモーダルコンテンツを特徴とするものは、視覚的およびテキスト情報を結果(またはアイテム)に統合することでユーザー体験を向上させます。検索と推薦(S&R)サービスを備えた複雑なシステムにおけるユーザー体験の向上という課題は、近年、学界と産業界の双方から大きな注目を集めています。しかし、高品質なデータセットの不足がマルチモーダルS&Rの研究進展を制限してきました。より優れたS&Rサービスの開発に対する需要の高まりに対応するため、本論文では、新しいマルチモーダル情報検索データセット「Qilin」を紹介します。このデータセットは、月間アクティブユーザー数が3億人を超え、平均検索浸透率が70%以上の人気ソーシャルプラットフォーム「Xiaohongshu」から収集されました。既存のデータセットとは異なり、Qilinは、画像テキストノート、ビデオノート、商業ノート、直接回答など、異種の結果を含むユーザーセッションの包括的なコレクションを提供し、多様なタスク設定における高度なマルチモーダルニューラル検索モデルの開発を促進します。ユーザー満足度をより適切にモデル化し、異種のユーザー行動の分析を支援するために、広範なアプリケーションレベルのコンテキスト信号と本物のユーザーフィードバックも収集しています。特に、Qilinには、Deep Query Answering(DQA)モジュールをトリガーする検索リクエストに対するユーザーが好む回答とその参照結果が含まれています。これにより、Retrieval-augmented Generation(RAG)パイプラインのトレーニングと評価だけでなく、そのようなモジュールがユーザーの検索行動にどのように影響するかの探求も可能になります。包括的な分析と実験を通じて、S&Rシステムをさらに改善するための興味深い発見と洞察を提供します。Qilinが、将来的にS&Rサービスを備えたマルチモーダルコンテンツプラットフォームの進展に大きく貢献することを期待しています。
大規模言語モデル(LLM)のための既存の事前学習データ混合手法は、通常、ドメイン単位の方法論に従っており、まずドメインの重みを決定し、その後各ドメイン内で均一なデータサンプリングを行うトップダウンプロセスを採用しています。しかし、これらのアプローチは重要なドメイン間の重複や共通性を無視しており、構築されたトレーニングデータセットのグローバルな多様性を制御することができません。さらに、ドメイン内での均一なサンプリングは、細かい粒度のサンプル固有の特徴を無視し、最適でないデータ分布を引き起こす可能性があります。これらの欠点を解決するために、我々はボトムアップパラダイムに基づく新しいサンプル単位のデータ混合アプローチを提案します。この手法は、各サンプルの品質と多様性を体系的に評価することで、グローバルなクロスドメインサンプリングを行い、最適なドメイン分布を動的に決定します。複数の下流タスクとパープレキシティ評価にわたる包括的な実験により、SampleMixが既存のドメインベースの手法を凌駕することが示されました。一方、SampleMixはベースラインの性能を達成するために1.4倍から2.1倍のトレーニングステップを必要とし、事前学習データを最適化するSampleMixの大きな潜在能力が強調されています。
テキストから動画を生成するモデルは、テキストプロンプトを動的な視覚コンテンツに変換し、映画制作、ゲーム、教育など幅広い応用が可能です。しかし、実際の性能はユーザーの期待に必ずしも応えられていないのが現状です。その主な理由の一つは、ユーザーが作成したいトピックに関連する動画でこれらのモデルが訓練されていないことです。本論文では、現実世界のシナリオにおけるユーザーの焦点に合わせて特別にキュレーションされた初の動画データセット、VideoUFOを提案します。さらに、VideoUFOは以下の特徴を備えています:(1)既存の動画データセットとの重複が最小限(0.29%)であること、(2)YouTubeの公式APIを介してクリエイティブ・コモンズライセンスの下で検索された動画のみを収録していること。これら二つの特徴により、将来の研究者はより自由にトレーニングソースを拡大することが可能になります。VideoUFOは、110万以上の動画クリップで構成され、各クリップには簡潔なキャプションと詳細な説明文が付属しています。具体的には、クラスタリングを通じて、大規模なテキストから動画を生成するプロンプトデータセットであるVidProMから1,291のユーザー焦点トピックを特定し、これらのトピックを使用してYouTubeから動画を検索し、検索された動画をクリップに分割し、各クリップに対して簡潔なキャプションと詳細な説明文を生成します。指定されたトピックでクリップを検証した後、約110万の動画クリップが残ります。実験結果から、(1)現在の16のテキストから動画を生成するモデルは、すべてのユーザー焦点トピックで一貫した性能を発揮しないこと、(2)VideoUFOで訓練されたシンプルなモデルが、最も性能の低いトピックにおいて他のモデルを上回ることが明らかになりました。このデータセットは、CC BY 4.0ライセンスの下でhttps://huggingface.co/datasets/WenhaoWang/VideoUFOで公開されています。
大規模言語モデル(LLMs)は、自然言語とプログラミング構文に対する優れた理解力を統合することで、コード生成のあり方を変革し、開発者の生産性を大幅に向上させてきました。これらの進歩により、LLMsのコーディング能力を定量的に評価するための数多くの取り組みが行われています。しかし、ベンチマーク漏洩、データ散逸、システムアクセスの制限といった課題が依然として存在し、迅速かつ正確な評価を妨げています。これらの制約に対処するため、我々はLLMコード生成に特化したオンライン評価フレームワーク「CodeArena」を提案します。その中核となる革新は、集団評価メカニズムであり、参加モデル全体のパフォーマンスに基づいて個々のモデルのスコアを動的に再調整することで、広範なベンチマーク漏洩によるスコアの偏りを軽減します。さらに、CodeArenaは、提出されたすべてのソリューションとテストケースへのオープンアクセスを保証し、コード評価ワークフローを効率化する自動化対応のAPIを提供します。我々の主な貢献は以下の通りです:(1) 偏りのない評価のための集団評価システム、(2) ソリューションとテストケースの公開リポジトリ、(3) シームレスな統合のための自動化対応API。
既存の自動音声生成手法では、ポッドキャストのような音声プログラムを効果的に生成することが困難です。主な課題は、深みのあるコンテンツ生成と、適切で表現力豊かな音声生成にあります。本論文では、音声プログラムを作成するための包括的なフレームワークであるPodAgentを提案します。PodAgentは、1) ホスト、ゲスト、ライターのマルチエージェント協調システムを設計することで情報豊かなトピックディスカッションコンテンツを生成し、2) 適切な音声と役割のマッチングを行うための音声プールを構築し、3) LLMを活用した音声合成手法を用いて表現力豊かな会話音声を生成します。ポッドキャストのような音声生成に対する標準化された評価基準が存在しないことを踏まえ、モデルの性能を効果的に評価するための包括的な評価ガイドラインを開発しました。実験結果は、PodAgentの有効性を示しており、トピックディスカッションの対話コンテンツにおいて直接GPT-4を生成する手法を大幅に上回り、87.4%の音声マッチング精度を達成し、LLMを活用した合成によりより表現力豊かな音声を生成しました。デモページ: https://podcast-agent.github.io/demo/。ソースコード: https://github.com/yujxx/PodAgent。
本論文は、大規模言語モデル(LLMs)が機械間(M2M)通信のための私的な音調言語を発展させる可能性を探る。人間の双生児に見られる暗号言語(最大50%の双生児に影響)や中国語やベトナム語などの自然な音調言語に着想を得て、我々は音楽的半音階を用いて完全なASCII文字セット(32-126)をエンコードする精密な文字-周波数マッピングシステムを実装した。各文字には固有の周波数が割り当てられ、スペース(220Hz)からチルダ(50,175.42Hz)まで対数的な進行を形成する。これは約7.9オクターブに及び、高い文字は意図的に人間の知覚を超える超音波周波数(>20kHz)にマッピングされている。実装したソフトウェアプロトタイプは、可視化、音声再生、ABC音楽記譜法を通じてこのエンコーディングを実証し、情報密度と伝送速度の分析を可能にする。テスト結果から、音調エンコーディングは人間の知覚境界を部分的に超えつつ、人間の音声を上回る情報伝達速度を達成できることが明らかになった。本研究は、AIシステムが今後5年以内に私的言語を破滅的に発展させる懸念に直接応えるものであり、そのような通信がどのように機能するかの具体的なソフトウェア例と、その出現、検出、ガバナンスに必要な技術的基盤を提供する。
大規模言語モデル(LLM)は、現実世界での有用性を示し、人工的有用知能(AUI)の一例となっています。しかし、適応的かつ頑健に推論する能力——人工汎用知能(AGI)の特徴——はまだ脆弱です。LLMは常識推論、プログラミング、数学において成功しているように見えますが、新しい文脈でのアルゴリズム的理解を一般化するのに苦労しています。私たちの難解なプログラミング言語を用いたアルゴリズムタスクの実験では、LLMの推論が訓練データに過剰適合し、転移性が限られていることが明らかになりました。私たちは、このような限られた転移性の根本的な問題は、LLMにおける推論と知識の結合にあると仮説を立てています。 AUIからAGIへの移行を実現するために、私たちは知識と推論を分離するための3つの主要な方向性を提案します:(1) 広く使われている次のトークン予測の事前学習に代わるものとして、ゼロから強化学習(RL)を用いて推論を事前学習すること、(2) 合成タスクのカリキュラムを使用して、自然言語タスクに転移可能な推論の事前知識を容易に学習すること、(3) トークン間の偽の相関を利用することを減らすために、小さなコンテキストウィンドウを使用してより一般化可能な推論関数を学習すること。このような推論システムを、訓練された検索システムと大規模な外部メモリバンクを知識ストアとして組み合わせることで、新しいシナリオでの推論学習における既存のアーキテクチャのいくつかの限界を克服できると考えています。
大規模言語モデルが自然言語を超えて数学、マルチモーダル理解、エンボディエージェントなどの領域に拡大するにつれ、トークンは純粋に言語的な意味ではなく、計量的な関係を反映するようになっています。本論文では、出力トークン間の事前定義された距離関係を活用して、自己回帰型離散モデルを訓練するための距離認識フレームワークであるDIST2Lossを紹介します。DIST2Lossの核心は、内在的な距離指標から導出された連続的な指数型分布を、モデルのアーキテクチャと互換性のある離散的なカテゴリカル最適化ターゲットに変換することです。このアプローチにより、モデルはトークン生成中に意味のある距離関係を学習し維持できるようになり、既存のアーキテクチャとの互換性も保たれます。実証評価では、視覚的グラウンディング、ロボット操作、生成的報酬モデリング、ベクトル量子化特徴を用いた画像生成など、多様なマルチモーダルアプリケーションにおいて一貫した性能向上が確認されました。これらの改善は、特に訓練データが限られている場合に顕著であり、リソースが制約された環境におけるDIST2Lossの有効性が示されています。
人間の読者は、単語の形を主に頼りにして、スクランブルされた単語を効率的に理解することができます。この現象はTypoglycemiaとして知られており、単語の形だけでは不十分な場合、文脈の手がかりをさらに利用して解釈を行います。高度な大規模言語モデル(LLM)も同様の能力を示しますが、その背後にあるメカニズムはまだ明らかではありません。これを調査するために、我々は制御された実験を行い、意味の再構築における単語の形と文脈情報の役割を分析し、LLMの注意パターンを検証します。具体的には、まずSemRecScoreという信頼性の高い指標を提案し、意味の再構築の程度を定量化し、その有効性を検証します。この指標を用いて、単語の形と文脈情報がLLMの意味再構築能力にどのように影響するかを研究し、このプロセスにおける中核的な要因として単語の形を特定します。さらに、LLMが単語の形をどのように利用するかを分析し、LLMが専門的な注意ヘッドを利用して単語の形情報を抽出・処理し、このメカニズムが単語のスクランブルレベルが変化しても安定していることを明らかにします。LLMの単語の形に主に焦点を当てた固定された注意パターンと、人間の読者が単語の形と文脈情報をバランスよく適応させる戦略との違いは、人間のような文脈を意識したメカニズムを組み込むことでLLMの性能を向上させるための洞察を提供します。
尤度ベースの生成モデル、特に拡散モデルと自己回帰モデルは、視覚生成において驚異的な忠実度を達成してきましたが、最尤推定(MLE)目的関数は本質的にモードカバー傾向を抱えており、限られたモデル容量下での生成品質を制限しています。本研究では、この根本的な制約を回避するために、尤度ベースの生成学習とGAN目的関数を橋渡しする統一フレームワークとして、直接識別最適化(Direct Discriminative Optimization, DDO)を提案します。我々の重要な洞察は、学習可能なターゲットモデルと固定された参照モデル間の尤度比を用いて識別器を暗黙的にパラメータ化することであり、これは直接選好最適化(Direct Preference Optimization, DPO)の哲学と類似しています。GANとは異なり、このパラメータ化により生成器と識別器のネットワークを共同で訓練する必要がなくなり、MLEの限界を超えて十分に訓練されたモデルを直接、効率的かつ効果的に微調整することが可能になります。DDOは自己プレイ方式で反復的に実行でき、各ラウンドで事前訓練エポックの1%未満の計算量で段階的なモデル改善が可能です。我々の実験では、DDOの有効性を実証し、CIFAR-10/ImageNet-64データセットにおいて、従来のSOTA拡散モデルEDMのFIDスコアを1.79/1.58から新記録の1.30/0.97に大幅に改善し、ImageNet 256×256における視覚自己回帰モデルのガイダンスなしおよびCFG強化FIDを一貫して向上させました。
大規模言語モデル(LLM)は、意味論的推論を通じて複雑なタスクの階層的分解において顕著な能力を示します。しかし、エンボディドシステムへの応用においては、サブタスクシーケンスの信頼性ある実行と、長期的なタスク完了におけるワンショット成功を確保する上で課題があります。これらの制約を動的環境において解決するため、我々はClosed-Loop Embodied Agent(CLEA)を提案します。CLEAは、機能分離を伴う4つの専門化されたオープンソースLLMを統合した新たなアーキテクチャであり、閉ループタスク管理を実現します。このフレームワークは、2つの核心的な革新を特徴とします:(1) 環境メモリに基づいて実行可能なサブタスクを動的に生成するインタラクティブタスクプランナー、(2) アクションの実現可能性を確率的に評価するマルチモーダル実行批評家であり、環境擾乱が事前設定された閾値を超えた場合に階層的再計画メカニズムをトリガーします。CLEAの有効性を検証するため、操作可能な物体を備えた実環境において、2つの異種ロボットを用いた物体探索、操作、および探索-操作統合タスクの実験を行いました。12回のタスク試行において、CLEAはベースラインモデルを上回り、成功率で67.3%、タスク完了率で52.8%の向上を達成しました。これらの結果は、CLEAが動的環境におけるタスク計画と実行の堅牢性を大幅に向上させることを示しています。
Web AIエージェントの最近の進展は、複雑なWebナビゲーションタスクに対処する際に顕著な能力を発揮しています。しかし、新たな研究によると、これらのエージェントは、同じ安全性に配慮したモデルを基に構築されているにもかかわらず、スタンドアロンの大規模言語モデル(LLM)と比較して脆弱性が高いことが示されています。この乖離は、Web AIエージェントがスタンドアロンLLMよりも柔軟性が高いことを考えると特に懸念されます。なぜなら、それらはより広範な敵対的なユーザー入力にさらされる可能性があるからです。これらの懸念に対処するための枠組みを構築するため、本研究では、Web AIエージェントの脆弱性が増大する要因を調査します。特に、この差異は、Web AIエージェントとスタンドアロンLLMの間の多面的な違い、および成功率のような単純な評価指標では捉えきれない複雑なシグナル(ニュアンス)に起因しています。これらの課題に取り組むため、我々はコンポーネントレベルの分析と、より細分化された体系的な評価フレームワークを提案します。この詳細な調査を通じて、Web AIエージェントの脆弱性を増幅する3つの重要な要因を特定しました:(1) システムプロンプトへのユーザー目標の埋め込み、(2) 多段階のアクション生成、(3) 観察能力。我々の研究結果は、AIエージェント設計におけるセキュリティと堅牢性の向上が急務であることを強調し、ターゲットを絞った防御戦略に対する実践的な洞察を提供します。
複数視点画像からの部屋レイアウト推定は、マルチビュー幾何学に起因する複雑さから十分に研究されていない。これには、カメラの内部パラメータと外部パラメータの推定、画像マッチング、三角測量といった多段階の解決策が必要とされる。しかし、3D再構築の分野では、DUSt3Rのような最近の3D基盤モデルの進化により、従来の多段階的なStructure-from-Motionプロセスから、エンドツーエンドの単一段階アプローチへとパラダイムがシフトしている。これを受けて、我々は3D基盤モデルDUSt3Rを活用した多視点部屋レイアウト推定の新手法、Plane-DUSt3Rを提案する。Plane-DUSt3Rは、DUSt3Rフレームワークを組み込み、部屋レイアウトデータセット(Structure3D)で微調整を行い、構造平面を推定するために目的関数を修正している。均一で簡潔な結果を生成することにより、Plane-DUSt3Rは単一の後処理ステップと2D検出結果のみで部屋レイアウト推定を可能にする。単一視点やパノラマ画像に依存する従来の手法とは異なり、Plane-DUSt3Rは複数視点画像を扱う設定に拡張している。さらに、プロセスを簡素化し、エラーの蓄積を減らす、ストリームラインドなエンドツーエンドソリューションを提供する。実験結果は、Plane-DUSt3Rが合成データセットにおいて最先端の手法を上回るだけでなく、漫画のような異なる画像スタイルの実世界データにおいても堅牢かつ効果的であることを示している。我々のコードは以下で公開されている:https://github.com/justacar/Plane-DUSt3R
層ごとの量子化は、高コストな再学習を必要とせずに大規模モデルを効率的に圧縮するための重要な技術です。従来の手法では、通常、各層の重みをすべての出力トークンにわたって「均一に」最適化することで層再構成誤差を最小化していました。しかし、本論文では、重要なトークン(例えば、大きなアテンションスコアを持つもの)からの学習を優先することで、より良い量子化モデルが得られることを示します。この知見に基づき、我々はRSQ(Rotate, Scale, then Quantize)を提案します。RSQは、(1) 外れ値(特に大きい値を持つもの)を緩和するためにモデルに回転(直交変換)を適用し、(2) トークンの重要度に基づいて特徴をスケーリングし、(3) スケーリングされたトークンによって計算された二次統計量を用いてGPTQフレームワークでモデルを量子化します。トークンの重要度を計算するために、ヒューリスティックな戦略と動的な戦略の両方を検討し、すべてのアプローチを徹底的に分析した結果、各トークンのアテンションスコアをその重要度として使用するアテンション集中度を最良のアプローチとして採用しました。RSQが、LLaMA3、Mistral、Qwen2.5という3つのモデルファミリーにわたる複数の下流タスクでベースライン手法を一貫して上回ることを実証します。さらに、RSQで量子化されたモデルは、長文コンテキストタスクにおいても優れた性能を発揮し、その有効性をさらに強調しています。最後に、RSQは、異なるモデルサイズ、キャリブレーションデータセット、ビット精度、量子化手法を含むさまざまな設定においても汎用性を示します。