翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)の驚異的なゼロショット能力は、自然言語処理をタスク特化型モデルから統一された汎用基盤モデルへと推進してきた。この変革は、ウェブ規模のデータで訓練された大規模な生成モデルという単純なプリミティブから生まれた。興味深いことに、同じプリミティブが今日の生成映像モデルにも当てはまる。映像モデルは、LLMsが汎用言語理解を発展させたのと同様に、汎用視覚理解に向かう軌道に乗っているのだろうか?私たちは、Veo 3が明示的に訓練されていない多様なタスクを解決できることを実証した:物体のセグメンテーション、エッジ検出、画像編集、物理的特性の理解、物体のアフォーダンス認識、ツール使用のシミュレーションなど。これらの視覚世界を認識し、モデル化し、操作する能力は、迷路や対称性の解決のような初期の視覚推論を可能にする。Veoの創発的なゼロショット能力は、映像モデルが統一された汎用視覚基盤モデルへと向かう道筋にあることを示唆している。
暗黙的Chain-of-Thought(CoT)手法は、大規模言語モデル(LLM)における明示的CoT推論に対するトークン効率の良い有望な代替手段として注目されていますが、性能のギャップが続いており、暗黙的CoTの応用を制限してきました。我々は、暗黙的CoT手法の計算予算をスケーリングすることで、中核的な潜在的不安定性の問題を特定しました:性能を向上させるために暗黙的推論トークンの数を増やすと、トレーニングプロセスがしばしば不安定になり、崩壊してしまうのです。我々の分析によると、この不安定性は、潜在表現が均質化し、その意味的多様性を失うことから生じています。これは、既存の暗黙的CoT手法におけるステップレベルの監視が不十分であることに起因する失敗です。この問題を解決するために、我々はSIM-CoTを提案します。これは、潜在推論空間を安定化し、豊かにするためにステップレベルの監視を導入するプラグアンドプレイのトレーニングモジュールです。具体的には、SIM-CoTはトレーニング中に補助デコーダを使用して、各暗黙的トークンを対応する明示的推論ステップと整合させ、潜在状態が明確で意味のある情報を捕捉することを保証します。提案された補助デコーダは推論時に削除され、暗黙的CoT手法の計算効率を維持し、追加のオーバーヘッドを発生させません。さらに、補助デコーダは、各潜在トークンを明示的推論語彙に投影することで、暗黙的推論の解釈可能性を提供し、セマンティックロールのステップごとの可視化と診断を可能にします。SIM-CoTは、様々な暗黙的CoT手法のドメイン内精度とドメイン外安定性を大幅に向上させ、GPT-2におけるCoconutのベースラインを+8.2%、LLaMA-3.1 8BにおけるCODIを+3.0%向上させます。強力なスケーラビリティを示し、SIM-CoTはGPT-2において明示的CoTベースラインを2.1%上回り、2.3倍のトークン効率を達成し、LLaMA-3.1 8Bのような大規模モデルにおける性能ギャップを大幅に縮めます。
私たちは、Gemma 3言語モデルファミリーを基にした新しい軽量オープンテキスト埋め込みモデル「EmbeddingGemma」を紹介します。私たちの革新的なトレーニング手法は、エンコーダ-デコーダ初期化と幾何学的埋め込み蒸留を通じて、より大規模なモデルから知識を戦略的に取り込みます。モデルの堅牢性と表現力を向上させるために、スプレッドアウト正則化を採用し、最適化された多様なチェックポイントを統合することで汎化性能を確保しています。多言語、英語、コード領域にわたるMassive Text Embedding Benchmark(MTEB)で評価された結果、EmbeddingGemma(300M)は最先端の結果を達成しました。特に、500M未満のパラメータ数で、従来のトップモデル(プロプライエタリおよびオープン)を上回り、その2倍のサイズのモデルに匹敵する性能を提供し、優れた性能対コスト比を実現しています。注目すべきは、モデルの重みを量子化したり、埋め込み出力を切り詰めたりしても、この優位性が持続することです。これにより、EmbeddingGemmaは、オンデバイスアプリケーションなどの低遅延かつ高スループットのユースケースに特に適しています。主要な設計選択を探るアブレーションスタディも提供しています。EmbeddingGemmaをコミュニティに公開し、さらなる研究を促進します。
基盤モデルの最近の進歩は、統一とスケーリングに向けた明確なトレンドを示しており、多様なドメインにわたって創発的な能力を発揮しています。画像生成と編集は、タスク固有のアプローチから統一されたフレームワークへと急速に移行しましたが、ビデオ生成と編集は、アーキテクチャの制約とデータ不足のために依然として断片化された状態にあります。本研究では、単一モデル内で画像とビデオの生成および編集を行う統一フレームワークであるEditVerseを紹介します。テキスト、画像、ビデオといったすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは自己注意機構を活用し、堅牢な文脈内学習、自然なクロスモーダル知識転移、任意の解像度と時間長の入力と出力の柔軟な処理を実現します。ビデオ編集のトレーニングデータ不足に対処するため、232Kのビデオ編集サンプルをキュレーションし、大規模な画像およびビデオデータセットと組み合わせて共同トレーニングを行うスケーラブルなデータパイプラインを設計しました。さらに、多様なタスクと解像度をカバーする初の指示ベースのビデオ編集ベンチマークであるEditVerseBenchを提示します。広範な実験とユーザスタディにより、EditVerseが最先端の性能を達成し、既存のオープンソースおよび商用モデルを凌駕しつつ、モダリティを超えた創発的な編集および生成能力を示すことが実証されました。
本論文では、Group Relative Policy Optimization (GRPO) に基づく手法を導入し、Speech-Aware Large Language Models (SALLMs) を音声質問応答や自動音声翻訳などのオープンフォーマット音声理解タスクに適用する方法を提案します。SALLMs は音声理解タスクにおいて非常に有効であることが実証されています。GRPO は最近、大規模言語モデル (LLMs) の効率的な学習手法として注目を集めており、これまでの研究では主に多肢選択タスクにおける SALLMs への適用が検討されてきました。本研究では、モデルの生成能力をより反映するオープンフォーマットタスクに焦点を当てます。我々のアプローチでは、GRPO を BLEU を報酬信号として活用し、SALLMs を最適化します。実験的に、この手法が標準的な SFT (Supervised Fine-Tuning) を複数の主要な指標で上回ることを示します。最後に、これらのタスクにおいて GRPO 内でオフポリシーサンプルを組み込む可能性を探り、さらなる改善と研究の方向性を提示します。
最先端の人工知能(AI)技術は、私たちの世界観を変革し続けています。例えば、ChatGPTのような大規模言語モデル(LLMs)を基盤としたアプリケーションは、幅広いトピックにおいて人間のような会話を生成する能力を示しています。多様な言語関連タスク(例:オープンドメイン質問応答、翻訳、文書要約)における印象的なパフォーマンスにより、LLMsが現実世界の幅広い応用(例:カスタマーサービス、教育とアクセシビリティ、科学的発見)にもたらすであろう遠大な影響を想像することができます。その成功に触発され、本論文では最先端のLLMsとそれらが学際的に統合されている様子を概観します。具体的には、(1) 人文・社会科学および法学(例:歴史学、哲学、政治学、芸術と建築、法学)、(2) 経済学とビジネス(例:金融、経済学、会計、マーケティング)、(3) 科学と工学(例:数学、物理学と機械工学、化学と化学工学、生命科学とバイオエンジニアリング、地球科学と土木工学、計算機科学と電気工学)の分野を取り上げます。人間性と技術を統合する観点から、本論文ではLLMsがこれらの分野における研究と実践をどのように形作っているかを探りつつ、生成AI時代における主要な限界、未解決の課題、そして今後の方向性についても議論します。学際的な観点からLLMsがどのように活用されているかをレビューし、重要な観察と洞察を提供することで、LLMsを活用して多様な現実世界の応用を進めたい研究者や実務家にとって有益な指針を提供します。
既存のビデオ生成モデルは、テキストや画像からフォトリアルなビデオを生成する点で優れていますが、物理的な妥当性や3D制御性に欠けることが多いです。これらの制限を克服するため、物理パラメータと力の制御を備えた物理ベースの画像からビデオ生成のための新しいフレームワーク、PhysCtrlを提案します。その中核となるのは、物理パラメータと加えられた力に基づいて条件付けされた拡散モデルを通じて、4つの材料(弾性体、砂、プラスチシン、剛体)にわたる物理ダイナミクスの分布を学習する生成物理ネットワークです。物理ダイナミクスを3D点軌跡として表現し、物理シミュレータによって生成された550Kのアニメーションからなる大規模な合成データセットで学習を行います。拡散モデルを、粒子間の相互作用を模倣する新しい時空間的注意ブロックで強化し、学習中に物理ベースの制約を取り入れることで物理的な妥当性を確保します。実験結果から、PhysCtrlが現実的で物理ベースの運動軌跡を生成し、それらを画像からビデオ生成モデルに適用することで、視覚品質と物理的妥当性の両面で既存の手法を上回る高忠実度で制御可能なビデオを生成することが示されています。プロジェクトページ: https://cwchenwang.github.io/physctrl
我々は、マルチモーダル理解と生成のための統一されたMasked Diffusion Model(MDM)であるLavida-Oを提案する。MMaDaやMudditなどの既存のマルチモーダルMDMが単純な画像レベルの理解タスクや低解像度の画像生成しかサポートしていないのに対し、Lavida-Oは、画像レベルの理解、オブジェクトグラウンディング、画像編集、および高解像度(1024px)のテキストから画像への合成を可能にする単一のフレームワークを提供する。Lavida-Oは、軽量な生成ブランチと大規模な理解ブランチを結合する新規のElastic Mixture-of-Transformers(Elastic-MoT)アーキテクチャを採用しており、トークン圧縮、ユニバーサルテキスト条件付け、および層別サンプリングをサポートすることで、効率的で高品質な生成を実現する。さらに、Lavida-Oは、画像生成および編集タスクにおいて計画と反復的な自己反映を組み込み、その理解能力をシームレスに活用して生成品質を向上させる。Lavida-Oは、RefCOCOオブジェクトグラウンディング、GenEvalテキストから画像への生成、ImgEdit画像編集など、幅広いベンチマークにおいて最先端の性能を達成し、Qwen2.5-VLやFluxKontext-devなどの既存の自己回帰モデルや連続拡散モデルを凌駕しつつ、推論時の大幅な高速化を実現する。これらの進歩により、Lavida-Oはスケーラブルなマルチモーダル推論と生成の新たなパラダイムとして確立される。
タンパク質フォールディングモデルは、これまでドメイン知識をアーキテクチャブロックやトレーニングパイプラインに統合することで画期的な成果を上げてきました。しかし、関連する異なる問題において生成モデルが成功を収めていることを考えると、これらのアーキテクチャ設計が高性能なモデルを構築するための必要条件であるかどうか疑問を抱くのは自然なことです。本論文では、汎用トランスフォーマーブロックのみを使用した初のフローマッチングベースのタンパク質フォールディングモデルであるSimpleFoldを紹介します。通常、タンパク質フォールディングモデルは、三角更新、明示的なペア表現、またはこの特定のドメイン向けに調整された複数のトレーニング目標を含む計算コストの高いモジュールを採用しています。一方、SimpleFoldは適応層を備えた標準的なトランスフォーマーブロックを使用し、追加の構造項を含む生成フローマッチング目標でトレーニングされます。SimpleFoldを30億パラメータにスケールアップし、約900万の蒸留タンパク質構造と実験的PDBデータでトレーニングしました。標準的なフォールディングベンチマークにおいて、SimpleFold-3Bは最先端のベースラインと比較して競争力のある性能を達成し、さらに、決定論的再構成目標でトレーニングされたモデルでは通常難しいアンサンブル予測においても優れた性能を示します。汎用アーキテクチャのため、SimpleFoldは消費者向けハードウェアでの展開と推論において効率的です。SimpleFoldは、タンパク質フォールディングにおける複雑なドメイン固有のアーキテクチャ設計への依存に挑戦し、将来の進歩のための代替設計空間を切り開きます。
オープンソースの大規模言語モデル(LLM)は、数学、コード、一般的な推論などの分野ごとに専門化が進んでおり、複数のモデルの補完的な強みを活用するシステムの必要性が高まっています。これまでのマルチLLMアプローチは、(i) クエリを1つまたは少数の専門家モデルにルーティングして独立して生成する、(ii) 高コストなマルチターン交換を通じて各モデルの出力を集約する、または(iii) 重みを単一のモデルに融合する(通常、アーキテクチャの均一性を必要とする)のいずれかでした。本研究では、異種の専門家モデル間で潜在レベルでの協力を実現するシンプルな手法である「Mixture of Thoughts(MoT)」を提案します。各クエリに対して、軽量なルーターがトップKの専門家モデルを選択し、主要な専門家モデルを指定します。均一に配置されたインタラクションレイヤーは、隠れ状態を共有の潜在空間に投影し、主要な専門家モデルが選択されたピアモデルに対してクロスアテンションを実行します。事前学習済みの専門家モデルは凍結され、ルーターと軽量なインタラクションレイヤーのみが、専門家モデルの選択とモデル間の協力を改善する新しい共同学習目標で訓練されます。5つのインディストリビューション(ID)ベンチマークと3つのアウトオブディストリビューション(OOD)ベンチマークにおいて、MoTは現在のルーティングおよび集約ベースの最先端手法であるAvengersをそれぞれ+0.38%および+2.92%上回りました。さらに、MoTは単一の最良モデルを大幅に上回る性能を発揮します。これは、シングルパス推論、ルーティングベースラインと同等の実行時間、および反復的な集約のオーバーヘッドなしで達成されます。MoTは、異種LLMを組み合わせるためのシンプルな潜在空間メカニズムを提供し、より広範なマルチLLM協力への実践的な一歩となります。コードはhttps://github.com/jacobfa/motで公開されています。
大規模視覚言語モデル(LVLM)の最近の進展により、文書解析タスクにおいて大きな進歩がもたらされました。従来のパイプライン型の手法と比較して、エンドツーエンドのパラダイムは、光学文字認識(OCR)、表認識、数式認識などを統合することで、PDF画像を構造化された出力に変換する優れた性能を示しています。しかし、文書レイアウトや読み順の明示的な解析段階が欠如しているため、LVLMは多段組新聞やポスターなどの複雑な文書タイプを扱う能力に制限があります。この制限に対処するため、本報告書では、強化学習を組み込んだエンドツーエンドのLVLMベースのモデルであるLogics-Parsingを提案します。私たちのモデルは、複雑なレイアウト解析と読み順推論を最適化するために、入念に設計された報酬メカニズムを組み込んでいます。さらに、化学式や手書きの漢字など多様なデータタイプを教師ありファインチューニングに取り入れることで、モデルの汎用性を拡張しています。最後に、提案手法の厳密な評価を可能にするため、9つの主要カテゴリと20以上のサブカテゴリにわたる1,078ページのPDF画像を厳選したLogicsParsingBenchを導入し、後日公開します。LogicsParsingBenchで実施した包括的な実験により、提案モデルの有効性と最先端(SOTA)の性能が、多様な文書解析シナリオで検証されました。プロジェクトページ:https://github.com/alibaba/Logics-Parsing
大規模言語モデル(LLM)は、ソフトウェア開発プロセスにますます統合されつつある。自律型AIエージェントを活用して、最小限の人的介入でコードを生成し、プルリクエストを提出する能力は、標準的な実践となることが期待されている。しかし、これらのプルリクエストの実用的な有用性や、実際のプロジェクトにおいてその貢献がどの程度受け入れられているかについては、ほとんど知られていない。本論文では、エージェント型コーディングツールであるClaude Codeを使用して生成された567件のGitHubプルリクエスト(PR)を、157の多様なオープンソースプロジェクトにわたって実証的に研究する。分析の結果、開発者はリファクタリング、ドキュメント作成、テストなどのタスクにエージェントを活用する傾向があることが明らかになった。これらのエージェント支援PRの83.8%は最終的にプロジェクトメンテナーによって承認・マージされ、そのうち54.9%は修正なしで統合されている。残りの45.1%は、特にバグ修正、ドキュメント、プロジェクト固有の標準への準拠において、人間による修正の恩恵を受ける必要がある。これらの知見は、エージェント支援PRが大部分において受け入れられるものである一方、人間による監視と洗練が依然として有益であることを示唆している。
国際貿易における重要なボトルネックであるHSコード(Harmonized Tariff Schedule)に基づく製品の正確な分類は、機械学習コミュニティからほとんど注目されてこなかった。誤分類は貨物の輸送を完全に停止させる可能性があり、主要な郵便事業者が不完全な税関書類を理由に米国への配達を停止する事例も発生している。本論文では、米国税関のCROSS(Customs Rulings Online Search System)から派生した初のHSコード分類ベンチマークを紹介する。主要な大規模言語モデル(LLM)を評価した結果、当社がファインチューニングしたAtlasモデル(LLaMA-3.3-70B)は、10桁分類で40%、6桁分類で57.5%の完全正解率を達成し、GPT-5-Thinkingを15ポイント、Gemini-2.5-Pro-Thinkingを27.5ポイント上回った。精度に加え、AtlasはGPT-5-Thinkingの約5分の1、Gemini-2.5-Pro-Thinkingの約8分の1のコストで運用可能であり、データプライバシーが重要な貿易・コンプライアンスワークフローにおいて自己ホスティングが可能である。Atlasは強力なベースラインを確立したが、10桁分類の正解率が40%にとどまるなど、このベンチマークは依然として非常に困難な課題である。データセットとモデルを公開することで、HSコード分類を新たなコミュニティベンチマークタスクとして位置づけ、検索、推論、アラインメントに関する今後の研究を促進することを目指している。
本研究では、層状せん断流における二次元非圧縮性ケルビン-ヘルムホルツ不安定性をシミュレーションするためのオープンソースPythonライブラリを提案する。ソルバーは、高速サイン変換によるスペクトルポアソン解法を備えた分数段階射影法を採用し、二次の空間精度を達成している。実装には、効率的な計算のためにNumPy、SciPy、およびNumba JITコンパイルを活用している。レイノルズ数1000~5000およびリチャードソン数0.1~0.3の範囲で、古典的せん断層、二重せん断配置、回転流、強制乱流の4つの標準的なテストケースを検討した。シャノンエントロピーと複雑度指数を用いた統計解析により、二重せん断層はレイノルズ数が低いにもかかわらず、強制乱流よりも2.8倍高い混合率を達成することが明らかになった。ソルバーは標準的なデスクトップハードウェア上で効率的に動作し、384×192グリッドのシミュレーションが約31分で完了する。結果は、混合効率が強度指標だけでなく不安定性生成経路に依存することを示しており、リチャードソン数に基づくパラメータ化に疑問を投げかけ、気候モデルにおけるサブグリッドスケール表現の改良を示唆している。