翻訳付きの日次キュレーションされたAI研究論文
本論文では、BlenderFusionを提案する。これは、オブジェクト、カメラ、背景を再構成することで新しいシーンを合成する生成型ビジュアルコンポジットフレームワークである。本手法は、レイヤリング・編集・コンポジットのパイプラインに従う:(i) 視覚的入力をセグメント化し、編集可能な3Dエンティティに変換する(レイヤリング)、(ii) Blender内で3Dに基づいた制御を用いて編集する(編集)、(iii) 生成型コンポジタを用いてそれらを一貫したシーンに融合する(コンポジット)。本手法の生成型コンポジタは、事前学習済みの拡散モデルを拡張し、元の(ソース)シーンと編集された(ターゲット)シーンを並列に処理する。ビデオフレームに対して2つの主要な学習戦略を用いてファインチューニングを行う:(i) ソースマスキングにより、背景置換などの柔軟な変更を可能にする、(ii) シミュレートされたオブジェクトジッタリングにより、オブジェクトとカメラの制御を分離する。BlenderFusionは、複雑な構成シーン編集タスクにおいて、従来手法を大幅に上回る性能を示す。
本論文では、ビデオマルチモーダル大規模言語モデル向けに設計された、トレーニング不要なトークン圧縮戦略「LLaVA-Scissor」を提案する。従来の手法は主にアテンションスコアに基づいてトークンを圧縮しようとするが、全ての意味領域を効果的に捉えることができず、トークンの冗長性を引き起こすことが多い。これに対して我々は、Semantic Connected Components(SCC)アプローチを活用し、トークンセット内の異なる意味領域にトークンを割り当てることで、包括的な意味的カバレッジを確保することを提案する。その結果、空間的および時間的領域の両方でSCCを利用する二段階の時空間トークン圧縮戦略が得られる。この戦略により、ビデオ全体を重複しない意味トークンの集合で表現することで、効果的にトークンを圧縮することが可能となる。我々は、ビデオ質問応答、長尺ビデオ理解、包括的な多肢選択ベンチマークなど、多様なビデオ理解ベンチマークにおいてLLaVA-Scissorのトークン圧縮能力を広範に評価した。実験結果は、提案したLLaVA-Scissorが他のトークン圧縮手法を上回り、特に低いトークン保持率において、様々なビデオ理解ベンチマークで優れた性能を達成することを示している。プロジェクトページ: https://github.com/HumanMLLM/LLaVA-Scissor。
テキストから画像への生成において、特に複数の被写体に対して、被写体の識別情報や意味的属性(ポーズ、スタイル、照明)を細かく制御することは、Diffusion Transformers (DiTs) の編集可能性と一貫性を損なうことが多い。多くの手法ではアーティファクトが生じたり、属性の絡み合いが問題となったりする。これらの課題を克服するため、我々は新しい複数被写体制御生成モデル XVerse を提案する。XVerse は参照画像をトークン固有のテキストストリーム変調のためのオフセットに変換することで、画像の潜在表現や特徴を乱すことなく、特定の被写体に対して正確かつ独立した制御を可能にする。その結果、XVerse は個々の被写体の特性や意味的属性を強力に制御しつつ、高忠実度で編集可能な複数被写体画像合成を実現する。この進歩により、パーソナライズされた複雑なシーン生成能力が大幅に向上する。
映画の基本的な視覚言語であるシネマトグラフィは、物語、感情、美的品質を伝えるために不可欠である。近年のVision-Languageモデル(VLM)は、一般的な視覚理解において高い能力を示しているが、個々のショットに埋め込まれた微妙な映画的文法を理解する能力については、ほとんど検証されておらず、堅牢な評価が欠如している。この重要なギャップは、細かい視覚理解とAI支援による映像生成の精度の両方を制限している。この問題に対処するため、我々は映画言語理解に特化した包括的なベンチマークであるShotBenchを導入する。ShotBenchは、200本以上の高評価を受けた(主にアカデミー賞ノミネート作品の)映画から厳選された3,500以上の専門家による注釈付きQAペアを特徴とし、8つの主要なシネマトグラフィ次元にわたる。ShotBenchにおける24の主要なVLMの評価は、それらの大きな限界を明らかにしている:最高性能のモデルでさえ、平均精度が60%未満であり、特に細かい視覚的キューと複雑な空間推論に苦戦している。この領域の進展を促進するため、我々は約70,000の映画的QAペアからなる大規模なマルチモーダルデータセットShotQAを構築した。ShotQAを活用し、教師ありファインチューニングとGroup Relative Policy Optimizationを通じてShotVLを開発した。ShotVLは、ShotBenchにおいてすべての既存のオープンソースおよびプロプライエタリモデルを大幅に上回り、新たな最先端の性能を確立した。我々は、AI駆動の映画理解と生成のこの重要な領域における急速な進展を促進するため、モデル、データ、およびコードをオープンソースとして公開する。
内部世界モデル(WMs)は、エージェントが世界の状態を理解し、遷移を予測することを可能にし、高度な推論の基盤として機能します。最近の大規模な視覚言語モデル(VLMs)、例えばOpenAIのo3、GPT-4o、Geminiなどは、汎用のWMsとしての潜在能力を示しています。最新の研究では、視覚理解などの特定の能力における限界が評価され示されていますが、VLMsの基本的なWM能力を体系的に評価した研究はまだありません。比較心理学と認知科学に基づいて、我々は視覚、空間、時間、数量、運動の「知覚」と、メカニズムシミュレーション、推移的推論、合成的推論の「予測」を評価する二段階のフレームワークを提案し、VLMsをWMsとして原子レベルで評価します。このフレームワークに基づいて、我々はWM-ABenchを導入します。これは、6つの多様なシミュレーション環境における23の細かい評価次元からなる大規模なベンチマークで、制御された反事実シミュレーションを含みます。15の最新の商用およびオープンソースVLMsを用いた660の実験を通じて、これらのモデルが基本的な世界モデリング能力において顕著な限界を示すことが明らかになりました。例えば、ほぼ全てのモデルが運動軌道を区別する際にランダムに近い精度しか示しません。さらに、それらは分離された理解を欠いており、例えば、一部のモデルは青い物体が緑の物体よりも速く動くと信じる傾向があります。より豊富な結果と分析は、VLMsと人間レベルの世界モデリングとの間に大きなギャップがあることを明らかにしています。
高密度予測タスクは、コンピュータビジョンにおいて重要な位置を占めており、入力画像に対してピクセル単位で注釈付けされたラベルを学習することを目的としています。この分野での進展にもかかわらず、既存の手法は主に理想化された条件に焦点を当てており、現実世界のシナリオへの汎化能力が限られており、現実世界のデータの不足という課題に直面しています。この問題を体系的に研究するため、まず我々はDenseWorldを導入します。これは、緊急を要する現実世界のアプリケーションに対応する25の高密度予測タスクを網羅したベンチマークで、タスク間で統一された評価を特徴としています。次に、我々はDenseDiTを提案します。これは、生成モデルの視覚的プライアを最大限に活用し、統一された戦略を通じて多様な現実世界の高密度予測タスクを実行するものです。DenseDiTは、パラメータ再利用メカニズムと、マルチスケールのコンテキストを適応的に統合する2つの軽量なブランチを組み合わせており、追加パラメータが0.1%未満で動作します。DenseWorldでの評価により、既存の一般的および専門的なベースラインにおいて性能の大幅な低下が明らかになり、それらの現実世界への汎化能力の限界が浮き彫りになりました。対照的に、DenseDiTはベースラインの0.01%未満のトレーニングデータを使用して優れた結果を達成し、現実世界での実用価値を強調しています。我々のデータ、チェックポイント、およびコードはhttps://xcltql666.github.io/DenseDiTProjで利用可能です。
ロボティクスは、DARPAのUrban ChallengeやRobotics Challengeから初のヒューマノイドロボットキックボクシングトーナメントに至るまで、ハードウェアにおいて目覚ましい進歩を遂げてきた。しかし、商業的な自律性は機械学習の進歩に比べて依然として遅れを取っている。その主なボトルネックはソフトウェアにある。現在のロボットスタックは、急勾配の学習曲線、低レベルのC/C++専門知識、断片化されたツール、そして複雑なハードウェア統合を要求しており、現代のAIを推進したPython中心の、よくドキュメント化されたエコシステムとは対照的である。我々は、そのギャップを埋めるために設計されたオープンソースのPythonファーストロボティクスフレームワーク、ARKを紹介する。ARKは、ユーザーがデータを収集し、前処理を行い、最先端の模倣学習アルゴリズム(例:ACT、Diffusion Policy)を使用してポリシーをトレーニングできるGymスタイルの環境インターフェースを提供し、高精度シミュレーションと物理ロボットの間をシームレスに切り替えることができる。軽量なクライアント-サーバーアーキテクチャは、ネットワーク化されたパブリッシャー-サブスクライバー通信を提供し、必要に応じてオプションのC/C++バインディングがリアルタイム性能を保証する。ARKは、制御、SLAM、モーションプランニング、システム同定、可視化のための再利用可能なモジュールを提供し、ネイティブのROS相互運用性を備えている。包括的なドキュメントとケーススタディ(操作からモバイルナビゲーションまで)は、迅速なプロトタイピング、容易なハードウェア交換、そして主流の機械学習ワークフローに匹敵するエンドツーエンドのパイプラインを実証している。ARKは、ロボティクスとAIの実践を共通のPythonの傘の下に統合することで、参入障壁を下げ、自律ロボットの研究と商業展開を加速する。
大規模言語モデルにおけるMixture of Experts(MoE)の台頭は、実行コストを抑えつつ、はるかに大きなモデルパラメータ数と学習能力を実現することを約束します。これは、各入力トークンに対して活性化されるパラメータがごく一部であるためです。しかし、一部のエキスパートが他のエキスパートよりもはるかに頻繁に活性化されることが一般的に観察されており、異なるデバイス上でエキスパートを並列実行する際にシステムの非効率性を引き起こします。そこで、我々はMixture of Grouped Experts(MoGE)を導入します。MoGEは、エキスパート選択時にエキスパートをグループ化し、MoEよりも本質的にエキスパートのワークロードをバランスよく分散します。これにより、各事前定義されたエキスパートグループ内で、トークンが等しい数のエキスパートを活性化するように制約されます。モデル実行が複数のデバイスに分散される場合、このアーキテクチャ設計により、デバイス間の計算負荷が均等化され、特に推論フェーズでのスループットが大幅に向上します。さらに、我々はAscend NPU上でPangu Pro MoEを構築しました。これはMoGEに基づくスパースモデルで、総パラメータ数は720億、各トークンに対して160億のパラメータが活性化されます。Pangu Pro MoEの構成は、Ascend 300I Duoおよび800I A2向けに、広範なシステムシミュレーション研究を通じて最適化されています。我々の実験結果は、MoGEがAscend NPU上でのモデル学習および推論において、より良いエキスパート負荷分散と効率的な実行を実現することを示しています。Pangu Pro MoEの推論性能は、1カードあたり1148トークン/秒を達成し、推測的加速により1カードあたり1528トークン/秒まで向上し、同等の32Bおよび72B Denseモデルを上回ります。さらに、Ascend 300I Duoでのモデル推論において、優れたコストパフォーマンス比を実現しました。我々の研究は、Ascend NPUが大規模な並列化によりPangu Pro MoEを学習し、総パラメータ数100B未満のクラスにおいてリーディングモデルとなることを可能にし、GLM-Z1-32BやQwen3-32Bなどの著名なオープンソースモデルを凌駕することを示しています。
深層生成モデリングの最近の進展により、ビデオ合成における前例のない機会が開かれました。しかし、現実世界のアプリケーションでは、ユーザーはしばしば、正確で一貫した制御を伴い、自身の創造的な編集意図を忠実に実現するツールを求めています。既存の手法で達成された進展にもかかわらず、ユーザーの意図と細粒度で整合させることは未解決かつ困難な問題です。本研究では、Shape-for-Motionという新しいフレームワークを提案します。このフレームワークは、正確で一貫したビデオ編集のための3Dプロキシを組み込んでいます。Shape-for-Motionは、入力ビデオ内のターゲットオブジェクトを時間的に一貫したメッシュ、すなわち3Dプロキシに変換することでこれを実現し、編集をプロキシ上で直接行い、その後ビデオフレームに推論し直すことを可能にします。編集プロセスを簡素化するために、我々は新しいデュアルプロパゲーション戦略を設計しました。これにより、ユーザーは単一フレームの3Dメッシュ上で編集を行い、その編集が自動的に他のフレームの3Dメッシュに伝播されます。異なるフレームの3Dメッシュはさらに2D空間に投影され、編集されたジオメトリとテクスチャレンダリングを生成し、これらは編集結果を生成するための分離型ビデオ拡散モデルへの入力として機能します。我々のフレームワークは、ポーズ編集、回転、スケーリング、平行移動、テクスチャ変更、オブジェクト合成など、ビデオフレーム全体にわたる様々な正確で物理的に一貫した操作をサポートします。我々のアプローチは、高品質で制御可能なビデオ編集ワークフローに向けた重要な一歩を示しています。広範な実験により、我々のアプローチの優位性と有効性が実証されています。プロジェクトページ: https://shapeformotion.github.io/
現在の視覚言語モデル(VLMs)は、特に多段階の論理と精密な空間的整合性が要求される場合において、細粒度の空間推論に苦戦している。本研究では、これらの課題に対処するために設計された視覚言語推論モデル、SpatialReasoner-R1を紹介する。空間推論のための高品質な教師データを構築するために、多様で論理的に一貫した長い連鎖思考(Long Chain-of-Thought, LongCoT)推論軌跡を生成するMulti-Model Monte Carlo Tree Search(M3CTS)手法を設計した。さらに、記述的接地と論理的推論のためのセグメント固有の選好粒度を導入する細粒度Direct Preference Optimization(fDPO)を提案する。これは、視覚的一貫性、空間的接地、論理的整合性に基づいて候補応答を評価する空間報酬メカニズムによって導かれる。実験結果は、fDPOが空間的品質タスクにおいて標準DPOを平均4.1%上回り、空間的定量タスクにおいて9.0%の向上を達成することを示している。fDPOで訓練されたSpatialReasoner-R1は、SPATIALRGPT-Benchにおいて新たなSoTAを達成し、最強のベースラインを平均精度で9.8%上回りながら、一般的な視覚言語タスクにおいても競争力のある性能を維持している。
本研究では、複数画像にわたる視覚的手がかりを結びつけるためのChain-of-Thought(CoT)推論の実現を探求しています。単純な解決策として、Vision-Language Models(VLM)にルールベースの強化学習を適用する方法が考えられます。しかし、このような手法は通常、手動で作成された質問-回答ペアに依存しており、細かい視覚的詳細や画像間の複雑な論理を扱う際に特に困難を伴います。自己教師あり視覚表現学習に着想を得て、私たちは画像が内在的な制約を含んでおり、それが教師信号として機能し得ることに着目しました。この洞察に基づき、同じ画像の2つの拡張ビューと、類似しているが異なる第3の画像からなる画像トリプレットを構築します。訓練中、モデルはこれらの画像を比較する(つまり、同じか異なるかを判断する)ための推論プロセスを生成するよう促されます。その後、ルールベースの強化学習を用いてモデルを最適化します。高い視覚的類似性と拡張の存在により、モデルは微妙な視覚的変化に注意を払い、論理的推論を実行して成功しなければなりません。実験結果から、視覚比較タスクのみで訓練されたにもかかわらず、学習された推論能力が幅広い質問に効果的に一般化することが示されています。人間が注釈を付けた質問-回答ペアに一切依存することなく、私たちの手法は複数画像推論ベンチマークで大幅な改善を達成し、一般的な視覚タスクにおいても強力な性能を示しています。
大規模言語モデル(LLM)の急速な進歩は、科学の進歩を支援する可能性を秘めています。この取り組みに向けた重要な能力は、既存の研究を再現する能力です。AIエージェントが活発な研究領域で結果を再現する能力を評価するために、私たちは「Automated LLM Speedrunning Benchmark」を導入しました。これは、NanoGPTスピードラン(GPT-2モデルを最短時間でトレーニングする競技)における研究コミュニティの貢献を活用しています。19のスピードランタスクのそれぞれは、エージェントに以前の記録のトレーニングスクリプトを提供し、オプションで3つのヒント形式(疑似コードから新しい記録の改善点を説明する論文風の記述まで)のいずれかを組み合わせます。記録は設計上迅速に実行され、スピードランの改善は、高レベルのアルゴリズムの進歩からハードウェアを意識した最適化まで、多様なコードレベルの変更を含みます。これらの特徴により、このベンチマークはLLMトレーニングの改善という最先端の問題に対して、アクセスしやすく現実的なものとなっています。私たちは、最先端のスキャフォールドと組み合わせた最近の推論LLMでさえ、詳細なヒントが与えられた場合でも、ベンチマーク内で既知のイノベーションを再実装するのに苦労することを発見しました。したがって、私たちのベンチマークは、科学的再現を自動化するLLMの能力を測定するための、シンプルで未飽和な尺度を提供します。これは、自律的な研究エージェントにとって必要(しかし十分ではない)スキルです。
視覚言語モデル(VLM)は、人間のようにわずかな視点から全体のシーンを想像できるだろうか?人間は、見えない空間の内部表現である空間的メンタルモデルを形成し、レイアウト、視点、動きについて推論する。私たちが開発した新しいベンチマーク「MindCube」は、3,268枚の画像にわたる21,154の質問を通じて、この重要なギャップを明らかにし、既存のVLMがほぼランダムな性能を示すことを暴露した。MindCubeを使用して、VLMが位置(認知マッピング)、方向(視点取得)、動的変化(「もしも」の動きに対するメンタルシミュレーション)を表現することで、どれだけ堅牢な空間的メンタルモデルを構築できるかを体系的に評価した。次に、VLMが空間的メンタルモデルを近似するための3つのアプローチを探求した。これには、見えない中間視点、自然言語推論チェーン、認知マップが含まれる。最も大きな改善をもたらしたのは、モデルを共同で訓練してまず認知マップを生成し、その後それに基づいて推論する「マップしてから推論」という相乗的アプローチであった。これらの内部マップを基に推論するようモデルを訓練することで、精度を37.8%から60.8%(+23.0%)に向上させた。さらに強化学習を追加することで、性能を70.7%(+32.9%)まで押し上げた。私たちの重要な洞察は、空間的メンタルモデルの足場を構築し、柔軟な推論プロセスとともに内部構造化された空間表現を積極的に構築・利用することが、観察不可能な空間の理解を大幅に向上させるということである。
マルチモーダル・インコンテクスト学習(ICL)は、医学などの分野において大きな可能性を秘めているにもかかわらず、十分に研究されていない。臨床医は、限られた例から適応を必要とする多様で専門的なタスクに日常的に直面しており、例えば、いくつかの関連する過去の症例から洞察を引き出したり、限られた鑑別診断のセットを検討したりする。マルチモーダル大規模言語モデル(MLLM)は、医療視覚質問応答(VQA)において進歩を示しているが、コンテクストからマルチモーダルタスクを学習する能力はほとんど未知である。本研究では、医療タスク向けの初の専門家主導型マルチモーダルICLベンチマークであるSMMILEを紹介する。11名の医療専門家が問題を選定し、各問題にはマルチモーダルクエリとタスクデモンストレーションとしてのマルチモーダルインコンテクスト例が含まれている。SMMILEは、6つの医療専門分野と13の画像モダリティをカバーする111の問題(517の質問-画像-回答トリプレット)を包含している。さらに、1038の順列問題を含む拡張版であるSMMILE++を導入する。15のMLLMに対する包括的な評価により、ほとんどのモデルが医療タスクにおけるマルチモーダルICL能力が中程度から低いことが示された。自由回答形式の評価では、ICLはSMMILEにおいてゼロショットと比較して平均8%、SMMILE++では9.4%の改善にしか寄与しなかった。また、無関係なインコンテクスト例に対する脆弱性が観察され、単一のノイズまたは無関係な例でも性能が最大9.5%低下することが確認された。さらに、例の順序には新近性バイアスが見られ、最も関連性の高い例を最後に配置することで最大71%の大幅な性能向上が得られることが示された。本研究の結果は、コンテクストからマルチモーダル医療タスクを学習する際の現在のMLLMの重要な制約とバイアスを浮き彫りにしている。
近年の文脈内学習(ICL)を分析する研究では、さまざまな実験条件下でのモデルの挙動を説明する広範な戦略が特定されている。本研究では、なぜモデルがこれらの異なる戦略を学習するのかという問いを通じて、これらの知見を統合することを目指す。具体的には、文献で一般的な複数のタスクの混合を学習するように訓練された場合、モデルがICLを実行するために学習する戦略は、ベイズ予測子のファミリーによって捉えられることを観察することから始める。そのファミリーとは、既に見たタスクの集合に対して離散的な事前分布を仮定する「記憶型予測子」と、事前分布が基盤となるタスク分布に一致する「汎化型予測子」である。学習者の挙動を計算上の制約を考慮したデータへの最適な適応として説明する「合理的分析」の視点を採用し、Transformerの次のトークン予測を訓練全体にわたってほぼ完璧に予測する階層的ベイズフレームワークを開発する。このフレームワークでは、事前学習は異なる戦略の事後確率を更新するプロセスとして捉えられ、推論時の挙動はこれらの戦略の予測を事後確率で重み付けした平均として説明される。本フレームワークは、ニューラルネットワークの学習ダイナミクスに関する一般的な仮定に基づいており、候補となる戦略間での損失と複雑性のトレードオフを明示する。つまり、データをどれだけうまく説明するかだけでなく、戦略を実装する際のモデルの選好はその複雑性によって決定される。これにより、既知のICL現象を説明するだけでなく、新しい予測も提供する。例えば、タスクの多様性が増すにつれて、汎化から記憶への遷移にかかる時間スケールが超線形的に増加する傾向を示す。全体として、本研究は戦略の損失と複雑性のトレードオフに基づいたICLの説明と予測の枠組みを前進させるものである。
本研究では、Gazal-R1という320億パラメータの言語モデルを紹介する。このモデルは、医療推論において最先端の性能を達成し、臨床意思決定に対する透明性のある段階的な説明を提供する。Qwen3 32Bを基盤として構築された本モデルは、戦略的なトレーニングによって中規模モデルが専門分野において大幅に大規模なモデルを凌駕し得ることを示している。我々は、新たな2段階トレーニングパイプラインを開発した。第1段階では、構造化された臨床思考を教えるために107,033の合成医療推論事例からなる厳選されたデータセットを用いた教師ありファインチューニングを実施し、Weight-Decomposed Low-Rank Adaptation (DoRA) や Rank-Stabilized LoRA (rsLoRA) といった高度なパラメータ効率化技術を活用した。第2段階では、精度、フォーマット遵守、推論品質を向上させるための複雑な多要素報酬システムを備えたGroup Relative Policy Optimization (GRPO) を用いた強化学習を行った。Gazal-R1は、医療ベンチマークにおいて卓越した性能を発揮し、MedQAで87.1%、MMLU Pro (Medical) で81.6%、PubMedQAで79.6%のスコアを達成し、最大12倍の規模を持つモデルを上回った。強力な実証結果に加えて、本研究は、報酬ハッキング、トレーニング不安定性、事実の想起と詳細な推論の間の根本的な緊張関係など、専門分野における推論能力を持つモデルのトレーニングにおける課題について詳細な洞察を提供する。我々の方法論は、性能、効率性、説明可能性のバランスを取った高能力なドメイン特化型言語モデルを開発するための再現可能なフレームワークを提供する。
ほとんどの言語モデルは、強力な能力を発揮するために多大な計算リソースを必要とするという根本的なトレードオフに直面しています。私たちはこの制約をJan-nanoによって打破しました。Jan-nanoは4Bパラメータの言語モデルであり、ラジカルな専門化を通じて効率性を再定義します。つまり、すべてを知ろうとするのではなく、何かを瞬時に見つける技術を極めることに特化しています。Qwen3-4Bを基に、次トークン予測訓練(SFT)への依存を完全に排除した新しい多段階RLVRシステムでファインチューニングされたJan-nanoは、MCP統合によりSimpleQAベンチマークで83.2%を達成し、消費者向けハードウェア上で動作します。128Kのコンテキスト長を備えたJan-nanoは、知性が規模ではなく戦略にあることを証明しています。
効率的かつ制御可能な高品質コンテンツ生成の追求は、人工知能生成コンテンツ(AIGC)における中心的な課題である。拡散蒸留技術によって実現されたワンステップ生成器は、優れた生成品質と計算効率を提供するが、構造的制約、意味的ガイドライン、外部入力などの新しい制御条件に適応させることは大きな課題である。従来のアプローチでは、ベースモデルへの計算コストの高い修正とそれに続く拡散蒸留が必要となることが多い。本論文では、Noise Consistency Training(NCT)を提案する。これは、元の訓練画像へのアクセスやベース拡散モデルの再訓練を必要とせず、事前訓練済みのワンステップ生成器に新しい制御信号を直接統合するための軽量で新しいアプローチである。NCTは、アダプタモジュールを導入し、生成器のノイズ空間においてノイズ整合性損失を利用する。この損失は、条件付きで異なる程度に依存するノイズ間で適応モデルの生成動作を整合させ、新しい制御に従うよう暗黙的に導く。理論的には、この訓練目的は、適応生成器と新しい条件によって誘導される条件付き分布との分布距離を最小化することと理解できる。NCTはモジュール化されており、データ効率が高く、容易に展開可能で、事前訓練済みのワンステップ生成器と制御信号モデルのみに依存する。広範な実験により、NCTが単一のフォワードパスで最先端の制御可能な生成を達成し、生成品質と計算効率の両面で既存のマルチステップおよび蒸留ベースの手法を凌駕することが示された。コードはhttps://github.com/Luo-Yihong/NCTで公開されている。
私たちは、Confucius3-Mathというオープンソースの大規模言語モデルを紹介します。このモデルは140億のパラメータを持ち、(1) 単一のコンシューマー向けGPUで効率的に動作し、(2) 数学的推論タスクにおいてSOTA(State-of-the-Art)の性能を達成し、はるかに大規模なモデルを凌駕します。特に、AIを用いて教育と知識の普及を促進するという使命の一環として、Confucius3-Mathは中国のK-12(幼稚園から高校まで)の学生と教育者向けの数学学習に特化しています。大規模な強化学習(RL)を用いたポストトレーニングによって構築されたConfucius3-Mathは、国家カリキュラムに準拠し、主流の中国K-12数学問題を低コストで解決する能力に優れています。本報告では、開発のレシピ、遭遇した課題、そしてそれらを克服するために開発した技術を共有します。特に、3つの技術的革新を紹介します:Targeted Entropy Regularization(ターゲットエントロピー正則化)、Recent Sample Recovery(最近のサンプル回復)、Policy-Specific Hardness Weighting(ポリシー固有の難易度重み付け)。これらの革新は、新しいエントロピー正則化、革新的なデータスケジューリングポリシー、および改善されたグループ相対的アドバンテージ推定器を含みます。これらは全体として、RLトレーニングを大幅に安定させ、データ効率を向上させ、性能を向上させます。私たちの研究は、特定のドメインにおいて強力な推論モデルを低コストで構築する可能性を示しています。モデルとコードはhttps://github.com/netease-youdao/Confucius3-Mathでオープンソースとして公開しています。
多くの産業において、大規模システムのメトリック結果を予測することは、主に従来の表形式回帰によって推進される基本的な問題である。しかし、そのような手法は、設定ファイルやシステムログなどの複雑なシステムデータに対しては、特徴量エンジニアリングがしばしば実行不可能であるため、困難を極める。我々は、テキストからテキストへの回帰を、一般的でスケーラブルな代替手法として提案する。Googleの大規模コンピュートクラスタスケジューリングシステムであるBorgにおけるリソース効率の予測において、ランダムな初期化から訓練された6000万パラメータのエンコーダ-デコーダモデルは、フリート全体でほぼ完璧な0.99(平均0.9)の順位相関を達成し、表形式アプローチに比べて100倍低い平均二乗誤差(MSE)を示した。このモデルは、わずか500の少数ショット例で新しいタスクに容易に適応し、複雑な結果分布の密度を捉えることができる。アブレーション研究は、エンコーダの使用、シーケンス長の増加、およびモデルの内在的な不確実性定量化の重要性を強調している。これらの発見は、現実世界の結果をシミュレートする普遍的なシミュレータへの道を開くものである。
現代の大規模言語モデル、例えばLLaMA、Qwen、DeepSeekシリーズは、主にPre-LayerNorm(Pre-LN)Transformerアーキテクチャを採用している。Pre-LNは、事前学習中に安定しており、大規模なモデルサイズにスケーラブルである一方で、層を跨いだ活性化分散の指数関数的な増加に悩まされており、これにより残差経路がサブ層の出力を支配し、深い層の学習能力が制限されている。この問題を緩和するため、我々はGradient-Preserving Activation Scaling(GPAS)を提案する。GPASは、既存のアプローチと組み合わせて使用できるシンプルな技術であり、中間活性化をスケールダウンしながらその勾配を変更しないことで、活性化内の情報をそのまま保ち、勾配の消失問題を回避する。71Mから1Bまでの様々なモデルサイズでの広範な実験により、GPASが一貫した性能向上を達成することが示された。Pre-LN Transformerの強化に加えて、GPASはSandwich-LNやDeepNormなどの代替アーキテクチャの改善にも有望であり、その汎用性と幅広い設定でのトレーニングダイナミクス改善の可能性を示している。
光干渉断層計(OCT)などの画像技術の進展と、深層学習(DL)の進歩により、臨床医や研究者は網膜疾患のステージングを効率化できるようになった。特に注目されているDLアプローチの一つが自己教師あり学習(SSL)であり、この手法ではモデルが大量のラベルなしデータから学習し、コストのかかるアノテーションを回避する。SSLにより、基盤モデル(FM)と呼ばれる、様々な下流タスクに利用可能な大規模モデルの開発が可能となった。しかし、既存のOCT用FMは画像データのみで学習されており、画像の包括的かつ堅牢な意味理解が欠如しており、特に複雑なタスクにおける下流性能がそれを示している。そのため、特定のアプリケーションや集団に適応させるためには、教師ありの微調整が必要となる場合があるが、これは実現が困難な場合もある。この問題を解決するため、我々はRetFinerを提案する。これは、既存のFMの表現を改善し、特定の集団に効率的かつ直接的に適応させ、下流性能を向上させるSSLの視覚-言語精緻化スキームである。我々の手法は、テキストデータに含まれる豊富な教師信号を活用した多様な学習目標を使用する。RetFinerを網膜FMであるRETFound、UrFound、VisionFMでテストし、7つの多様なOCT分類タスクにおいて、それぞれベースラインに対して平均5.8、3.9、2.1パーセントポイントの性能向上を示した。我々のコードとモデル重みはhttps://github.com/ronnief1/RetFinerで公開されている。
視覚言語モデルにおけるデータの階層構造を学習することは重要な課題である。これまでの研究では、含意関係学習を活用することでこの課題に取り組んできた。しかし、これらのアプローチは、表現空間内での順序と意味の関係を確立する含意関係の推移性を明示的にモデル化することに失敗している。本研究では、推移性を強制する含意関係を明示的にモデル化するためのフレームワークであるRadial Cross-Modal Embeddings(RCME)を提案する。提案フレームワークは、視覚言語モデル内の概念の半順序を最適化する。本フレームワークを活用することで、生命の木における階層を表現可能な階層型視覚言語基盤モデルを開発した。階層的な種分類および階層的検索タスクにおける実験により、提案モデルが既存の最先端モデルと比較して性能が向上していることを示す。コードおよびモデルはhttps://vishu26.github.io/RCME/index.htmlで公開されている。
我々はTAPAS(Task-based Adaptation and Planning using AgentS)を紹介する。これは、大規模言語モデル(LLMs)と記号的プランニングを統合し、手動で定義された環境モデルを必要とせずに複雑なタスクを解決するマルチエージェントフレームワークである。TAPASは、構造化されたツール呼び出しメカニズムを使用して、必要に応じてドメインモデル、初期状態、および目標仕様を協調的に生成および適応させる専門のLLMベースのエージェントを採用している。このツールベースの相互作用を通じて、下流のエージェントは上流のエージェントに変更を要求することができ、手動でのドメイン再定義なしに新しい属性や制約に適応することが可能となる。ReAct(Reason+Act)スタイルの実行エージェントと自然言語プラン翻訳を組み合わせることで、動的に生成されたプランと現実世界のロボット能力とのギャップを埋める。TAPASは、ベンチマークプランニングドメインおよびVirtualHomeシミュレーション環境において優れた性能を示している。
テスト時計算は、大規模言語モデル(LLM)の性能を向上させる強力なパラダイムとして登場し、複数の出力を生成したり個々の推論連鎖を洗練させたりすることで回答精度を大幅に向上させることができます。しかし、Best-of-N、多数決、自己反映などの既存の手法は、通常、入力全体にわたって均一に推論を適用しており、異なる問題が異なるレベルの推論深度を必要とするという事実を見落としています。本研究では、Fractional Reasoning(分数推論)を提案します。これは、推論時に推論強度を連続的に制御できる、訓練不要でモデルに依存しないフレームワークであり、固定された指示プロンプトの限界を超えるものです。私たちの手法は、より深い推論に関連する潜在的なステアリングベクトルを抽出し、調整可能なスケーリング係数で再適用することで動作し、モデルが各入力の複雑さに応じて推論プロセスを調整できるようにします。これにより、テスト時のスケーリングにおける2つの主要なモードがサポートされます:(1)幅ベースの戦略(例:Best-of-N、多数決)における出力品質の向上、(2)深さベースの戦略(例:自己反映)における個々の推論連鎖の正確性の向上です。GSM8K、MATH500、GPQAでの実験により、Fractional Reasoningが多様な推論タスクとモデルにわたって一貫して性能を向上させることが実証されています。