翻訳付きの日次キュレーションされたAI研究論文
ユーザーインターフェース(UI)デザインをフロントエンドコードに自動変換することは、ソフトウェア開発の加速とデザインワークフローの民主化において大きな可能性を秘めている。近年の大規模言語モデル(LLM)はテキストからコードへの生成において進展を示しているが、既存の多くのアプローチは自然言語プロンプトに依存しており、空間的なレイアウトや視覚的なデザイン意図を捉える効果が限られている。一方、実際のUI開発は本質的にマルチモーダルであり、視覚的なスケッチやモックアップから始まることが多い。このギャップを埋めるため、我々はUIからコードへの生成を3つの解釈可能な段階(グラウンディング、プランニング、生成)で実行するモジュール型マルチエージェントフレームワークを提案する。グラウンディングエージェントは視覚言語モデルを使用してUIコンポーネントを検出しラベル付けし、プランニングエージェントはフロントエンドエンジニアリングの事前知識を用いて階層的なレイアウトを構築し、生成エージェントは適応型プロンプトベースの合成によりHTML/CSSコードを生成する。この設計により、エンドツーエンドのブラックボックス手法に比べて堅牢性、解釈可能性、忠実性が向上する。さらに、我々はこのフレームワークを拡張し、大規模な画像とコードのペアを自動生成するスケーラブルなデータエンジンを構築した。これらの合成例を使用して、オープンソースの視覚言語モデルを微調整し強化し、UI理解とコード品質において顕著な向上を実現した。広範な実験により、我々のアプローチがレイアウト精度、構造的一貫性、コードの正確性において最先端の性能を達成することが示された。我々のコードはhttps://github.com/leigest519/ScreenCoderで公開されている。
本報告では、多様なユースケースにおいて高性能と効率性を両立するために最適化されたハイブリッドアーキテクチャ設計を特徴とする新シリーズの大規模言語モデル(LLMs)、Falcon-H1を紹介する。従来のFalconモデルがTransformerまたはMambaアーキテクチャのみに基づいて構築されていたのに対し、Falcon-H1は、長文脈の記憶と計算効率に優れるState Space Models(SSMs)とTransformerベースのアテンションを組み合わせた並列ハイブリッドアプローチを採用している。我々は、モデル設計、データ戦略、トレーニングダイナミクスを体系的に見直し、この分野における従来の慣行に挑戦した。Falcon-H1は、0.5B、1.5B、1.5B-deep、3B、7B、34Bパラメータのベースモデルおよび指示チューニングモデルを含む複数の構成でリリースされている。量子化された指示チューニングモデルも利用可能であり、Hugging Face Hub上で合計30以上のチェックポイントが提供されている。Falcon-H1モデルは、最先端の性能と卓越したパラメータ効率およびトレーニング効率を示す。フラッグシップモデルであるFalcon-H1-34Bは、Qwen3-32B、Qwen2.5-72B、Llama3.3-70Bなどの最大70Bスケールのモデルに匹敵またはそれを上回る性能を発揮しつつ、より少ないパラメータとデータを使用する。小型モデルも同様の傾向を示す:Falcon-H1-1.5B-Deepは現在の主要な7B-10Bモデルに匹敵し、Falcon-H1-0.5Bは2024年時点の典型的な7Bモデルと同等の性能を発揮する。これらのモデルは、推論、数学、多言語タスク、指示追従、科学知識において優れている。最大256Kのコンテキストトークンと18言語をサポートするFalcon-H1は、幅広いアプリケーションに適している。全てのモデルは、許諾的なオープンソースライセンスの下でリリースされており、アクセス可能で影響力のあるAI研究への我々のコミットメントを強調している。
3D創作は、目、頭、手を用いて物体を分解し再構築する能力によって駆動される、人間特有の強みである。しかし、現在の3Dデザインツールはこの自然なプロセスを再現するのに苦労しており、相当な芸術的専門知識と手作業を必要とする。本論文では、3D生成と推論を橋渡しする新しい生成手法であるBANGを紹介する。BANGは、3Dオブジェクトの直感的で柔軟なパーツレベル分解を可能にする。BANGの中核にあるのは「生成的爆発ダイナミクス」であり、入力された幾何学に対して滑らかな爆発状態のシーケンスを作成し、パーツを徐々に分離しながら幾何学的および意味的な一貫性を保つ。 BANGは、事前学習された大規模潜在拡散モデルを利用し、軽量な爆発ビューアダプタで爆発ダイナミクスに微調整を加えることで、分解プロセスを精密に制御する。また、時間的注意モジュールを組み込むことで、時間軸にわたる滑らかな遷移と一貫性を確保する。BANGは、バウンディングボックスや表面領域などの空間プロンプトを用いて制御を強化し、ユーザーがどのパーツをどのように分解するかを指定できるようにする。このインタラクションは、GPT-4のようなマルチモーダルモデルと組み合わせることで拡張可能であり、より直感的で創造的なワークフローを実現する2D-to-3D操作を可能にする。 BANGの能力は、詳細なパーツレベル幾何学の生成、パーツと機能的な説明の関連付け、コンポーネントを意識した3D創作および製造ワークフローの促進にまで及ぶ。さらに、BANGは3Dプリンティングにも応用可能であり、容易な印刷と再組み立てのための分離可能なパーツを生成する。本質的に、BANGは想像上の概念から詳細な3Dアセットへのシームレスな変換を可能にし、人間の直感に共鳴する新しい創作の視点を提供する。
強化学習は、大規模言語モデルの推論能力を向上させる上でその有効性を証明してきました。最近の研究では、このパラダイムをマルチモーダル推論タスクに段階的に拡張する取り組みが進められています。しかし、マルチモーダルタスクの本質的な複雑さと多様性、特に意味内容と問題定式化の面において、既存のモデルは様々なドメインや難易度で不安定な性能を示すことがしばしばあります。これらの課題を解決するため、我々はVL-Cogitoを提案します。これは、新たな多段階型プログレッシブカリキュラム強化学習(PCuRL)フレームワークを用いて訓練された高度なマルチモーダル推論モデルです。PCuRLは、モデルを徐々に難易度を上げたタスクを通じて体系的に導き、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させます。このフレームワークは、2つの主要な革新を導入しています:(1) オンライン難易度ソフト重み付けメカニズムにより、連続する強化学習訓練段階で訓練難易度を動的に調整します;(2) 動的長さ報酬メカニズムにより、モデルがタスクの複雑さに応じて推論パスの長さを適応的に調整し、推論効率と正確性のバランスを取ります。実験的評価では、VL-Cogitoが数学、科学、論理、一般理解にわたる主流のマルチモーダルベンチマークにおいて、既存の推論指向モデルを一貫して匹敵または凌駕することを示し、我々のアプローチの有効性を検証しています。
コントラスティブ言語画像事前学習(CLIP)は、ゼロショット分類、検索、多モーダル大規模言語モデル(MLLM)のエンコーダーまでをサポートする人気の基盤モデルである。CLIPは英語圏の数十億規模の画像-テキストペアで成功裏に学習されているが、全世界のウェブデータからの学習にCLIPのトレーニングをさらに拡張することは依然として課題である:(1)非英語圏のデータポイントを処理するためのキュレーション方法が存在しない;(2)既存の多言語CLIPの英語性能は、英語のみのモデルよりも劣る、すなわち、大規模言語モデル(LLM)で一般的な「多言語性の呪い」が存在する。本論文では、全世界のウェブ規模の画像-テキストペアからCLIPをゼロから学習する最初のレシピであるMetaCLIP 2を提案する。我々の知見を一般化するために、上記の課題に対処するために必要な最小限の変更を加えた厳密なアブレーション実験を実施し、英語圏と非英語圏のデータから相互に利益を得ることを可能にするレシピを提示する。ゼロショットImageNet分類において、MetaCLIP 2 ViT-H/14は英語のみのモデルを0.8%、mSigLIPを0.7%上回り、驚くべきことに、翻訳や特別なアーキテクチャ変更などのシステムレベルの交絡因子なしに、CVQAで57.4%、Babel-ImageNetで50.2%、XM3600で64.3%の画像-テキスト検索において、多言語ベンチマークで新たな最先端を達成した。
大規模言語モデル(LLM)は、特に長文脈推論タスクにおいて、デコード時のハードウェア効率が低いという課題に直面しています。本論文では、デコードコストを最小化するためにハードウェアを意識したモデル・システム共同設計を最適化した321BパラメータのVLM、Step-3を紹介します。Step-3は以下の2つの主要な次元で革新を実現しています:(1) KVキャッシュサイズと計算量を大幅に削減しながら、高いアテンション表現力を維持する新たなMulti-Matrix Factorization Attention(MFA)メカニズム、(2) アテンション層とFeed-Forward Network(FFN)層を専門化されたサブシステムに分離する分散推論システム、Attention-FFN Disaggregation(AFD)。この共同設計により、Step-3はDeepSeek-V3やQwen3 MoE 235Bなどのモデルと比較して理論的なデコードコストを大幅に削減し、特に長文脈においてその差が拡大します。Step-3は、トークンあたり38Bパラメータ(DeepSeek-V3やQwen3 MoE 235Bよりも多い)を活性化しながら低コストを実現し、ハードウェアに整合したアテンション演算強度、MoEのスパース性、およびAFDがコスト効率に重要であることを示しています。DeepSeek-V3と有利なシナリオで直接比較を行い、Hopper GPU上での実装では、50ms TPOT SLA(4K文脈、FP8、MTPなし)の条件下でGPUあたり最大4,039トークン/秒のデコードスループットを達成しました。これは、同じ設定でのDeepSeek-V3の2,324トークン/秒を上回り、LLMデコードの新たなパレートフロンティアを確立しています。
航空画像における車両検出は、交通監視、都市計画、防衛情報などの応用において重要な課題である。深層学習手法は、この応用において最先端(SOTA)の結果を提供してきた。しかし、ある地理的領域のデータで訓練されたモデルが他の地域に効果的に一般化できないという重大な課題が存在する。環境条件、都市レイアウト、道路ネットワーク、車両タイプ、画像取得パラメータ(解像度、照明、角度など)の変動により、ドメインシフトが発生し、モデルの性能が低下する。本論文では、生成AIを用いて高品質な航空画像とそのラベルを合成し、データ拡張を通じて検出器の訓練を改善する新たな手法を提案する。我々の主要な貢献は、ソース環境とターゲット環境間の分布ギャップを軽減するために、微調整された潜在拡散モデル(LDMs)を利用した多段階・多モーダル知識転移フレームワークの開発である。多様な航空画像ドメインにわたる広範な実験により、ソースドメインデータに対する教師あり学習、弱教師あり適応手法、教師なしドメイン適応手法、オープンセット物体検出器と比較して、AP50においてそれぞれ4-23%、6-10%、7-40%、50%以上の一貫した性能向上が示された。さらに、この分野のさらなる研究を支援するために、ニュージーランドとユタ州の新たに注釈付けされた航空データセットを導入する。プロジェクトページは以下で利用可能である:https://humansensinglab.github.io/AGenDA
GRPOは画像生成における人間の嗜好アライメントにおいてフローマッチングモデルを大幅に強化するものの、FlowGRPOなどの手法は、マルコフ決定過程(MDP)で指定されたすべてのノイズ除去ステップをサンプリングし最適化する必要性から、依然として非効率性を示しています。本論文では、確率微分方程式(SDE)と常微分方程式(ODE)の統合を通じて、混合サンプリング戦略の柔軟性を活用する新しいフレームワークであるMixGRPOを提案します。これにより、MDP内の最適化プロセスを合理化し、効率とパフォーマンスを向上させます。具体的には、MixGRPOはスライディングウィンドウメカニズムを導入し、ウィンドウ内でのみSDEサンプリングとGRPOガイド付き最適化を使用し、ウィンドウ外ではODEサンプリングを適用します。この設計により、サンプリングのランダム性をウィンドウ内のタイムステップに限定し、最適化のオーバーヘッドを削減し、より焦点を絞った勾配更新を可能にして収束を加速します。さらに、スライディングウィンドウを超えるタイムステップは最適化に関与しないため、高次のソルバーがサンプリングにサポートされます。そこで、トレーニング効率をさらに向上させながら同等のパフォーマンスを達成する、MixGRPO-Flashと呼ばれる高速バリアントを提示します。MixGRPOは、人間の嗜好アライメントの複数の次元で大幅な向上を示し、DanceGRPOを効果と効率の両面で上回り、トレーニング時間をほぼ50%削減します。特に、MixGRPO-Flashはトレーニング時間をさらに71%削減します。コードとモデルはhttps://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}で公開されています。
音声視覚的セグメンテーション(RAVS)は最近大きな進展を遂げているが、マルチモーダル情報の統合や音声視覚コンテンツの深い理解と推論において依然として課題が残っている。RAVSの境界を拡張し、この分野の将来の研究を促進するため、我々はOmnimodal Referring Audio-Visual Segmentation(OmniAVS)を提案する。これは2,098本の動画と59,458のマルチモーダル参照表現を含む新しいデータセットである。OmniAVSは以下の3つの主要な革新点を特徴とする:(1) テキスト、音声、サウンド、視覚的キューを柔軟に組み合わせた8種類のマルチモーダル表現、(2) 音声の存在を検出するだけでなく、その内容を理解することに重点を置くこと、(3) 複雑な推論と世界知識を表現に含めること。さらに、OmniAVSにおけるマルチモーダル推論と音声視覚コンテンツの細かい理解の課題に対処するため、Omnimodal Instructed Segmentation Assistant(OISA)を導入する。OISAはMLLMを使用して複雑なキューを理解し、推論に基づくセグメンテーションを実行する。大規模な実験により、OISAがOmniAVSにおいて既存の手法を上回り、他の関連タスクでも競争力のある結果を達成することが示された。
APR(Automated Program Repair)は、プログラムの欠陥を自動的に特定し、パッチを生成し、修復を検証することを目的としています。既存のAPR技術は、しばしばLLM(Large Language Models)と組み合わせられ、LLMのコード関連知識を活用して修復効果を向上させます。現在のLLMベースのAPR手法は、推論段階でのみテストケースを利用し、まず修復を行い、その後テスト実行を通じて検証する反復的アプローチを採用しています。この従来のパラダイムは、トレーニング段階でのテストケースの潜在的な貢献と、修復前にテストを活用する可能性という2つの重要な側面を無視しています。これを解決するため、我々はRepair-R1を提案します。Repair-R1は、モデルのトレーニング段階にテストケースを導入し、テスト生成を修復の前に移行します。モデルはまず、欠陥のある動作を識別できる識別力のあるテストケースを生成し、その後これらのテストに基づいて修復を行う必要があります。これにより、モデルは欠陥をより正確に特定し、欠陥の根本原因を理解することができ、修復効果が向上します。我々はRepair-R1を3つの異なるバックボーンモデルで実装し、RL(強化学習)を使用してテスト生成とバグ修復を共に最適化します。4つの広く採用されているベンチマークでの実験結果は、Repair-R1の優位性を示しています。特に、バニラモデルと比較して、Repair-R1は修復成功率を2.68\%から48.29\%、テスト生成成功率を16.38\%から53.28\%、テストカバレッジを0.78\%から53.96\%向上させます。コードと重みはhttps://github.com/Tomsawyerhu/APR-Rlとhttps://huggingface.co/tomhu/Qwen3-4B-RL-5000-stepで公開しています。
データプライバシーとモデルの有用性の間の緊張は、医療を含む機密性の高いコーパスで学習された大規模言語モデル(LLM)の実用化における決定的なボトルネックとなっています。差分プライバシー確率的勾配降下法(DP-SGD)は形式的なプライバシーを保証しますが、その代償として勾配が強制的にクリップされ、ノイズが加えられるため、サンプル効率と最終的な精度が低下します。このトレードオフを緩和するために数多くのバリエーションが提案されていますが、それらすべてに共通する欠点があります。それらの制御パラメータはハードコードされており、グローバルで、最適化の状況の変化を考慮していないのです。その結果、実務者は有用性を追求するためにプライバシーバジェットを過剰に消費するか、プライバシー制約を守るために平凡なモデルを受け入れるかの選択を迫られます。我々はRLDPを提案します。これは、DP最適化そのものを現代的な深層強化学習(RL)に適した閉ループ制御問題として定式化する初めてのフレームワークです。RLDPは学習ダイナミクスの豊富な統計情報を継続的に感知し、パラメータごとのきめ細かい勾配クリッピングの閾値と注入するガウシアンノイズの大きさを選択することで行動します。ソフトアクタークリティック(SAC)ハイパーポリシーは、言語モデルのファインチューニング中にオンラインで訓練され、プライバシーバジェットをどこでいつ割り当てるかをゼロから学習します。GPT2-small、Llama-1B、Llama-3B、Mistral-7Bにおける1,600以上のアブレーション実験を通じて、RLDPは1.3-30.5%(平均5.4%)のパープレキシティ低減と平均5.6%の下流タスク有用性向上を達成しました。RLDPは各ベースラインの最終有用性に、勾配更新バジェットのわずか13-43%(平均71%の高速化)で到達し、同じ(ε, δ)-DP契約を遵守し、メンバーシップ推論攻撃とカナリア抽出攻撃に対する感受性が同等または低いことを示しました。
自然言語から3Dシーンを生成することは、ゲーム、映画、デザインなどの分野での応用において大きな可能性を秘めている。しかし、既存の手法は自動化、3D整合性、および細粒度の制御において課題を抱えている。本論文では、テキストや対話から高品質で編集可能な3Dシーンを生成するためのエンドツーエンドフレームワークであるDreamSceneを提案する。DreamSceneは、シーンプランニングモジュールから始まり、GPT-4エージェントがオブジェクトの意味論と空間的制約を推論してハイブリッドグラフを構築する。その後、グラフベースの配置アルゴリズムが構造化され衝突のないレイアウトを生成する。このレイアウトに基づき、Formation Pattern Sampling (FPS) がマルチタイムステップサンプリングと再構成最適化を用いてオブジェクトのジオメトリを生成し、高速かつリアルな合成を実現する。グローバルな整合性を確保するために、DreamSceneは屋内および屋外の設定に適したプログレッシブカメラサンプリング戦略を採用する。最後に、システムはオブジェクトの移動、外観の変更、4D動的モーションを含む細粒度のシーン編集をサポートする。実験結果は、DreamSceneが品質、整合性、柔軟性において従来の手法を凌駕し、オープンドメインの3Dコンテンツ作成における実用的なソリューションを提供することを示している。コードとデモはhttps://jahnsonblack.github.io/DreamScene-Full/で公開されている。