翻訳付きの日次キュレーションされたAI研究論文
検証可能な報酬による強化学習(RLVR)は大規模モデルの数学的推論能力を強化する堅牢なメカニズムを提供する。しかし、既存手法には未成熟な能力を洗練する上で重要な、より困難な問題への体系的な重点の欠如がアルゴリズムとデータの両観点から認められる。アルゴリズム的には、広く用いられているグループ相対方策最適化(GRPO)は、困難な問題ほど方策更新の規模が小さくなる暗黙の不均衡を抱える。データ的には、拡張手法の主流が多様性向上のために問題を言い換えるだけで、本質的な難易度を体系的に高めていない。これらの課題に対処するため、我々は両観点から困難な問題に焦点を当てた二重構造のMathForgeフレームワークを提案する。これは難易度考慮型グループ方策最適化(DGPO)アルゴリズムと多面的問題再構成(MQR)戦略で構成される。具体的には、DGPOは難易度均衡型グループアドバンテージ推定によりGRPOの暗黙的不均衡を是正し、難易度考慮型問題重み付けで困難な問題を優先的に学習する。一方MQRは元の正解を維持しつつ、複数の側面から問題を再構成して難易度を高める。MathForgeは相乗的循環を形成する:MQRがデータフロンティアを拡大し、DGPOが拡張データから効果的に学習する。大規模実験により、MathForgeが様々な数学的推論タスクで既存手法を大幅に上回ることを実証した。コードと拡張データはhttps://github.com/AMAP-ML/MathForgeで公開されている。
我々は、映像生成技術を基盤としたオープンソースの世界シミュレーター「LingBot-World」を発表します。トップクラスの世界モデルとして位置づけられるLingBot-Worldは、以下の特徴を備えています。(1) 写実的環境、科学的文脈、アニメ調など多様な環境において、高精細かつ堅牢なダイナミクスを維持します。(2) 分単位の長時間生成を可能にしながら、時間経過に伴う文脈の一貫性(「長期記憶」とも呼ばれる)を保持します。(3) 毎秒16フレーム生成時のレイテンシーを1秒未満に抑え、リアルタイム相互動作を実現します。オープンソースとクローズドソース技術の格差を縮めるため、コードとモデルを公開します。本リリースがコンテンツ制作、ゲーム、ロボット学習などの分野で実用的な応用を促進すると確信しています。
我々は、多様な科学分野における理解と推論を促進しつつ、一般的な視覚タスクでも優れた性能を維持する科学マルチモーダル大規模言語モデル「Innovator-VL」を提案する。大規模なドメイン特化型事前学習や不透明なパイプラインに依存する傾向に対し、本研究は原理に基づいた学習設計と透明性の高い方法論が、データ要件を大幅に削減しながら強力な科学的知能を実現できることを実証する。(i) 第一に、データ収集、クリーニング、前処理、教師ありファインチューニング、強化学習、評価を含む完全に透明なエンドツーエンド再現可能な学習パイプラインと詳細な最適化レシピを提供し、コミュニティによる体系的な拡張を可能にする。(ii) 第二に、Innovator-VLは顕著なデータ効率を示し、大規模な事前学習なしに500万件未満の精選されたサンプルで様々な科学タスクにおいて競争力のある性能を達成する。これは、無差別なスケーリングではなく原理に基づいたデータ選択を通じて効果的な推論が実現可能であることを強調する。(iii) 第三に、Innovator-VLは強力な汎化性能を発揮し、一般的な視覚、マルチモーダル推論、科学ベンチマークで競争力のある性能を達成する。これは科学的アライメントが汎用能力を損なうことなく統一モデルに統合可能であることを示唆する。我々の実践は、大規模データがなくとも効率的で再現性が高く高性能な科学マルチモーダルモデルが構築可能であることを示し、将来の研究に実用的な基盤を提供する。
我々はDeepSeek-OCR 2を発表し、画像の意味構造に基づいて視覚トークンを動的に並べ替え可能な新しいエンコーダ「DeepEncoder V2」の実現可能性を探る。従来の視覚言語モデル(VLM)は、LLMに入力する際、視覚トークンを固定的なラスタースキャン順(左上から右下)で処理し、固定の位置エンコーディングを適用してきた。しかしこれは、内在的な論理構造に駆動された柔軟かつ意味的に一貫した走査パターンに従う人間の視覚知覚とは相容れない。特に複雑なレイアウトを持つ画像において、人間の視覚は因果関係を考慮した逐次処理を示す。この認知メカニズムに着想を得て、DeepEncoder V2はエンコーダに因果推論能力を付与し、LLMベースの内容解釈の前に視覚トークンを智能的に並べ替えることを可能にする。本研究は、2段階の1次元因果推論構造を通じて2次元画像理解を効果的に達成できるかという新たなパラダイムを探求し、真の2次元推論を実現する可能性を秘めた新しいアーキテクチャ手法を提案する。コードとモデル重みはhttp://github.com/deepseek-ai/DeepSeek-OCR-2で公開されている。
強化学習は大規模言語モデルを知的エージェントとして動作させることを可能にしたが、高品質な軌道の不足、特に限られたリソース下での長期的タスクの訓練は依然として課題である。既存手法では、一般にロールアウト規模を拡大し、計算リソースを中間ステップに無差別に割り当てる。このような試みは本質的に、重要でないステップに多大な計算バジェットを浪費し、サンプル品質を保証できない。この問題に対処するため、我々はSpark(重要状態における動的分岐による戦略的政策認識探索)を提案する。これは、リソース効率的な探索のために重要な意思決定状態で選択的に分岐する新規フレームワークである。重要な洞察は、有望な軌道を探るため重要な意思決定点で適応的分岐探索を活性化し、盲目的な網羅性よりもサンプリング品質を優先する精密なリソース配分を実現することである。この設計はエージェントの内在的な意思決定信号を活用して人間の事前知識への依存を軽減し、エージェントが自律的に探索を拡大し、より強力な一般化を達成することを可能にする。多様なタスク(例えば具現化プランニング)における実験により、Sparkが大幅に少ない訓練サンプルで優れた成功率を達成し、未経験のシナリオにおいても頑健な一般化を示すことを実証した。
言語モデルの表現には、高水準の概念に対応する線形方向がしばしば存在する。本研究では、これらの表現の力学、すなわち(シミュレートされた)会話の文脈内でこれらの次元に沿って表現がどのように進化するかを検討する。線形表現は会話の中で劇的に変化し得ることを発見した。例えば、会話の冒頭で事実として表現されていた情報が、会話の終盤では非事実として表現される場合があり、その逆も起こり得る。これらの変化は内容に依存しており、会話に関連する情報の表現は変化する一方で、一般的な情報は概して保持される。これらの変化は、事実性をより表面的な応答パターンから分離する次元においても頑健であり、様々なモデルファミリーやモデルの層にわたって生じる。この表現変化はオンライン方策の会話を必要とせず、全く異なるモデルによって書かれた会話スクリプトを再生するだけでも同様の変化が生じ得る。しかし、明示的にSFストーリーとして枠組みを与えられた文脈を単に提示するだけでは、適応ははるかに弱い。また、表現方向に沿ったステアリングが、会話の異なる時点で劇的に異なる効果をもたらし得ることも示す。これらの結果は、会話によって示唆される特定の役割をモデルが演じることに応答して表現が進化するという考えと整合的である。我々の発見は、解釈可能性とステアリングに課題を提起する可能性がある。特に、特徴や方向の静的な解釈、または特定の特徴範囲が一貫して特定の真の値に対応することを仮定したプローブの使用は誤解を招き得ることを示唆する。しかし、この種の表現力学は、モデルが文脈に適応する方法を理解するための新たな研究方向性も指し示している。
大規模言語モデルは、コードや数学などの検証可能な領域において、強化学習を用いた事後学習が増加している。しかし、検証可能な報酬を用いた強化学習(RLVR)の現在の手法は、1試行ごとのスカラー結果報酬からのみ学習するため、深刻な信用割り当てのボトルネックが生じている。多くの検証可能な環境では、実際にはランタイムエラーや審査評価といった、試行の失敗理由を説明する豊富なテキストフィードバックが提供される。本研究では、豊富なフィードバックを用いた強化学習としてこの設定を形式化し、外部の教師や明示的な報酬モデルを必要とせずに、トークン化されたフィードバックを高密度な学習信号に変換する自己蒸留政策最適化(SDPO)を提案する。SDPOは、フィードバックを条件づけた現在のモデルを自己教師として扱い、そのフィードバック情報に基づく次トークン予測を政策に蒸留し直す。このようにして、SDPOはモデルが文脈内で自身の誤りを遡及的に特定する能力を活用する。科学推論、ツール使用、LiveCodeBench v6における競技プログラミングにわたる実験で、SDPOは強力なRLVRベースラインよりもサンプル効率と最終精度を向上させた。特に、スカラーフィードバックのみを返す標準的なRLVR環境においても、SDPOは成功したロールアウトを失敗試行に対する暗黙的フィードバックとして利用することでベースラインを上回った。最後に、テスト時に個別の問題にSDPOを適用することで、困難な二値報酬タスクにおける発見が加速され、k-bestサンプリングや多ターン対話と同等の発見確率を、試行回数を3分の1に抑えて達成した。
大規模言語モデル(LLM)の構文的流暢さにもかかわらず、高リスク領域における論理的正確性を保証することは依然として根本的な課題である。本論文は、LLMとSMTソルバーを組み合わせ、反復的な洗練を通じて検証誘導型の回答を生成する神経記号論的フレームワークを提案する。本アプローチでは、LLMの出力を原子主張に分解し、一階述語論理へ自動形式化し、自動定理証明を用いてそれらの論理的整合性を検証する。我々は三つの重要な革新を導入する:(1)形式的意味等価性検査によるマルチモデル合意により、候補間の論理レベルでの整合性を確保し、表層形式指標の構文的バイアスを排除する、(2)異なる主張タイプを適切な検証戦略に振り分ける意味的ルーティング:論理的主张には記号的ソルバーを、常識的推論にはLLMアンサンブルを適用する、(3)最小修正部分集合(MCS)による精密な論理誤り局在化。これは修正すべき主張の正確な部分集合を特定し、二値的失敗信号を実践的フィードバックへ変換する。本フレームワークは主張を論理状態に基づき分類し、複数の検証信号を分散ベースのペナルティを伴う統一スコアに集約する。システムは構造化フィードバックを用いて回答を反復的に洗練し、受容基準が満たされるか収束が達成されるまで継続する。このハイブリッドアプローチは、可能な場合には形式的保証を、それ以外の場合は合意検証を提供し、信頼できるAIを推進する。GPT-OSS-120Bモデルを用いたVERGEは、一連の推論ベンチマークにおいて、単一パスアプローチと比較して収束時平均18.7%の性能向上を示した。
グラフィカルユーザインタフェース(GUI)エージェントは、基盤モデルが実世界のタスクを完了することを可能にする大きな可能性を示しており、人間とコンピュータの相互作用に革命をもたらし、人間の生産性を向上させることが期待されています。本報告書では、コンピュータ利用とスマートフォン利用のシナリオをサポートし、モバイルおよびデスクトッププラットフォームの両方で自律的なタスク実行を行うための汎用GUIエージェントモデルであるOmegaUseを紹介します。効果的なGUIエージェントモデルを構築するには、2つの要素、(1) 高品質なデータと (2) 効果的な訓練方法が重要です。これらに対処するため、我々は注意深く設計されたデータ構築パイプラインと、分離された訓練パラダイムを提案します。データ構築については、厳選されたオープンソースデータセットを活用するとともに、ボトムアップの自律探索とトップダウンの分類体系に基づく生成を統合し、高精度な合成データを作成する新しい自動合成フレームワークを導入します。訓練については、これらのデータをより効果的に活用するため、基本的な相互作用の構文を確立する教師ありファインチューニング(SFT)と、空間的基礎付けと逐次計画を改善するグループ相対方策最適化(GRPO)からなる2段階の戦略を採用します。計算効率とエージェントの推論能力のバランスを取るため、OmegaUseはMixture-of-Experts(MoE)バックボーン上に構築されています。オフライン設定でのクロス端末能力を評価するため、複数のオペレーティングシステムにまたがるベンチマークスイートOS-Navを導入しました。これは、中国のAndroidモバイル環境を対象としたChiM-Navと、Ubuntu上の日常的なデスクトップ操作に焦点を当てたUbu-Navからなります。大規模な実験により、OmegaUseは既存のGUIベンチマークで非常に高い競争力を発揮し、ScreenSpot-V2で96.3%のState-of-the-Art(SOTA)スコアを、AndroidControlで79.1%のステップ成功率(トップクラス)を達成したことが示されました。OmegaUseはOS-Navでも強力な性能を発揮し、ChiM-Navで74.24%のステップ成功率、Ubu-Navで55.9%の平均成功率に達しました。
オープンウェイトのコーディングエージェントは、クローズドソースシステムに対して根本的な利点を持つはずです。つまり、非公開のコードベースに特化させ、リポジトリ固有の情報を直接重みにエンコードできるからです。しかし、これまで訓練のコストと複雑さにより、この利点は理論上のものでした。私たちはこれが実用的になったことを示します。私たちはSoft-Verified Efficient Repository Agents(SERA)を提案します。これは、非公開コードベースに特化したエージェントを迅速かつ安価に作成することを可能にする、効率的なコーディングエージェント訓練手法です。教師ありファインチューニング(SFT)のみを使用して、SERAは完全なオープンソース(オープンデータ、手法、コード)モデルの中で最高の結果を達成し、Devstral-Small-2のような最先端のオープンウェイトモデルの性能に匹敵します。SERAモデルの作成コストは、同等の性能に達するための強化学習と比べて26倍、従来の合成データ手法と比べて57倍安価です。私たちの手法であるSoft Verified Generation(SVG)は、単一のコードリポジトリから数千の軌跡を生成します。このコスト効率の良さと相まって、非公開コードベースへの特化を可能にします。リポジトリ特化を超えて、私たちはSVGをより大規模なコードベースのコーパスに適用し、20万を超える合成軌跡を生成しました。このデータセットを使用して、コーディングエージェント訓練におけるスケーリング則、アブレーション研究、交絡因子に関する詳細な分析を提供します。全体として、私たちの研究がオープンなコーディングエージェントに関する研究を大幅に加速し、非公開コードベースに特化できるオープンソースモデルの利点を実証すると信じています。私たちはSERAをAi2のOpen Coding Agentsシリーズの最初のモデルとして、研究コミュニティを支援するための全コード、データ、Claude Code連携機能とともに公開します。
タスク非依存の特徴アップサンプリング技術は、事前学習済み視覚バックボーンから効率的に高密度な特徴を生成する有望な研究領域として登場した。これらの手法は、低解像度特徴を高解像度版に写像することを学習することで、従来手法の一部のコストで高密度特徴を実現する近道となる。初期研究では反復的アップサンプリング手法が用いられていたが、近年はクロスアテンションベースの手法へ移行しており、これらはアップサンプリング対象のバックボーンと同様の効率性スケーリング問題に陥るリスクを孕んでいる。本研究では、反復的アップサンプリング手法が依然としてクロスアテンションベース手法と競合可能であること、さらに低い推論コストで最先端の性能を達成できることを実証する。我々はUniversal Pixel-dense Lightweight Feature Transforms(UPLiFT)アーキテクチャを提案する。また、従来の反復的特徴アップサンプリング手法の限界を克服する効率的なLocal Attender演算子を提案する。この演算子は完全に局所的に定義された代替のアテンションプーリング定式化を採用する。Local AttenderによりUPLiFTはアップサンプリング過程を通じて特徴の安定性を維持し、既存のピクセル高密度特徴アップサンプラーよりも低い推論コストで最先端性能を実現できることを示す。さらに、UPLiFTを生成的ダウンストリームタスクに適用し、VAE特徴アップサンプリングにおいて最先端のCoupled Flow Matchingモデルと競合する性能を達成することを実証する。総合的に、UPLiFTは高密度特徴生成に対する汎用性と効率性を兼ね備えたアプローチを提供する。
残響音声に関する数十年にわたる研究にもかかわらず、ほとんどのコーパスがファイル単位の音響注釈を欠いているか、再現のための限定的なドキュメントしか提供していないため、手法の比較は困難である。本論文では、LibriSpeech発話をRIR-Megaコレクションの約5,000のシミュレートされた室内インパルス応答と畳み込むことで作成した、約117.5時間のコーパス「RIR-Mega-Speech」を提案する。全てのファイルには、明確に定義された再現可能な手順を用いて元のRIRから計算されたRT60、直接音と残響音の比(DRR)、明瞭度指数(C_{50})が含まれる。データセットの再構築と全ての評価結果の再現を行うスクリプトも提供する。 1,500の対になった発話に対してWhisper smallを使用した評価では、クリーン音声の単語誤り率(WER)は5.20%(95%信頼区間: 4.69–5.78)、残響音声版では7.70%(7.04–8.35)となり、対にした場合の増加量は2.50パーセントポイント(2.06–2.98)であった。これは48%の相対的な性能劣化に相当する。WERはRT60の増加に伴って単調に増加し、DRRの増加に伴って減少し、従来の知覚研究と一致した。残響が認識性能を低下させるという核心的な知見は既に確立されているが、本研究の目的は、音響条件が透明で結果が独立して検証可能な標準化されたリソースをコミュニティに提供することである。リポジトリには、Windows環境とLinux環境の両方に対応したワンコマンド再構築手順を含む。
マルチモーダル皮肉検出(MSD)は、画像とテキストのペア内における皮肉を、モダリティ間の意味論的不整合をモデル化することで識別することを目的とする。既存手法では、クロスモーダルな埋め込みの不整合を利用して矛盾を検出することが多いが、視覚的コンテンツとテキストコンテンツの関連性が弱い場合や意味的に間接的な場合には対応が困難である。近年のアプローチでは大規模言語モデル(LLM)を活用して皮肉の手がかりを生成するが、生成結果に内在する多様性と主観性により、ノイズが導入されやすい。これらの課題を解決するため、我々は生成的差異比較ネットワーク(GDCNet)を提案する。このフレームワークは、マルチモーダルLLM(MLLM)によって生成された、事実に基づいた記述的な画像キャプションを安定した意味的アンカーとして利用することで、モダリティ間の対立を捉える。具体的には、GDCNetは、生成された客観的記述と元のテキストとの間の意味的および感情的な差異を計算するとともに、視覚-テキスト間の忠実度を測定する。これらの差異特徴は、ゲート機構を備えたモジュールにより視覚的・テキスト的表現と融合され、モダリティの寄与を適応的に調整する。MSDベンチマークにおける大規模な実験により、GDCNetが優れた精度と頑健性を発揮し、MMSD2.0ベンチマークにおいて新たなstate-of-the-artを確立することを実証した。
検証可能な報酬による強化学習(RLVR)は大規模言語モデル(LLM)の推論能力を大幅に向上させてきたが、問題が飽和するにつれて学習が行き詰まる傾向がある。我々は、核心的な課題が「情報量のある失敗へのアクセスの難しさ」にあると特定した。つまり、学習に有効な信号は存在するものの、標準的なロールアウトではほとんど遭遇しないのである。この問題に対処するため、我々は飽和した問題から学習するための簡潔かつ効果的な手法として、失敗接頭辞条件付けを提案する。元の質問から開始するのではなく、稀に生じる誤った推論軌道から導出された接頭辞を条件として訓練を行うことで、探索のリソース配分を変更し、モデルを失敗しやすい状態に曝露する。我々は、失敗接頭辞条件付けが、中程度の難易度の問題で訓練した場合と同等の性能向上をもたらしつつ、トークン効率を維持することを確認した。さらに、モデルの頑健性を分析した結果、本手法は誤った失敗接頭辞が与えられた場合の性能劣化を軽減するが、正しい初期推論への忠実性にわずかなトレードオフが生じることを見出した。最後に、訓練中に失敗接頭辞を更新する反復的アプローチにより、性能が頭打ちになった後でもさらなる向上が可能であることを実証する。全体として、我々の結果は、失敗接頭辞条件付けが飽和した問題に対するRLVR訓練を拡張する効果的な経路を提供することを示唆している。
マルチスピーカー環境における話者属性付き自動音声認識(ASR)は、依然として大きな課題である。特定ドメインでファインチューニングした場合に高い性能を発揮する手法は存在するが、ドメイン外データセットに対して良好な汎化性能を示すシステムはほとんどない。我々の以前の研究であるDiarization-Conditioned Whisper(DiCoW)は、話者ダイアリゼーション出力を条件付け情報として活用し、最小限のファインチューニングで多言語・多ドメインにわたる強力な性能を実証した。本論文では、DiCoWの主要な限界であるSilence-Target-Non-target-Overlap(STNO)マスクの曖昧性に着目する。このマスクでは、2人以上の話者が完全に重なっている場合、転写内容が異なっていてもほぼ同一の条件付けが行われる可能性がある。我々は、SE-DiCoW(Self-Enrolled Diarization-Conditioned Whisper)を提案する。これは、ダイアリゼーション出力を用いて、対象話者が最も活発に発話している会話内の任意の箇所に登録セグメントを特定する。この登録セグメントは、各エンコーダ層におけるクロスアテンションを介した固定条件付けとして利用される。さらに、改良されたデータセグメンテーション、モデル初期化、およびデータ拡張によりDiCoWを改良した。これらの進歩を統合することで大幅な性能向上が達成され、EMMA MT-ASRベンチマークにおいて、SE-DiCoWは元のDiCoWと比較してマクロ平均tcpWERを52.4%相対削減した。
大規模言語モデル(LLM)の推論技術における最近の進展は、学習後損失関数とアライメント戦略の洗練によってますます推進されている。しかし、Group Relative Policy Optimization(GRPO)のような標準的な強化学習(RL)パラダイムは、静的な均一性、すなわち均一なプロンプトサンプリングとプロンプトあたりの固定数のロールアウトによって、未だ制約を受けている。異質的で裾の重い推論データにおいて、これは構造的非効率を生み出し、既に解決されたパターンに計算リソースを浪費する一方で、困難な問題のロングテールを十分に学習できなくしている。この問題に対処するため、我々は訓練分布を動的に適応させることで、均一な推論モデルを超える最適化優先フレームワークであるMulti-Adversary Group Distributionally Robust Optimization(GDRO)を提案する。 我々は、プロンプトを動的なpass@k困難度グループに分割するOnline Difficulty Classifierを導入する。さらに、学習後のための二つの独立したGDROゲームを提案する:(1) **Prompt-GDRO** は、EMAでバイアス補正された乗法重み付けバンディットサンプラーを用いて、集中的な困難度マージンを標的とし、頻度バイアスなく持続的に困難なグループの重みを増加させる。(2) **Rollout-GDRO** は、シャドウプライス制御器を用いてグループ間でロールアウトを再配分し、固定平均予算(計算量中立)の下で困難なタスクにおける勾配分散削減を最大化する。我々は両制御器に対してno-regret保証を提供し、加えてRollout-GDROのための平方根最適ロールアウト配分を動機づける分散代理分析を提供する。 我々はQwen3-Baseモデルを用いてDAPO 14.1kデータセット上で本フレームワークを検証する。Prompt-GDROとRollout-GDROは、1.7B、4B、8Bスケール全体でのpass@8精度において、GRPOベースラインと比較して、それぞれ平均+10.6%、+10.1%の相対的な向上を達成した。定性的分析は、敵対者がリソースを進化する推論フロンティアに移行することで推論モデルの性能が向上する、創発的なカリキュラムが現れることを示している。
社会的にセンシティブなタスク(ヘイトスピーチ検出など)において、大規模言語モデル(LLM)が生成する説明の質は、ユーザーの信頼やモデルの整合性といった要素に対して極めて重要である。パーソナプロンプティング(PP)は、モデルの生成をユーザー特定の方向へ誘導する手法としてますます利用されているが、モデルの理論的根拠(rationale)への影響は未解明のままである。本研究では、異なるシミュレートされた人口統計学的ペルソナを条件とした場合に、LLMが生成する理論的根拠がどのように変化するかを調査する。単語レベルの理論的根拠が注釈されたデータセットを用いて、異なる人口統計学的グループからの人間の注釈との一致度を測定し、PPがモデルのバイアスや人間との整合性に与える影響を評価する。3つのLLMにわたる評価結果から、以下の3つの主要な知見が得られた:(1)PPは最も主観的なタスク(ヘイトスピーチ)における分類精度を向上させるが、理論的根拠の質は低下させる。(2)シミュレートされたペルソナは、現実世界の対応する人口統計学的グループと整合せず、ペルソナ間の高い一致度は、モデルが有意な誘導に対して抵抗を示すことを意味する。(3)モデルは、PPの有無にかかわらず、一貫した人口統計学的バイアスと、コンテンツを有害として過剰にフラグ付けする強い傾向を示す。我々の知見は、PPが社会的にセンシティブなタスクにおける分類を改善し得る一方で、それはしばしば理論的根拠の質の低下という代償を伴い、根底にあるバイアスを緩和できないという重大なトレードオフを明らかにしており、その応用には注意を促すものである。
スケッチは、アニメーション制作において動的な意図(すなわち、要素が時間と空間においてどのように変化するか)を直感的に伝える手段を提供し、自動コンテンツ生成における自然な媒体となっている。しかし、既存の手法では、スケッチを固定されたコマンドトークンや事前定義された視覚的形式に制約することが多く、その自由形式の本質と、意図を形成する上での人間の中心的な役割を見過ごしている。この問題に対処するため、我々は、ユーザーが自由形式のスケッチを通じて動的意図を視覚言語モデルに伝えるインタラクションパラダイムを提案する。ここでは、スケッチストーリーボードからモーショングラフィックスへのワークフローとして具体化した。我々はインターフェースを実装し、24名の参加者による3段階の研究を通じてそれを改善した。本研究は、スケッチが最小限の入力で動きを如何に伝えるか、その内在する曖昧さが如何に解釈の明確化のためにユーザーの関与を必要とするか、そしてスケッチが如何に視覚的に映像の洗練を導くかを示す。我々の知見は、スケッチとAIのインタラクションが意図と結果の間の隔たりを埋める可能性を明らかにし、3Dアニメーションや映像生成への応用可能性を実証するものである。
ロボットのリアルタイム展開に対する需要の高まりに伴い、視覚言語行動(VLA)モデルにおける高速かつオンデバイス推論の必要性が増している。VLA研究において、効率性は視覚トークンの剪定など、トークンレベルで広く研究されてきた。一方で、体系的なTransformer層の削減に関する研究は限られており、知識蒸約下におけるフローベースVLAモデルの層削減は、我々の知る限り未開拓である。本研究では、Shallow-piを提案する。これはVLMバックボーンとフローベース行動ヘッドの両方のTransformer深さを18層から6層へと積極的に圧縮する、原理に基づいた知識蒸約フレームワークである。Shallow-piは、標準的なマニピュレーションベンチマークにおいて成功率の絶対値で1%未満の低下に留めつつ、推論速度を2倍以上高速化し、縮小版VLAモデルの中で最先端の性能を確立した。決定的に、我々はJetson OrinおよびJetson Thor上で、ヒューマノイドシステムを含む複数のロボットプラットフォームを用い、複雑で動的なマニピュレーションシナリオにおける産業規模の実世界実験を通じて本アプローチを検証した。