翻訳付きの日次キュレーションされたAI研究論文
私たちは、自然言語からの表現力豊かなストーリーボード生成のためのトレーニング不要のフレームワーク「Story2Board」を提案します。既存の手法は被写体の同一性に焦点を当てるだけで、空間構成、背景の変化、物語のテンポといった視覚的ストーリーテリングの重要な側面を見落としています。この問題を解決するため、2つのコンポーネントからなる軽量な一貫性フレームワークを導入します。1つ目は「Latent Panel Anchoring」で、パネル間で共有されるキャラクターの参照を保持します。2つ目は「Reciprocal Attention Value Mixing」で、相互に強い注意を持つトークンペア間の視覚的特徴をソフトにブレンドします。これらのメカニズムを組み合わせることで、アーキテクチャの変更やファインチューニングなしに一貫性を向上させ、最先端の拡散モデルが視覚的に多様でありながら一貫性のあるストーリーボードを生成できるようにします。生成を構造化するために、オフ・ザ・シェルフの言語モデルを使用して自由形式の物語を具体的なパネルレベルのプロンプトに変換します。評価のために、一貫性に加えてレイアウトの多様性と背景に基づいたストーリーテリングを評価するために設計されたオープンドメインの物語スイート「Rich Storyboard Benchmark」を提案します。また、ストーリーボード全体の空間的およびポーズの変動を定量化する新しい「Scene Diversity」メトリックを導入します。定性的および定量的な結果、およびユーザー調査により、Story2Boardが既存のベースラインよりも動的で一貫性があり、物語的に魅力的なストーリーボードを生成することが示されています。
大規模言語モデル(LLMs)、特にDeepSeek-R1やQWQのような明示的な長い連鎖思考(CoT)推論モデルは、常識推論や数学的推論において強力な推論能力を示し、印象的な性能を達成しています。しかし、その有効性にもかかわらず、長いCoT推論モデルは、分子発見のような知識集約的な領域において能力が限られており、効率が低いと批判されることが多いです。この分野での成功には、分子構造や化学原理を含むドメイン知識の正確な理解が必要であり、分子データの本質的な複雑さと高品質な専門家の注釈の不足により、これは困難です。このギャップを埋めるため、我々はMol-R1を紹介します。これは、テキストベースの分子生成において、R1のような明示的な長いCoT推論LLMsの説明可能性と推論性能を向上させるために設計された新しいフレームワークです。我々のアプローチは、事前規制による文脈内蒸留(PRID)を通じてキュレートされた高品質な推論データセットから始まります。これは、事前規制に導かれたペアの推論トレースを効果的に生成するための専用の蒸留戦略です。これに基づいて、我々はMoIA(Molecular Iterative Adaptation)を導入します。これは、教師あり微調整(SFT)と強化学習によるポリシー最適化(RPO)を反復的に組み合わせた洗練されたトレーニング戦略であり、分子発見のためのR1のような推論モデルの推論性能を向上させるために調整されています。最後に、我々はMol-R1のテキストベースの分子推論生成タスクにおける性能を検証し、既存のベースラインに対して優れた性能を示します。
ユーザー指定のIDに一致する高精細な人間の動画を生成することは、生成AIの分野において重要でありながらも困難な課題です。既存の手法は、過剰な数の学習パラメータに依存しており、他のAIGCツールとの互換性に欠けることが多いです。本論文では、動画生成におけるID保存のための軽量でプラグアンドプレイ可能なフレームワーク「Stand-In」を提案します。具体的には、事前学習済みの動画生成モデルに条件付き画像ブランチを導入します。ID制御は、条件付き位置マッピングを用いた制限付きセルフアテンションによって実現され、わずか2000ペアのデータで迅速に学習可能です。追加パラメータをわずか約1%しか組み込まずに訓練するにもかかわらず、本フレームワークは動画品質とID保存において優れた結果を達成し、他のフルパラメータ訓練手法を上回ります。さらに、本フレームワークは、被写体駆動動画生成、ポーズ参照動画生成、スタイライゼーション、フェイススワッピングなどの他のタスクにもシームレスに統合可能です。
我々は、長期記憶を備えた新しいマルチモーダルエージェントフレームワークであるM3-Agentを紹介する。人間と同様に、M3-Agentはリアルタイムの視覚および聴覚入力を処理し、長期記憶を構築・更新することができる。エピソード記憶に加えて、意味記憶も発達させ、時間の経過とともに世界知識を蓄積することが可能である。その記憶はエンティティ中心のマルチモーダル形式で組織化されており、環境に対するより深く一貫した理解を可能にする。指示が与えられると、M3-Agentは自律的に多段階の反復推論を行い、タスクを達成するために記憶から関連情報を検索する。マルチモーダルエージェントにおける記憶の有効性と記憶に基づく推論を評価するために、我々は新しい長編動画質問応答ベンチマークであるM3-Benchを開発した。M3-Benchは、ロボットの視点から撮影された100本の新規実写動画(M3-Bench-robot)と、多様なシナリオにわたる929本のウェブソース動画(M3-Bench-web)で構成されている。我々は、エージェントアプリケーションに不可欠な主要な能力(人間の理解、一般知識の抽出、クロスモーダル推論など)をテストするために設計された質問-回答ペアを注釈した。実験結果は、強化学習によって訓練されたM3-Agentが、Gemini-1.5-proとGPT-4oを使用したプロンプティングエージェントという最強のベースラインを上回り、M3-Bench-robot、M3-Bench-web、およびVideoMME-longにおいてそれぞれ6.7%、7.7%、5.3%高い精度を達成したことを示している。我々の研究は、マルチモーダルエージェントをより人間らしい長期記憶に向けて前進させ、その実用的な設計に関する洞察を提供する。モデル、コード、データはhttps://github.com/bytedance-seed/m3-agentで入手可能である。
Diffusion Large Language Models (dLLMs) は、テキスト生成において自己回帰型 (AR) LLMs の有望な代替として登場し、単一の反復で複数のトークンをデコードする可能性を秘めています。しかし、既存のオープンソース dLLMs のいずれも、同規模の AR LLMs を上回る推論速度を達成していません。本論文は、discrete diffusion forcing (D2F) というシンプルで効果的な戦略に基づいてこの障壁を打破します。D2F は dLLMs に2つの重要な能力を付与します:(1) KVキャッシュの活用を可能にするブロック単位の自己回帰生成、(2) 前のブロックの完了を必要とせずに次のトークンを予測するブロック間並列デコード。これにより、従来の dLLMs は効率的な推論のための AR-diffusion ハイブリッドパラダイムに改造されます。D2F は、事前学習済み dLLMs に基づく非対称蒸留プロセスで実装可能です。さらに、効率と効果のトレードオフを可能にするパイプライン並列デコードアルゴリズムを提案します。実験的には、D2F dLLMs は GSM8K において LLaMA3 や Qwen2.5 よりも2.5倍以上の推論速度を達成します。LLaDA や Dream のような従来の dLLMs と比較すると、出力品質を維持しながら50倍以上の高速化が可能です。コードは https://github.com/zhijie-group/Discrete-Diffusion-Forcing で公開されています。
大規模言語モデル(LLM)の急速な進化により、インテリジェントエージェントは複雑な現実世界の問題を解決するために多様な外部ツールを活用できるようになりました。しかし、エージェントが複数のツールに依存するにつれて、新たな課題が生じています。異なるソースからの拡張されたコンテキストや、ノイズや無関係なツール出力は、システムの信頼性と精度を損なう可能性があります。これらの課題は、エージェントベースのシステムにおける安定性の向上の必要性を浮き彫りにしています。これを解決するために、我々は動的な監視と操作メカニズムを導入し、AWorldフレームワーク内で堅牢で動的なマルチエージェントシステム(MAS)アーキテクチャを構築しました。我々のアプローチでは、実行エージェントが重要なステップでガードエージェントを呼び出し、推論プロセスを検証および修正することで、ノイズに起因するエラーを効果的に削減し、問題解決の堅牢性を強化します。GAIAテストデータセットでの広範な実験により、我々の動的操作メカニズムが、単一エージェントシステム(SAS)や標準的なツール拡張システムを上回り、ソリューションの有効性と安定性を大幅に向上させることが明らかになりました。その結果、我々の動的MASシステムは、権威あるGAIAリーダーボードでオープンソースプロジェクトの中で首位を獲得しました。これらの発見は、より信頼性の高いインテリジェントシステムを開発する上で、協調的なエージェントの役割の実用的な価値を強調しています。
最近、GPT-4oは画像生成における強力な性能で注目を集めているが、オープンソースモデルはまだ遅れを取っている。GPT-4oから画像データを蒸留してオープンソースモデルを強化する研究がいくつか行われ、顕著な進展を遂げている。しかし、重要な疑問が残る:現実世界の画像データセットがすでに高品質なデータの自然な源であるならば、なぜGPT-4oが生成した合成データを使用する必要があるのか?本研究では、合成画像の2つの主要な利点を特定した。第一に、合成画像は現実世界のデータセットでは稀なシナリオ、例えばシュールなファンタジーや複数参照画像生成など、ユーザークエリで頻繁に発生するシナリオを補完できる。第二に、合成画像はクリーンで制御可能な教師信号を提供する。現実世界のデータはしばしば複雑な背景ノイズやテキスト記述と画像内容の間の不整合を含むが、合成画像は純粋な背景とロングテールの教師信号を提供し、より正確なテキストから画像への整合を容易にする。これらの洞察に基づき、我々はGPT-4oによって生成された180K規模の合成データセットであるEcho-4o-Imageを導入し、合成画像データの力を活用して現実世界のカバレッジの盲点に対処する。このデータセットを使用して、統一されたマルチモーダル生成ベースラインであるBagelを微調整し、Echo-4oを取得した。さらに、画像生成能力をより正確かつ挑戦的に評価するための2つの新しい評価ベンチマークを提案した:GenEval++は、スコア飽和を緩和するために指示の複雑さを増し、Imagine-Benchは、想像力豊かな内容の理解と生成の両方を評価することに焦点を当てている。Echo-4oは標準ベンチマークで強力な性能を示した。さらに、Echo-4o-Imageを他の基盤モデル(例えば、OmniGen2、BLIP3-o)に適用すると、複数のメトリクスで一貫した性能向上が得られ、データセットの強力な転移性が強調された。
アライメント手法は、言語モデルのアライメント能力を向上させるための重要な道筋として浮上しています。SFT(教師ありファインチューニング)は、直接的なトークンレベルの損失介入によって収束を加速しますが、その効果はオフラインポリシートラジェクトリによって制約を受けます。一方、RL(強化学習)は探索的なポリシー最適化を促進しますが、サンプル効率が低く、高品質なベースモデルへの厳密な依存性に悩まされます。これらの二重の課題に対処するため、我々はGRAO(Group Relative Alignment Optimization)を提案します。これは、SFTとRLのそれぞれの強みを相乗的に活用する統一フレームワークであり、以下の3つの主要な革新を通じて実現されます:1)報酬フィードバックによる比較的品質評価を可能にする多サンプル生成戦略、2)グループ内相対的優位性重み付けを活用した新規のGroup Direct Alignment Lossの定式化、3)ペアワイズ選好ダイナミクスに基づく参照認識パラメータ更新。我々の理論分析は、GRAOが従来のアプローチに対して収束保証とサンプル効率の優位性を持つことを示しています。複雑な人間アライメントタスクにわたる包括的評価は、GRAOがSFT、DPO、PPO、GRPOのベースラインに対してそれぞれ57.70%、17.65%、7.95%、5.18%の相対的改善を達成し、優れた性能を発揮することを実証しています。本論文は、理論的に裏付けられたアライメントフレームワークと、言語モデルの効率的な能力進化に関する実証的証拠を提供します。
マルチモーダル大規模言語モデル(MLLMs)は、既存のさまざまなベンチマークにおいて、視覚的数学的推論において顕著な能力を発揮してきました。しかし、これらのベンチマークは主にクリーンまたは処理されたマルチモーダル入力を基にしており、現実世界の幼稚園から12年生(K-12)までの教育ユーザーが提供する画像を取り入れていません。このギャップを埋めるため、私たちはMathRealを導入します。これは、実際のシナリオで携帯型モバイルデバイスによって撮影された画像を含む2,000の数学的問題を慎重に選定したデータセットです。各問題は画像であり、問題文と視覚的要素を含んでいます。私たちは現実の画像を体系的に3つの主要カテゴリに分類します:画像品質の劣化、視点の変化、無関係な内容の干渉で、これらはさらに14のサブカテゴリに細分化されます。さらに、MathRealは5つの核心的な知識と能力カテゴリにまたがり、3つの問題タイプを含み、3つの難易度レベルに分かれています。最先端のMLLMsの現実世界におけるマルチモーダル数学的推論能力を包括的に評価するため、私たちは6つの実験設定を設計し、それらのパフォーマンスを体系的に分析します。広範な実験を通じて、既存のMLLMsの問題解決能力が現実の教育文脈において大幅に挑戦されていることがわかりました。これに基づいて、私たちはそれらのパフォーマンスとエラーパターンを徹底的に分析し、認識、理解、推論能力に関する洞察を提供し、将来の改善の方向性を示します。データとコードはこちら:https://github.com/junfeng0288/MathReal。
大規模言語モデル(LLMs)は、推論タスクにおいて顕著な性能を発揮しており、その推論能力を強化するための主要なアルゴリズムとして強化学習(RL)が活用されています。現在、主流の報酬パラダイムは2つあります:モデルベースの報酬とルールベースの報酬です。しかし、どちらのアプローチも限界を抱えています:ルールベースの報酬は堅牢性に欠け、モデルベースの報酬は報酬ハッキングに対して脆弱です。これらの問題を解決するため、我々はCooper(Co-optimizing Policy Model and Reward Model)を提案します。これは、ポリシーモデルと報酬モデルを共同で最適化するRLフレームワークです。Cooperは、正しい応答を識別する際のルールベース報酬の高精度を活用し、報酬モデルの継続的なトレーニングのために動的に正例-負例ペアを構築・選択します。この設計により、堅牢性が向上し、報酬ハッキングのリスクが軽減されます。さらにCooperをサポートするため、報酬モデルのトレーニングデータを効率的かつ正確に生成するハイブリッドアノテーション戦略を導入します。また、参照ベースの報酬モデリングパラダイムを提案し、報酬モデルが参照回答を入力として受け取るように設計します。この設計に基づき、VerifyRMという報酬モデルをトレーニングし、VerifyBenchにおいて同サイズの他のモデルよりも高い精度を達成しました。VerifyRMとCooperの両方を使用して強化学習を実施しました。実験結果は、Cooperが報酬ハッキングを軽減するだけでなく、エンドツーエンドのRL性能も向上させることを示しています。例えば、Qwen2.5-1.5B-Instructにおいて平均精度で0.54%の向上を達成しました。我々の研究結果は、報酬モデルを動的に更新することが報酬ハッキングに対抗する有効な方法であり、報酬モデルをRLに統合するための参考となることを示しています。
テストタイムスケーリングの新たなパラダイムは、大規模言語モデル(LLMs)(例:推論モデル)や生成視覚モデルにおいて驚くべきブレークスルーをもたらし、推論時に追加の計算リソースを割り当てることで、ますます複雑化する問題に効果的に対処できるようになりました。このアプローチの改善にもかかわらず、重要な制限が浮上しています:計算時間の大幅な増加により、プロセスが遅くなり、多くのアプリケーションでは実用的でなくなっています。このパラダイムの成功とその使用の増加を踏まえ、私たちは推論のオーバーヘッドを回避しながらその利点を維持することを目指しています。本研究では、ポストトレーニング中にテストタイムスケーリングの知識をモデルに統合するという重要な問題に対する一つの解決策を提案します。具体的には、拡散モデルにおける報酬誘導型テストタイムノイズ最適化を、初期入力ノイズを調整するノイズハイパーネットワークに置き換えます。私たちは、蒸留された生成器に対して報酬に傾いた分布を学習するための理論的に根拠のあるフレームワークを提案し、ベースモデルへの忠実性を維持しながら所望の特性を最適化する扱いやすいノイズ空間目的関数を通じてこれを実現します。私たちのアプローチが、明示的なテストタイム最適化から得られる品質向上の大部分を、計算コストのごく一部で回復することを示します。コードはhttps://github.com/ExplainableML/HyperNoiseで公開されています。
視覚言語モデル(VLM)は、自然言語クエリと画像に基づいて特定のオブジェクトを画像内で位置特定する視覚的グラウンディングなどのタスクにおいて、大きな進展を見せています。しかし、VLMの視覚的グラウンディングタスクにおけるセキュリティ問題、特にバックドア攻撃の文脈では、まだ十分に研究されていません。本論文では、VLMのグラウンディング動作を操作するための新しい入力依存型バックドア攻撃手法、IAGを提案します。この攻撃は、ユーザーのクエリに関わらず、入力画像内の特定のターゲットオブジェクトをモデルに位置特定させます。我々は、テキスト条件付きU-Netを使用して攻撃ターゲットの記述の意味情報を元の画像に埋め込む適応型トリガージェネレータを提案し、これによりオープン語彙攻撃の課題を克服します。攻撃のステルス性を確保するため、再構成損失を利用して、汚染された画像とクリーンな画像間の視覚的差異を最小化します。さらに、攻撃データを生成するための統一的な手法を導入します。IAGは理論的および実験的に評価され、その実現可能性と有効性が示されています。特に、InternVL-2.5-8BにおけるASR@0.5は、様々なテストセットで65%以上に達しています。IAGはまた、Ferret-7BやLlaVA-1.5-7Bを操作する上でも有望な可能性を示し、クリーンなサンプルでの精度低下が非常に少ないことが確認されています。アブレーションスタディや潜在的な防御策を含む広範な特定実験も、我々の攻撃の堅牢性と転移性を示しています。
マルチモーダル大規模言語モデル(MLLMs)は、視覚的およびテキスト的な理解の統合を大幅に進展させてきました。しかし、マルチモーダル入力からコードを生成する能力は依然として限られています。本研究では、視覚とコーディング言語モデルをシームレスに統合し、MLLMsに強力なマルチモーダルコード生成能力を付与する統一フレームワーク「VisCodex」を紹介します。タスクベクトルベースのモデル統合技術を活用し、最先端のコーディングLLMを強力な視覚言語バックボーンに統合することで、視覚的理解と高度なコーディングスキルの両方を維持します。トレーニングと評価を支援するため、59万8千のサンプルを含む大規模で多様な「Multimodal Coding Dataset(MCD)」を導入します。これには、高品質なHTMLコード、チャート画像とコードのペア、画像拡張されたStackOverflowのQA、およびアルゴリズム問題が含まれます。さらに、テキストと視覚的コンテキストの微妙な理解を必要とする、視覚的にリッチな現実世界のプログラミング問題に特化した新規で挑戦的なベンチマーク「InfiBench-V」を提案します。広範な実験により、VisCodexがオープンソースのMLLMsの中で最先端の性能を達成し、GPT-4oのようなプロプライエタリモデルに近づくことが示され、我々のモデル統合戦略と新しいデータセットの有効性が強調されています。
テキストから画像(T2I)モデルの最近の進展により、基盤モデルの生成事前分布を活用したトレーニング不要の領域画像編集が可能となった。しかし、既存の手法では、編集領域におけるテキストの忠実度、未編集領域のコンテキストの忠実度、および編集のシームレスな統合のバランスを取ることが困難である。本論文では、これらの課題に対処する新しいトレーニング不要のフレームワークであるCannyEditを紹介する。CannyEditは、以下の2つの主要なイノベーションを通じてこれらの課題を解決する:(1) 選択的Canny制御(Selective Canny Control)は、ユーザー指定の編集可能領域においてCanny ControlNetの構造的ガイダンスをマスクしつつ、未編集領域の詳細を逆位相ControlNet情報保持によって厳密に保存する。これにより、コンテキストの整合性を損なうことなく、テキスト駆動の精密な編集が可能となる。(2) デュアルプロンプトガイダンス(Dual-Prompt Guidance)は、オブジェクト固有の編集のためのローカルプロンプトと、シーン内の相互作用を維持するためのグローバルターゲットプロンプトを組み合わせる。実世界の画像編集タスク(追加、置換、削除)において、CannyEditはKV-Editなどの従来手法を上回り、テキストの忠実度とコンテキストの忠実度のバランスにおいて2.93から10.49パーセントの改善を達成した。編集のシームレスさに関しては、ユーザー調査によると、編集のない実画像と組み合わせた場合、一般ユーザーの49.2パーセント、AIGC専門家の42.0パーセントのみがCannyEditの結果をAI編集と認識したのに対し、競合手法では76.08から89.09パーセントがAI編集と認識した。
急速に進化する説明可能な自然言語処理(NLP)の分野において、テキストによる説明、すなわち人間らしい論理付けは、モデルの予測を説明し、解釈可能なラベルでデータセットを充実させる上で極めて重要です。従来のアプローチは人間によるアノテーションに依存しており、コストが高く、労力を要し、スケーラビリティを妨げるという課題があります。本研究では、複数の最先端の大規模言語モデル(LLM)を活用して高品質なテキスト説明を自動生成するフレームワークを提案します。これらのLLM生成説明の品質を、自然言語生成(NLG)の包括的な評価指標を用いて厳密に評価します。さらに、2つの多様なベンチマークデータセットにおける自然言語推論タスクにおいて、これらの説明が事前学習済み言語モデル(PLM)およびLLMの性能に与える下流の影響を調査します。実験結果から、自動生成された説明は、モデル性能の向上において人間によるアノテーションと同等以上の効果を示すことが明らかになりました。本研究の知見は、NLPデータセットの拡張とモデル性能の向上に向けた、スケーラブルなLLMベースのテキスト説明自動生成の有望な道筋を示唆しています。
近年、大規模言語モデル(LLMs)への関心と採用が高まっており、大規模なトレーニングにおけるハイパーパラメータのチューニングにおいてmuTransferが重要な技術となっています。一方で、Mixture-of-Experts(MoE)は極めて大規模なモデルにおける主要なアーキテクチャとして登場しました。しかし、これら2つの進歩の交差点は未だ探求されていません。本研究では、MoEに対するmu-Parameterization(muP)を導出し、ルーターとエキスパートの両方においてモデルの幅にわたる特徴学習の理論的保証を提供します。私たちはこのパラメータ化を実証的に検証し、さらにエキスパートの数と粒度をスケーリングすることが最適な学習率にどのように影響するかを調査します。
検証可能な報酬を用いた強化学習で訓練された大規模言語モデルは、精度を長さと引き換えにする傾向があります。つまり、精度を向上させるために応答の長さを膨らませるのです。難しい問題に対しては長い回答が必要な場合もありますが、多くのトークンは単なる「埋め草」であり、繰り返しや冗長なテキストで実質的な進展がありません。本論文では、GFPO(Group Filtered Policy Optimization)を導入し、訓練中に問題ごとに大きなグループをサンプリングし、応答を2つの主要な指標に基づいてフィルタリングすることで、この長さの爆発を抑制します。その指標とは、(1) 応答の長さと、(2) トークン効率(トークンあたりの報酬比)です。訓練時に多くのサンプリングを行うことで、推論時にモデルが考える量を減らすことを教えます。Phi-4-reasoningモデルにおいて、GFPOはGRPOの長さの膨張を46-71%削減し、STEMやコーディングのベンチマーク(AIME 24/25、GPQA、Omni-MATH、LiveCodeBench)で精度を維持します。トークンあたりの報酬を最適化することで、長さの膨張の削減率はさらに71-85%に向上します。また、Adaptive Difficulty GFPOを提案し、リアルタイムの難易度推定に基づいて難しい問題により多くの訓練リソースを動的に割り当てることで、特に難しい質問において計算効率と精度のバランスを改善します。GFPOは、訓練時の計算量の増加が直接的にテスト時の計算量の削減につながることを示しており、効率的な推論のためのシンプルかつ効果的なトレードオフを実現します。
スパースビューからの3Dガウシアンスプラッティング(3DGS)を用いた3Dシーンの再構築は、情報が不十分であるため不良設定問題となり、しばしば目立つアーティファクトが生じます。最近のアプローチでは、制約の少ない領域の情報を補完するために生成的プライアを活用しようとしていますが、入力観測と一貫性のあるコンテンツを生成することに苦戦しています。この課題に対処するため、我々はGSFixerを提案します。これは、スパース入力から再構築された3DGS表現の品質を向上させるための新しいフレームワークです。我々のアプローチの中核は、DiTベースのビデオ拡散モデルに基づく参照ガイド付きビデオ復元モデルであり、アーティファクトのある3DGSレンダリングとクリーンフレームのペアに追加の参照ベースの条件を付けてトレーニングされています。入力スパースビューを参照として考慮し、我々のモデルは、視覚幾何学基盤モデルから抽出された参照ビューの2Dセマンティック特徴と3D幾何学的特徴を統合し、アーティファクトのある新規ビューを修正する際のセマンティック一貫性と3D一貫性を強化します。さらに、3DGSアーティファクト復元評価に適したベンチマークが不足していることを考慮し、低品質3DGSでレンダリングされたアーティファクトフレームを含むDL3DV-Resを提示します。大規模な実験により、我々のGSFixerが3DGSアーティファクト復元およびスパースビュー3D再構築において現在の最先端手法を凌駕することが実証されています。プロジェクトページ:https://github.com/GVCLab/GSFixer。
本論文は、マイクロエアリアルビークル(MAV)のチームを用いて、ケーブルで吊り下げられた荷物の現実世界での6自由度(6-DoF)操作を可能にする初の分散型手法を提案する。我々の手法は、マルチエージェント強化学習(MARL)を活用し、各MAVの外側ループ制御ポリシーを訓練する。最先端のコントローラが集中型スキームを利用するのとは異なり、我々のポリシーはグローバルな状態、MAV間の通信、または隣接するMAVの情報を必要としない。代わりに、エージェントは荷物の姿勢観測のみを通じて暗黙的に通信し、高いスケーラビリティと柔軟性を実現する。これにより、推論時の計算コストも大幅に削減され、ポリシーのオンボード展開が可能となる。さらに、MAVのための新しいアクション空間設計を、線形加速度とボディレートを用いて導入する。この選択は、堅牢な低レベルコントローラと組み合わさり、動的な3D動作中のケーブル張力による大きな不確実性にもかかわらず、信頼性の高いシミュレーションから現実への転移を可能にする。我々は、荷物モデルの不確実性下での完全姿勢制御を含む様々な現実世界の実験を通じて本手法を検証し、最先端の集中型手法に匹敵するセットポイント追従性能を示す。また、異種制御ポリシーを持つエージェント間の協調や、1台のMAVが完全に飛行中に失われた場合のロバスト性も実証する。実験の動画は以下を参照:https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
精密な病変切除は、微細な解剖学的構造を正確に識別することに依存しています。多くの粗粒度セグメンテーション(CGS)手法は大規模なセグメンテーション(例:臓器)で成功を収めていますが、微細なセグメンテーション(FGS)を必要とする臨床シナリオでは不十分であり、小規模な解剖学的構造における個体差の頻繁な発生により依然として課題となっています。最近のMambaベースのモデルは医用画像セグメンテーションを進歩させましたが、固定された手動定義のスキャン順序に依存することが多く、FGSにおける個体差への適応性が制限されています。これを解決するため、我々はFGSのための新しいMambaベースのアーキテクチャであるASM-UNetを提案します。ASM-UNetは、グループレベルの共通性と個体レベルの変動を組み合わせて生成される適応スキャンスコアを導入し、スキャン順序を動的にガイドします。2つの公開データセット(ACDCとSynapse)および新たに提案された挑戦的な胆道系FGSデータセット(BTMS)での実験により、ASM-UNetがCGSとFGSの両タスクで優れた性能を達成することが示されました。我々のコードとデータセットはhttps://github.com/YqunYang/ASM-UNetで公開されています。
メンバーシップ推論攻撃は、潜在的な著作権侵害の検出やデータ漏洩の監査など、言語モデルの公正な使用を促進する有用なツールとして機能する。しかし、現在の多くの最先端の攻撃手法は、モデルの隠れ状態や確率分布へのアクセスを必要とするため、GPT-4のようなAPIアクセスのみが可能な広く利用されているモデルに対する調査が制限されている。本研究では、N-gramカバレッジ攻撃を提案する。これは、ターゲットモデルからのテキスト出力のみに依存するメンバーシップ推論攻撃であり、完全なブラックボックスモデルに対する攻撃を可能にする。我々は、モデルがその訓練データで頻繁に観察されたテキストパターンを記憶し、その後生成する可能性が高いという観察を活用する。具体的には、候補メンバーに対する予測を行うために、N-gramカバレッジ攻撃はまず、候補のプレフィックスを条件として複数のモデル生成を取得する。次に、これらの出力と真のサフィックスとの類似性をn-gram重複メトリクスを用いて計算し、集約する。高い類似性は、メンバーシップの可能性を示唆する。我々はまず、多様な既存のベンチマークにおいて、N-gramカバレッジ攻撃が他のブラックボックス手法を上回り、テキスト出力のみにアクセスしているにもかかわらず、最先端のホワイトボックス攻撃と同等またはそれ以上の性能を達成することを実証する。興味深いことに、我々の手法の成功率は攻撃計算予算に比例してスケールすることがわかった。プレフィックスを条件としてターゲットモデルから生成されるシーケンスの数を増やすと、攻撃性能が向上する傾向がある。我々の手法の精度を検証した後、複数のドメインにおいて、これまで未調査であったOpenAIのクローズドモデルを調査するためにこれを利用する。我々は、GPT-4oのようなより最近のモデルが、メンバーシップ推論に対する堅牢性を増していることを発見し、プライバシー保護の改善に向けた進化の傾向を示唆している。
大規模言語モデル(LLM)は、通常、推論タスクに対して、教師ありファインチューニング(SFT)と強化学習(RL)の2段階パイプラインを通じてファインチューニングされます。このプロセスは、破滅的な忘却や模倣と探索の間の最適でないトレードオフに悩まされています。最近の単一段階の手法は、ヒューリスティックを使用してSFTとRLを統合しようと試みていますが、これら2つのパラダイムを動的にバランスさせるための原理的なメカニズムが欠けています。本論文では、この課題を暗黙的報酬の理論的視点を通じて再構築し、SFTとRLを異なる手法ではなく、補完的な報酬信号として捉えます。我々は、Adaptive Meta Fine-Tuning(AMFT)という新しい単一段階アルゴリズムを導入します。AMFTは、SFTの暗黙的なパスレベル報酬とRLの明示的な結果ベース報酬の間の最適なバランスを学習します。AMFTの核心は、SFTとRLのバランスを学習可能なパラメータとして扱い、長期的なタスク性能を最大化するために動的に最適化するメタ勾配適応重みコントローラです。この先見的なアプローチは、安定性のためにポリシーエントロピーによって正則化され、効果的なトレーニングカリキュラムを自律的に発見します。我々は、数学的推論、抽象的視覚推論(General Points)、視覚言語ナビゲーション(V-IRL)にわたる挑戦的なベンチマークで包括的な評価を行いました。AMFTは一貫して新しい最先端を確立し、分布外(OOD)タスクでの優れた汎化能力を示します。アブレーション研究とトレーニング動態分析により、メタ学習コントローラがAMFTの安定性、サンプル効率、および性能にとって重要であることが確認され、LLMのアラインメントのためのより原理的で効果的なパラダイムを提供します。我々のコードはhttps://github.com/hlxtsyj/AMFTで公開されています。
大規模言語モデル(LLM)の急速な普及は、事実に基づく質問応答(QA)が可能な公平なAIシステムの開発に大きく貢献してきました。しかし、難読化されたバージョンの質問を提示された際のLLMの堅牢性を検証する研究はこれまで存在しませんでした。これらの限界を体系的に評価するため、我々は新たな技術「ObfusQAte」を提案し、これを活用して「ObfusQA」を導入します。ObfusQAは、LLMの能力を3つの異なる次元で検証するために設計された、多層的な難読化レベルを備えた初の包括的フレームワークです。その次元とは、(i) 固有表現の間接化、(ii) ディストラクターの間接化、(iii) 文脈の過負荷です。言語におけるこれらの細かな差異を捉えることで、ObfusQAはLLMの堅牢性と適応性を評価するための包括的なベンチマークを提供します。我々の研究では、LLMがこれらのますます微妙なバリエーションに直面した際、失敗したり虚構の応答を生成したりする傾向があることが観察されました。この方向性の研究を促進するため、ObfusQAteを公開します。