翻訳付きの日次キュレーションされたAI研究論文
画像修復は、画像編集と画像生成の間に位置する基本的な研究領域である。近年の最先端(SOTA)手法は、新しいアテンションメカニズム、軽量なアーキテクチャ、およびコンテキストを考慮したモデリングを探求し、印象的な性能を実証している。しかし、これらの手法は複雑な構造(例えば、テクスチャ、形状、空間関係)や意味論(例えば、色の一貫性、オブジェクトの復元、論理的正確さ)に苦戦し、アーティファクトや不適切な生成を引き起こすことが多い。この課題に対処するため、我々は潜在カテゴリガイダンスと呼ばれるシンプルでありながら効果的な修復パラダイムを設計し、さらにPixelHackerという拡散ベースのモデルを提案する。具体的には、まず前景と背景(それぞれ116および21の潜在カテゴリ)を注釈付けすることで、1400万の画像-マスクペアを含む大規模なデータセットを構築する。次に、潜在的な前景と背景の表現をそれぞれ2つの固定サイズの埋め込みを通じて別々にエンコードし、線形アテンションを介してこれらの特徴をノイズ除去プロセスに断続的に注入する。最後に、我々のデータセットで事前学習し、オープンソースのベンチマークで微調整することで、PixelHackerを獲得する。広範な実験により、PixelHackerはPlaces2、CelebA-HQ、FFHQなどの多様なデータセットにおいてSOTAを包括的に上回り、構造と意味論の両方で顕著な一貫性を示すことが確認された。プロジェクトページはhttps://hustvl.github.io/PixelHackerにて公開されている。
Llama-Nemotronシリーズのモデルを紹介する。これは、優れた推論能力、推論効率、および企業利用のためのオープンライセンスを提供する、異種推論モデルのオープンファミリーである。このファミリーは、Nano(8B)、Super(49B)、Ultra(253B)の3つのサイズで提供され、DeepSeek-R1などの最先端の推論モデルと競争力のある性能を発揮しながら、優れた推論スループットとメモリ効率を提供する。本報告では、これらのモデルのトレーニング手順について議論する。これには、Llama 3モデルからのニューラルアーキテクチャサーチを用いた高速化推論、知識蒸留、および継続的な事前学習が含まれ、その後、推論に焦点を当てたポストトレーニング段階が続く。ポストトレーニング段階は、教師ありファインチューニングと大規模な強化学習の2つの主要部分から構成される。Llama-Nemotronモデルは、動的な推論切り替えをサポートする最初のオープンソースモデルであり、ユーザーは推論中に標準のチャットモードと推論モードを切り替えることができる。オープンリサーチをさらに支援し、モデル開発を促進するために、以下のリソースを提供する:1. Llama-Nemotron推論モデル(LN-Nano、LN-Super、LN-Ultra)を、商業的に許容可能なNVIDIAオープンモデルライセンス契約の下でリリースする。2. 完全なポストトレーニングデータセット(Llama-Nemotron-Post-Training-Dataset)をリリースする。3. トレーニングコードベース(NeMo、NeMo-Aligner、Megatron-LM)もリリースする。
現実世界の画像編集タスクの多くは、所望の結果を得るために複数の連続的な編集を必要とする。現在の編集手法は、主に単一オブジェクトの変更を想定して設計されており、連続的な編集において課題を抱えている。特に、既存の編集内容を維持しつつ、新しいオブジェクトを自然に既存のコンテンツに適応させることが困難である。これらの制約は、複数のオブジェクトをその文脈的関係を保ちながら変更する必要がある複雑な編集シナリオにおいて大きな障壁となっている。本研究では、この根本的な課題に対処するため、2つの主要な提案を行う。既存のコンテンツを維持しつつ新しい要素を自然に統合するための粗いマスク入力を可能にすること、および複数の変更にわたって一貫した編集をサポートすることである。我々のフレームワークは、レイヤーごとのメモリを介してこれを実現し、以前の編集からの潜在表現とプロンプト埋め込みを保存する。シーンの一貫性を維持するために記憶された潜在表現を活用する背景一貫性ガイダンスと、既存のコンテンツへの自然な適応を保証するクロスアテンションにおけるマルチクエリ分離を提案する。我々の手法を評価するため、意味的整合性メトリクスとインタラクティブな編集シナリオを組み込んだ新しいベンチマークデータセットを提示する。包括的な実験を通じて、最小限のユーザー努力で反復的な画像編集タスクにおいて優れた性能を発揮し、粗いマスクのみを必要としながらも、複数の編集ステップを通じて高品質な結果を維持することを実証する。
自然言語生成(NLG)システムの評価は、有効な出力の多様性により困難を伴う。人間による評価はゴールドスタンダードであるが、一貫性の欠如、標準化の不足、人口統計的バイアスといった問題があり、再現性が制限される。大規模言語モデル(LLM)ベースの評価はスケーラブルな代替手段を提供するが、プロンプト設計に非常に敏感であり、小さな変動が大きな差異を引き起こす可能性がある。本研究では、モデルの出力からその入力指示への効果的な逆写像を学習する逆学習手法を提案する。これにより、モデル固有の高効果な評価プロンプトを自動生成することが可能となる。本手法は単一の評価サンプルのみを必要とし、時間のかかる手動のプロンプトエンジニアリングを不要とするため、効率性と頑健性の両方を向上させる。本研究は、より頑健で効率的なLLMベースの評価に向けた新たな方向性を示すものである。
2020年1月から2025年3月までの9,439件の生成AI関連論文から1,178件の安全性と信頼性に関する論文を抽出し、主要なAI企業(Anthropic、Google DeepMind、Meta、Microsoft、OpenAI)とAI研究機関(カーネギーメロン大学、マサチューセッツ工科大学、ニューヨーク大学、スタンフォード大学、カリフォルニア大学バークレー校、ワシントン大学)の研究成果を比較した。その結果、企業のAI研究は、モデルのアラインメントやテスト・評価といったデプロイ前の領域にますます集中している一方で、モデルのバイアスといったデプロイ段階の課題への注目は薄れていることが明らかになった。医療、金融、誤情報、説得的および中毒性のある機能、幻覚、著作権といった高リスクのデプロイ領域では、重要な研究ギャップが存在している。デプロイされたAIに対する可観測性が向上しない限り、企業の集中化が進むことで知識の欠如がさらに深刻化する可能性がある。我々は、外部研究者がデプロイデータにアクセスできる範囲を拡大し、市場投入後のAIの挙動を体系的に観測することを推奨する。
現実世界のコーパスにおいて、知識は文書間で頻繁に繰り返し現れるが、曖昧な命名、古い情報、または誤りにより不整合が生じることが多く、これが文脈間の複雑な相互関係を引き起こす。これまでの研究では、言語モデルがこれらの複雑さに対処する際に苦戦し、通常は単一の要素に孤立して焦点を当てることが示されている。我々はこれらの関係を、注意散漫、曖昧、反事実的、重複の4つのタイプに分類する。分析の結果、これらの相互関係を同時に効果的に解決する単一のアプローチは存在しないことが明らかとなった。そこで、我々はContext Organizer(CORG)を導入する。これは、複数の文脈を独立して処理されるグループに整理するフレームワークである。この設計により、モデルは曖昧さを解消しつつ、関連するすべての回答を効率的に見つけることができる。CORGは、グラフ構築器、リランカー、アグリゲーターの3つの主要なコンポーネントで構成される。結果として、CORGは性能と効率性を効果的にバランスさせ、既存のグループ化手法を上回り、より計算集約的な単一文脈アプローチと同等の結果を達成することが示された。
信号時相論理(STL)仕様を用いて複雑なタスクを解決する方法を学習することは、多くの実世界のアプリケーションにおいて重要です。しかし、これまでの研究のほとんどは、多様なSTLデータセットや下流タスクのための時相論理情報を効果的に抽出するエンコーダの不足により、固定またはパラメータ化されたSTL仕様のみを考慮してきました。本論文では、TeLoGraF(Temporal Logic Graph-encoded Flow)を提案します。これは、グラフニューラルネットワーク(GNN)エンコーダとフローマッチングを活用して、一般的なSTL仕様に対する解決策を学習するものです。我々は、4つの一般的に使用されるSTLテンプレートを特定し、合計200Kの仕様とそれに対応するデモンストレーションを収集しました。2D空間における単純な動的モデルから高次元の7DoF Franka PandaロボットアームやAnt四足歩行ロボットのナビゲーションまで、5つのシミュレーション環境で広範な実験を行いました。結果は、我々の方法がSTL満足率において他のベースラインを上回ることを示しています。古典的なSTL計画アルゴリズムと比較して、我々のアプローチは推論速度が10~100倍速く、任意のシステムダイナミクスで動作可能です。さらに、我々のグラフエンコーディング手法が複雑なSTLを解決する能力と、分布外STL仕様に対するロバスト性を示しています。コードはhttps://github.com/mengyuest/TeLoGraFで公開されています。
新製品が日々登場する中、レコメンデーションシステムは、大規模な再学習を必要とせずに、新たなドメインに迅速に適応することが求められている。本研究では、「X-Cross」という新たなクロスドメイン逐次レコメンデーションモデルを提案する。このモデルは、複数のドメイン固有の言語モデルを統合することで、新たなドメインにおける製品を推薦する。各モデルは、低ランクアダプター(LoRA)を用いてファインチューニングされている。レコメンデーションプロンプトが与えられると、X-Crossは層ごとに操作を行い、各ソース言語モデルの表現を、他のすべてのモデルからの知識を統合することで動的に洗練する。これらの洗練された表現は、層から層へと伝播され、各ドメインアダプターの活性化を活用して、ドメイン固有のニュアンスを維持しつつ、ドメイン間での適応性を可能にする。逐次レコメンデーションのためのAmazonデータセットを使用して、X-Crossは、LoRAでファインチューニングされたモデルと同等の性能を達成し、追加パラメータの25%のみを使用する。おもちゃドメインから工具、電子機器、またはスポーツドメインへの適応などのクロスドメインタスクにおいて、X-Crossは堅牢な性能を示し、LoRAが効果的にファインチューニングを行うために必要なデータ量の約50%-75%を削減する。さらに、X-Crossは、代替のクロスドメインベースラインと比較して、精度の大幅な向上を達成する。全体として、X-Crossは、スケーラブルで適応性の高いクロスドメインレコメンデーションを可能にし、計算オーバーヘッドを削減し、データ制約環境における効率的なソリューションを提供する。