翻訳付きの日次キュレーションされたAI研究論文
私たちは、InternVLシリーズの汎用性、推論能力、推論効率を大幅に進化させた新しいオープンソースのマルチモーダルモデルファミリーであるInternVL 3.5を紹介します。主要なイノベーションは、Cascade Reinforcement Learning(Cascade RL)フレームワークであり、オフラインRLによる安定した収束とオンラインRLによる洗練されたアラインメントという2段階のプロセスを通じて推論能力を強化します。この粗から細へのトレーニング戦略により、MMMUやMathVistaなどの下流推論タスクで大幅な改善がもたらされます。効率を最適化するために、パフォーマンスを損なうことなくビジュアルトークンの解像度を動的に調整するVisual Resolution Router(ViR)を提案します。ViRと組み合わせて、ビジョンエンコーダと言語モデルを異なるGPUに分離するDecoupled Vision-Language Deployment(DvD)戦略を採用し、計算負荷を効果的に分散します。これらの貢献により、InternVL3.5は前身であるInternVL3と比較して、全体の推論性能で最大+16.0%の向上と4.05倍の推論速度向上を実現します。さらに、InternVL3.5はGUIインタラクションやエンボディエージェンシーなどの新機能をサポートします。特に、最大規模のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにおいてオープンソースのMLLMの中で最先端の結果を達成し、GPT-5のような主要な商用モデルとの性能差を縮めています。すべてのモデルとコードは公開されています。
最近の自己回帰モデルはテキストから画像(T2I)生成において有望な進展を見せているものの、複数の属性や曖昧なプロンプトを扱う能力には依然として限界があります。これらの制約に対処するため、既存の研究では段階を意識した視覚合成を可能にするために連鎖思考(CoT)を適用し、推論能力を向上させるために強化学習(RL)を採用してきました。しかし、ほとんどのモデルは生成段階の終了時のみに報酬信号を提供します。この単一的な最終段階のみのガイダンスでは、どの段階が最終結果に寄与しているかを特定することが難しく、最適でないポリシーにつながる可能性があります。この問題を解決するため、我々は視覚的ガイダンスの連鎖(Visual-CoG)パラダイムを提案します。これは、意味推論、プロセス精緻化、結果評価の3つの段階からなり、段階を意識した報酬が画像生成パイプライン全体で即時のガイダンスを提供します。さらに、意味推論の有効性を評価するための4つのサブタスクからなる視覚認知ベンチマーク、VisCog-Benchを構築しました。GenEval、T2I-CompBench、および提案されたVisCog-Benchでの包括的な評価では、それぞれ15%、5%、19%の改善を示し、提案されたVisual-CoGの優れた性能を実証しています。すべてのリソースを近日中に公開する予定です。
テキストから3D生成するアプローチは、事前学習済みの2D拡散モデルを活用することで大幅に進化し、高品質で3D整合性のある出力を実現しています。しかし、ドメイン外(OOD)や希少な概念を生成する際には、不整合や不正確な結果が生じることがしばしばあります。この課題に対処するため、我々はMV-RAGという新しいテキストから3D生成パイプラインを提案します。この手法では、まず大規模な実世界の2D画像データベースから関連する2D画像を検索し、その後、これらの画像を条件としてマルチビュー拡散モデルに適用し、整合性と正確性を備えたマルチビュー出力を合成します。この検索条件付きモデルの学習は、構造化されたマルチビューデータと多様な2D画像コレクションを橋渡しする新しいハイブリッド戦略によって実現されます。これには、ビュー固有の再構成のために検索のばらつきをシミュレートする拡張条件ビューを使用したマルチビューデータでの学習と、検索された実世界の2D画像セットを使用した独自のホールドアウトビュー予測目標での学習が含まれます。このモデルは、他のビューからホールドアウトビューを予測することで、2Dデータから3D整合性を推論します。厳密なOOD評価を可能にするため、我々は新しい挑戦的なOODプロンプトのコレクションを導入しました。最先端のテキストから3D、画像から3D、およびパーソナライゼーションベースラインとの比較実験により、我々のアプローチがOOD/希少な概念において3D整合性、写実性、テキストの忠実度を大幅に向上させつつ、標準ベンチマークでも競争力のある性能を維持することが示されました。
我々は、テキストから画像(T2I)モデルの推論能力を評価するベンチマーク「T2I-ReasonBench」を提案する。これは、慣用句解釈、テキスト画像デザイン、エンティティ推論、科学的推論の4つの次元で構成されている。推論の正確性と画像品質を評価するために、2段階の評価プロトコルを提案する。様々なT2I生成モデルをベンチマークし、その性能に関する包括的な分析を提供する。
視覚言語モデル(VLMs)は、視覚入力を視覚トークンに変換することで、言語指示を用いた視覚コンテンツの理解において優れた性能を発揮する。しかし、視覚トークンの冗長性は、VLMsの推論効率を低下させる原因となる。これまでに視覚トークンの数を削減するための多くのアルゴリズムが提案されてきたが、そのほとんどは単一モダリティ情報(視覚またはテキスト)のみを用いた刈り込みを行い、視覚言語タスクの本質的なマルチモーダル特性を無視している。さらに、異なるモダリティに適用可能な汎用的な基準が欠如している。この制約を緩和するため、本研究では、視覚とテキストのトークンを活用し、カバレッジの基準に基づいて情報量の多い視覚トークンを選択することを提案する。まず、部分集合選択問題を最大カバレッジ問題として定式化する。その後、テキストトークンと元の視覚トークン集合の両方を同時にカバーするように視覚トークンの部分集合を最適化する。最後に、VLMsエージェントを採用して、視覚刈り込みをガイドするためのテキストトークンの品質をさらに向上させる。提案手法MMTokは、異なるVLMsを用いたベンチマークデータセットで広範に評価された。比較結果から、視覚情報とテキスト情報は補完的であり、マルチモーダル情報を組み合わせることで単一モダリティのベースラインを明確に上回ることが示された。さらに、POPEデータセットにおける最大カバレッジ基準の下で、LLaVA-NeXT-13Bにおいて元の性能の98.7%を維持しつつ1.87倍の高速化を達成した。また、LLaVA-1.5-7Bにおいては、わずか4つの視覚トークンで元の性能の87.7%を維持した。これらの結果は、トークン選択におけるカバレッジの有効性を強調するものである。
大規模言語モデル(LLMs)の最近の進展は、推論能力の出現を促進するための強化学習(RL)の可能性を強調している。しかしながら、RLの改善は高品質なサンプルからの学習に依存しているにもかかわらず、そのようなサンプルの探索はLLMsの本質的な制約によって制限されている。これにより、探索できないものは学習できないという望ましくない循環が生じている。本研究では、一般的なLLM推論における探索のボトルネックを打破するための新しい指導的足場付けフレームワークである「Rubric-Scaffolded Reinforcement Learning(RuscaRL)」を提案する。具体的には、RuscaRLはチェックリスト形式のルーブリックを導入し、(1) ロールアウト生成中の探索に対する明示的な足場付けとして、異なるルーブリックをタスク指示内の外部ガイダンスとして提供し、多様な高品質な応答を導く。このガイダンスは時間とともに徐々に減衰し、モデルが基礎となる推論パターンを内在化することを促す。(2) モデル訓練中の利用に対する検証可能な報酬として、ルーブリックを参照として使用することで、堅牢なLLM-as-a-Judgeスコアを取得し、一般的な推論タスクにおける効果的なRLを可能にする。広範な実験により、提案されたRuscaRLが様々なベンチマークで優位性を示し、best-of-N評価の下で推論の境界を効果的に拡大することが実証された。特に、RuscaRLはHealthBench-500においてQwen-2.5-7B-Instructを23.6から50.3に大幅に向上させ、GPT-4.1を凌駕した。さらに、Qwen3-30B-A3B-Instructに対する微調整バリアントはHealthBench-500で61.1を達成し、OpenAI-o3を含む主要なLLMsを上回った。
推論は大規模言語モデルの核心的な能力であるが、それらがどのように学習し、多段階の推論を実行するかについては未解明の問題である。本研究では、セルオートマトンの枠組みにおいて、異なるアーキテクチャと訓練方法がモデルの多段階推論能力に及ぼす影響を探る。ランダムな初期条件に対してランダムなブール関数で生成された状態系列を訓練データとし、記憶を排除することで、ほとんどのニューラルアーキテクチャが基礎となるルールを抽象化することを示す。モデルは次の状態予測において高い精度を達成するが、多段階の推論が必要な場合、その性能は急激に低下する。モデルの深さを増やすことが逐次計算において重要な役割を果たすことを確認する。さらに、再帰性、メモリ、テスト時の計算スケーリングによる有効モデル深さの拡張が、推論能力を大幅に向上させることを実証する。
ツール統合型推論(TIR)が大規模言語モデル(LLM)の能力を向上させる理由について研究を行った。Pythonコードインタプリタのようなツールと統合されたLLMは非常に有望であるが、このパラダイムが効果的である理由を説明する体系的な理論が欠けていた。本研究では、TIRがLLMの能力を根本的に拡張することを初めて正式に証明する。ツールがモデルの経験的かつ実現可能なサポートを厳密に拡張し、純粋なテキストモデルの能力の限界を打破し、それ以外では不可能または扱いにくいほど冗長な問題解決戦略を可能にすることを示す。また、訓練の安定性と性能を損なうことなくモデルの行動を導くために、アドバンテージ関数を直接修正してポリシーの行動を導く新しいアルゴリズムであるアドバンテージシェイピングポリシー最適化(ASPO)を導入する。外部ツールとしてPythonインタプリタを活用し、挑戦的な数学的ベンチマークで包括的な実験を行った。その結果、TIRモデルがpass@kメトリックにおいて純粋なテキストモデルを決定的に上回ることが示された。重要なことに、この優位性は計算集約的な問題に限定されず、重要な抽象的洞察を必要とする問題にも及ぶ。さらに、モデルがツールを使って考える方法を示す新たな認知パターンを特定した。最後に、ASPOを用いることで、早期のコード呼び出しとよりインタラクティブなターンによるツール使用行動の改善を報告する。全体として、本研究はTIRの成功に対する初めての体系的な説明を提供し、ツールが機能するという事実から、なぜどのようにしてより強力な推論を可能にするかに焦点を移すものである。
我々は、構造化されたマルチターン推論と幅広い指示追従能力を組み合わせたハイブリッド推論モデルファミリーであるHermes 4を紹介する。データキュレーション、合成、トレーニング、評価の過程で遭遇した課題を説明し、これらの課題を大規模に対処するために採用した解決策を概説する。数学的推論、コーディング、知識、理解、アライメントのベンチマークにわたって包括的に評価を行い、定量的なパフォーマンスと定性的な行動分析の両方を報告する。オープンリサーチを支援するため、すべてのモデルウェイトをhttps://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728で公開している。
大規模言語モデル(LLM)を基盤としたマルチエージェントシステムは、複雑な構成タスクに取り組む際に顕著な能力を発揮することが実証されています。本研究では、このパラダイムを論文からポスター生成の問題に適用します。これは、学会の準備に取り組む研究者が直面する実用的でありながら時間のかかるプロセスです。最近のアプローチではこのタスクの自動化が試みられていますが、その多くはコアなデザインや美的原則を無視しており、手動での大幅な修正を必要とするポスターが生成されています。これらのデザイン上の制約に対処するため、我々はPosterGenを提案します。これは、プロのポスターデザイナーのワークフローを模倣したマルチエージェントフレームワークです。このフレームワークは、4つの協調的な専門エージェントで構成されています:(1)ParserおよびCuratorエージェントは論文からコンテンツを抽出し、ストーリーボードを整理します;(2)Layoutエージェントはコンテンツを一貫した空間レイアウトにマッピングします;(3)Stylistエージェントは色やタイポグラフィなどの視覚的デザイン要素を適用します;(4)Rendererは最終的なポスターを構成します。これらのエージェントが協力して、意味的に根拠があり視覚的に魅力的なポスターを生成します。デザイン品質を評価するために、我々はビジョン言語モデル(VLM)ベースのルーブリックを導入し、レイアウトのバランス、読みやすさ、美的整合性を測定します。実験結果は、PosterGenがコンテンツの忠実度において一貫して一致し、視覚デザインにおいて既存の手法を大幅に上回り、最小限の人間による修正でプレゼンテーション可能なポスターを生成することを示しています。
ベンチマークはAI研究の進歩を形作る。有用なベンチマークは、困難でありながらも現実的であるべきだ:質問は最先端のモデルに挑戦するものであると同時に、実世界の使用状況を反映している必要がある。しかし、現在のパラダイムは困難さと現実性の間でジレンマに直面している:試験形式のベンチマークはしばしば人工的に難しくされ、実世界での価値が限られている一方で、実際のユーザーインタラクションに基づくベンチマークは、簡単で高頻度の問題に偏りがちである。本研究では、未解決の質問を用いてモデルを評価するという根本的に異なるパラダイムを探求する。一度だけスコアが付けられる静的なベンチマークではなく、未解決の質問をキュレーションし、バリデータ支援のスクリーニングとコミュニティによる検証を通じて、時間をかけて非同期にモデルを評価する。我々はUQを導入する。これはStack Exchangeから収集した500の困難で多様な質問からなるテストベッドであり、計算機科学理論や数学からSFや歴史まで幅広いトピックをカバーし、推論、事実性、ブラウジングなどの能力を探る。UQは設計上、困難でありながら現実的である:未解決の質問はしばしば難しく、人間が答えを求める際に自然に発生するため、それらを解決することは直接的な実世界の価値を生む。我々の貢献は3つある:(1) UQ-Datasetとその収集パイプライン。ルールベースのフィルタ、LLMジャッジ、人間によるレビューを組み合わせて質問の品質(例:明確で困難なもの)を保証する。(2) UQ-Validators。生成者とバリデータのギャップを活用して評価信号を提供し、人間によるレビューのための候補ソリューションを事前にスクリーニングする複合検証戦略。(3) UQ-Platform。専門家が共同で質問とソリューションを検証するオープンプラットフォーム。トップモデルはUQ検証を通過した質問のわずか15%しか合格せず、予備的な人間による検証では、合格した中に正しい答えがすでに特定されている。UQは、実世界のオープンエンドな課題において最先端モデルを評価する道を切り開き、成功が人間の知識のフロンティアを押し広げる。我々はUQをhttps://uq.stanford.eduで公開する。
大規模視覚言語モデル(VLM)の最近の進展は主に英語に焦点が当てられており、他の言語への注目は限られています。このギャップを埋めるため、私たちはMEENA(別名PersianMMMU)を紹介します。これは、科学的推論や人間レベルの理解タスクにおいてペルシャ語VLMを評価するために設計された初のデータセットです。私たちのデータセットは約7,500のペルシャ語と3,000の英語の質問からなり、推論、数学、物理学、図表、ペルシャの芸術と文学など幅広いトピックをカバーしています。MEENAの主な特徴は以下の通りです:(1)初等教育から高等教育まで様々な教育レベルにわたる多様な科目のカバレッジ、(2)難易度レベルや記述的な回答を含む豊富なメタデータ、(3)文化的ニュアンスを保持したオリジナルのペルシャ語データ、(4)言語間のパフォーマンスを評価するためのバイリンガル構造、(5)全体的なパフォーマンス、画像への注意能力、幻覚生成の傾向など様々な能力を評価する多様な実験シリーズ。このベンチマークが、英語を超えたVLMの能力向上に貢献することを願っています。
半構造化テーブルは、実世界のアプリケーション(例:財務報告書、医療記録、取引注文)で広く使用されており、柔軟で複雑なレイアウト(例:階層的なヘッダーや結合されたセル)を伴うことが多い。これらのテーブルは、一般的に人間のアナリストがテーブルのレイアウトを解釈し、関連する自然言語の質問に答えることに依存しており、コストがかかり非効率的である。このプロセスを自動化するために、既存の手法は重大な課題に直面している。第一に、NL2SQLのような手法では、半構造化テーブルを構造化テーブルに変換する必要があり、これによりしばしば大幅な情報の損失が生じる。第二に、NL2CodeやマルチモーダルLLM QAのような手法は、半構造化テーブルの複雑なレイアウトを理解することが難しく、対応する質問に正確に答えることができない。このため、我々は大規模言語モデルを用いた半構造化テーブル質問応答のためのツリーベースのフレームワークであるST-Raptorを提案する。まず、複雑な半構造化テーブルのレイアウトを捉える構造モデルであるHierarchical Orthogonal Tree(HO-Tree)と、そのツリーを構築するための効果的なアルゴリズムを導入する。次に、LLMが一般的なQAタスクを実行するための基本的なツリー操作のセットを定義する。ユーザーの質問が与えられると、ST-Raptorはそれをより単純なサブ質問に分解し、対応するツリー操作パイプラインを生成し、正確なパイプライン実行のための操作-テーブルアラインメントを行う。第三に、2段階の検証メカニズムを組み込む:フォワード検証は実行ステップの正確性をチェックし、バックワード検証は予測された回答からクエリを再構築することで回答の信頼性を評価する。性能をベンチマークするために、102の実世界の半構造化テーブルに対する764の質問からなるデータセットSSTQAを提示する。実験結果は、ST-Raptorが9つのベースラインを最大20%の回答精度で上回ることを示している。コードはhttps://github.com/weAIDB/ST-Raptorで公開されている。
表面再構成は、コンピュータビジョンとグラフィックスの分野で広く研究されてきました。しかし、既存の表面再構成手法は、入力ビューが極めて疎である場合に正確なシーン幾何学を復元するのに苦労しています。この問題に対処するため、我々はGaussian Splattingを介した汎用的な疎ビュー表面再構成フレームワークであるMeshSplatを提案します。我々の鍵となるアイデアは、2DGSを橋渡しとして活用し、新規ビュー合成と学習された幾何学的プライアを接続し、これらのプライアを転送して表面再構成を実現することです。具体的には、フィードフォワードネットワークを組み込み、ビューごとのピクセル整列2DGSを予測することで、ネットワークが新規ビュー画像を合成できるようにし、直接的な3Dグラウンドトゥルース監視の必要性を排除します。2DGSの位置と方向の予測精度を向上させるために、重み付きChamfer距離損失を提案し、特に入力ビューの重複領域での深度マップを正則化します。また、単眼法線推定器によって予測された法線ベクトルと2DGSの方向を整列させるための法線予測ネットワークも提案します。広範な実験により、提案した改善の有効性が検証され、我々の手法が汎用的な疎ビューメッシュ再構成タスクにおいて最先端の性能を達成することが示されました。プロジェクトページ: https://hanzhichang.github.io/meshsplat_web
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして浮上しており、機械に視覚シーンを分解し、中間概念をグラウンディングし、多段階の論理的推論を行う人間のような能力を付与することを目指している。初期のサーベイはモノリシックな視覚言語モデルや一般的なマルチモーダル推論に焦点を当てているが、急速に拡大する構成的視覚推論文献を網羅した専用の総説はまだ存在しない。我々は、2023年から2025年にかけてトップカンファレンス(CVPR、ICCV、NeurIPS、ICML、ACLなど)で発表された260以上の論文を体系的にレビューする包括的なサーベイを通じてこのギャップを埋める。まず、中核的な定義を形式化し、構成的アプローチが認知整合性、意味的忠実性、頑健性、解釈可能性、データ効率性において優位性を提供する理由を説明する。次に、プロンプト強化型の言語中心パイプラインから、ツール強化型LLM、ツール強化型VLMを経て、最近登場した連鎖的思考推論や統一エージェント型VLMまでの5段階のパラダイムシフトを追跡し、それらのアーキテクチャ設計、強み、限界を強調する。さらに、グラウンディング精度、連鎖的思考の忠実性、高解像度知覚などの次元に沿って構成的視覚推論を探る60以上のベンチマークと対応する指標をカタログ化する。これらの分析に基づいて、主要な洞察を抽出し、未解決の課題(例:LLMベースの推論の限界、幻覚、演繹的推論へのバイアス、スケーラブルな監督、ツール統合、ベンチマークの限界)を特定し、世界モデルの統合、人間-AI協調推論、より豊富な評価プロトコルを含む将来の方向性を概説する。統一された分類体系、歴史的ロードマップ、批判的展望を提供することで、本サーベイは基礎的なリファレンスとして機能し、次世代の構成的視覚推論研究を刺激することを目指している。
音声トークナイザーは音声言語モデルの基盤となる重要な構成要素であるが、現行の設計にはいくつかの課題が存在する。具体的には、1) 多層残差ベクトル量子化構造または高フレームレートへの依存、2) 意味的蒸留のための補助的な事前学習モデルへの依存、3) 複雑な二段階トレーニングプロセスの必要性などが挙げられる。本研究では、これらの課題を克服するために、Text-aware Diffusion Transformer Speech Codec (TaDiCodec) という新しいアプローチを提案する。TaDiCodecは、拡散オートエンコーダーを通じて量子化と再構成をエンドツーエンドで最適化し、拡散デコーダーにテキストガイダンスを統合することで、再構成品質を向上させ、最適な圧縮を実現する。TaDiCodecは、24 kHz音声に対して単層コードブックを用いて6.25 Hzという極めて低いフレームレートと0.0875 kbpsのビットレートを達成し、Word Error Rate (WER)、話者類似度 (SIM)、音声品質 (UTMOS) といった重要な音声生成評価指標において優れた性能を維持する。特に、TaDiCodecは単一段階のエンドツーエンドトレーニングパラダイムを採用し、補助的な事前学習モデルを必要としない。また、TaDiCodecの言語モデルベースのゼロショットテキストトゥスピーチにおける互換性を、自己回帰モデリングとマスク生成モデリングの両方で検証し、音声言語モデリングにおける有効性と効率性、および再構成と生成の間の極めて小さなギャップを実証する。コードとモデルチェックポイントをオープンソースとして公開する。音声サンプルはhttps:/tadicodec.github.io/で利用可能である。コードとモデルチェックポイントはhttps:/github.com/HeCheng0625/Diffusion-Speech-Tokenizerで公開する。
視覚的ガイドに基づく画像編集は、視覚的キューとテキストプロンプトの両方を条件とした編集を行う強力なパラダイムとして登場し、きめ細かく制御可能なコンテンツ生成を実現しています。最近の生成モデルは驚くべき能力を示していますが、既存の評価は単純で、現実世界の編集課題を十分に代表するものではありません。本論文では、SpotEditを紹介します。これは、多様な拡散モデル、自己回帰モデル、ハイブリッド生成モデルにわたる視覚的ガイドに基づく画像編集手法を体系的に評価するための包括的なベンチマークであり、大幅な性能差を明らかにします。重要な未開拓の課題に対処するため、本ベンチマークには幻覚に関する専用コンポーネントが含まれており、GPT-4oなどの主要モデルが視覚的キューの存在を幻覚し、誤って編集タスクを実行する様子を強調しています。私たちのコードとベンチマークは、https://github.com/SaraGhazanfari/SpotEdit で公開されています。
自然言語生成(NLG)システムの評価は、自然言語処理(NLP)における核心的な課題であり、汎用性を目指す大規模言語モデル(LLM)の台頭によってさらに複雑化している。最近、大規模言語モデルを評価者として用いる「LLJ(Large Language Model as Judge)」が、従来の評価指標に代わる有望な選択肢として登場したが、その有効性はまだ十分に検証されていない。本ポジションペーパーでは、LLJに対する現在の熱狂が時期尚早である可能性を指摘する。なぜなら、その採用が、評価者としての信頼性と有効性に対する厳密な検証を上回るペースで進んでいるからである。社会科学における測定理論を参照し、LLJの使用を支える4つの核心的な仮定——人間の判断の代理としての能力、評価者としての能力、スケーラビリティ、コスト効率——を特定し、批判的に検証する。これらの仮定が、LLMやLLJの本質的な制約、あるいは現在のNLG評価の実践によってどのように挑戦されるかを考察する。分析を具体化するため、LLJの3つの応用——テキスト要約、データアノテーション、安全性のアラインメント——を探る。最後に、LLJ評価におけるより責任ある評価実践の必要性を強調し、その分野での役割の拡大がNLGの進歩を支えるものであり、損なうものではないことを保証するよう呼びかける。
異なる複雑さのレベルにわたってテキストを言い換える能力は、多様な読者層に向けてカスタマイズ可能なアクセシブルなテキストを作成するために不可欠です。そこで、我々はGerman4Allを紹介します。これは、ドイツ語における初の大規模な、読みやすさを制御した段落レベルの言い換えデータセットです。5つの読みやすさレベルにまたがり、25,000以上のサンプルを含んでいます。このデータセットはGPT-4を用いて自動的に合成され、人間とLLMベースの評価を通じて厳密に検証されています。German4Allを使用して、我々はオープンソースの読みやすさ制御言い換えモデルを訓練し、ドイツ語テキスト簡略化において最先端の性能を達成しました。これにより、よりニュアンスのある読者固有の適応が可能になります。我々は、データセットとモデルの両方をオープンソース化し、多レベル言い換えに関するさらなる研究を促進します。
本論文は、アテンションメカニズムにおける正規化の限界を調査する。まず、モデルの選択能力とトークン選択に関わる幾何学的分離を特定するための理論的枠組みを提示する。我々の分析には、ソフトマックススケーリング下でのトークンベクトルの距離と分離基準に関する明示的な境界が含まれる。事前学習済みGPT-2モデルを用いた実験を通じて、理論的結果を実証的に検証し、アテンションメカニズムの主要な挙動を分析する。特に、選択されるトークン数が増加するにつれて、モデルの有益なトークンを識別する能力が低下し、しばしば均一な選択パターンに収束することを示す。また、ソフトマックス正規化下での勾配感度が、特に低温設定において訓練中に課題を引き起こすことを示す。これらの知見は、ソフトマックスベースのアテンションメカニズムに対する現在の理解を進展させ、将来のアテンションアーキテクチャにおけるより堅牢な正規化と選択戦略の必要性を動機付ける。
心エコー検査は、心臓画像診断において中心的な役割を果たしており、診断とモニタリングに不可欠な動的な心臓の視覚化を提供します。しかし、特に撮影が困難な患者では、多重反射によるかすみが画像品質を著しく低下させることがあります。本研究では、MICCAI Dehazing Echocardiography Challenge (DehazingEcho2025) 向けに開発された、セマンティックガイド型の拡散ベースのかすみ除去アルゴリズムを提案します。本手法は、かすんだ入力画像のセマンティックセグメンテーションから導出されたピクセル単位のノイズモデルを、クリーンな超音波データで学習された生成事前分布に基づく拡散事後サンプリングフレームワークに統合します。チャレンジデータセットにおける定量的評価では、コントラストと忠実度の指標において優れた性能を示しています。提出されたアルゴリズムのコードは、https://github.com/tristan-deep/semantic-diffusion-echo-dehazing で公開されています。
フォトリアリズムは、プレイヤー体験を形成し、没入感、物語への没頭、視覚的忠実度に同時に影響を与えるため、現代のビデオゲームにおいて重要な側面です。近年のハードウェア技術の飛躍的進歩と最先端のレンダリング技術により、ビデオゲームの視覚的リアリズムは大幅に向上しましたが、動的環境での真のフォトリアリズムをリアルタイムフレームレートで達成することは、視覚品質とパフォーマンスのトレードオフのため、依然として大きな課題です。本短報では、生成的敵対ネットワーク(GAN)を使用してレンダリングされたゲームフレームのフォトリアリズムを向上させる新しいアプローチを提案します。この目的のために、リアルタイムフォトリアリズム向上のためのデュアルステージ生成ネットワークフレームワーク(REGEN)を提案します。このフレームワークは、堅牢な非ペア画像間変換モデルを採用し、意味的に一貫したフォトリアリスティックなフレームを生成することで、問題をより単純なペア画像間変換タスクに変換します。これにより、視覚品質を損なうことなくリアルタイム推論時間を達成できる軽量な方法でトレーニングが可能になります。私たちは、Grand Theft Auto Vにおいてこのフレームワークの有効性を実証し、このアプローチが堅牢な非ペアIm2Im法によって生成されたものと同等の視覚的結果を達成しながら、推論速度を32.14倍向上させることを示しました。また、ビデオゲームフレームを実世界画像の視覚的特性に向けて変換するために、軽量な非ペアIm2Im変換法を直接トレーニングして生成されたフォトリアリズム向上フレームよりも優れた結果が得られることも示しています。この研究のコード、事前学習済みモデル、デモは以下で利用可能です:https://github.com/stefanos50/REGEN。
先行研究では、生成された質問における前提が未検証の仮定を導入し、主張検証における不整合を引き起こすことが示されています。さらに、プロンプトに対する感応性は大規模言語モデル(LLM)にとって重要な課題であり、その性能変動は3-6%にも及ぶことが報告されています。最近の進歩によりこのギャップは縮小されつつありますが、本研究ではプロンプト感応性が依然として持続的な問題であることを実証しています。この課題に対処するため、我々は前提を含まない分解された質問を通じて推論を行う、構造化された堅牢な主張検証フレームワークを提案します。複数のプロンプト、データセット、LLMにわたる広範な実験により、最先端のモデルでさえプロンプト変動と前提の影響を受けやすいことが明らかになりました。我々の手法はこれらの問題を一貫して軽減し、最大2-5%の改善を達成しています。