翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は、汎用モデルとして非常に優れた汎用性を示しています。しかし、その広範な適用性は高い計算コストを伴い、特に自己回帰的なデコーディングにおいて、各ステップでフォワードパスが必要となる点が顕著です。特定のドメイン設定では、汎用的な能力は不要であり、効率性と交換することが可能です。本研究では、ドメイン適応に新たな視点を取り入れ、関心のある特定のドメインに語彙を適応させることで、レイテンシと計算コストを削減します。私たちは、低リソースドメインにおけるLLMの効率を向上させるために設計された、語彙適応のエンドツーエンドアプローチであるAdaptiVocabを紹介します。AdaptiVocabは、任意のトークナイザーとアーキテクチャに適用可能で、ドメイン固有のn-gramベースのトークンで既存のトークンを置き換えることで、入力処理と出力生成に必要なトークン数を削減します。AdaptiVocabは、既存の埋め込みの指数加重平均を使用して新しいn-トークンの埋め込みを初期化し、単一のGPUで効率的に実行可能な軽量なファインチューニングフェーズを採用します。私たちは、3つのニッチドメインにおいて2つの7B LLMを評価し、効率性、生成品質、およびエンドタスクのパフォーマンスを測定しました。その結果、AdaptiVocabはパフォーマンスを損なうことなく、トークン使用量を25%以上削減することが示されました。
人間のフィードバックによる強化学習(RLHF)は、大規模言語モデルを人間の好みに合わせる上で極めて重要です。最近の研究はアルゴリズムの改善に焦点を当ててきましたが、プロンプトデータの構築の重要性は見過ごされてきました。本論文はこのギャップを埋めるため、RLHFの性能スケーリングにおけるデータ駆動型のボトルネック、特に報酬ハッキングと応答多様性の低下について探求します。報酬ハッキングを軽減するため、推論タスク検証器(RTV)と生成型報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入します。また、応答多様性を維持し学習効果を高めるための新しいプロンプト選択手法、Pre-PPOを提案します。さらに、RLHFトレーニングの初期段階で数学やコーディングタスクを優先することが性能向上に大きく寄与することを発見しました。2つのモデルサイズでの実験により、提案手法の有効性と拡張性が検証されました。結果は、RTVが報酬ハッキングに対して最も耐性があり、次に正解データを用いたGenRM、そしてSFT Best-of-N応答を用いたGenRMが続くことを示しています。我々の戦略は、タスク固有の微妙な違いを迅速に捉えることを可能にし、RLHFの全体的な性能を大幅に向上させます。本研究は、データ構築の重要性を強調し、RLHFにおける性能障壁を克服するための実践的な方法を提供します。
最近の大規模推論モデル(LRM)、例えばDeepSeek-R1やOpenAI o1などは、推論時にChain-of-Thought(CoT)推論の長さをスケールアップすることで、強力な性能向上を示しています。しかし、これらのモデルが過度に長い推論トレースを生成する傾向が増しており、その中には冗長な内容(例えば、繰り返される定義)や、単純な問題に対する過剰な分析、難しいタスクに対する表面的な複数推論パスの探索などが含まれていることが懸念されています。この非効率性は、トークン経済が重要な訓練、推論、および実世界での展開(例えば、エージェントベースのシステム)において、重大な課題を引き起こします。本調査では、この新しいパラダイムで生じる特有の課題に特に焦点を当て、LRMの推論効率を改善するための最近の取り組みを包括的に概観します。非効率性の共通パターンを特定し、LRMのライフサイクル(すなわち、事前学習から推論まで)で提案された方法を検討し、研究の有望な将来の方向性について議論します。継続的な開発を支援するため、この分野の最近の進捗を追跡するリアルタイムのGitHubリポジトリも維持しています。本調査がさらなる探求の基盤となり、この急速に進化する分野における革新を刺激することを願っています。
逐次推薦(SeqRec)は、ユーザーの過去のインタラクションから逐次的なパターンを捉えることで次のアイテムを予測することを目的としており、多くの現実世界の推薦システムにおいて重要な役割を果たしています。しかし、既存のアプローチは主に直接的な順方向計算パラダイムを採用しており、シーケンスエンコーダの最終的な隠れ状態がユーザー表現として機能します。我々は、この推論パラダイムが計算深度の限界により、ユーザーの嗜好の複雑な進化をモデル化するのに苦労し、ロングテールアイテムに対する微妙な理解を欠いているため、最適な性能を発揮できないと主張します。この問題を解決するために、我々はReaRecを提案します。ReaRecは、推薦システムにおける最初の推論時計算フレームワークであり、暗黙的な多段階推論を通じてユーザー表現を強化します。具体的には、ReaRecはシーケンスの最後の隠れ状態を逐次推薦器に自己回帰的にフィードし、特別な推論位置埋め込みを組み込むことで、元のアイテムエンコーディング空間と多段階推論空間を分離します。さらに、ReaRecの推論ポテンシャルを効果的に活用するために、アンサンブル推論学習(ERL)とプログレッシブ推論学習(PRL)という2つの軽量な推論ベースの学習方法を導入します。5つの公開された現実世界のデータセットと異なるSeqRecアーキテクチャを用いた広範な実験により、我々が提案するReaRecの汎用性と有効性が実証されました。注目すべきことに、事後分析により、ReaRecが複数の逐次推薦バックボーンの性能上限を約30%から50%大幅に引き上げることが明らかになりました。したがって、我々はこの研究が逐次推薦における推論時計算の未来の研究に対して新たで有望な道を開くことができると信じています。
マルチモーダル大規模言語モデル(MLLMs)は、多様な入力データタイプを処理し、様々なアプリケーションにおいて一貫性のある文脈上適切な出力を生成する能力により、大きな注目を集めています。タスク固有の最適化においてMLLMの能力を向上させるための主要なアプローチとして教師ありファインチューニング(SFT)が用いられてきましたが、SFTは重要な汎用的推論能力を育む点でしばしば不十分です。強化学習(RL)はこれらの制限を克服する大きな可能性を秘めていますが、二つの重要な課題に直面しています:(1)マルチモーダルタスクにおけるその汎用的能力はほとんど未開拓であり、(2)Kullback-Leiblerダイバージェンスの固定値やクランプ戦略などのトレーニング制約が、しばしば最適でないボトルネックを引き起こします。これらの課題に対処するため、我々はOThink-MR1を提案します。これは、マルチモーダルタスクにわたる深い理解と推論能力を備えた先進的なMLLMです。具体的には、動的Kullback-Leibler戦略を採用したグループ相対ポリシー最適化(GRPO-D)を導入し、強化学習(RL)の性能を著しく向上させます。Qwen2-VL-2B-Instructにおいて、GRPO-Dは、二つの適応データセットにおける同一タスク評価でSFTに対して5.72%以上、GRPOに対して13.59%以上の相対的な改善を達成しました。さらに、GRPO-Dは顕著なクロスタスク汎化能力を示し、クロスタスク評価においてSFTに対して平均61.63%以上の相対的な改善を達成しました。これらの結果は、GRPO-DでトレーニングされたMLLMが一つのマルチモーダルタスクから別のタスクに効果的に転移可能であることを強調し、提案したOThink-MR1モデルの優れた汎用的推論能力を裏付けています。
我々は、複数のオブジェクトと多様なカテゴリにわたるテキストから画像生成における3D方向のグラウンディングを行う初のゼロショット手法であるORIGENを紹介する。これまでの画像生成における空間的グラウンディングの研究は主に2D位置決めに焦点を当てており、3D方向の制御が欠けていた。この問題に対処するため、我々は3D方向推定のための事前学習済み識別モデルと、ワンステップのテキストから画像生成フローモデルを用いた報酬誘導サンプリング手法を提案する。勾配上昇法に基づく最適化は報酬ベースの誘導において自然な選択肢であるが、画像のリアリズムを維持するのが困難である。代わりに、我々はランジュバン動力学を用いたサンプリングベースのアプローチを採用し、単にランダムノイズを注入することで勾配上昇を拡張する――これはわずか1行の追加コードで実現できる。さらに、収束を加速するために報酬関数に基づく適応的時間再スケーリングを導入する。我々の実験結果は、ORIGENが定量的指標とユーザスタディの両方において、学習ベースおよびテスト時誘導手法を上回ることを示している。
近年の音声駆動型3Dトーキングヘッド生成における進展は、唇の同期化において大きな進歩を遂げています。しかし、既存のモデルは依然として、多様な音声特性とそれに対応する唇の動きの間の知覚的整合性を捉えることに苦戦しています。本研究では、知覚的に正確な唇の動きを実現するためには、時間的同期化、唇の読み取りやすさ、表現力という3つの基準が重要であると主張します。これら3つの基準を満たす望ましい表現空間が存在するという仮説に基づき、音声信号と3D顔面メッシュの間の複雑な対応関係を捉える音声-メッシュ同期化表現を提案します。学習されたこの表現が望ましい特性を示すことを確認し、既存のモデルに知覚的損失として組み込むことで、与えられた音声に対する唇の動きをより良く整合させます。さらに、この表現を知覚的指標として活用し、他の2つの物理的に基づいた唇同期化指標を導入して、生成された3Dトーキングヘッドがこれら3つの基準にどれだけ整合しているかを評価します。実験結果から、提案する知覚的損失を用いて3Dトーキングヘッド生成モデルを訓練することで、知覚的に正確な唇同期化の3つの側面すべてが大幅に改善されることが示されました。コードとデータセットはhttps://perceptual-3d-talking-head.github.io/で公開されています。
本論文では、単一画像からの4Dシーン生成のための新しいチューニング不要フレームワークであるFree4Dを提案する。既存手法は、オブジェクトレベルの生成に焦点を当てることでシーンレベルの生成を実現不可能にしているか、大規模なマルチビュービデオデータセットに依存した高コストなトレーニングを行い、4Dシーンデータの不足から一般化能力が限られている。これに対し、我々の重要な洞察は、事前学習済み基盤モデルを蒸留して一貫した4Dシーン表現を実現することであり、効率性と一般化可能性といった有望な利点を提供する。1) これを実現するため、まず画像からビデオへの拡散モデルを使用して入力画像をアニメーション化し、その後4D幾何構造の初期化を行う。2) この粗い構造を時空間的に一貫したマルチビュービデオに変換するため、空間的一貫性のためのポイントガイド付きノイズ除去戦略と、時間的一貫性のための新しい潜在置換戦略を備えた適応的ガイダンスメカニズムを設計する。3) 生成された観測を一貫した4D表現に昇華させるため、生成情報を最大限に活用しながら不整合を軽減するモジュレーションベースのリファインメントを提案する。結果として得られる4D表現は、リアルタイムで制御可能なレンダリングを可能にし、単一画像ベースの4Dシーン生成における重要な進歩を示す。
Vision Transformers (ViTs) は、様々なコンピュータビジョンタスクにおいて優れた性能とスケーラビリティを示しています。単一スケールのViTを画像セグメンテーションに適用するために、既存の手法では、マルチスケール特徴を生成するための畳み込みアダプター、これらの特徴を融合するピクセルデコーダー、そして融合された特徴を用いて予測を行うTransformerデコーダーを採用しています。本論文では、これらのタスク固有のコンポーネントによって導入される帰納的バイアスは、十分に大規模なモデルと広範な事前学習が与えられれば、ViT自体によって学習可能であることを示します。これらの知見に基づいて、我々はプレーンなViTアーキテクチャを再利用して画像セグメンテーションを行うEncoder-only Mask Transformer (EoMT) を提案します。大規模モデルと事前学習を用いることで、EoMTはタスク固有のコンポーネントを使用する最先端モデルと同等のセグメンテーション精度を達成します。同時に、EoMTはそのアーキテクチャの簡潔さにより、これらの手法よりも大幅に高速です。例えば、ViT-Lを使用した場合、最大4倍の速度向上が見られます。様々なモデルサイズにおいて、EoMTはセグメンテーション精度と予測速度の最適なバランスを示し、計算リソースはアーキテクチャの複雑化ではなく、ViT自体のスケーリングに費やすべきであることを示唆しています。コード: https://www.tue-mps.org/eomt/.
要約の精緻化は、多次元への拡張において課題に直面しています。本論文では、フィードバックに対する反射的推論を通じて複数の次元を強化する強力な要約精緻化パイプラインであるReFeedを紹介します。これを実現するため、反射的推論を備えた軽量モデルのトレーニングに最適化された大規模なLong-CoTベースのデータセットであるSumFeed-CoTを公開します。実験により、次元の数、フィードバックの露出、および推論ポリシーが精緻化の性能にどのように影響するかを明らかにし、反射的推論と複数のフィードバックを同時に対処することが次元間のトレードオフを緩和する上で重要であることを示しています。さらに、ReFeedはノイズの多いフィードバックやフィードバックの順序に対してロバストです。最後に、適切な目標とガイドラインに基づいてデータを作成することが効果的な推論の基本的な柱を構成することを強調します。データセットとモデルは公開される予定です。
近年、マルチビューや4Dビデオ生成が重要な研究テーマとして浮上しています。しかし、最近の4D生成アプローチは依然として根本的な制限に直面しており、複数のビデオ拡散モデルを活用するか、限られた実世界の4Dデータと大きな計算コストを伴う完全な4D拡散モデルの訓練に依存していることが主な原因です。これらの課題に対処するため、本研究では、既存のビデオ拡散モデルを活用して単一の入力ビデオからマルチビュービデオを生成する、初の訓練不要な4Dビデオ生成手法を提案します。我々のアプローチは以下の2つの主要なステップで構成されます:(1) 時空間サンプリンググリッドの端のフレームをキーフレームとして指定し、深度ベースのワーピング技術をガイダンスとして利用して、ビデオ拡散モデルを用いてそれらを最初に合成します。このアプローチにより、生成されたフレーム間の構造的一貫性が保証され、空間的および時間的整合性が維持されます。(2) 次に、ビデオ拡散モデルを用いて残りのフレームを補間し、空間的および時間的整合性を保ちながら、完全に埋められた時空間サンプリンググリッドを構築します。このアプローチを通じて、単一のビデオを新しいカメラ軌道に沿ってマルチビュービデオに拡張し、時空間的整合性を維持します。我々の手法は訓練不要であり、既存のビデオ拡散モデルを完全に活用するため、マルチビュービデオ生成に対する実用的で効果的なソリューションを提供します。
移動物体のセグメンテーションは、視覚シーンの高度な理解を実現するための重要なタスクであり、数多くの下流アプリケーションに応用されています。人間は、ビデオ内の移動物体を容易にセグメント化できます。従来の研究では、主にオプティカルフローを用いて動きの手がかりを提供してきましたが、部分的な動き、複雑な変形、モーションブラー、背景の妨害といった課題により、不完全な予測が生じることが多々ありました。本研究では、長距離軌道の動き手がかりとDINOベースのセマンティック特徴を組み合わせ、反復的なプロンプト戦略を通じてSAM2を活用してピクセルレベルのマスク密度化を行う、新しい移動物体セグメンテーション手法を提案します。提案モデルは、時空間軌道アテンションと動き-セマンティック分離埋め込みを採用し、動きを優先しながらセマンティックサポートを統合します。多様なデータセットでの広範なテストにより、最先端の性能を実証し、特に困難なシナリオや複数物体の細粒度セグメンテーションにおいて優れた結果を示しています。コードはhttps://motion-seg.github.io/で公開されています。
我々は、大学レベルの物理学問題解決のための包括的なベンチマーク「PHYSICS」を紹介する。このベンチマークは、古典力学、量子力学、熱力学・統計力学、電磁気学、原子物理学、光学の6つの主要分野をカバーする1297の専門家注釈付き問題を含んでいる。各問題は高度な物理学知識と数学的推論を必要とする。我々は、正確で信頼性の高い検証のための堅牢な自動評価システムを開発した。主要な基盤モデルの評価を通じて、重大な限界が明らかになった。最も先進的なモデルであるo3-miniでさえ、59.9%の精度しか達成できず、高レベルの科学的問題解決における重大な課題が浮き彫りとなった。包括的なエラー分析、多様なプロンプト戦略の探索、およびRetrieval-Augmented Generation(RAG)に基づく知識拡張を通じて、改善すべき重要な領域を特定し、今後の進歩の基盤を築いた。
低精度トレーニングや量子化との関連性に動機づけられ、大規模言語モデル(LLM)における大規模な活性化が最近注目を集めています。しかし、既存の分析は範囲が限られており、アーキテクチャ間での一般化可能性は不明確です。本論文は、GLUベースおよび非GLUベースのアーキテクチャを含む幅広いLLMにおける大規模な活性化の分析を行うことで、これらのギャップの一部を埋めることに貢献します。我々の調査結果は、いくつかの従来の仮定に挑戦するものであり、最も重要な点は以下の通りです:(1)すべての大規模な活性化が有害であるわけではなく、それらを抑制してもパープレキシティの爆発や下流タスクの性能の崩壊を引き起こさないこと、(2)Attention KVバイアスなどの提案された緩和策はモデル固有であり、特定の場合には効果的でないこと。その結果、我々は新しいハイブリッド緩和策を調査しました。特に、Target Variance Rescaling(TVR)をAttention KVバイアスまたはDynamic Tanh(DyT)と組み合わせることで、調査したシナリオにおいて、大規模な活性化の緩和と下流モデルの性能の維持をうまくバランスさせることができました。我々のコードは以下で公開されています:https://github.com/bluorion-com/refine_massive_activations。
2D画像からの高精細3Dモデルに対する需要の高まりに伴い、既存の手法は、ドメインギャップの制約やRGB画像に内在する曖昧さのため、微細な幾何学的詳細を正確に再現する上で依然として大きな課題に直面しています。これらの問題に対処するため、本論文ではHi3DGenを提案します。これは、法線マップを橋渡しとして画像から高精細な3Dジオメトリを生成する新しいフレームワークです。Hi3DGenは3つの主要なコンポーネントで構成されています:(1) ノイズ注入とデュアルストリームトレーニングを用いて低周波・高周波の画像パターンを分離し、汎用的で安定かつ鮮明な推定を実現する画像から法線マップへの推定器、(2) 法線正則化潜在拡散学習を用いて3Dジオメトリ生成の忠実度を向上させる法線マップからジオメトリへの学習手法、(3) トレーニングを支援する高品質なデータセットを構築する3Dデータ合成パイプラインです。広範な実験により、本フレームワークが豊富な幾何学的詳細を生成する上での有効性と優位性が実証され、忠実度の点で最先端の手法を凌駕することが示されました。本研究は、法線マップを中間表現として活用することで、画像からの高精細3Dジオメトリ生成の新たな方向性を提供します。
本論文では、生体力学的に正確な骨格モデルを用いて、単一画像から3D人体を再構築する手法を提案する。これを実現するため、画像を入力としてモデルのパラメータを推定するトランスフォーマーを学習させる。このタスクのための学習データが不足しているため、単一画像に対する擬似グラウンドトゥルースモデルパラメータを生成するパイプラインを構築し、これらの擬似ラベルを反復的に改善する学習手順を実装した。3D人体メッシュ復元の最先端手法と比較して、我々のモデルは標準ベンチマークで競争力のある性能を達成しつつ、極端な3Dポーズや視点の設定においてそれらを大幅に上回る。さらに、従来の再構築手法が関節角度の制限を頻繁に違反し、不自然な回転を引き起こすことを示す。対照的に、我々のアプローチは生体力学的に妥当な自由度を活用することで、より現実的な関節回転推定を実現する。複数の人体姿勢推定ベンチマークにおいて我々のアプローチを検証し、コード、モデル、データをhttps://isshikihugh.github.io/HSMR/で公開する。
任意のトポロジーを持つ高精細な3Dメッシュ(開いた表面や複雑な内部構造を含む)の作成は、依然として大きな課題です。既存の陰的フィールド手法では、コストが高く詳細が劣化する水密変換が必要であり、他のアプローチでは高解像度の処理が困難です。本論文では、SparseFlexという新しい疎構造の等値面表現を提案します。これは、レンダリング損失から直接1024^3の解像度で微分可能なメッシュ再構成を可能にします。SparseFlexは、Flexicubesの精度と疎ボクセル構造を組み合わせ、表面に隣接する領域に計算を集中させ、開いた表面を効率的に処理します。特に重要なのは、フラスタムを考慮したセクショナルボクセルトレーニング戦略を導入し、レンダリング中に関連するボクセルのみを活性化することで、メモリ消費を大幅に削減し、高解像度のトレーニングを可能にした点です。これにより、レンダリングの監視のみを使用してメッシュの内部構造を再構成することが初めて可能になりました。これを基盤として、変分オートエンコーダ(VAE)と整流フロートランスフォーマーをトレーニングし、高品質な3D形状生成のための完全な形状モデリングパイプラインを実証します。実験結果は、従来の手法と比較してChamfer Distanceが約82%減少し、Fスコアが約88%向上するなど、最先端の再構成精度を示し、任意のトポロジーを持つ高解像度で詳細な3D形状の生成を実証しています。レンダリング損失を用いた高解像度の微分可能なメッシュ再構成と生成を可能にすることで、SparseFlexは3D形状表現とモデリングの最先端を大きく前進させます。
マルチモーダル大規模言語モデル(MLLMs)は、2D画像/動画の理解能力において印象的な成果を上げています。しかし、4Dオブジェクト(時間の経過とともに変化する3Dオブジェクト)の理解能力を評価するための公的に標準化されたベンチマークは存在しません。本論文では、4Dオブジェクト理解におけるMLLMsの能力を評価する最初のベンチマークである4D-Benchを紹介します。4D-Benchは、4Dオブジェクト質問応答(4DオブジェクトQA)と4Dオブジェクトキャプショニングのタスクを特徴としています。4D-Benchは、多様なカテゴリの4Dオブジェクト、高品質なアノテーション、および既存の2D画像/動画ベースのベンチマークとは異なる、多視点時空間理解を必要とするタスクを提供します。4D-Benchを用いて、オープンソースおよびクローズドソースの幅広いMLLMsを評価しました。4Dオブジェクトキャプショニング実験の結果から、MLLMsは一般的に外観理解に比べて時間的理解が弱いことが示されました。特に、オープンソースモデルは外観理解においてクローズドソースモデルに近い性能を示す一方で、時間的理解においては大きな性能差が見られました。4DオブジェクトQAでは驚くべき発見がありました:単純な単一オブジェクトの動画であっても、MLLMsの性能は低く、最先端のGPT-4oでさえ人間のベースラインである91%に対して63%の精度しか達成しませんでした。これらの発見は、4Dオブジェクト理解における大きなギャップと、MLLMsのさらなる進化の必要性を浮き彫りにしています。
多モーダル医療診断において人間の臨床医を支援する信頼性の高いAIシステムの開発は、長年にわたり研究者たちの主要な目標となってきた。最近では、多モーダル大規模言語モデル(MLLMs)が注目を集め、さまざまな分野で成功を収めている。ユーザーの指示に基づいて多様なタスクを実行する強力な推論能力を備えており、医療診断の向上に大きな可能性を秘めている。しかし、MLLMsを医療分野に直接適用するにはまだ課題がある。視覚的入力を詳細に認識する能力が不足しており、医療診断に不可欠な定量的画像分析を実行する能力が制限されている。さらに、MLLMsはしばしば幻覚や推論の不整合を示すが、臨床診断は確立された基準に厳密に従わなければならない。これらの課題に対処するため、我々はMedAgent-Proを提案する。これは、信頼性が高く説明可能で正確な医療診断を実現するためのエビデンスベースの推論エージェントシステムである。これは階層的なワークフローを通じて達成される:タスクレベルでは、知識ベースの推論が特定の疾患に対する信頼性の高い診断計画を臨床基準に従って生成する。一方、ケースレベルでは、複数のツールエージェントが多モーダル入力を処理し、計画に従って異なる指標を分析し、定量的および定性的なエビデンスに基づいて最終診断を提供する。2Dおよび3D医療診断タスクにおける包括的な実験は、MedAgent-Proの優位性と有効性を実証し、ケーススタディはその信頼性と解釈可能性をさらに強調している。コードはhttps://github.com/jinlab-imvr/MedAgent-Proで公開されている。
従来の画像分類では、事前に定義された意味的カテゴリのリストが必要とされます。一方、大規模マルチモーダルモデル(LMM)は、自然言語を直接使用して画像を分類することで(例えば、「画像の主な対象物は何ですか?」というプロンプトに答えることで)、この要件を回避することができます。この驚くべき能力にもかかわらず、既存のLMM分類性能に関する研究のほとんどは、驚くほど範囲が限られており、事前に定義されたカテゴリセットを持つ閉じた世界の設定を前提としていることが多いです。本研究では、真に開かれた世界の設定においてLMMの分類性能を徹底的に評価することで、このギャップを埋めます。まず、タスクを形式化し、評価プロトコルを導入し、予測クラスと正解クラス間の整合性を評価するための様々な指標を定義します。次に、13のモデルを10のベンチマークで評価し、プロトタイプ的、非プロトタイプ的、細粒度、および非常に細粒度のクラスを含むこのタスクにおけるLMMが直面する課題を実証します。提案された指標に基づくさらなる分析により、LMMが犯すエラーのタイプを明らかにし、粒度と細粒度能力に関連する課題を強調し、カスタマイズされたプロンプティングと推論がそれらをどのように軽減できるかを示します。
ソフトウェアエンジニアリングのためのAIは最近目覚ましい進歩を遂げ、生成AIの中でも注目すべき成功を収めています。しかし、自動化されたソフトウェアエンジニアリングがその真の可能性を発揮するためには、まだ多くの課題が残されています。人間が何を構築するか、難しいトレードオフをどのようにバランスさせるかといった重要な意思決定に集中し、ほとんどの日常的な開発作業が自動化されるという高いレベルの自動化を達成することは可能であるべきです。このレベルの自動化を実現するためには、学界と産業界の双方で大規模な研究とエンジニアリングの取り組みが必要です。本論文では、この目標に向けた進展を3つの側面から議論することを目指します。まず、ソフトウェアエンジニアリングにおけるAIの具体的なタスクを体系化した分類を提供し、コード生成や補完以外の多くのタスクに焦点を当てます。次に、現在のアプローチを制限しているいくつかの主要なボトルネックを概説します。最後に、これらのボトルネックを解決するための有望な研究方向性について、意見を交えたリストを提供し、この急速に成熟している分野の将来の研究を刺激することを期待します。
4次元コンピュータ断層撮影(4D CT)再構成は、動的な解剖学的変化を捉える上で重要であるが、従来のフェーズビニングワークフローには本質的な制限がある。現在の手法では、呼吸同期装置を用いて時間分解能を固定されたフェーズに離散化しており、これにより運動のずれが生じ、臨床的な実用性が制限されている。本論文では、動的な放射状ガウススプラッティングと自己教師あり呼吸運動学習を統合することで、連続時間4D-CT再構成を可能にする新しいフレームワークであるX^2-Gaussianを提案する。本手法は、時空間エンコーダ-デコーダアーキテクチャを通じて解剖学的ダイナミクスをモデル化し、時間的に変化するガウス変形を予測することで、フェーズ離散化を排除する。外部同期装置への依存をなくすため、微分可能最適化を介して投影データから患者固有の呼吸周期を直接学習する生理学駆動型の周期性一貫性損失を導入する。大規模な実験により、従来手法に対して9.93 dBのPSNR向上を達成し、先行するガウススプラッティング技術と比較しても2.25 dBの改善を示す、最先端の性能を実証した。連続的な運動モデリングとハードウェア不要の周期学習を統合することで、X^2-Gaussianは動的臨床画像のための高忠実度4D CT再構成を進化させる。プロジェクトウェブサイト: https://x2-gaussian.github.io/
意図は、通常明確に定式化され計画されたものとして、推論と問題解決のための認知的枠組みとして機能します。本論文では、大規模言語モデル(LLM)における「意図を持った発話(Speaking with Intent, SWI)」という概念を紹介します。SWIでは、明示的に生成された意図がモデルの根底にある意図を包含し、その後の分析とコミュニケーションを導くための高レベルの計画を提供します。人間の心における意図的で目的を持った思考を模倣することで、SWIはLLMの推論能力と生成品質を向上させると仮定されています。数学的推論ベンチマークでの広範な実験では、SWIがベースライン(明示的な意図なしの生成)を一貫して上回ることを示しています。さらに、SWIはChain-of-ThoughtやPlan-and-Solveといった回答トリガー型プロンプト手法を凌駕し、強力な手法であるARR(Analyzing, Retrieving, and Reasoning)と競合する性能を維持しています。また、推論集約型の質問応答(QA)やテキスト要約のベンチマークにおいても、SWIの有効性と汎用性が確かめられており、SWIはベースライン生成に一貫した改善をもたらします。テキスト要約では、SWIによって生成された要約は、より正確で簡潔であり、事実の正確性が高く、幻覚(hallucination)が少ないことが示されています。さらに、人間による評価を通じて、SWIが生成する意図の一貫性、有効性、解釈可能性が検証されています。この概念実証研究は、認知的観念を用いてLLMの推論能力を強化するための新たな道を切り開くものです。