翻訳付きの日次キュレーションされたAI研究論文
難しい試験問題に直面する学生のように、大規模言語モデルも不確実な状況では推測を行うことがあり、不確実性を認める代わりに、もっともらしいが誤った記述を生成することがある。このような「幻覚(hallucination)」現象は、最先端のシステムにおいても持続し、信頼性を損なう。我々は、言語モデルが幻覚を起こす理由として、訓練と評価のプロセスが不確実性を認めるよりも推測を奨励するためであると主張し、現代の訓練パイプラインにおける幻覚の統計的原因を分析する。幻覚は必ずしも神秘的なものではなく、単に二値分類の誤りとして発生する。誤った記述が事実と区別できない場合、事前訓練された言語モデルにおいて幻覚は自然な統計的圧力によって生じる。さらに、幻覚が持続する理由として、ほとんどの評価が採点される方法に起因すると主張する。言語モデルは良いテスト受験者となるように最適化されており、不確実な状況での推測がテストの成績を向上させる。この「不確実な回答を罰する」という「流行病」は、リーダーボードを支配しているが誤った方向性を持つ既存のベンチマークの採点方法を変更するという、社会技術的な緩和策によってのみ対処できる。この変更により、より信頼性の高いAIシステムに向けた分野の舵取りが可能となるかもしれない。
自己回帰型の次トークン予測言語モデルは強力な能力を提供するが、特にデコード段階における推論の高い計算コストとメモリコストのため、実用的な展開において重大な課題に直面している。本論文では、標準的な次トークン予測(NTP)とマスクトークン予測(MATP)を単一のアーキテクチャ内に統合することで生成を加速する、シンプルで柔軟なパラダイムであるSet Block Decoding(SBD)を提案する。SBDは、モデルが複数の、必ずしも連続的でない将来のトークンを並列にサンプリングすることを可能にし、これまでの加速手法との重要な違いとなっている。この柔軟性により、離散拡散理論から高度なソルバーを利用することが可能となり、精度を犠牲にすることなく大幅な高速化を実現する。SBDは、アーキテクチャの変更や追加のトレーニングハイパーパラメータを必要とせず、正確なKVキャッシングとの互換性を維持し、既存の次トークン予測モデルを微調整することで実装可能である。Llama-3.1 8BおよびQwen-3 8Bを微調整することで、SBDが生成に必要なフォワードパスの回数を3~5倍削減しつつ、同等のNTPトレーニングと同等の性能を達成することを実証する。
大規模言語モデル(LLM)はプログラム合成において優れた能力を発揮しますが、正確な視覚的コンテンツをレンダリングするシンボリックグラフィックスプログラム(SGP)を生成する能力については、まだ十分に研究されていません。本研究では、自然言語の記述からSGPを生成することを目的としたシンボリックグラフィックスプログラミングに焦点を当てます。このタスクは、LLMが視覚世界をどのように理解しているかを探るためのレンズとしても機能し、SGPからレンダリングされた画像を生成するよう促すことでその理解を深めます。様々なSGPの中でも、本論文ではスケーラブルベクターグラフィックス(SVG)に限定して検討します。まず、LLMがSGPを生成できる範囲を調査します。そのために、オブジェクトの忠実度、シーンの忠実度、構成性(属性のバインド、空間関係、数値処理)をカバーする包括的なベンチマークであるSGP-GenBenchを導入します。SGP-GenBenchにおいて、最先端のプロプライエタリモデルがオープンソースモデルを大幅に上回り、その性能は一般的なコーディング能力とよく相関していることが明らかになりました。このギャップに動機づけられ、LLMのSGP生成能力を向上させることを目指します。我々は、検証可能な報酬を用いた強化学習(RL)アプローチを提案します。このアプローチでは、フォーマットの妥当性ゲートがレンダリング可能なSVGを保証し、クロスモーダル報酬が強力な視覚エンコーダ(例えば、テキストと画像の整合性を図るSigLIP、画像間の整合性を図るDINO)を介してテキストとレンダリングされた画像を整合させます。この手法をQwen-2.5-7Bに適用した結果、SVGの生成品質と意味論が大幅に向上し、最先端システムと同等の性能を達成しました。さらに、トレーニングダイナミクスを分析し、RLが(i)オブジェクトを制御可能なプリミティブに細かく分解すること、(ii)シーンの一貫性を向上させる文脈的詳細を誘導することを示しました。我々の結果は、シンボリックグラフィックスプログラミングがクロスモーダルグラウンディングに対する正確で解釈可能なレンズを提供することを実証しています。
単一の画像や映像からシーンの照明を推定することは、コンピュータビジョンおよびグラフィックスにおける長年の課題である。学習ベースのアプローチは、高ダイナミックレンジ(HDR)環境マップの実データの不足に制約されており、その取得は高コストで多様性も限られている。最近の生成モデルは画像合成のための強力な事前分布を提供するが、照明推定は間接的な視覚的手がかりへの依存、グローバル(非局所的)な文脈の推論、および高ダイナミックレンジ出力の復元が必要なため、依然として困難である。本研究では、LuxDiTという新しいデータ駆動型アプローチを提案する。これは、ビデオ拡散トランスフォーマーを微調整し、視覚的入力に基づいてHDR環境マップを生成するものである。多様な照明条件を持つ大規模な合成データセットで訓練された本モデルは、間接的な視覚的手がかりから照明を推論し、実世界のシーンに効果的に一般化する。入力と予測された環境マップ間の意味的整合性を向上させるため、収集したHDRパノラマデータセットを用いた低ランク適応微調整戦略を導入する。本手法は、現実的な角度的高周波詳細を伴う正確な照明予測を生成し、定量的および定性的な評価において既存の最先端技術を凌駕する。
近年のマルチモーダル大規模言語モデル(MLLMs)の進展は、様々な視覚-言語タスクにおいて印象的な能力を示してきた。しかし、マルチモーダルな記号音楽領域におけるそれらの推論能力は、ほとんど未開拓のままである。本研究では、WildScoreを紹介する。これは、実世界の楽譜を解釈し、複雑な音楽学的クエリに答えるMLLMsの能力を評価するために設計された、初の実環境マルチモーダル記号音楽推論・分析ベンチマークである。WildScoreの各インスタンスは、実際の音楽作品から収集され、本物のユーザー生成の質問と議論を伴い、実践的な音楽分析の複雑さを捉えている。体系的な評価を促進するため、高レベルおよび詳細な音楽学的オントロジーからなる体系的分類を提案する。さらに、複雑な音楽推論を多肢選択式質問応答として枠組み化し、MLLMsの記号音楽理解を制御可能かつスケーラブルに評価する。最先端のMLLMsをWildScoreで実証的にベンチマークした結果、視覚-記号推論における興味深いパターンが明らかになり、記号音楽推論と分析におけるMLLMsの有望な方向性と持続的な課題が浮き彫りになった。データセットとコードを公開する。
近年の研究では、複雑な現実世界のシナリオをシミュレートする3Dワールドモデルの開発に焦点が当てられています。ワールドモデルは、エンボディドAI、自動運転、エンターテイメントなど、さまざまな分野で広範な応用が見出されています。正確な物理法則に基づくより現実的なシミュレーションは、シミュレーションと現実のギャップを効果的に縮め、現実世界に関する豊富な情報を容易に収集することを可能にします。従来の手動モデリングは仮想3Dシーンの作成を可能にしてきましたが、現代のアプローチでは、3Dワールド生成のための高度な機械学習アルゴリズムが活用されており、最近の進展ではユーザーの指示に基づいて仮想世界を生成する生成手法に焦点が当てられています。本研究では、LatticeWorldというシンプルでありながら効果的な3Dワールド生成フレームワークを提案し、3D環境の産業生産パイプラインを効率化する研究方向を探求します。LatticeWorldは、軽量なLLM(LLaMA-2-7B)と産業グレードのレンダリングエンジン(例:Unreal Engine 5)を活用して動的な環境を生成します。提案するフレームワークは、テキスト記述と視覚的指示をマルチモーダル入力として受け入れ、動的なエージェントを備えた大規模な3Dインタラクティブワールドを作成し、競争力のあるマルチエージェントインタラクション、高忠実度の物理シミュレーション、リアルタイムレンダリングを特徴とします。LatticeWorldを評価するために包括的な実験を実施し、シーンレイアウト生成と視覚的忠実度において優れた精度を達成することを示します。さらに、LatticeWorldは、従来の手動生産方法と比較して、高い創造的品質を維持しながら、産業生産効率を90倍以上向上させます。デモビデオはhttps://youtu.be/8VWZXpERR18でご覧いただけます。
本論文では、高精度なカメラ姿勢と高品質なポイントマップをオンラインで予測可能なフィードフォワード再構成モデル「WinT3R」を提案します。従来の手法では、再構成品質とリアルタイム性能の間でトレードオフが生じていました。この課題に対処するため、まずスライディングウィンドウ機構を導入し、ウィンドウ内のフレーム間で十分な情報交換を確保することで、大規模な計算を伴わずに幾何学的予測の品質を向上させます。さらに、カメラのコンパクトな表現を活用し、グローバルなカメラトークンプールを維持することで、効率性を損なうことなくカメラ姿勢推定の信頼性を高めます。これらの設計により、WinT3Rはオンライン再構成品質、カメラ姿勢推定、再構成速度の面で最先端の性能を達成し、多様なデータセットを用いた広範な実験によってその有効性が検証されています。コードとモデルはhttps://github.com/LiZizun/WinT3Rで公開されています。
多くのタスク領域における進歩は、以前の解決策の試みに対する繰り返しの修正から生まれます。推論時にそのようなシーケンスを経て確実に自己改善できるエージェントを訓練することは、強化学習(RL)の自然な目標です。しかし、ナイーブなアプローチでは固定された最大反復深度を仮定しており、これはコストがかかる上に恣意的でもあります。本論文では、Exploratory Iteration(ExIt)を提案します。これは、自己改善タスクの再帰的構造を直接活用して、推論時に多段階の自己改善を実行するLLMを訓練する一方で、最も情報量の多い単一段階の反復のみを訓練対象とする、オートカリキュラムRL手法のファミリーです。ExItは、エピソード中に遭遇した最も情報量の多い中間的な部分履歴を選択的にサンプリングしてタスク空間を拡大し、これらの開始点を新しい自己反復タスクインスタンスとして扱い、自己改善ポリシーを訓練します。ExItは、明示的な探索メカニズムと組み合わせることで、より大きなタスク多様性を維持することもできます。競技数学、マルチターンのツール使用、機械学習エンジニアリングなど、いくつかの領域にわたって、単一または複数のタスクインスタンスから開始するExIt戦略が、保持されたタスクインスタンスに対して強い推論時自己改善を示すポリシーを生成し、訓練中に遭遇した平均反復深度を超えるステップ予算内でより高いパフォーマンスに向けて反復する能力を有することを実証します。
現在の大規模言語モデル(LLM)のベンチマークは、主にパフォーマンス指標に焦点を当てており、モデル間の微妙な行動特性を捉えることがしばしばできていない。本論文では、従来の評価を超えるために、モデルの内在的な認知スタイルとインタラクションスタイルを多面的にプロファイリングする新しい「行動フィンガープリンティング」フレームワークを提案する。厳選された診断プロンプトスイートと、強力なLLMを公平な審判として活用した革新的な自動評価パイプラインを用いて、能力階層にわたる18のモデルを分析した。その結果、LLMの状況において重要な分岐点が明らかになった:トップモデル間では抽象的推論や因果推論といった中核能力が収束している一方で、同調性や意味的堅牢性といったアライメント関連の行動は劇的に異なる。さらに、モデル間でデフォルトのパーソナリティクラスタリング(ISTJ/ESTJ)が観察され、これは共通のアライメントインセンティブを反映している可能性が高い。全体として、モデルのインタラクション特性は、その規模や推論能力から自然に生じるものではなく、特定の、そして非常に多様な開発者によるアライメント戦略の直接的な結果であることが示唆される。本フレームワークは、これらの深層的な行動の違いを明らかにするための再現性と拡張性を備えた方法論を提供する。プロジェクト:https://github.com/JarvisPei/Behavioral-Fingerprinting
大規模言語モデル(LLM)の有効性は、通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価されます。これらのベンチマークでは、質問は元の文言で提示されるため、固定された標準化された形式で行われます。しかし、現実世界のアプリケーションでは言語的多様性が関与し、モデルが同じ質問やクエリの多様な言い換えに対して有効性を維持する必要があります。本研究では、LLMのベンチマーク質問の言い換えに対する頑健性を体系的に評価し、ベンチマークに基づく評価がモデルの能力を信頼できる尺度として提供するかどうかを調査します。私たちは、6つの異なる一般的なベンチマークのすべての質問に対して、体系的にさまざまな言い換えを生成し、34の最先端のLLM(サイズと有効性が異なる)の有効性の変化を測定します。私たちの調査結果は、LLMのランキングが言い換えられた入力に対して比較的安定している一方で、絶対的な有効性スコアが変化し、大幅に低下することを明らかにしています。これは、LLMが言語的多様性に苦戦していることを示唆し、その汎化能力と評価方法論に関する懸念を提起します。さらに、観察された性能の低下は、ベンチマークに基づく評価の信頼性に疑問を投げかけ、高いベンチマークスコアが現実世界の入力変動に対するモデルの頑健性を完全に捉えていない可能性を示しています。私たちは、これらの調査結果がLLMの評価方法論に与える影響について議論し、実践的な展開シナリオをよりよく反映する頑健性を意識したベンチマークの必要性を強調します。
放射線診断におけるエラー―見落としエラー、不注意による盲点、コミュニケーションの失敗―は、臨床現場で依然として頻繁に発生しています。これらの問題は、局所的な異常の見落とし、全体像の把握の限界、レポート言語のばらつきに起因することが多いです。これらの課題は、3D画像診断においてさらに顕著であり、臨床医は1回のスキャンで数百枚のスライスを確認しなければなりません。これらの課題に対処するためには、精密な局所検出、全体像レベルの推論、意味的に一貫した自然言語レポートを生成するシステムが必要です。しかし、既存の3D視覚言語モデルは、空間推論のための局所-全体理解が欠如しており、未整理の放射線レポートのばらつきやノイズに対処できないため、これら3つの要件を同時に満たすことができません。本論文では、3D CT解析のためのマルチスケール意味強化視覚言語事前学習フレームワークであるMedVista3Dを提案します。疾患検出と全体的な解釈を同時に行うために、MedVista3Dは全ボリュームコンテキスト内での細粒度表現学習のために、局所および全体の画像-テキストアライメントを実行します。レポートのばらつきに対処するために、言語モデルの書き換えを適用し、意味を考慮したアライメントのための放射線意味マッチングバンクを導入します。MedVista3Dは、ゼロショット疾患分類、レポート検索、医療視覚質問応答において最先端の性能を達成し、臓器セグメンテーションや予後予測にも良好に転移します。コードとデータセットは公開予定です。
我々はU-Armを提案する。これは、市販のほとんどのロボットアームとインターフェース可能な、低コストで迅速に適応可能なリーダー・フォロワー型テレオペレーションフレームワークである。本システムは、一貫した制御ロジックを共有する3種類の構造的に異なる3Dプリント製リーダーアームを通じてテレオペレーションをサポートし、多様な市販ロボット構成とのシームレスな互換性を実現している。従来のオープンソースのリーダー・フォロワーインターフェースと比較して、機械設計とサーボ選択の両方を最適化し、6自由度リーダーアームの部品表(BOM)コストをわずか50.5ドル、7自由度バージョンを56.8ドルに抑えた。使いやすさを向上させるため、冗長な自由度の制御における一般的な課題を、機械的および制御の最適化によって軽減した。実験結果は、U-Armが別の低コストテレオペレーションインターフェースであるJoyconと比較して、複数の操作シナリオにおいて39%高いデータ収集効率と同等のタスク成功率を達成することを示している。我々は3つの構成のすべてのCADモデルをオープンソース化し、テレオペレーションワークフローの検証のためのシミュレーションサポートも提供した。また、U-Armで収集した実世界の操作データもオープンソース化した。プロジェクトのウェブサイトはhttps://github.com/MINT-SJTU/LeRobot-Anything-U-Armである。