翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLMs)が急速に進化する中、その出力に対する正確なフィードバックとスケーラブルな監視を提供することが緊急かつ重要な課題となっています。LLMsを批評モデルとして活用し、自動化された監督を実現することは有望な解決策です。本研究では、LLMsの数学的批評能力の研究と強化に焦点を当てます。現在のLLM批評モデルは、各ステップに対する批評が浅く表面的であり、判断精度が低く、LLM生成モデルが誤りを修正するための十分なフィードバックを提供することが困難です。この問題に対処するため、数学的解法の各推論ステップを意図的に批評できるLLM批評モデルを開発するための新規かつ効果的な2段階フレームワークを提案します。第1段階では、Qwen2.5-72B-Instructを利用して4.5Kの長文批評を生成し、教師ありファインチューニングのためのシードデータとします。各シード批評は、多角的な検証を含む意図的なステップごとの批評と、各推論ステップに対する初期批評の深い批評で構成されます。次に、PRM800Kの人間によるラベル付きデータまたはモンテカルロサンプリングに基づく正しさ推定を用いて自動的にアノテーションされたデータを用いて、ファインチューニングされたモデルに対して強化学習を行い、その批評能力をさらに向上させます。Qwen2.5-7B-Instructに基づいて開発された批評モデルは、様々な誤り識別ベンチマークにおいて、既存のLLM批評モデル(同サイズのDeepSeek-R1-distillモデルやGPT-4oを含む)を大幅に上回るだけでなく、より詳細なフィードバックを通じてLLM生成モデルが誤ったステップを修正するのにより効果的に役立ちます。
インタラクティブ生成ビデオ(IGV)は、様々な分野における高品質でインタラクティブなビデオコンテンツの需要の高まりに対応する重要な技術として登場しました。本論文では、IGVを、多様な高品質ビデオコンテンツを生成する能力と、制御信号と応答フィードバックを通じてユーザーエンゲージメントを可能にするインタラクティブ機能を組み合わせた技術と定義します。我々は、IGVの現在の応用状況を調査し、以下の3つの主要な分野に焦点を当てます:1)ゲーム分野では、IGVが仮想世界における無限の探索を可能にすること、2)エンボディードAI分野では、IGVが動的に進化するシーンとのマルチモーダルインタラクションにおいてエージェントを訓練するための物理認識環境合成装置として機能すること、3)自動運転分野では、IGVが安全クリティカルなテストと検証のための閉ループシミュレーション能力を提供することです。今後の開発を導くために、理想的なIGVシステムを5つの必須モジュール(生成、制御、メモリ、ダイナミクス、知能)に分解する包括的なフレームワークを提案します。さらに、理想的なIGVシステムを実現するための各コンポーネントにおける技術的課題と将来の方向性、例えばリアルタイム生成の達成、オープンドメイン制御の実現、長期的な一貫性の維持、正確な物理シミュレーション、因果推論の統合などを体系的に分析します。この体系的な分析が、IGV分野における今後の研究開発を促進し、最終的により洗練された実用的な応用に向けて技術を進歩させることを我々は信じています。
大規模言語モデルの最近の進展により、連鎖的思考(CoT)と強化学習(RL)が性能向上にどのように寄与するかが実証されています。しかし、このような推論戦略を視覚生成領域に適用することは、ほとんど未開拓のままです。本論文では、二段階のCoT推論プロセスを備えたRLを活用した、新しい推論強化型テキストから画像生成モデル「T2I-R1」を提案します。具体的には、生成の異なる段階を強化するために利用可能な2つのレベルのCoTを特定しました:(1)プロンプトの高レベル計画のための意味レベルCoTと、(2)パッチごとの生成中に低レベルのピクセル処理を行うためのトークンレベルCoTです。これら2つのレベルのCoTをより良く調整するために、生成報酬のアンサンブルを備えたBiCoT-GRPOを導入し、同じトレーニングステップ内で両方の生成CoTをシームレスに最適化します。ベースラインモデルであるJanus-Proにこの推論戦略を適用することで、T2I-CompBenchで13%、WISEベンチマークで19%の性能向上を達成し、最先端モデルFLUXを上回る結果を得ました。コードは以下で公開されています:https://github.com/CaraJ7/T2I-R1
逐次的意思決定タスクにおける大規模言語モデル(LLM)エージェントの性能向上のための多くの手法は、タスク固有の知識エンジニアリングに依存しています。例えば、プロンプトチューニング、精選されたインコンテキスト例、またはカスタマイズされた観測空間と行動空間などが挙げられます。これらのアプローチでは、エージェントの性能は投入された知識エンジニアリングの質や量に比例して向上します。しかし、本研究では、LLMエージェントが類似タスクにおける自身の成功経験からインコンテキストで学習することで、自動的に性能を向上させる方法を探ります。タスク固有の知識エンジニアリングに頼る代わりに、自己生成された例のデータベースを構築し、洗練することに焦点を当てます。我々は、訓練タスク全体での成功軌跡を単純に蓄積するだけで、3つのベンチマーク(ALFWorld:73%から89%、Wordcraft:55%から64%、InterCode-SQL:75%から79%)においてテスト性能が向上し、初期エージェントがタスクごとに2〜3回の試行を許可された場合の性能に匹敵することを実証しました。さらに、2つの拡張を導入します:(1)集団ベースのトレーニングを通じたデータベースレベルの選択により、高性能な例のコレクションを特定し、(2)個々の軌跡をそのインコンテキスト例としての実用性に基づいて保持するエクゼンプラーレベルの選択です。これらの拡張により、ALFWorldで91%の性能を達成し、タスク固有のコンポーネントやプロンプトを使用するより複雑なアプローチに匹敵する結果を得ました。我々の結果は、自動的な軌跡データベース構築が、労力を要する知識エンジニアリングに対する有力な代替手段であることを示しています。
リップシンクロナイゼーションは、既存のビデオにおける唇の動きを新しい入力音声に合わせるタスクとして知られており、一般的に音声駆動型の顔面アニメーションの簡易版として位置づけられています。しかし、リップシンクロナイゼーションは、話し頭生成における一般的な課題(例えば、時間的一貫性)に加えて、入力ビデオからの表情の漏れや顔の遮蔽といった新たな重大な課題を抱えています。これらの課題は、自動吹き替えなどの実世界のアプリケーションに深刻な影響を及ぼす可能性がありますが、既存の研究ではしばしば無視されています。これらの欠点に対処するため、我々はKeySyncを提案します。これは、時間的一貫性の問題を解決するだけでなく、入念に設計されたマスキング戦略を用いて漏れや遮蔽に対する解決策を組み込んだ2段階のフレームワークです。KeySyncがリップ再構築とクロスシンクロナイゼーションにおいて最先端の結果を達成し、視覚的品質を向上させ、我々が新たに提案した漏れ指標であるLipLeakに基づいて表情の漏れを減少させることを示します。さらに、我々の新しいマスキングアプローチが遮蔽の処理において有効であることを実証し、いくつかのアブレーションスタディを通じてアーキテクチャの選択を検証します。コードとモデルの重みはhttps://antonibigata.github.io/KeySyncで公開されています。
道徳的な物語は、価値観を伝えるための時代を超えた手段であるが、現代の自然言語処理(NLP)では、首尾一貫した物語と明示的な倫理的教訓を結びつけた大規模で構造化されたコーパスが不足している。このギャップを埋めるために、我々はTF1-EN-3Mを提供する。これは、8Bパラメータ以下の指示調整モデルによって生成された300万件の英語の寓話からなる初のオープンデータセットである。各物語は、6つのスロット(キャラクター -> 特性 -> 設定 -> 葛藤 -> 解決 -> 教訓)に従っており、ジャンルの忠実性を保証しつつ広範なテーマ空間をカバーする組み合わせプロンプトエンジンを通じて生成される。 ハイブリッド評価パイプラインは、(i) 文法、創造性、道徳的明確性、テンプレートの遵守を評価するGPTベースの批評家と、(ii) 参照不要の多様性と読みやすさのメトリクスを組み合わせている。10のオープンウェイト候補の中でも、8BパラメータのLlama-3バリアントが品質と速度の最適なトレードオフを提供し、単一のコンシューマーGPU(<24 GB VRAM)で約13.5セント/1,000寓話のコストで高スコアの寓話を生成する。 我々は、データセット、生成コード、評価スクリプト、および完全なメタデータを寛容なライセンスの下で公開し、正確な再現性とコストベンチマークを可能にする。TF1-EN-3Mは、指示追従、物語知能、価値整合、子供向け教育AIの研究の道を開き、大規模な道徳的物語の生成がもはや専有の巨大モデルを必要としないことを示している。
大規模言語モデル(LLM)はソフトウェア工学を変革してきたが、物理工学領域への応用はまだ十分に検討されていない。本論文では、LLMの高推力ロケット設計における能力を、高精度ロケットシミュレーションと接続したベンチマーク「RocketBench」を通じて評価する。我々は、モデルを2つの段階的に複雑化する設計課題(目標高度最適化と精密着陸課題)でテストした。その結果、最先端のLLMは基本的な工学知識を強く示すものの、シミュレーション結果を与えられた際に設計を反復する能力に苦戦し、最終的には人間の性能レベルを下回るプラトーに達することが明らかになった。しかし、強化学習(RL)を組み合わせることで、7Bパラメータのモデルが最先端の基盤モデルと人間の専門家の両方を上回る性能を示すことが確認された。この研究は、RLで訓練されたLLMが複雑な工学最適化の有効なツールとして機能し、ソフトウェア開発を超えた工学領域を変革する可能性があることを示している。
近年、長文推論モデルは複雑な推論タスクにおいて高い性能を達成していますが、しばしば多大な推論オーバーヘッドを伴い、効率性が重要な課題となっています。私たちの実証分析によると、Long-CoTの使用による効果は問題によって異なり、一部の問題では詳細な推論が必要である一方、他の問題では改善が見られないか、むしろ精度が低下する場合もあります。これにより、入力に応じて推論の深さを調整する適応的推論戦略の必要性が浮き彫りになりました。しかし、これまでの研究は主に長い推論パス内の冗長性を削減することに焦点を当てており、Long-CoTパラダイムを超えたより効率的な戦略の探求が限られていました。この問題に対処するため、私たちは適応的かつ効率的な推論のための新しい二段階フレームワークを提案します。まず、長文と短文のCoTモデルを統合してハイブリッド推論モデルを構築し、多様な推論スタイルを可能にします。次に、二段階の選好学習を適用して、モデルが適切な推論スタイルを選択する(グループレベル)とともに、各スタイルグループ内で簡潔で正確な推論を好む(インスタンスレベル)ように導きます。実験結果は、私たちの手法が他のベースラインアプローチと比較して推論コストを大幅に削減しつつ、性能を維持することを示しています。特に、5つの数学データセットにおいて、推論の平均長が50%以上短縮され、大規模言語モデルにおける推論効率を最適化する適応戦略の可能性が強調されました。私たちのコードは近日中にhttps://github.com/StarDewXXX/AdaR1で公開予定です。
スクリプティングインターフェースは、ユーザーがタスクを自動化し、ソフトウェアのワークフローをカスタマイズすることを可能にしますが、従来のスクリプト作成にはプログラミングの専門知識と特定のAPIへの習熟が必要であり、多くのユーザーにとって障壁となっています。大規模言語モデル(LLM)は自然言語クエリからコードを生成できますが、未検証のコード、セキュリティリスク、長い応答時間、高い計算コストのため、実行時のコード生成は大幅に制限されています。このギャップを埋めるため、我々はLLMと公開されているスクリプティングガイドを活用して、検証済みのスクリプトの集合であるソフトウェア固有のスキルセットをキュレーションするオフラインシミュレーションフレームワークを提案します。このフレームワークは2つのコンポーネントで構成されます:(1)トップダウンの機能ガイダンスとボトムアップのAPIシナジー探索を使用して有用なタスクを生成するタスク作成、(2)実行フィードバックに基づいてスクリプトを洗練し検証する試行を伴うスキル生成です。広大なAPIのランドスケープを効率的にナビゲートするために、APIシナジーを捕捉するグラフニューラルネットワーク(GNN)ベースのリンク予測モデルを導入し、未活用のAPIを含むスキルの生成を可能にし、スキルセットの多様性を拡張します。Adobe Illustratorを用いた実験では、従来の実行時コード生成と比較して、本フレームワークが自動化の成功率を大幅に向上させ、応答時間を短縮し、実行時のトークンコストを節約することが示されました。これは、ソフトウェアスクリプティングインターフェースをLLMベースシステムのテストベッドとして使用する初めての試みであり、制御された環境で実行フィードバックを活用する利点を強調し、専門ソフトウェア領域におけるAI能力とユーザーニーズの整合に関する貴重な洞察を提供します。
異なる言語が飛び交う混雑した空間にいながら、周囲の音声空間を母国語に変換しつつ、すべての話者の空間的キューを保持するヘアラブルデバイスを想像してください。本論文では、空間的音声翻訳という新しいコンセプトを紹介します。これは、装着者の環境中の話者を翻訳しつつ、バイノーラル出力において各話者の方向性と個性的な声の特徴を維持するヘアラブルデバイスのための技術です。これを実現するため、我々はブラインドソース分離、位置推定、リアルタイム表現力豊かな翻訳、そして翻訳された音声中で話者の方向性を保持するバイノーラルレンダリングといった技術的課題に取り組み、Apple M2シリコン上でのリアルタイム推論を達成しました。プロトタイプのバイノーラルヘッドセットを用いた概念実証評価では、干渉下で失敗する既存モデルとは異なり、環境中の他の話者からの強い干渉があっても、言語間翻訳において最大22.01のBLEUスコアを達成しました。ユーザスタディでは、これまで未経験の現実世界の残響環境において、翻訳された音声を空間的にレンダリングするシステムの有効性がさらに確認されました。一歩引いて見ると、この研究は音声翻訳に空間的知覚を統合するための第一歩を記すものです。
データ拡張は、限られたデータ条件下での分類精度、病変検出、臓器セグメンテーションの向上において、医療画像処理において不可欠です。しかし、2つの重要な課題が残されています。第一に、自然写真と医療画像の間の顕著なドメインギャップが、重要な疾患特徴を歪める可能性があります。第二に、医療画像における拡張研究は断片的で、単一のタスクやアーキテクチャに限定されており、高度なミックスベース戦略の利点が不明確です。これらの課題に対処するため、脳腫瘍MRIと眼疾患眼底データセットにおいて、畳み込みおよびトランスフォーマーバックボーンと統合された6つのミックスベース拡張手法を用いた統一評価フレームワークを提案します。我々の貢献は3つあります。(1)医療画像における高度なデータ拡張のための包括的かつ再現可能なベンチマークであるMediAugを導入します。(2)ResNet-50とViT-Bバックボーンを用いて、MixUp、YOCO、CropMix、CutMix、AugMix、SnapMixを体系的に評価します。(3)広範な実験を通じて、MixUpがResNet-50の脳腫瘍分類タスクで79.19%の精度で最大の改善をもたらし、SnapMixがViT-Bで99.44%の精度で最大の改善をもたらすこと、またYOCOがResNet-50の眼疾患分類タスクで91.60%の精度で最大の改善をもたらし、CutMixがViT-Bで97.94%の精度で最大の改善をもたらすことを示します。コードはhttps://github.com/AIGeeksGroup/MediAugで公開予定です。
インテリジェント交通システム(ITS)において、ネットワークカメラの数が増え続ける中、交通監視、管理、最適化のためのビジョンセンサーの重要性が高まっています。しかし、都市規模の交通シナリオにおいて、複数の重ならないカメラ間での手動による物体追跡とマッチングは、大きな課題を抱えています。これらの課題には、多様な車両属性、オクルージョン、照明の変化、影、および異なるビデオ解像度の処理が含まれます。これらの問題に対処するため、我々は、Multi-Object Multi-Camera Tracking(MO-MCT)のための効率的でコスト効果の高い深層学習ベースのフレームワークを提案します。提案フレームワークは、物体検出にMask R-CNNを利用し、重複検出からターゲット物体を選択するためにNon-Maximum Suppression(NMS)を採用します。再識別には転移学習を活用し、複数のカメラ間で車両トラックレットの関連付けと生成を可能にします。さらに、オクルージョン、照明、影の課題に対処するために適切な損失関数と距離尺度を活用します。最終的なソリューション識別モジュールは、ResNet-152とDeep SORTベースの車両追跡を組み合わせて特徴抽出を行います。提案フレームワークは、46のカメラフィードを含む第5回AI City Challengeデータセット(トラック3)で評価されました。これらの46のカメラストリームのうち、40はモデルのトレーニングと検証に使用され、残りの6つはモデルのテストに利用されました。提案フレームワークは、IDF1スコア0.8289、精度0.9026、再現率0.8527を達成し、堅牢で正確な車両追跡における有効性を実証しました。