AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

予測的データ選択：予測するデータが教えるデータである
Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Mar 2

ByKashun Shum, Yuzhen Huang, Hongjian Zou, Ding Qi, Yixuan Liao, Xiaoxin Chen, Qian Liu, Junxian He

言語モデルの事前学習は、大規模なコーパスを用いて行われ、データの品質が重要な役割を果たします。本研究では、事前学習中のデータの貢献度を直接推定し、効率的な方法で事前学習データを選択することを目指します。具体的には、最近の研究結果から着想を得て、特定のテキストに対する多様なモデルの圧縮効率（すなわち正規化された損失）が、テキストのドメインが下流のベンチマークと一致する場合、その下流の性能と強く相関することを示しています（Huang et al., 2024）。この観察に基づいて、モデルの損失が下流の能力を予測するデータは、学習に効果的に貢献するという仮説を立てます。この洞察を活用するために、データの予測力に基づくデータ選択（PreSelect）を導入します。これは、fastTextベースのスコアラーを訓練および展開するだけで済む、軽量で効率的なデータ選択方法です。1Bおよび3Bパラメータのモデルを用いた包括的な実験を通じて、PreSelectで選択された30Bトークンで訓練されたモデルが、300Bトークンで訓練されたベースラインの性能を上回り、計算リソースを10分の1に削減できることを示します。さらに、PreSelectは、3Bモデルを100Bトークンで訓練した場合、DCLMやFineWeb-Eduなどの他の競合するデータ選択ベースラインを大幅に上回ります。訓練されたデータ選択スコアラーとキュレーションされたデータセットをhttps://github.com/hkust-nlp/PreSelectで公開しています。

ドラフトの連鎖：少ない記述で迅速に思考する
Chain of Draft: Thinking Faster by Writing Less

Feb 25

BySilei Xu, Wenhao Xie, Lingxiao Zhao, Pengcheng He

大規模言語モデル（LLM）は、Chain-of-Thought（CoT）プロンプティングなどのメカニズムを通じて、複雑な推論タスクを解決する際に顕著な性能を発揮してきました。CoTは詳細で段階的な推論を重視します。しかし、人間は通常、より効率的な戦略を採用します。つまり、必要な情報のみを捉えた簡潔な中間思考を草案として作成するのです。本研究では、人間の認知プロセスに着想を得た新しいパラダイムであるChain of Draft（CoD）を提案します。CoDでは、LLMがタスクを解決する際に、最小限でありながら有益な中間推論出力を生成します。冗長性を削減し、重要な洞察に焦点を当てることで、CoDはCoTと同等またはそれ以上の精度を達成しつつ、使用するトークン数をわずか7.6%に抑え、様々な推論タスクにおけるコストとレイテンシを大幅に削減します。

DeepSolution: ツリーベースの探索と双方向思考による複雑なエンジニアリングソリューション設計の強化
DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

Feb 28

ByZhuoqun Li, Haiyang Yu, Xuanang Chen, Hongyu Lin, Yaojie Lu, Fei Huang, Xianpei Han, Yongbin Li, Le Sun

複雑なエンジニアリング課題に対するソリューション設計は、人間の生産活動において極めて重要である。しかし、これまでの検索拡張生成（RAG）分野の研究では、複雑なエンジニアリングソリューションの設計に関連するタスクに十分に対応できていなかった。このギャップを埋めるため、我々は新しいベンチマーク「SolutionBench」を導入し、複数の複雑な制約を伴うエンジニアリング問題に対して、完全かつ実現可能なソリューションを生成するシステムの能力を評価する。さらに、複雑なエンジニアリングソリューションの設計を進化させるため、木構造探索と二点思考メカニズムを活用した新しいシステム「SolutionRAG」を提案する。大規模な実験結果は、SolutionRAGがSolutionBenchにおいて最先端（SOTA）の性能を達成し、現実世界のアプリケーションにおける複雑なエンジニアリングソリューション設計の自動化と信頼性を向上させる可能性を示している。

単一ステップ報酬によるマルチターンコード生成
Multi-Turn Code Generation Through Single-Step Rewards

Feb 27

ByArnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury

マルチターン実行フィードバックからのコード生成の問題に取り組みます。既存の手法は、フィードバックなしでコードを生成するか、複雑な階層型強化学習を用いてマルチターンの報酬を最適化します。私たちは、シングルステップの報酬のみを使用してマルチターンコード生成を解決する、シンプルでスケーラブルなアプローチであるmuCodeを提案します。私たちの重要な洞察は、コード生成が1ステップで回復可能なMDP（マルコフ決定過程）であり、任意の中間コード状態から正しいコードを1ターンで回復できるという点です。muCodeは、マルチターン実行フィードバックに基づいてコードソリューションを提供するジェネレータと、新しく生成されたコードを評価するベリファイアを反復的にトレーニングします。実験的評価により、私たちのアプローチが最先端のベースラインを大幅に上回ることを示します。報酬モデルとポリシーの設計選択の分析を提供し、muCodeが実行フィードバックを活用する有効性を示します。私たちのコードはhttps://github.com/portal-cornell/muCodeで公開されています。

ImageNetをテキストから画像生成に活用する限界はどこまでか？
How far can we go with ImageNet for Text-to-Image generation?

Feb 28

ByL. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton

最近のテキストから画像（T2I）生成モデルは、ビッグデータを重視する「大きければ良い」というパラダイムに従い、数十億規模のデータセットで学習することで驚くべき結果を達成してきました。私たちはこの確立されたパラダイムに挑戦し、小さくてもよく精選されたデータセットに対する戦略的なデータ拡張が、大規模なウェブスクレイピングされたコレクションで学習したモデルに匹敵するか、それを上回ることを実証します。ImageNetに設計されたテキストと画像の拡張を施しただけで、SD-XLに対してGenEvalで+2、DPGBenchで+5のスコア向上を達成し、パラメータ数は1/10、学習画像数は1/1000で済みました。私たちの結果は、大規模なデータセットではなく、戦略的なデータ拡張がT2I生成の持続可能な道を提供する可能性を示唆しています。

SoS1: O1およびR1に類似した推論LLMは二乗和ソルバーである
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

Feb 27

ByKechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu

大規模言語モデル（LLM）は多様なタスクにおいて人間レベルの熟達度を達成していますが、厳密な数学的問題解決能力は依然として未解決の課題です。本研究では、基本的でありながら計算的に困難な問題、すなわち与えられた多変数多項式が非負であるかどうかを判定する問題に取り組みます。この問題は、ヒルベルトの第17問題と密接に関連しており、グローバル多項式最適化において重要な役割を果たし、さまざまな分野での応用があります。まず、約1,000の多項式からなる注意深く選ばれたデータセットSoS-1Kと、5段階の難易度に基づいて専門家が設計した推論指示を紹介します。複数の最先端LLMを評価した結果、構造化されたガイダンスなしでは、すべてのモデルがランダム推測のベースライン50%をわずかに上回る程度の性能しか示しませんでした。しかし、高品質の推論指示は精度を大幅に向上させ、性能を最大81%まで引き上げました。さらに、SoS-1Kでわずか4時間ファインチューニングした7BモデルSoS-7Bは、671BのDeepSeek-V3やGPT-4o-miniを精度で上回りながら、それぞれ必要な計算時間の1.8%と5%しか必要としませんでした。我々の知見は、LLMが数学的推論の限界を押し広げ、NP困難問題に取り組む可能性を強調しています。

ViDoRAG: 動的反復推論エージェントによる視覚的文書検索拡張生成
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

Feb 25

ByQiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao

視覚的にリッチなドキュメントからの情報理解は、従来のRetrieval-Augmented Generation（RAG）手法にとって依然として大きな課題である。既存のベンチマークは主に画像ベースの質問応答（QA）に焦点を当てており、高密度な視覚ドキュメント内での効率的な検索、理解、推論という根本的な課題を見落としている。このギャップを埋めるため、我々は複雑な推論を必要とする視覚的にリッチなドキュメントにおけるRAGの性能を評価するための新しいデータセット、ViDoSeekを導入する。これに基づき、現在のRAGアプローチの主要な限界を特定した：（i）純粋に視覚的な検索手法は、テキストと視覚的特徴の両方を効果的に統合することが困難であり、（ii）従来のアプローチはしばしば十分な推論トークンを割り当てず、その有効性を制限している。これらの課題に対処するため、我々は視覚ドキュメントにわたる複雑な推論に特化した新しいマルチエージェントRAGフレームワーク、ViDoRAGを提案する。ViDoRAGは、多モーダル検索を効果的に処理するためにガウス混合モデル（GMM）ベースのハイブリッド戦略を採用している。さらに、モデルの推論能力を引き出すために、探索、要約、反省を組み込んだ反復的なエージェントワークフローを導入し、RAGドメインにおけるテストタイムスケーリングを調査するためのフレームワークを提供する。ViDoSeekでの大規模な実験により、我々のアプローチの有効性と汎用性が検証された。特に、ViDoRAGは競争力のあるViDoSeekベンチマークにおいて既存の手法を10％以上上回る性能を示した。

ヒューマノイドにおける視覚ベースの器用な操作のためのSim-to-Real強化学習
Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

Feb 27

ByToru Lin, Kartik Sachdev, Linxi Fan, Jitendra Malik, Yuke Zhu

強化学習は、多様な問題領域において人間レベル、あるいはそれを超える能力を達成する上で有望な結果をもたらしてきましたが、器用なロボット操作における成功は依然として限られています。本研究では、ヒューマノイド形態における接触の多い操作タスクの集合を解決するために強化学習を適用する際の主要な課題を調査します。私たちは、特定された課題を克服するための新たな技術を導入し、その有効性を実験的に検証します。主な貢献として、シミュレーション環境を現実世界に近づける自動化された実世界-シミュレーション調整モジュール、長期的で接触の多い操作タスクにおける報酬設計を簡素化する汎用的な報酬設計スキーム、シミュレーションから実世界への性能を維持しつつ困難な探索問題のサンプル効率を向上させる分割統合蒸留プロセス、そしてシミュレーションから実世界への知覚ギャップを埋めるための疎密混合オブジェクト表現を提案します。私たちは、3つのヒューマノイド器用操作タスクにおいて有望な結果を示し、各技術に関するアブレーション研究を行いました。本研究は、人間のデモンストレーションを必要とせずに、シミュレーションから実世界への強化学習を用いてヒューマノイドの器用操作を学習する成功したアプローチを提示し、堅牢な汎化と高い性能を達成しています。

LiteASR: 低ランク近似による効率的な自動音声認識
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation

Feb 27

ByKeisuke Kamahori, Jungo Kasai, Noriyuki Kojima, Baris Kasikci

現代の自動音声認識（ASR）モデル、例えばOpenAIのWhisperは、深層エンコーダ-デコーダアーキテクチャに依存しており、そのエンコーダは高い計算負荷のため効率的な展開における重要なボトルネックとなっています。本論文では、LiteASRを紹介します。これはASRエンコーダのための低ランク圧縮スキームであり、転写精度を維持しながら推論コストを大幅に削減します。我々のアプローチは、中間活性化において観察される強力な低ランク特性を活用しています。小さなキャリブレーションデータセットを用いた主成分分析（PCA）を適用することで、線形変換を低ランク行列乗算の連鎖で近似し、さらに自己注意機構を低次元で動作するように最適化します。評価結果は、本手法がWhisper large-v3のエンコーダサイズを50%以上圧縮し、Whisper mediumのサイズに匹敵しながらより優れた転写精度を達成し、効率と性能の新たなパレート最適フロンティアを確立することを示しています。LiteASRのコードはhttps://github.com/efeslab/LiteASRで公開されています。

LettuceDetect: RAGアプリケーションのための幻覚検出フレームワーク
LettuceDetect: A Hallucination Detection Framework for RAG Applications

Feb 24

ByÁdám Kovács, Gábor Recski

Retrieval Augmented Generation (RAG) システムは、外部の知識源を取り入れているにもかかわらず、依然として虚偽の回答に対して脆弱です。本論文では、既存の虚偽検出手法における2つの重要な課題に対処するフレームワーク「LettuceDetect」を提案します。その課題とは、(1) 従来のエンコーダベース手法のコンテキストウィンドウの制約、(2) LLMベースアプローチの計算効率の低さです。ModernBERTの拡張コンテキスト能力（最大8kトークン）を基盤とし、RAGTruthベンチマークデータセットで訓練された本手法は、従来のすべてのエンコーダベースモデルとほとんどのプロンプトベースモデルを上回りながら、最良のモデルと比べて約30倍小型です。LettuceDetectは、コンテキスト-質問-回答の3つ組を処理するトークン分類モデルであり、トークンレベルで根拠のない主張を特定できます。RAGTruthコーパスでの評価では、事例レベルの検出においてF1スコア79.22%を達成し、従来の最先端エンコーダベースアーキテクチャであるLunaを14.8%上回りました。さらに、本システムは単一GPUで1秒あたり30～60事例を処理可能であり、実世界のRAGアプリケーションにおいてより実用的です。

TeleRAG: ルックアヘッド検索を用いた効率的な検索拡張生成推論
TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval

Feb 28

ByChien-Yu Lin, Keisuke Kamahori, Yiyu Liu, Xiaoxiang Shi, Madhav Kashyap, Yile Gu, Rulin Shao, Zihao Ye, Kan Zhu, Stephanie Wang, Arvind Krishnamurthy, Rohan Kadekodi, Luis Ceze, Baris Kasikci

検索拡張生成（RAG）は、大規模言語モデル（LLM）を外部データソースと統合することで、事実の正確性とドメインカバレッジを向上させる技術です。現代のRAGパイプラインは大規模なデータストアに依存しており、特にGPUメモリが限られた環境でのレイテンシに敏感な展開において、システム的な課題が生じています。これらの課題に対処するため、我々はTeleRAGを提案します。これは、最小限のGPUメモリ要件でRAGのレイテンシを削減する効率的な推論システムです。TeleRAGの中核となる革新は、先読み検索（lookahead retrieval）と呼ばれるプリフェッチ機構で、必要なデータを予測し、LLMの生成と並行してCPUからGPUに転送します。RAGパイプラインのモジュール性、逆ファイルインデックス（IVF）検索アルゴリズム、およびクエリ間の類似性を活用することで、TeleRAGはデータ移動と計算を最適にオーバーラップさせます。実験結果によると、TeleRAGは最先端のシステムと比較して、エンドツーエンドのRAG推論レイテンシを平均1.72倍削減し、高度なRAGアプリケーションのより高速かつメモリ効率の良い展開を可能にします。

なぜそうなのか：視覚基盤モデルが自己説明可能な分類器としての役割
Tell me why: Visual foundation models as self-explainable classifiers

Feb 26

ByHugues Turbé, Mina Bjelogrlic, Gianmarco Mengaldo, Christian Lovis

視覚基盤モデル（VFM）は、その最先端の性能によりますます注目を集めています。しかし、重要なアプリケーションにおいては解釈可能性が依然として重要です。この観点から、自己説明可能モデル（SEM）は、予測を解釈可能な概念の重み付き和に分解する解釈可能な分類器を提供することを目指しています。その可能性にもかかわらず、最近の研究では、これらの説明がしばしば信頼性に欠けることが示されています。本研究では、VFMを新たなプロトタイプ的アーキテクチャと専門的な学習目標と組み合わせます。凍結されたVFMの上に軽量なヘッド（約100万パラメータ）のみを学習させることで、我々のアプローチ（ProtoFM）は効率的で解釈可能なソリューションを提供します。評価の結果、我々のアプローチは競争力のある分類性能を達成しつつ、文献に基づく一連の解釈可能性指標において既存のモデルを上回ることが示されました。コードはhttps://github.com/hturbe/proto-fmで公開されています。

最適な脳細胞死
Optimal Brain Apoptosis

Feb 25

ByMingyuan Sun, Zheng Fang, Jiaxu Wang, Junjie Jiang, Delei Kong, Chenming Hu, Yuetong Fang, Renjing Xu

畳み込みニューラルネットワーク（CNN）やTransformerの複雑さとパラメータ数の増加は、計算効率とリソース要求の面で課題を生じさせています。プルーニングは、ニューロン、チャネル、接続などの冗長な要素を削除することで、性能を大きく損なうことなく計算効率を向上させる効果的な戦略として認識されています。本論文は、Optimal Brain Damage（OBD）の基礎的な研究を基盤として、ヘッセ行列を用いたパラメータ重要度推定の方法論を進化させます。近似に依存する従来のアプローチとは異なり、我々は各パラメータに対して直接ヘッセ行列とベクトルの積を計算する新しいプルーニング手法であるOptimal Brain Apoptosis（OBA）を提案します。ネットワーク層全体でヘッセ行列を分解し、層間のヘッセ部分行列が非ゼロとなる条件を特定することで、パラメータの二次テイラー展開を効率的に計算する技術を提案します。このアプローチにより、特にCNNやTransformerにおいて、より精密なプルーニングプロセスが可能となります。これは、CIFAR10、CIFAR100、およびImagenetデータセットを用いたVGG19、ResNet32、ResNet50、ViT-B/16の実験によって検証されています。我々のコードはhttps://github.com/NEU-REAL/OBAで公開されています。

DexGraspVLA: 汎用巧緻把持に向けた視覚-言語-行動フレームワーク
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

Feb 28

ByYifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen

器用な把持は、ロボット工学における基本的でありながら依然として困難な課題である。汎用ロボットは、任意のシナリオにおいて多様な物体を把持できる能力を備えている必要がある。しかし、既存の研究は通常、単一物体の設定や限られた環境といった特定の仮定に依存しており、その結果、一般化が制約されている。我々の解決策はDexGraspVLAである。これは、事前学習済みのVision-Languageモデルを高レベルのタスクプランナーとして利用し、拡散ベースのポリシーを低レベルのアクションコントローラーとして学習する階層的フレームワークである。重要な洞察は、多様な言語および視覚入力をドメイン不変な表現に反復的に変換することにあり、これによりドメインシフトが緩和されるため、模倣学習を効果的に適用できる。これにより、広範な現実世界のシナリオにわたる堅牢な一般化が可能となる。特に、我々の手法は「ゼロショット」環境において、数千の未見の物体、照明、背景の組み合わせ下で90％以上の成功率を達成している。実証分析により、環境変化にわたる内部モデル動作の一貫性がさらに確認され、我々の設計が検証され、その一般化性能が説明されている。我々の研究が、一般的な器用な把持の実現に向けた一歩となることを期待している。デモとコードはhttps://dexgraspvla.github.io/で公開されている。

選好学習がLLMの心理カウンセリング能力を解き放つ
Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Feb 27

ByMian Zhang, Shaun M. Eack, Zhiyu Zoey Chen

大規模言語モデル（LLM）を心理カウンセリング支援に応用することは、患者のニーズとメンタルヘルス支援の提供状況との間に存在する大きなギャップを埋めるための新たで意義深いアプローチです。しかし、現状のLLMはクライアントの発話に対して一貫して効果的な応答を提供することが困難であり、その主な原因は、クライアントのプライバシー保護の観点から通常アクセスできない高品質な実際の心理カウンセリングデータによる監督の欠如にあります。さらに、利用可能なセッションにおけるセラピストの応答の質は、その専門的な訓練と経験に基づいて大きく異なることがあります。セラピストの応答の質を評価することは、依然として未解決の課題です。本研究では、まずクライアントの発話に対するセラピストの応答を評価するための専門的かつ包括的な原則セットを提案することで、これらの課題に取り組みます。これらの原則を用いて、36,000の高品質な選好比較ペアを含む選好データセット「PsychoCounsel-Preference」を作成しました。このデータセットは専門心理療法士の選好に沿っており、心理カウンセリングにおけるLLMの評価と改善のための堅固な基盤を提供します。報酬モデリングと選好学習に関する実験により、PsychoCounsel-PreferenceがLLMがカウンセリングセッションにおいてクライアントに応答するための必須スキルを習得するための優れたリソースであることが実証されました。私たちの最適化モデルであるPsychoCounsel-Llama3-8Bは、GPT-4oに対して87%という印象的な勝率を達成しました。PsychoCounsel-Preference、PsychoCounsel-Llama3-8B、および報酬モデルPsychoCounsel Llama3-8B-Rewardを公開し、LLMを用いた心理カウンセリング研究の促進を図ります。詳細は以下をご覧ください：https://hf.co/Psychotherapy-LLM。

EgoNormia: 物理的社会的規範理解のベンチマーキング
EgoNormia: Benchmarking Physical Social Norm Understanding

Feb 27

ByMohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

人間の活動は規範によって調整されています。現実世界で行動する際、人間は規範に従うだけでなく、異なる規範間のトレードオフも考慮します。しかし、機械は特に物理的・社会的文脈に基づく規範において、規範理解と推論に関する明示的な指導なしに訓練されることが多いです。視覚言語モデル（VLM）の規範的推論能力を向上・評価するため、我々はEgoNormia |ε|を提示します。これは1,853のエゴセントリックな人間の相互作用のビデオから成り、それぞれに規範的行動の予測と正当化を評価する2つの関連質問が付随しています。規範的行動は、安全性、プライバシー、近接学、礼儀正しさ、協力、調整/積極性、コミュニケーション/明瞭性の7つのカテゴリに及びます。このデータセットを大規模に構築するため、ビデオサンプリング、自動回答生成、フィルタリング、人間による検証を活用した新しいパイプラインを提案します。我々の研究は、最先端の視覚言語モデルが堅牢な規範理解を欠いており、EgoNormiaで最大45％のスコア（人間のベンチマーク92％に対して）しか得られないことを示しています。各次元でのパフォーマンス分析から、現実世界のエージェントに適用した際の安全性、プライバシーの重大なリスク、および協力とコミュニケーション能力の欠如が浮き彫りになりました。さらに、検索ベースの生成手法を通じて、EgoNomiaを活用してVLMの規範的推論を強化できる可能性を示します。

MIGE: マルチモーダル命令ベースの画像生成と編集のための統合フレームワーク
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

Feb 28

ByXueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen

拡散モデルに基づく画像生成において大きな進展があったにもかかわらず、被写体駆動型生成と指示に基づく編集は依然として課題となっています。既存の手法では、これらを別々に扱うことが一般的で、高品質なデータの不足や汎化性能の低さに苦戦しています。しかし、どちらのタスクも、入力と出力の一貫性を保ちながら複雑な視覚的バリエーションを捉えることを必要とします。そこで我々は、マルチモーダルな指示を用いてタスク表現を標準化する統一フレームワークであるMIGEを提案します。MIGEは、被写体駆動型生成を白紙のキャンバス上での創作として、指示に基づく編集を既存の画像の修正として扱い、共有された入出力形式を確立します。MIGEは、自由形式のマルチモーダルな指示を統一された視覚-言語空間にマッピングする新しいマルチモーダルエンコーダを導入し、特徴融合メカニズムを通じて視覚的および意味的特徴を統合します。この統一により、両タスクの共同訓練が可能となり、以下の2つの主要な利点を提供します：(1) クロスタスク強化：共有された視覚的および意味的表現を活用することで、被写体駆動型生成と指示に基づく編集の両方において、指示の遵守と視覚的一貫性が向上します。(2) 汎化：統一された形式での学習により、クロスタスク間の知識転移が促進され、MIGEは指示に基づく被写体駆動型編集を含む新しい合成的タスクに汎化することが可能になります。実験結果は、MIGEが被写体駆動型生成と指示に基づく編集の両方で優れた性能を発揮し、指示に基づく被写体駆動型編集という新たなタスクにおいても最先端の結果を達成することを示しています。コードとモデルはhttps://github.com/Eureka-Maggie/MIGEで公開されています。

HAIC: マルチモーダル大規模言語モデルのためのより優れたキャプションによる人間の行動理解と生成の改善
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

Feb 28

ByXiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie

近年のマルチモーダル大規模言語モデル（MLLMs）は、ビデオ理解において大きな進展を遂げています。しかし、人間の行動を含むビデオに対する性能は、高品質なデータの不足によって依然として制限されています。この問題に対処するため、我々は2段階のデータアノテーションパイプラインを導入しました。まず、インターネットから明確な人間の行動を特徴とするビデオを蓄積するための戦略を設計します。次に、ビデオは標準化されたキャプションフォーマットでアノテーションされ、人間の属性を使用して個人を区別し、その行動と相互作用を時系列に詳細に記述します。このパイプラインを通じて、HAICTrainとHAICBenchという2つのデータセットをキュレーションしました。HAICTrainは、Gemini-Proによって生成され、トレーニング目的で検証された126Kのビデオとキャプションのペアで構成されています。一方、HAICBenchは、人間の行動理解を包括的に評価するために、手動でアノテーションされた500のビデオとキャプションのペア、および1,400のQAペアを含んでいます。実験結果は、HAICTrainでのトレーニングが、4つのベンチマークにわたる人間の理解能力を大幅に向上させるだけでなく、テキストからビデオへの生成結果も改善できることを示しています。HAICTrainとHAICBenchの両方は、https://huggingface.co/datasets/KuaishouHAIC/HAIC で公開されています。

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

予測的データ選択：予測するデータが教えるデータである
Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Mar 2

ByKashun Shum, Yuzhen Huang, Hongjian Zou, Ding Qi, Yixuan Liao, Xiaoxin Chen, Qian Liu, Junxian He

ドラフトの連鎖：少ない記述で迅速に思考する
Chain of Draft: Thinking Faster by Writing Less

Feb 25

BySilei Xu, Wenhao Xie, Lingxiao Zhao, Pengcheng He

DeepSolution: ツリーベースの探索と双方向思考による複雑なエンジニアリングソリューション設計の強化
DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking

Feb 28

ByZhuoqun Li, Haiyang Yu, Xuanang Chen, Hongyu Lin, Yaojie Lu, Fei Huang, Xianpei Han, Yongbin Li, Le Sun

単一ステップ報酬によるマルチターンコード生成
Multi-Turn Code Generation Through Single-Step Rewards

Feb 27

ByArnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury

ImageNetをテキストから画像生成に活用する限界はどこまでか？
How far can we go with ImageNet for Text-to-Image generation?

Feb 28

ByL. Degeorge, A. Ghosh, N. Dufour, D. Picard, V. Kalogeiton

SoS1: O1およびR1に類似した推論LLMは二乗和ソルバーである
SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

Feb 27

ByKechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu

ViDoRAG: 動的反復推論エージェントによる視覚的文書検索拡張生成
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

Feb 25

ByQiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao

ヒューマノイドにおける視覚ベースの器用な操作のためのSim-to-Real強化学習
Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids

Feb 27

ByToru Lin, Kartik Sachdev, Linxi Fan, Jitendra Malik, Yuke Zhu

DexGraspVLA: 汎用巧緻把持に向けた視覚-言語-行動フレームワーク
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

Feb 28

ByYifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen

選好学習がLLMの心理カウンセリング能力を解き放つ
Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Feb 27

ByMian Zhang, Shaun M. Eack, Zhiyu Zoey Chen

EgoNormia: 物理的社会的規範理解のベンチマーキング
EgoNormia: Benchmarking Physical Social Norm Understanding

Feb 27

ByMohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

MIGE: マルチモーダル命令ベースの画像生成と編集のための統合フレームワーク
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

Feb 28

ByXueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen

HAIC: マルチモーダル大規模言語モデルのためのより優れたキャプションによる人間の行動理解と生成の改善
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

Feb 28

ByXiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie