HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

17 papers found

GLM-5V-Turbo：マルチモーダルエージェントのためのネイティブ基盤モデルへ
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

我々はGLM-5V-Turboを発表します。これはマルチモーダルエージェントのためのネイティブ基盤モデルへの第一歩です。基盤モデルが実環境に展開されるにつれ、エージェント能力は言語推論だけでなく、画像、動画、ウェブページ、文書、GUIといった多様なコンテキストを認識・解釈・操作する能力にも依存するようになっています。GLM-5V-Turboはこの目標を中核に設計されています：マルチモーダル知覚は、言語モデルへの補助的インターフェースではなく、推論、計画、ツール使用、実行の核心要素として統合されています。本報告では、モデル設計、マルチモーダル学習、強化学習、ツールチェーン拡張、エージェントフレームワーク連携における主要な改善点をまとめます。これらの進展により、テキストのみのコーディング能力を維持しつつ、マルチモーダルコーディング、視覚的ツール使用、フレームワーク連携タスクで優れた性能を発揮します。さらに重要なのは、我々の開発プロセスがマルチモーダルエージェント構築への実践的知見を提供し、マルチモーダル知覚の中心性、階層的最適化、信頼性の高いエンドツーエンド検証の重要性を明らかにしている点です。

大規模言語モデルによる潜在蒸留を用いた探索
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

多様な応答生成は大規模言語モデル（LLM）のテスト時スケーリングにおいて重要であるが、標準的な確率的サンプリングでは表層的な語彙のバリエーションが生じるだけで、意味的な探索が制限されてしまう。本論文では、生成時に意味的な多様性を明示的に促進するデコーディング手法として探索的サンプリング（ESamp）を提案する。ESampは、ニューラルネットワークが既知の入力に類似した場合には予測誤差が低く、新奇な入力では予測誤差が高くなるという既知の観察事実に基づいている。この特性を踏まえ、テスト時に軽量な蒸留器（Distiller）を訓練し、LLMの深層隠れ表現を浅層表現から予測することで、LLMの深度方向の表現遷移をモデル化する。デコーディング時には、蒸留器は現在の生成コンテキストが誘導する写像に継続的に適応する。ESampはこの予測誤差を新規性信号として利用し、現在のプレフィックスに条件付けられた候補トークン拡張の重みを再調整することで、十分に探索されていない意味パターンに向けたデコーディングを偏倚させる。ESampは非同期の訓練・推論パイプラインで実装され、最悪ケースでも5％未満（最適化版では1.2％）のオーバーヘッドに抑えられている。実験結果では、ESampが推論モデルのPass@k効率を大幅に向上させ、強力な確率的・ヒューリスティックなベースライン手法に対して優れたあるいは同等の性能を示す。特に、数学・科学・コード生成ベンチマークで頑健な一般化性能を発揮し、創造的作文における多様性と一貫性のトレードオフを打破する。実装コードはhttps://github.com/LinesHogan/tLLM で公開されている。

RADIO-ViPE: 動的環境におけるオープン語彙セマンティックSLAMのためのオンライン密結合マルチモーダル融合
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

我々はRADIO-ViPE（Reduce All Domains Into One -- Video Pose Engine）を提案する。これは、動的環境において任意の自然言語クエリを局所化された3D領域やオブジェクトに関連付ける、幾何学的認識を備えたオープン語彙グラウンディングを可能にするオンラインセマンティックSLAMシステムである。較正済みのポーズ付きRGB-D入力を必要とする既存手法とは異なり、RADIO-ViPEは単眼RGBビデオストリームを直接処理し、カメラ内部パラメータ、深度センサー、またはポーズ初期化を事前に必要としない。本システムは、集約的基盤モデル（例：RADIO）から得られる視覚と言語に跨るマルチモーダル埋め込みを、幾何学的シーン情報と密接に結合する。この結合は初期化、最適化、因子グラフ接続において行われ、複数モダリティからのマップの一貫性を改善する。最適化は適応的ロバストカーネル内に包まれ、能動的に移動するオブジェクトとエージェントによって移動されたシーン要素（例：エゴセントリックセッション中に再配置された家具）の両方を処理するように設計されている。実験により、RADIO-ViPEが動的TUM-RGBDベンチマークで最先端の結果を達成し、較正データと静的シーン仮定に依存するオフラインのオープン語彙手法に対しても競争力のある性能を維持することが実証された。RADIO-ViPEは実世界展開における重要なギャップを埋め、自律ロボティクスと制約のない実環境ビデオストリームのための堅牢なオープン語彙セマンティックグラウンディングを可能にする。プロジェクトページ：https://be2rlab.github.io/radio_vipe

ClawGym：効果的なClawエージェントを構築するためのスケーラブルなフレームワーク
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Clawスタイル環境は、ローカルファイル、ツール、および永続的なワークスペース状態に対する多段階ワークフローをサポートします。しかし、これらの環境におけるスケーラブルな開発は、体系的なフレームワーク、特に検証可能なトレーニングデータを合成し、エージェント訓練と診断的評価に統合するためのフレームワークが欠如しているため、制約を受け続けています。この課題に対処するため、Clawスタイルのパーソナルエージェント開発の全ライフサイクルをサポートするスケーラブルなフレームワークであるClawGymを提案します。具体的には、ペルソナ駆動の意図とスキルに基づく操作から合成された13.5Kのフィルタリング済みタスクからなる多様なデータセットClawGym-SynDataを構築し、現実的なモックワークスペースとハイブリッド検証メカニズムを組み合わせました。次に、ブラックボックス展開軌跡に対する教師ありファインチューニングを通じて、ClawGym-Agentsと称される一連の高性能なClawスタイルモデルを訓練し、タスクごとのサンドボックスで展開を並列化する軽量パイプラインによる強化学習の探求も行いました。信頼性の高い評価をサポートするため、自動フィルタリングと人間-LLMレビューで較正された200インスタンスのベンチマークClawGym-Benchをさらに構築しました。関連リソースは近日中にhttps://github.com/ClawGym で公開予定です。

TIDEを転換する：拡散大規模言語モデルのためのクロスアーキテクチャ蒸留
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

拡散大規模言語モデル（dLLM）は並列デコードと双方向コンテキストを実現するが、競争力のある性能を得るには最先端のdLLMでも数十億のパラメータが必要である。既存のdLLM蒸留手法は単一アーキテクチャ内での推論ステップ削減を扱うが、教師と生徒がアーキテクチャ・注意機構・トークナイザにおいて異なるクロスアーキテクチャ知識転送には未着手だった。我々はTIDEを提案する。これはクロスアーキテクチャdLLM蒸留の初のフレームワークであり、3つのモジュラー構成要素から成る：（1）TIDALは、教師モデルのノイズ依存的な信頼性を考慮し、訓練進度と拡散タイムステップにわたって蒸留強度を連携調整する；（2）CompDemoは、相補的マスク分割により教師のコンテキストを強化し、高マスク条件下での予測精度を向上させる；（3）Reverse CALMは、チャンク単位の尤度マッチングを反転させたクロストークナイザ目的関数で、有界勾配と双端ノイズフィルタリングを実現する。8B密結合モデルと16B MoE教師から0.6B生徒への2種類の異種パイプラインによる蒸留では、8ベンチマークで平均1.53ポイントのベースライン向上を達成し、コード生成ではHumanEvalスコアがARベースラインの32.3に対し48.78と顕著な改善を示した。

拡散テンプレート：制御可能な拡散モデルのための統合プラグインフレームワーク
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

制御可能な拡散手法は拡散モデルの実用性を大幅に拡大してきたが、これらは通常、互換性のない訓練パイプライン、パラメータ形式、ランタイムフックを有する孤立したバックボーン特化型システムとして開発されている。この断片化により、インフラのタスク間での再利用、バックボーン間での機能移転、単一の生成パイプライン内での複数制御の組み合わせが困難になっている。本論文ではDiffusion Templatesを提案する。これは基本モデルの推論と制御機能の注入を分離した、統一されたオープンなプラグインフレームワークである。本フレームワークは3つの構成要素で組織化される：任意のタスク固有入力を中間的な機能表現に写像するテンプレートモデル、機能注入の標準化インターフェースとして機能するテンプレートキャッシュ、および1つ以上のテンプレートキャッシュを基本拡散ランタイムに読み込み・統合・注入するテンプレートパイプライン。インターフェースが特定の制御アーキテクチャに依存せずシステムレベルで定義されるため、KVキャッシュやLoRAといった異種混合の機能キャリアを同一の抽象化の下でサポートできる。この設計に基づき、構造制御、輝度調整、色調調整、画像編集、超解像、鮮鋭度強化、審美性調整、コンテンツ参照、局所的なインペインティング、年齢制御など多様なモデル群を構築した。これらの事例研究は、Diffusion Templatesが急速に進化する拡散バックボーン間でのモジュール性、合成可能性、実用的な拡張性を維持しながら、広範な制御可能生成タスクを統合できることを示している。コード、モデル、データセットを含む全てのリソースをオープンソースとして公開する予定である。

FAMA: インタラクティブツール利用環境におけるオープンソースLLMのための失敗認識メタエージェントフレームワーク
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

大規模言語モデルは、外部環境に変化をもたらす自律エージェントの意思決定中核として、ますます導入が進んでいる。しかし、実世界の顧客中心的な課題解決シナリオを模倣した対話型ベンチマークでは、誤った意思決定の連鎖的影響により、これらのエージェントはしばしば失敗に終わる。この課題は、パラメータ数が少なく、コンテキストウィンドウが限られ、推論予算が制約されているオープンソースのLLMにおいて特に顕著であり、エージェント環境での誤差蓄積を増大させる要因となっている。これらの課題に対処するため、我々はFailure-Aware Meta-Agentic（FAMA）フレームワークを提案する。FAMAは二段階で動作する：第一に、ベースラインエージェントの失敗軌跡を分析し、最も頻発するエラーを特定する；第二に、オーケストレーション機構を採用し、意思決定ステップ前にツール利用エージェントに対し対象を絞ったコンテキストを付与するよう設計された専門エージェントの最小サブセットを起動する。オープンソースLLMを用いた実験では、標準ベースラインに対し最大27%の性能向上が評価モード全体で確認された。これらの結果は、一般的な失敗に対処するための専門エージェントによるコンテキストの対象を絞ったキュレーションが、実世界の対話シナリオを模倣する信頼性の高いマルチターンツール利用LLMエージェントを構築するための有効な設計原則であることを示唆している。

映像事前分布による統一的な4次元世界行動モデリングと非同期ノイズ除去このタイトルは、映像データから得られる事前知識を活用し、時間的次元を含む4次元空間における世界の行動を統一的にモデル化する手法を提案する研究を表しています。特に、非同期なノイズ除去技術を用いて、時空間的に不均一なデータを効果的に処理する点が特徴です。
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

我々はX-WAMを提案する。これは統一4D世界モデルであり、リアルタイムロボット動作実行と高精細な4D世界合成（ビデオ＋3D再構築）を単一フレームワークに統合したものである。従来の統一世界モデル（例：UWM）が2Dピクセル空間のみをモデル化し、動作効率と世界モデリング品質の両立に失敗していたという重大な限界を解決する。X-WAMは、事前学習済みビデオ拡散モデルの強力な視覚事前知識を活用するため、マルチビューRGB-Dビデオを予測して未来世界を想像し、軽量な構造適応を通じて空間情報を効率的に取得する。具体的には、事前学習済みDiffusion Transformerの最終数ブロックを複製し、専用の深度予測ブランチとして未来の空間情報の再構築を行う。さらに、生成品質と動作デコード効率を共同最適化するため、非同期ノイズサンプリング（ANS）を提案する。ANSは推論時に専門化された非同期デノイジングスケジュールを適用し、より少ないステップで動作を迅速にデコードして効率的なリアルタイム実行を可能にすると同時に、全ステップシーケンスを高精細なビデオ生成に専念させる。学習中にタイムステップを完全に分離するのではなく、ANSはそれらの結合分布からサンプリングし、推論分布との整合を図る。5,800時間以上のロボットデータで事前学習されたX-WAMは、RoboCasaとRoboTwin 2.0ベンチマークでそれぞれ79.2%と90.7%の平均成功率を達成し、視覚的および幾何学的指標の両方で既存手法を凌駕する高精細な4D再構築と生成を実現する。

システム統合型投機的デコーディングによる強化学習ポストトレーニング展開の高速化
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

フロンティア言語モデルの強化学習（RL）事後学習において、オート回帰的なロールアウト生成がボトルネックとなることが増えており、ロールアウトの高速化は重要なシステム課題となっている。既存の効率化手法の多くは、オフポリシー実行、リプレイ、低精度生成など、ロールアウトや最適化の方法を変更することでスループットを向上させている。本研究では、RLロールアウトにおける損失のない高速化プリミティブとして、対象モデルの出力分布を保持する投機的デコードを検討する。我々は、vLLMバックエンドを用いたNeMo-RLに投機的デコードを実装し、同期および非同期パイプラインをサポートし、RLロールアウト中の投機的実行を可能にした。この利点は、事前学習済みMTPヘッド、小型外部ドラフトモデル、あるいは従来はRLフェーズ後に適用されてきたEagle3のような技術など、様々な投機的実行メカニズムにわたって実現可能である。これにより、RL訓練内部での最先端の投機的デコードの実用化への道が開ける。同期RL下での80億パラメータ規模の推論事後学習ワークロードにおいて、投機的デコードはロールアウトスループットを1.8倍向上させた。高精度な性能シミュレータを用いた検証により、投機的デコードと非同期RLを組み合わせることで、2350億パラメータ規模においてエンドツーエンドの訓練速度が最大2.5倍向上することが見込まれる。

実資本下におけるオンチェーン言語モデルエージェントの運用層制御
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

我々は、ユーザーの指示を検証済みツールアクションに変換する自律型言語モデルエージェントの信頼性を、実資本環境下で検証する。対象はDX Terminal Proにおける21日間の実運用であり、3,505のユーザー資金によるエージェントが限定されたオンチェーン市場で実ETHを取引した。ユーザーは構造化された制御と自然言語戦略でボールトを設定したが、通常の売買取引の選択はエージェントのみが行えた。システムは750万回のエージェント呼び出し、約30万回のオンチェーンアクション、約2,000万ドルの取引量、5,000 ETH超の投入資本、約700億推論トークン、ポリシー検証済み送信トランザクションの99.9%の決済成功率を記録した。長期稼働エージェントは数千の連続意思決定を蓄積し、継続活動エージェントでは6,000超のプロンプト・状態・アクションサイクルに達し、ユーザー指示から生成プロンプト、推論、検証、ポートフォリオ状態、決済に至る大規模トレースを生成した。信頼性は基底モデル単体では達成されず、プロンプトコンパイル、型付き制御、ポリシー検証、実行ガード、メモリ設計、トレースレベル可観測性といったモデルを囲むオペレーティングレイヤーから創発された。事前テストでは、テキストのみのベンチマークが捉えにくい障害を特定：虚構の取引規則、手数料麻痺、数値的アンカリング、リズム取引、トークノミクスの誤読などである。対象的なハーネス改良により、影響を受けたテスト群において、虚構売却規則を57%から3%に削減、手数料主導観測を32.5%から10%未満に低減、資本投入率を42.9%から78.0%に改善した。資本管理エージェントは、ユーザー指示からプロンプト、検証済みアクション、決済に至る完全な経路全体で評価されるべきであることを示す。

LLMベースの対話型ユーザーシミュレーションに関する調査
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

ユーザシミュレーションは、多様な応用を支える可能性から、長らく計算機科学において重要な役割を果たしてきた。人間の主要なコミュニケーション手段である言語は、社会的相互作用と行動の基盤を形成する。したがって、対話行動のシミュレーションは主要な研究分野となっている。大規模言語モデルの近年の進展は、高精度な合成ユーザ会話の生成を可能にしたことで、この分野の進歩を大きく促進している。本論文では、LLMベースの対話的ユーザシミュレーションにおける最近の進展を概観する。ユーザの粒度とシミュレーション目的をカバーする新たな分類体系を提案する。さらに、中核技術と評価手法を体系的に分析する。本研究を通じて、対話的ユーザシミュレーションの最新動向を研究コミュニティに提供し、未解決の課題を明らかにするとともに既存研究を統一的な枠組みで整理することで、今後の研究の促進を図ることを目的とする。

PSP: インド語テキスト読み上げのための次元単位で解釈可能なアクセントベンチマーク
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

標準的なテキスト読み上げ（TTS）評価では、明瞭度（WER、CER）と全体的な自然さ（MOS、UTMOS）が測定されるが、アクセントは定量化されない。合成器がこれら4つの指標で高得点を得ていても、対象言語において音韻的である特徴において非母語話者的に聞こえる可能性がある。インド系言語において、これらの特徴には、そり舌調音、有気音、母音の長さ、およびタミル語のそり舌接近音（文字zha）が含まれる。本論文では、PSP（Phoneme Substitution Profile）を提案する。これは、インド系TTSのための解釈可能な、音韻的次元ごとのアクセントベンチマークである。PSPはアクセントを6つの相補的な次元に分解する：そり舌崩壊率（RR）、有気音忠実度（AF）、母音長さ忠実度（LF）、タミル語zha忠実度（ZF）、Frèchet Audio Distance（FAD）、および韻律的特徴発散（PSD）。最初の4つは、強制アライメントとWav2Vec2-XLS-Rの第9層埋め込みに対する母語話者セントロイドに基づく音響プローブを用いて測定され、後者2つはコーパスレベルの分布距離である。このv1では、ヒンディー語、テルグ語、タミル語のパイロットセットに対して4つの商用およびオープンソースシステム（ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS）をベンチマークし、5番目のシステム（Praxy Voice）を3言語全てに追加、さらにテルグ語におけるR5→R6のケーススタディを含める。3つの発見：(i) そり舌崩壊は音韻的難易度（ヒンディー語 < テルグ語 < タミル語）に応じて単調に増加する（～1%、～40%、～68%）、(ii) PSPの順序はWERの順序と異なる――WERで優位な商用システムが、そり舌忠実度や韻律忠実度で一様に優位ではない、(iii) 全6次元においてパレート最適な単一のシステムは存在しない。我々は、母語参照セントロイド（言語あたり500クリップ）、FAD計算用の1000クリップの埋め込み、PSD計算用の500クリップの韻律特徴量行列、言語あたり300発話のゴールデンセット、MITライセンスのスコアリングコード、およびCC-BYライセンスのセントロイドを公開する。正式なMOS相関はv2に延期し、v1では5つの内的整合性の信号と母語音声を用いたサニティチェックを報告する。

プラクシーボイス：音声プロンプトによる回復＋BUPSを用いた、商用レベルのインド系言語TTSを凍結した非インド系ベースからゼロ商用トレーニングデータコストで実現
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

商用TTSシステムはネイティブに近いインド系言語音声を生成するが、最高のオープンソース基盤（Chatterbox、Indic Parler-TTS、IndicF5）は音韻次元の測定値で劣り、最も広く採用されている多言語基盤（Chatterbox、23言語）はテルグ語やタミル語のトークン化すら行わない。本研究では、新しい音響デコーダの学習や商用TTS学習データを一切用いずに、こうした非インド系言語基盤をテルグ語・タミル語・ヒンディー語で商用レベルに引き上げる最小限の介入手法を探る。3つの要素を組み合わせる：（1）BUPS（ブラーフミー系統合音素空間）―7種のインド系文字をISO-15919に決定論的ローマ字化しChatterboxのラテントークナイザで処理可能にする（2）テキストトークン予測器（Chatterboxのt3）のみに適用するLoRAアダプタ―ヒンディー語代理のlanguage_idで約1,220時間の許諾済みインド系音声を学習（3）音声プロンプト復元レシピ―8-11秒の同一言語参照クリップと3つのサンプリング設定（exaggeration 0.7, temperature 0.6, min_p 0.1;「設定B」）で音響デコーダ学習なしに商用級音声を復元。ヒンディー語ではLoRAが精度を低下させるため、代わりに標準Chatterbox+設定Bを用い、2分岐構成を採用。付属のPSPベンチマークによる10発話パイロット評価では、Praxy Voiceは商用ベースラインを同等か僅かに上回る：テルグ語反舌音崩壊率26.7%（Sarvam Bulbul 33.3%対）、タミル語zh音崩壊率71%（商用3社平均86%対）、ヒンディー語LLM-WER 0.025（Cartesia Sonic-3と同値）。文中コード混在には第3分岐（IndicF5＋原文字転写）を追加し、Hi/Te/Ta混在文のLLM-WERを0.80-0.85から0.14-0.27に低減。R6 LoRA重み（Apache-2.0）、推論コード・ルーター（MIT）、Gradioデモを公開。

FASH-iCNN：マルチモーダルCNNプロービングによる編集的ファッションアイデンティティの可視化
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

ファッションAIシステムは、特定のブランド、編集者、歴史的瞬間の美的論理を開示することなく日常的に符号化している。本研究では、1991年から2024年にわたる15のファッションブランドの87,547枚のVogueランウェイ画像で学習したマルチモーダルシステムFASH-iCNNを提案する。本システムはこの文化的論理を検証可能にする。衣服の写真を入力すると、システムはそれを生産したブランド、属する時代、反映する色彩伝統を特定する。衣服のみに特化したモデルでは、14ブランドにわたるブランド識別トップ1精度78.2%、年代識別トップ1精度88.6%、34年間にわたる特定年識別トップ1精度58.3%（平均誤差はわずか2.2年）を達成した。どの視覚チャネルがこの信号を伝達するかを調査した結果、顕著な解離が明らかになった：色彩情報を除去してもブランド同一性精度は10.6ppしか低下しないのに対し、テクスチャ情報を除去すると37.6pp低下し、テクスチャと輝度が編集的アイデンティティの主要な伝達手段であることが確認された。FASH-iCNNは編集文化を背景ノイズではなく信号として扱い、各出力を形成したブランド、時代、色彩伝統を特定する。これにより、ユーザーはシステムの予測結果だけでなく、その予測に符号化されたブランド、編集者、歴史的瞬間を可視化できる。

画像編集モデルにおける視覚的計画の検証
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

視覚的計画は、特に複雑な空間推論とナビゲーションを必要とするタスクにおいて、人間の知性の重要な側面を表している。しかし機械学習において、この本質的に視覚的な問題は、しばしば言語中心の視点から取り組まれてきた。最近の研究は完全に視覚的なアプローチの可能性を示しているものの、段階的な「生成による計画」パラダイムのために、計算効率の面で大きな問題を抱えている。本研究では、視覚的計画を単一ステップの画像変換として再定義する、推論としての編集（editing-as-reasoning）パラダイムであるEARを提案する。本質的な推論を視覚的認識から分離するために、抽象的なパズルを検証タスクとして採用し、古典的な迷路問題とクイーン問題を特徴とする、補完的な異なる形式の視覚的計画を網羅した手続き的に生成されたデータセットAMAZEを導入する。AMAZEの抽象的な性質は、自己回帰モデルと拡散モデルの両方を、画素単位の忠実度と論理的正しさの観点から自動評価することを可能にする。我々は主要なプロプライエタリ及びオープンソースの編集モデルを評価した。結果は、ゼロショット設定では全てのモデルが苦戦するものの、基本的なスケールでファインチューニングを行うことで、より大きなドメイン内スケール、およびドメイン外のスケールや幾何学形状への顕著な一般化が可能となることを示した。しかし、高性能ハードウェアで動作する我々の最良モデルでさえ、人間の解決者のゼロショット効率には及ばず、神経視覚推論における根強い隔たりが浮き彫りとなった。

非IIDフェデレーテッドラーニングにおける適応的量子化と差分プライバシーによるプライバシー強化と通信効率の改善
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

フェデレーテッドラーニング（FL）は、中央サーバー管理下で複数のデバイスが基盤データを共有することなく協調的にモデルを訓練する分散機械学習手法である。FLの主要な課題の一つは、デバイス間の接続速度や帯域幅のばらつきに起因する通信ボトルネックである。このため、訓練時の伝送データサイズを削減することが不可欠となる。さらに、訓練中のモデルや勾配解析を通じた機密情報漏洩のリスクも潜在する。プライバシーと通信効率の両課題に対処するため、我々は差分プライバシー（DP）と適応的量子化手法を組み合わせる。プライバシー保護にはラプラスベースのDPを採用し、FL分野で比較的未開拓でありガウシアンベースのDPより厳格なプライバシー保証を提供する。ラウンドベースのコサインアニーリングを用いた簡易かつ効率的なグローバルビット長スケジューラに加え、データセットエントロピー分析で推定されるクライアント貢献度に基づいて動的に適応するクライアントベースのスケジューラを提案する。CIFAR10、MNIST、医療画像データセットを用い、非IIDデータ分布下でクライアント数・ビット長スケジューラ・プライバシーバジェットを変えた広範な実験により評価を実施。結果は、適応的量子化手法が32ビット浮動小数点訓練と比較して、MNISTで最大52.64%、CIFAR10で45.06%、医療画像データセットで31%～37%の総通信データ量削減を達成し、競合力のあるモデル精度を維持するとともに差分プライバシーによる堅牢なプライバシー保護を実現することを示した。

非IIDデータ下におけるフェデレーテッド学習におけるマルチタスクオートエンコーダを用いたサンプル選択
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

フェデレーテッドラーニングは、データのプライバシーを保証しつつ、複数のデバイスが中央サーバーの管理下で協調的にモデルを訓練する機械学習のパラダイムである。しかし、その性能は冗長なサンプル、悪意のあるサンプル、異常サンプルによって阻害され、モデルの劣化や非効率性を招くことが多い。これらの問題を克服するため、本論文では画像分類向けの新たなサンプル選択手法を提案する。この手法では、マルチタスクオートエンコーダを用い、損失と特徴量の分析を通じてサンプルの寄与度を推定する。我々のアプローチは、教師なし外れ値検出を組み込んでおり、中央サーバーが管理するOne-Class Support Vector Machine (OCSVM)、Isolation Forest (IF)、Adaptive Loss Threshold (AT) 法をクライアント側のノイジーサンプル除去に用いる。さらに、特徴量ベースのサンプル選択を強化するため、中央サーバーが制御する多クラスDeep Support Vector Data Description (SVDD) 損失を提案する。提案手法を、CIFAR10およびMNISTデータセットにおいて、様々なクライアント数、非IID分布、最大40%のノイズレベルという条件下で検証した。結果は、損失ベースのサンプル選択が精度を大幅に向上させることを示しており、CIFAR10ではOCSVMを用いて最大7.02%、MNISTではATを用いて最大1.83%の精度向上を達成した。加えて、我々のフェデレーテッドSVDD損失は特徴量ベースのサンプル選択をさらに改善し、CIFAR10ではOCSVMと組み合わせて最大0.99%の精度向上をもたらした。これらの結果は、様々なクライアント数やノイズ条件下において、提案手法がモデル精度を改善する有効性を示している。

PSP: インド語テキスト読み上げのための次元単位で解釈可能なアクセントベンチマーク
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta