AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

RepText: レプリケーションによる視覚的テキストのレンダリング
RepText: Rendering Visual Text via Replicating

Apr 28

ByHaofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen

現代のテキストから画像生成モデルは、視覚的に魅力的な画像を生成する点で目覚ましい進歩を遂げていますが、特に非ラテン文字を含む正確で柔軟なタイポグラフィ要素を生成する能力は依然として限られています。これらの制約に対処するため、我々はテキスト理解がテキストレンダリングの十分条件ではあるが必要条件ではないという素朴な仮定から出発します。これに基づき、我々はRepTextを提案します。RepTextは、事前学習された単一言語テキストから画像生成モデルに、ユーザー指定のフォントで多言語の視覚的テキストを正確にレンダリング、より正確には複製する能力を付与することを目指しており、実際にテキストを理解する必要はありません。具体的には、ControlNetの設定を採用し、さらに言語に依存しないグリフとレンダリングされたテキストの位置を統合して、調和の取れた視覚的テキストの生成を可能にし、ユーザーがテキスト内容、フォント、位置を必要に応じてカスタマイズできるようにします。精度を向上させるために、拡散損失とともにテキスト知覚損失を採用しています。さらに、レンダリングプロセスを安定化させるため、推論フェーズではランダム初期化ではなくノイジーなグリフ潜在変数を直接初期化し、背景の歪みを避けるためにテキスト領域のみに特徴注入を制限するための領域マスクを採用します。我々は、既存の研究に対するRepTextの有効性を検証するために広範な実験を行い、我々のアプローチが既存のオープンソース手法を上回り、ネイティブの多言語クローズドソースモデルと同等の結果を達成することを確認しました。より公平を期すため、最後にその限界についても徹底的に議論しています。

LLMにおける臨床知識は、人間との相互作用に直接反映されるわけではない。
Clinical knowledge in LLMs does not translate to human interactions

Apr 26

ByAndrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

世界的な医療提供者は、一般市民に医療アドバイスを提供するために大規模言語モデル（LLM）の利用を模索している。LLMは現在、医師免許試験でほぼ完璧なスコアを達成しているが、これが必ずしも実世界での正確なパフォーマンスに直結するわけではない。我々は、1,298名の参加者を対象とした制御された研究において、LLMが一般市民が潜在的な病状を特定し、行動方針（処置）を選択するのを支援できるかどうかを、10の医療シナリオで検証した。参加者はランダムに、LLM（GPT-4o、Llama 3、Command R+）からの支援を受けるグループと、自分で選んだ情報源（対照群）を使用するグループに割り当てられた。単独でテストされた場合、LLMはシナリオを正確に完了し、平均で94.9%のケースで病状を正しく特定し、56.3%のケースで処置を正しく選択した。しかし、同じLLMを使用した参加者は、関連する病状を34.5%未満のケースでしか特定できず、処置を44.2%未満のケースでしか選択できず、いずれも対照群と同等かそれ以下の結果であった。我々は、医療アドバイスにおけるLLMの展開における課題として、ユーザーインタラクションを特定した。医療知識や模擬患者インタラクションの標準的なベンチマークは、人間の参加者で見つかった失敗を予測しない。今後の展開として、医療分野での公開展開前に、インタラクティブな能力を評価するための体系的な人間ユーザーテストを推奨する。

LLM駆動型GUIエージェントによる電話自動化：進捗と展望の調査
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28

ByGuangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li

大規模言語モデル（LLM）の急速な台頭に伴い、電話自動化は革新的な変化を遂げています。本論文では、LLM駆動型の電話GUIエージェントを体系的にレビューし、スクリプトベースの自動化から知的で適応的なシステムへの進化を明らかにします。まず、主要な課題である（i）汎用性の限界、（ii）高いメンテナンス負荷、（iii）意図理解の弱さを文脈化し、LLMが高度な言語理解、マルチモーダル知覚、堅牢な意思決定を通じてこれらの課題にどのように対処するかを示します。次に、基本的なエージェントフレームワーク（単一エージェント、マルチエージェント、計画先行型）、モデリングアプローチ（プロンプトエンジニアリング、トレーニングベース）、および重要なデータセットとベンチマークを網羅する分類体系を提案します。さらに、ユーザー意図とGUI操作を橋渡しするタスク固有のアーキテクチャ、教師ありファインチューニング、強化学習戦略について詳細に説明します。最後に、データセットの多様性、オンデバイス展開の効率性、ユーザー中心の適応、セキュリティ上の懸念などの未解決の課題について議論し、この急速に進化する分野に対する将来を見据えた洞察を提供します。構造化された概要を提供し、緊急の研究ギャップを特定することで、本論文はスケーラブルでユーザーフレンドリーな電話GUIエージェントの設計においてLLMを活用しようとする研究者や実務者にとっての確かなリファレンスとなります。

Mem0: スケーラブルな長期記憶を備えた本番環境対応AIエージェントの構築
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28

ByPrateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav

大規模言語モデル（LLM）は、文脈に沿った一貫性のある応答を生成する際に顕著な能力を発揮する一方で、固定されたコンテキストウィンドウは、長期間にわたる複数セッションの対話における一貫性を維持する上で根本的な課題を抱えています。本論文では、Mem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から重要な情報を動的に抽出、統合、検索することでこの問題に対処します。この基盤をさらに発展させ、グラフベースのメモリ表現を活用して会話要素間の複雑な関係構造を捉える拡張バリアントを提案します。LOCOMOベンチマークを用いた包括的な評価を通じて、我々のアプローチを6つのベースラインカテゴリと体系的に比較しました：(i) 確立されたメモリ拡張システム、(ii) チャンクサイズとk値を変えた検索拡張生成（RAG）、(iii) 会話履歴全体を処理するフルコンテキストアプローチ、(iv) オープンソースのメモリソリューション、(v) プロプライエタリなモデルシステム、(vi) 専用のメモリ管理プラットフォーム。実験結果は、我々の手法がシングルホップ、時間的、マルチホップ、オープンドメインの4つの質問カテゴリーにおいて、既存のすべてのメモリシステムを一貫して上回ることを示しています。特に、Mem0はLLM-as-a-JudgeメトリックにおいてOpenAIに対して26%の相対的改善を達成し、グラフメモリを備えたMem0は基本構成よりも約2%高い総合スコアを記録しました。精度の向上に加えて、フルコンテキスト手法と比較して計算オーバーヘッドを著しく削減しました。具体的には、Mem0はp95レイテンシを91%低減し、90%以上のトークンコストを節約し、高度な推論能力と実用的な展開制約の間の魅力的なバランスを提供します。我々の研究結果は、長期的な会話の一貫性を維持するための構造化された永続的メモリメカニズムの重要性を強調し、より信頼性が高く効率的なLLM駆動のAIエージェントへの道を開くものです。

SPC: 大規模言語モデルの推論のための敵対的ゲームによる自己対戦批評家の進化
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27

ByJiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong

大規模言語モデル（LLM）の推論ステップごとの信頼性、例えばChain-of-Thought（思考の連鎖）を評価することは、高品質なステップレベルの監視を取得する難しさとコストのため、依然として困難です。本論文では、Self-Play Critic（SPC）という新しいアプローチを紹介します。SPCでは、批評モデルが敵対的な自己プレイゲームを通じて推論ステップを評価する能力を進化させ、手動のステップレベルのアノテーションを不要にします。SPCは、ベースモデルの2つのコピーを微調整して、2つの役割を果たすようにします。具体的には、検出が難しいように意図的に誤ったステップを生成する「sneaky generator（狡猾な生成器）」と、推論ステップの正しさを分析する「critic（批評家）」です。これら2つのモデルは、生成器が批評家を欺こうとし、批評家が生成器の誤りを見つけようとする敵対的なゲームに参加します。ゲームの結果に基づく強化学習を使用して、モデルは反復的に改善されます。各対決の勝者は正の報酬を受け、敗者は負の報酬を受け、これにより継続的な自己進化が促進されます。3つの推論プロセスベンチマーク（ProcessBench、PRM800K、DeltaBench）での実験により、SPCがエラー検出能力を段階的に向上させることが示されました（例えば、ProcessBenchでの精度が70.8%から77.7%に向上）。また、SPCは蒸留されたR1モデルを含む強力なベースラインを上回りました。さらに、SPCを多様なLLMのテストタイム検索に適用することで、MATH500とAIME2024での数学的推論性能が大幅に向上し、最先端のプロセス報酬モデルを凌駕しました。

CipherBank：暗号技術の課題を通じてLLMの推論能力の限界を探る
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27

ByYu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu

大規模言語モデル（LLM）は、特にo1やo3といった推論能力の最近の進歩により、AIの限界を押し広げる顕著な能力を示しています。数学やコーディングにおけるこれらの印象的な成果にもかかわらず、暗号技術の専門知識を必要とする領域でのLLMの推論能力は未だ十分に探求されていません。本論文では、暗号解読タスクにおけるLLMの推論能力を評価するための包括的なベンチマークであるCipherBankを紹介します。CipherBankは、プライバシーに敏感で暗号化を必要とする現実世界のシナリオに焦点を当て、5つのドメインと14のサブドメインにわたる262のユニークな平文を含む2,358の精巧に設計された問題で構成されています。暗号学的観点から、CipherBankは古典的な暗号からカスタム暗号技術まで、9つの異なるアルゴリズムにまたがる3つの主要な暗号化手法のカテゴリを取り入れています。我々は、GPT-4oやDeepSeek-V3などの最先端のLLM、およびo1やDeepSeek-R1といった推論に特化したモデルをCipherBankで評価しました。その結果、汎用チャットLLMと推論特化LLMの間だけでなく、古典的な暗号解読タスクに適用された現在の推論特化モデルの性能にも大きなギャップがあることが明らかになり、これらのモデルが暗号化されたデータを理解し操作する際に直面する課題が浮き彫りになりました。詳細な分析とエラー調査を通じて、暗号推論におけるLLMの限界と改善の可能性を示すいくつかの重要な観察結果を提供します。これらの発見は、LLMの推論能力の継続的な進化の必要性を強調しています。

マルチモーダル数学的推論のベンチマーキング：明示的な視覚的依存性を考慮して
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24

ByZhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao

大規模視覚言語モデル（LVLM）の最近の進展により、視覚情報と言語情報を統合する能力が大幅に向上し、物体認識、キャプション生成、視覚的質問応答などのタスクにおいて人間に近い熟練度を達成しています。しかし、現在のベンチマークは、特定の領域における専門知識を評価する知識中心の評価に焦点を当てることが多く、基本的な数学的要素や視覚的概念について推論する核心的な能力を見落としがちです。私たちは、明示的な視覚的依存関係を必要とする初歩レベルの数学問題を評価する際のギャップを特定しました。これらの問題では、モデルが複数の画像を識別し、統合し、推論する能力に加えて、常識的知識を取り入れることが求められます。これらは、より広範な人工汎用知能（AGI）能力に向けた進歩において重要な要素です。このギャップを埋めるため、明示的な視覚的依存関係を伴う多モーダル数学推論のための包括的なベンチマーク「VCBENCH」を導入します。VCBENCHは、6つの認知領域にわたる1,720の問題を含み、6,697枚の画像（平均1問あたり3.9枚）を特徴とし、複数画像にわたる推論を保証します。私たちは、26の最先端LVLMをVCBENCHで評価し、大幅な性能差を明らかにしました。トップモデルでさえ50%の精度を超えることができませんでした。私たちの調査結果は、視覚的数学的統合における継続的な課題を浮き彫りにし、今後のLVLMの進展に向けた道筋を示唆しています。

等変性アンチエイリアシングを伴うグループダウンサンプリング
Group Downsampling with Equivariant Anti-aliasing

Apr 24

ByMd Ashiqur Rahman, Raymond A. Yeh

ダウンサンプリング層はCNNアーキテクチャにおいて重要な構成要素であり、高レベルな特徴を学習するための受容野を拡大し、モデルのメモリ/計算量を削減する役割を果たします。本研究では、群等変アーキテクチャ（例えばG-CNN）における一様ダウンサンプリング層の一般化を探求します。具体的には、アンチエイリアシングを伴う一般の有限群上の信号（特徴マップ）をダウンサンプリングすることを目指します。これには以下の内容が含まれます：(a) 有限群とダウンサンプリング率が与えられた場合、適切な部分群を選択するアルゴリズムを提示します。(b) 群と部分群が与えられた場合、帯域制限の概念を検討し、アンチエイリアシングを実行する方法を提案します。特に、本手法は古典的なサンプリング理論に基づくダウンサンプリングの概念を一般化します。信号が巡回群（つまり周期的）上にある場合、本手法は理想的なローパスフィルタに続くサブサンプリング操作という標準的なダウンサンプリングを再現します。最後に、画像分類タスクにおける実験を行い、提案するダウンサンプリング操作がG-等変ネットワークに組み込まれた場合、精度を向上させ、等変性をより良く保持し、モデルサイズを削減することを実証しました。

MMInference: モダリティ認識型順列スパースアテンションによる長文脈VLMの事前埋め込み高速化
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22

ByYucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu

長文脈処理能力と視覚理解の統合は、Vision Language Models（VLM）に前例のない可能性をもたらします。しかし、プリフィリング段階における二次的な注意複雑性は、実世界での展開における重大な障壁となっています。この制限を克服するため、我々はMMInference（Multimodality Million tokens Inference）を提案します。これは、長文脈マルチモーダル入力のプリフィリング段階を加速する動的スパース注意メソッドです。まず、我々の分析により、ビデオ入力の時間的および空間的局所性が、グリッドパターンという独特のスパースパターンを生み出すことが明らかになりました。同時に、VLMは異なるモダリティ間で著しく異なるスパース分布を示します。我々は、この独特のグリッドパターンを活用し、モダリティ境界の問題を処理するための順列ベースの手法を導入します。各ヘッドの最適なスパースパターンをオフラインで探索することで、MMInferenceは入力に基づいてスパース分布を動的に構築します。また、効率的なスパース計算のための最適化されたGPUカーネルも提供します。特に、MMInferenceは既存のVLMパイプラインにシームレスに統合され、モデルの変更やファインチューニングを必要としません。Video QA、Captioning、VisionNIAH、Mixed-Modality NIAHなどのマルチモーダルベンチマークにおける実験では、最先端の長文脈VLM（LongVila、LlavaVideo、VideoChat-Flash、Qwen2.5-VL）を使用し、MMInferenceが1Mトークンにおいてプリフィリング段階を最大8.3倍加速しつつ、精度を維持することを示しました。我々のコードはhttps://aka.ms/MMInferenceで公開されています。

NORA: 具象化タスクのための小型オープンソース汎用視覚言語行動モデル
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28

ByChia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria

既存のVisual-Language-Action（VLA）モデルは、ゼロショットシナリオにおいて有望な性能を示し、印象的なタスク実行能力と推論能力を実証しています。しかし、視覚エンコーディングの制限から生じる課題が大きく、物体把持などのタスク中に失敗が発生する可能性があります。さらに、これらのモデルは通常、7Bパラメータを超える大規模なサイズであるため、高い計算オーバーヘッドに悩まされています。これらのモデルは推論やタスクプランニングに優れていますが、速度と効率が最重要視されるリアルタイムロボティクス環境では、その計算オーバーヘッドの大きさが実用性を損なっています。既存のVLAモデルの限界を克服するため、我々はNORAを提案します。NORAは3Bパラメータのモデルで、計算オーバーヘッドを削減しながら強力なタスク性能を維持するように設計されています。NORAはQwen-2.5-VL-3Bマルチモーダルモデルをバックボーンとして採用し、その優れた視覚-意味理解を活用して視覚推論とアクションの基盤を強化します。さらに、我々のモデルは970kの実世界ロボットデモンストレーションで訓練され、効率的なアクションシーケンス生成のためにFAST+トークナイザーを備えています。実験結果は、NORAが既存の大規模VLAモデルを上回り、計算オーバーヘッドを大幅に削減しながら優れたタスク性能を達成し、リアルタイムロボティクス自律性のためのより実用的なソリューションであることを示しています。

TrustGeoGen：信頼性の高いマルチモーダル幾何学問題解決のためのスケーラブルで形式的検証済みデータエンジン
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22

ByDaocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao

数学的幾何問題解決（GPS）は、多様なモダリティ情報の効果的な統合と検証可能な論理的整合性を必要とすることが多い。一般的な問題解決における大規模言語モデルの急速な発展にもかかわらず、特に既存の合成GPSベンチマークが自己検証されておらず、LLMの錯覚によるノイズや自己矛盾した情報を含んでいるという事実を考えると、方法論とベンチマークの両面で未解決のままである。本論文では、正式な検証を伴うスケーラブルなデータエンジン「TrustGeoGen」を提案し、GPSの手法開発の基盤を築く原則的なベンチマークを提供する。このエンジンは、以下の4つの主要な革新を通じて幾何データを合成する：1）図形、テキスト記述、段階的解決策の多モダリティ整合生成、2）ルールに準拠した推論経路を保証する正式な検証、3）再帰的な状態生成を通じて複雑性を段階的に高めるブートストラップメカニズム、4）我々が考案したGeoExploreシリーズのアルゴリズムによる複数解のバリアントと自己反省的なバックトラッキングトレースの同時生成。正式な論理検証により、TrustGeoGenはモダリティの整合性が保証されたGeoTrust-200KデータセットとGeoTrust-testテストセットを生成する。実験では、最先端のモデルがGeoTrust-testで49.17%の精度しか達成できないことが明らかになり、その評価の厳格さが示された。重要なことに、GeoTrustで訓練されたモデルはGeoQAにおいてOOD汎化を達成し、OpenAI-o1によって擬似ラベル付けされたものに比べて論理的不整合を大幅に減少させた。我々のコードはhttps://github.com/Alpha-Innovator/TrustGeoGenで公開されている。

プロンプトベース制御による楽曲生成のための汎用フレームワーク
Versatile Framework for Song Generation with Prompt-based Control

Apr 27

ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao

楽曲生成は、様々なプロンプトに基づいて制御可能な高品質な楽曲を生成することに焦点を当てています。しかし、既存の手法では、プロンプトに基づいた制御と適切なアライメントを伴うボーカルと伴奏の生成に苦戦しています。さらに、多様なタスクをサポートする点でも不十分です。これらの課題に対処するため、我々はVersBandを提案します。これは、プロンプトに基づいた制御を伴う高品質でアライメントされた楽曲を合成するためのマルチタスク楽曲生成フレームワークです。VersBandは以下の主要なモデルで構成されています：1) VocalBandは、デカップリングされたモデルで、フローマッチング法を活用して歌唱スタイル、ピッチ、メルスペクトログラムを生成し、スタイル制御を伴う高速で高品質なボーカル生成を可能にします。2) AccompBandは、フローベースのトランスフォーマーモデルで、Band-MOEを組み込み、品質、アライメント、制御を向上させるために適切なエキスパートを選択します。このモデルは、ボーカルとアライメントされた制御可能な高品質な伴奏の生成を可能にします。3) 歌詞生成のためのLyricBandとメロディ生成のためのMelodyBandという2つの生成モデルが、多様なプロンプトに基づいた広範な制御を可能にする包括的なマルチタスク楽曲生成システムに貢献します。実験結果は、VersBandが客観的および主観的指標を用いた複数の楽曲生成タスクにおいて、ベースラインモデルを上回る性能を示すことを実証しています。音声サンプルはhttps://VersBand.github.ioでご覧いただけます。

ICL CIPHERS: 置換暗号を用いたインコンテクスト学習における「学習」の定量化
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28

ByZhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi

最近の研究では、In-Context Learning (ICL) が二つのモード、すなわちタスク検索（事前学習から学んだパターンを想起すること）とタスク学習（推論時のデモンストレーションからの「学習」）で動作することが示唆されています。しかし、これら二つのモードを分離することは依然として難しい目標です。本研究では、古典的な暗号学から借用した置換暗号に基づくタスク再定式化のクラスであるICL CIPHERSを紹介します。このアプローチでは、コンテキスト内入力のトークンの一部が他の（無関係な）トークンに置換され、英語の文が人間の目には理解しにくくなります。しかし、設計上、この置換には潜在的な固定パターンがあり、可逆的です。この全単射（可逆的）な暗号により、変換が行われても、タスクはある抽象的な意味で明確に定義されたタスクのままです。LLMが全単射マッピングを持つICL CIPHERSを解くことができるかどうかは興味深い疑問です。我々は、LLMが非全単射（不可逆的）なベースラインよりも全単射マッピングを持つICL CIPHERSを解くのに優れていることを示し、ICLにおける「学習」を定量化する新しいアプローチを提供します。この差は小さいものの、4つのデータセットと6つのモデルにわたって一貫しています。最後に、LLMの内部表現を調査し、暗号化された入力を解読する能力の証拠を特定します。

ChiseLLM: 推論LLMの力を解き放つ - Chiselアジャイルハードウェア開発への応用
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27

ByBowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang

ドメイン特化アーキテクチャ（DSA）に対する需要の高まりが、アジャイルハードウェア開発手法（AHDM）の開発を推進してきた。Chiselのようなハードウェア構築言語（HCL）は高レベルの抽象化機能を提供し、HCLベースのAHDMに理想的な言語となっている。大規模言語モデル（LLM）はコード生成タスクにおいて優れた性能を発揮するが、Chiselの生成においては特に構文の正確性と設計の多様性に関して課題を抱えている。最近の推論モデルは、テスト時のスケーリング技術を通じてコード生成能力を大幅に向上させた。しかし、ドメイン適応なしの推論モデルでは、Chiselコード生成タスクに大きな利益をもたらすことができないことがわかった。本論文では、データ処理と変換、プロンプト誘導型推論トレース合成、ドメイン適応モデルトレーニングからなるChiseLLMというソリューションを提案する。公開されているRTLコードリソースから高品質なデータセットを構築し、プロンプト拡張手法を通じてモデルに構造化された思考パターンを採用するよう導いた。実験の結果、ChiseLLM-7BとChiseLLM-32Bモデルは、ベースモデルと比較して構文の正確性をそれぞれ18.85%と26.32%向上させ、ベースラインの推論モデルと比較して設計の多様性能力を47.58%向上させたことが示された。我々のデータセットとモデルは公開されており、HCLベースのAHDM向けに高性能でコスト効率の良いモデルを提供し、将来の研究のための効果的なベースラインを提供する。Githubリポジトリ: https://github.com/observerw/ChiseLLM

AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

RepText: レプリケーションによる視覚的テキストのレンダリング
RepText: Rendering Visual Text via Replicating

Apr 28

ByHaofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen

LLMにおける臨床知識は、人間との相互作用に直接反映されるわけではない。
Clinical knowledge in LLMs does not translate to human interactions

Apr 26

ByAndrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

LLM駆動型GUIエージェントによる電話自動化：進捗と展望の調査
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28

Mem0: スケーラブルな長期記憶を備えた本番環境対応AIエージェントの構築
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28

ByPrateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav

SPC: 大規模言語モデルの推論のための敵対的ゲームによる自己対戦批評家の進化
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27

ByJiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong

CipherBank：暗号技術の課題を通じてLLMの推論能力の限界を探る
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27

ByYu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu

マルチモーダル数学的推論のベンチマーキング：明示的な視覚的依存性を考慮して
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24

ByZhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao

等変性アンチエイリアシングを伴うグループダウンサンプリング
Group Downsampling with Equivariant Anti-aliasing

Apr 24

ByMd Ashiqur Rahman, Raymond A. Yeh

MMInference: モダリティ認識型順列スパースアテンションによる長文脈VLMの事前埋め込み高速化
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22

ByYucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu

NORA: 具象化タスクのための小型オープンソース汎用視覚言語行動モデル
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28

ByChia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria

TrustGeoGen：信頼性の高いマルチモーダル幾何学問題解決のためのスケーラブルで形式的検証済みデータエンジン
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22

ByDaocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao

プロンプトベース制御による楽曲生成のための汎用フレームワーク
Versatile Framework for Song Generation with Prompt-based Control

Apr 27

ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao

ICL CIPHERS: 置換暗号を用いたインコンテクスト学習における「学習」の定量化
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28

ByZhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi

ChiseLLM: 推論LLMの力を解き放つ - Chiselアジャイルハードウェア開発への応用
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27

ByBowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang