翻訳付きの日次キュレーションされたAI研究論文
推論は、推測、問題解決、意思決定の基盤となる基本的な認知プロセスである。大規模言語モデル(LLM)は閉鎖的な環境では強力な推論能力を示すが、オープンエンドで動的な環境では苦戦する。エージェント的推論は、LLMを継続的な相互作用を通じて計画、行動、学習を行う自律エージェントとして再定義することで、パラダイムシフトを起こしている。本サーベイでは、エージェント的推論を3つの相補的な次元に沿って体系化する。第一に、環境の動態を3層で特徴付ける:基礎的エージェント的推論(安定環境における計画、ツール利用、探索を含む単一エージェントの核心能力の確立)、自己進化的エージェント的推論(フィードバック、記憶、適応を通じてエージェントが能力を洗練するプロセスの研究)、集団的多エージェント推論(調整、知識共有、共通目標を含む協調設定へ知能を拡張する)。これらの層全体において、構造化オーケストレーションによるテスト時相互作用を拡張する文脈内推論と、強化学習及び教師ありファインチューニングによる行動最適化を行う学習後推論を区別する。さらに、科学、ロボティクス、医療、自律的研究、数学などの実世界応用とベンチマークにおける代表的なエージェント的推論フレームワークを概観する。本サーベイはエージェント的推論手法を思考と行動を架橋する統一ロードマップへ統合し、パーソナライゼーション、長期相互作用、世界モデリング、スケーラブルな多エージェント訓練、実世界展開のためのガバナンスを含む未解決課題と将来方向を提示する。
深層研究エージェント(DRA)は、多段階の検索と統合により引用豊富な報告書を生成するが、既存のベンチマークは主にテキストのみの設定または短形式のマルチモーダルQAを対象としており、エンドツーエンドのマルチモーダル証拠活用を評価できていない。本研究では、21分野にわたる140の専門家作成タスクからなるベンチマークMMDeepResearch-Bench(MMDR-Bench)を提案する。各タスクは画像-テキストバンドルを提供し、マルチモーダル理解と引用根拠付き報告書生成を評価する。従来の設定と比較し、MMDR-Benchは明示的な証拠活用を伴う報告書スタイルの統合を重視し、モデルは視覚的要素と引用主張を関連付け、叙述・引用・視覚的参照間の一貫性を維持する必要がある。さらに、統一された解釈可能な評価パイプラインを提案する:報告書品質のためのFormula-LLM適応評価(FLAE)、引用根拠付き証拠整合性のための信頼性検索整合引用評価(TRACE)、テキスト-視覚的整合性のためのマルチモーダル支援整合性検査(MOSAIC)である。各評価は単一の総合スコアを超えた詳細な信号を生成し、誤り診断を支援する。25の最先端モデルによる実験では、生成品質、引用規律、マルチモーダル基盤化の間の体系的トレードオフが明らかとなり、優れた文章表現だけでは忠実な証拠活用を保証せず、マルチモーダル整合性が深層研究エージェントの主要なボトルネックであることが示された。
ビデオ生成モデルは、身体性を持つ知能を大きく進歩させ、物理世界における知覚、推論、行動を捉えた多様なロボットデータを生成する新たな可能性を切り開いた。しかし、現実世界のロボット相互作用を正確に反映する高品質なビデオの合成は依然として困難であり、標準化されたベンチマークの欠如が公平な比較と進展を妨げている。この課題を解決するため、我々は5つのタスク領域と4つの異なる身体形態にわたってロボット指向のビデオ生成を評価する包括的なロボティクスベンチマーク「RBench」を提案する。本ベンチマークは、構造的一貫性、物理的妥当性、行動完結性といった再現可能な下位指標を通じて、タスクレベルの正確さと視覚的忠実度の両方を評価する。代表的な25モデルの評価により、物理的に現実的なロボット動作を生成する能力に重大な欠陥があることが明らかになった。さらに、本ベンチマークは人間による評価との間で0.96のスピアマン相関係数を達成し、その有効性を実証している。RBenchはこれらの欠陥を特定する必要な視点を提供するが、物理的リアリズムを達成するには、評価を超えて高品質な訓練データの深刻な不足に対処する必要がある。こうした知見に基づき、我々は洗練された4段階のデータパイプラインを構築し、数千のタスクを網羅し包括的な物理属性注釈を付与した400万の注釈付きビデオクリップからなる、ビデオ生成向け最大のオープンソースロボティクスデータセット「RoVid-X」を開発した。評価とデータの相乗的エコシステムは、ビデオモデルの厳密な評価とスケーラブルな訓練のための強固な基盤を確立し、汎用知能を目指す身体性AIの進化を加速するものである。
効果的な反論意見の作成は、単なる言語的流暢さ以上のものを要求するハイステークスな作業であり、査読者の意図と論文の詳細との正確な整合が求められます。既存のアプローチは通常、これを直接テキスト生成問題として扱うため、虚偽の生成、見過ごされた批判点、検証可能な根拠の欠如といった課題に直面しています。これらの制限を解決するため、我々は反論生成を証拠中心の計画タスクとして再定義する初のマルチエージェントフレームワーク「RebuttalAgent」を提案します。本システムは複雑なフィードバックを原子論的な懸念事項に分解し、圧縮された要約と高精度の原文を統合して動的にハイブリッドな文脈を構築します。さらに、外部文献を必要とする懸念事項に対処するため、自律的かつオンデマンドで動作する外部検索モジュールを統合しています。反論文案作成前に検査可能な応答計画を生成することで、RebuttalAgentはすべての論点が内部または外部の証拠に明示的に裏付けられることを保証します。提案するRebuttalBenchを用いた検証により、本パイプラインがカバレッジ、忠実性、戦略的一貫性の面で強力なベースラインを上回ることを示し、査読プロセスにおける透明性と制御性を備えたアシスタントを提供します。コードは公開予定です。
強化学習(RL)は、特に専門的な推論行動を必要とするエージェンシックモデルのポストトレーニングにおいて中心的な役割を果たす。この設定において、モデルマージングは、異なるタスクから複数のRLで訓練されたエージェントを単一のジェネラリストモデルに統合する実用的なメカニズムを提供する。しかし、既存のマージング手法は教師ありファインチューニング(SFT)向けに設計されており、RLで訓練されたエージェンシックモデルにおけるタスク固有の能力を維持するには最適ではない。その根本原因は、RLとSFTの間のタスクベクトルのミスマッチにある。方策オン型RLは、高度にスパースで不均質なタスクベクトルを生成するのに対し、SFTスタイルのマージングは、暗黙的に密でグローバルに比較可能なタスクベクトルを仮定している。このミスマッチの下で標準的なグローバル平均化を適用すると、重要なタスク固有の行動を符号化するRLの非重複タスクベクトルが縮小され、パラメータ更新が希釈されてしまう。この問題を解決するため、我々はRLで訓練されたエージェンシックモデル向けに明示的に設計された分布認識型マージングフレームワークであるReinforced Agent Merging(RAM)を提案する。RAMは、共有パラメータ更新とタスク固有のユニークなパラメータ更新を分離し、共有成分を平均化するとともに、ユニークな成分を選択的に保存し再スケーリングすることで、パラメータ更新の希釈を相殺する。複数のエージェント領域とモデルアーキテクチャにわたる実験により、RAMがマージングのベースラインを凌駕するだけでなく、エージェント間の相乗効果を解放し、各領域の専門エージェントを上回る性能を達成できることが実証された。
GutenOCRは、Qwen2.5-VL-3BおよびQwen2.5-VL-7Bをファインチューニングして得られた、グラウンディング機能を備えたOCRフロントエンドのファミリーです。この単一チェックポイントの視覚言語モデルは、プロンプトベースの統一インターフェースを通じて、文書読解・検出・位置特定機能を提供します。ビジネス文書、学術論文、合成グラウンディングデータで学習されたモデルは、行単位および段落単位のバウンディングボックスを用いた全文ページ読解と局所読解、さらに条件付き「xはどこにある?」クエリに対応します。我々はグラウンディングOCR評価プロトコルを提案し、GutenOCR-7Bが10.5K件の保留されたビジネス・学術ページにおいて、基盤モデルであるQwen2.5-VL-7Bの複合グラウンディングOCRスコアを0.40から0.82へと2倍以上向上させることを実証しました。FoxおよびOmniDocBench v1.5における評価では、本手法が領域レベル・行レベルのOCR精度およびテキスト検出の再現率を大幅に改善する一方、ページレベルでの線形化、色情報を活用したOCR、数式の多いレイアウト処理においてトレードオフが生じることが明らかになりました。
Chain-of-Thought(CoT)プロンプティングは、大規模言語モデル(LLM)の推論能力を解放する際に顕著な成功を収めてきました。しかし、CoTプロンプティングは推論を強化する一方で、その冗長性から多大な計算コストを課すという課題があります。近年の研究は結果の整合性に偏りがちで、中間推論プロセスに対する監督が不足しています。これらの欠点は、潜在的な推論連鎖の分析可能性を損なう要因となっています。こうした課題に対処するため、我々はRender-of-Thought(RoT)を提案します。これは、推論連鎖を具体化する初のフレームワークであり、テキストによるステップを画像としてレンダリングすることで、潜在的な理論的根拠を明示的かつ追跡可能なものとします。具体的には、既存の視覚言語モデル(VLM)の視覚エンコーダをセマンティックアンカーとして活用し、視覚的埋め込みとテキスト空間の整合を図ります。この設計により、追加の事前学習コストを発生させることなく、プラグアンドプレイでの実装が保証されます。数学的・論理的推論ベンチマークを用いた大規模な実験により、本手法が明示的なCoTと比較して3~4倍のトークン圧縮と大幅な推論の高速化を実現することを実証しました。さらに、他の手法に対しても遜色ない性能を維持し、本パラダイムの実現可能性を検証しています。コードはhttps://github.com/TencentBAC/RoT で公開しています。
文書抽出はデジタルワークフローの核心的要素であるが、既存の視覚言語モデル(VLM)は高リソース言語に偏っている傾向がある。タイ語は非ラテン文字による文字体系の複雑さ、明示的な単語境界の欠如、高度に非構造化された実世界文書の普及といった追加的な課題があり、現行のオープンソースモデルの有効性を制限している。本論文は、タイ語と英語に特化した文書抽出用オープンVLMであるTyphoon OCRを提案する。このモデルは、タイ語に焦点を当てた訓練データセットを用いて視覚言語基盤モデルからファインチューニングされている。データセットは、従来のOCR、VLMベースの再構築、厳選された合成データを組み合わせた多段階データ構築パイプラインを用いて開発された。Typhoon OCRは、テキスト転写、レイアウト再構築、文書レベルの構造的一貫性を実現する統一フレームワークである。最新版であるTyphoon OCR V1.5は、メタデータへの依存を低減し導入を簡素化するために設計された、コンパクトで推論効率の高いモデルである。財務報告書、政府書式、書籍、インフォグラフィック、手書き文書など多様なタイ語文書カテゴリにおける総合的な評価により、Typhoon OCRが計算コストを大幅に低減しながら、大規模な最先端プロプライエタリモデルに匹敵する、あるいはそれを上回る性能を達成することが示された。この結果は、オープンな視覚言語OCRモデルが、軽量で導入可能な状態を維持しつつ、プロプライエタリシステムと同等の性能でタイ語文書の正確なテキスト抽出とレイアウト再構築を実現できることを実証している。
Whisperのような大規模エンコーダ・デコーダモデルは、オフライン音声認識では強力な性能を発揮するものの、高遅延のためストリーミング応用には非現実的です。しかし、事前学習済みチェックポイントの利用容易さから、タイ語ASRの現状はこれらのオフラインアーキテクチャが主流であり、効率的なストリーミングソリューションは重大な空白領域となっています。本論文では、低遅延タイ語音声認識のための115MパラメータFastConformer-Transducerモデル「Typhoon ASR Real-time」を提案します。厳密なテキスト正規化がモデル規模拡大と同等の効果をもたらすことを実証し、Whisper Large-v3と比較して計算コストを45分の1に削減しつつ同等の精度を達成しました。当社の正規化パイプラインは、文脈依存の数字読み上げや反復記号(ไม้ยมก)を含むタイ語文字起こしの体系的な曖昧性を解決し、一貫した学習目標を生成します。さらに、中央タイ語性能を維持しつつイーサン方言(東北方言)適応を行う2段階カリキュラム学習手法を導入しました。タイ語ASRの再現性課題に対処するため、確立されたタイ語言語規範に沿った転写を含むゴールドスタンダードの人手ラベルデータセット「Typhoon ASR Benchmark」を公開し、研究コミュニティに標準化された評価プロトコルを提供します。
Agentic systems have recently become the dominant paradigm for formal theorem proving, achieving strong performance by coordinating multiple models and tools. However, existing approaches often rely on task-specific pipelines and trained formal provers, limiting their flexibility and reproducibility. In this paper, we propose the paradigm that directly uses a general coding agent as a formal math reasoner. This paradigm is motivated by (1) A general coding agent provides a natural interface for diverse reasoning tasks beyond proving, (2) Performance can be improved by simply replacing the underlying base model, without training, and (3) MCP enables flexible extension and autonomous calling of specialized tools, avoiding complex design. Based on this paradigm, we introduce Numina-Lean-Agent, which combines Claude Code with Numina-Lean-MCP to enable autonomous interaction with Lean, retrieval of relevant theorems, informal proving and auxiliary reasoning tools. Using Claude Opus 4.5 as the base model, Numina-Lean-Agent solves all problems in Putnam 2025 (12 / 12), matching the best closed-source system. Beyond benchmark evaluation, we further demonstrate its generality by interacting with mathematicians to successfully formalize the Brascamp-Lieb theorem. We release Numina-Lean-Agent and all solutions at https://github.com/project-numina/numina-lean-agent.
Financial agents powered by large language models (LLMs) are increasingly deployed for investment analysis, risk assessment, and automated decision-making, where their abilities to plan, invoke tools, and manipulate mutable state introduce new security risks in high-stakes and highly regulated financial environments. However, existing safety evaluations largely focus on language-model-level content compliance or abstract agent settings, failing to capture execution-grounded risks arising from real operational workflows and state-changing actions. To bridge this gap, we propose FinVault, the first execution-grounded security benchmark for financial agents, comprising 31 regulatory case-driven sandbox scenarios with state-writable databases and explicit compliance constraints, together with 107 real-world vulnerabilities and 963 test cases that systematically cover prompt injection, jailbreaking, financially adapted attacks, as well as benign inputs for false-positive evaluation. Experimental results reveal that existing defense mechanisms remain ineffective in realistic financial agent settings, with average attack success rates (ASR) still reaching up to 50.0\% on state-of-the-art models and remaining non-negligible even for the most robust systems (ASR 6.7\%), highlighting the limited transferability of current safety designs and the need for stronger financial-specific defenses. Our code can be found at https://github.com/aifinlab/FinVault.
Recent end-to-end spoken dialogue systems leverage speech tokenizers and neural audio codecs to enable LLMs to operate directly on discrete speech representations. However, these models often exhibit limited speaker identity preservation, hindering personalized voice interaction. In this work, we present Chroma 1.0, the first open-source, real-time, end-to-end spoken dialogue model that achieves both low-latency interaction and high-fidelity personalized voice cloning. Chroma achieves sub-second end-to-end latency through an interleaved text-audio token schedule (1:2) that supports streaming generation, while maintaining high-quality personalized voice synthesis across multi-turn conversations. Our experimental results demonstrate that Chroma achieves a 10.96% relative improvement in speaker similarity over the human baseline, with a Real-Time Factor (RTF) of 0.43, while maintaining strong reasoning and dialogue capabilities. Our code and models are publicly available at https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma and https://huggingface.co/FlashLabs/Chroma-4B .
Retrieval is being redefined by agentic AI, demanding multimodal reasoning beyond conventional similarity-based paradigms. Composed Image Retrieval (CIR) exemplifies this shift as each query combines a reference image with textual modifications, requiring compositional understanding across modalities. While embedding-based CIR methods have achieved progress, they remain narrow in perspective, capturing limited cross-modal cues and lacking semantic reasoning. To address these limitations, we introduce XR, a training-free multi-agent framework that reframes retrieval as a progressively coordinated reasoning process. It orchestrates three specialized types of agents: imagination agents synthesize target representations through cross-modal generation, similarity agents perform coarse filtering via hybrid matching, and question agents verify factual consistency through targeted reasoning for fine filtering. Through progressive multi-agent coordination, XR iteratively refines retrieval to meet both semantic and visual query constraints, achieving up to a 38% gain over strong training-free and training-based baselines on FashionIQ, CIRR, and CIRCO, while ablations show each agent is essential. Code is available: https://01yzzyu.github.io/xr.github.io/.
We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io
We identify a novel phenomenon in language models: benign fine-tuning of frontier models can lead to privacy collapse. We find that diverse, subtle patterns in training data can degrade contextual privacy, including optimisation for helpfulness, exposure to user information, emotional and subjective dialogue, and debugging code printing internal variables, among others. Fine-tuned models lose their ability to reason about contextual privacy norms, share information inappropriately with tools, and violate memory boundaries across contexts. Privacy collapse is a ``silent failure'' because models maintain high performance on standard safety and utility benchmarks whilst exhibiting severe privacy vulnerabilities. Our experiments show evidence of privacy collapse across six models (closed and open weight), five fine-tuning datasets (real-world and controlled data), and two task categories (agentic and memory-based). Our mechanistic analysis reveals that privacy representations are uniquely fragile to fine-tuning, compared to task-relevant features which are preserved. Our results reveal a critical gap in current safety evaluations, in particular for the deployment of specialised agents.
Many spoken languages, including English, exhibit wide variation in dialects and accents, making accent control an important capability for flexible text-to-speech (TTS) models. Current TTS systems typically generate accented speech by conditioning on speaker embeddings associated with specific accents. While effective, this approach offers limited interpretability and controllability, as embeddings also encode traits such as timbre and emotion. In this study, we analyze the interaction between speaker embeddings and linguistically motivated phonological rules in accented speech synthesis. Using American and British English as a case study, we implement rules for flapping, rhoticity, and vowel correspondences. We propose the phoneme shift rate (PSR), a novel metric quantifying how strongly embeddings preserve or override rule-based transformations. Experiments show that combining rules with embeddings yields more authentic accents, while embeddings can attenuate or overwrite rules, revealing entanglement between accent and speaker identity. Our findings highlight rules as a lever for accent control and a framework for evaluating disentanglement in speech generation.
Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.
Large Language Models have demonstrated profound utility in the medical domain. However, their application to autonomous Electronic Health Records~(EHRs) navigation remains constrained by a reliance on curated inputs and simplified retrieval tasks. To bridge the gap between idealized experimental settings and realistic clinical environments, we present AgentEHR. This benchmark challenges agents to execute complex decision-making tasks, such as diagnosis and treatment planning, requiring long-range interactive reasoning directly within raw and high-noise databases. In tackling these tasks, we identify that existing summarization methods inevitably suffer from critical information loss and fractured reasoning continuity. To address this, we propose RetroSum, a novel framework that unifies a retrospective summarization mechanism with an evolving experience strategy. By dynamically re-evaluating interaction history, the retrospective mechanism prevents long-context information loss and ensures unbroken logical coherence. Additionally, the evolving strategy bridges the domain gap by retrieving accumulated experience from a memory bank. Extensive empirical evaluations demonstrate that RetroSum achieves performance gains of up to 29.16% over competitive baselines, while significantly decreasing total interaction errors by up to 92.3%.
Large language models exhibit surprising sensitivity to the structure of the prompt, but the mechanisms underlying this sensitivity remain poorly understood. In this work, we conduct an in-depth investigation on a striking case: in multiple-choice question answering, placing context before the questions and options (CQO) outperforms the reverse order (QOC) by over 14%p, consistently over a wide range of models and datasets. Through systematic architectural analysis, we identify causal attention as the core mechanism: in QOC prompts, the causal mask prevents option tokens from attending to context, creating an information bottleneck where context becomes invisible to options.
This work advances autonomous robot exploration by integrating agent-level semantic reasoning with fast local control. We introduce FARE, a hierarchical autonomous exploration framework that integrates a large language model (LLM) for global reasoning with a reinforcement learning (RL) policy for local decision making. FARE follows a fast-slow thinking paradigm. The slow-thinking LLM module interprets a concise textual description of the unknown environment and synthesizes an agent-level exploration strategy, which is then grounded into a sequence of global waypoints through a topological graph. To further improve reasoning efficiency, this module employs a modularity-based pruning mechanism that reduces redundant graph structures. The fast-thinking RL module executes exploration by reacting to local observations while being guided by the LLM-generated global waypoints. The RL policy is additionally shaped by a reward term that encourages adherence to the global waypoints, enabling coherent and robust closed-loop behavior. This architecture decouples semantic reasoning from geometric decision, allowing each module to operate in its appropriate temporal and spatial scale. In challenging simulated environments, our results show that FARE achieves substantial improvements in exploration efficiency over state-of-the-art baselines. We further deploy FARE on hardware and validate it in complex, large scale 200mtimes130m building environment.
Modern CI/CD pipelines integrating agent-generated code exhibit a structural failure in responsibility attribution. Decisions are executed through formally correct approval processes, yet no entity possesses both the authority to approve those decisions and the epistemic capacity to meaningfully understand their basis. We define this condition as responsibility vacuum: a state in which decisions occur, but responsibility cannot be attributed because authority and verification capacity do not coincide. We show that this is not a process deviation or technical defect, but a structural property of deployments where decision generation throughput exceeds bounded human verification capacity. We identify a scaling limit under standard deployment assumptions, including parallel agent generation, CI-based validation, and individualized human approval gates. Beyond a throughput threshold, verification ceases to function as a decision criterion and is replaced by ritualized approval based on proxy signals. Personalized responsibility becomes structurally unattainable in this regime. We further characterize a CI amplification dynamic, whereby increasing automated validation coverage raises proxy signal density without restoring human capacity. Under fixed time and attention constraints, this accelerates cognitive offloading in the broad sense and widens the gap between formal approval and epistemic understanding. Additional automation therefore amplifies, rather than mitigates, the responsibility vacuum. We conclude that unless organizations explicitly redesign decision boundaries or reassign responsibility away from individual decisions toward batch- or system-level ownership, responsibility vacuum remains an invisible but persistent failure mode in scaled agent deployments.
The Korteweg-de Vries (KdV) equation serves as a foundational model in nonlinear wave physics, describing the balance between dispersive spreading and nonlinear steepening that gives rise to solitons. This article introduces sangkuriang, an open-source Python library for solving this equation using Fourier pseudo-spectral spatial discretization coupled with adaptive high-order time integration. The implementation leverages just-in-time (JIT) compilation for computational efficiency while maintaining accessibility for instructional purposes. Validation encompasses progressively complex scenarios including isolated soliton propagation, symmetric two-wave configurations, overtaking collisions between waves of differing amplitudes, and three-body interactions. Conservation of the classical invariants is monitored throughout, with deviations remaining small across all test cases. Measured soliton velocities conform closely to theoretical predictions based on the amplitude-velocity relationship characteristic of integrable systems. Complementary diagnostics drawn from information theory and recurrence analysis confirm that computed solutions preserve the regular phase-space structure expected for completely integrable dynamics. The solver outputs data in standard scientific formats compatible with common analysis tools and generates visualizations of spatiotemporal wave evolution. By combining numerical accuracy with practical accessibility on modest computational resources, sangkuriang offers a platform suitable for both classroom demonstrations of nonlinear wave phenomena and exploratory research into soliton dynamics.
Web AI agents such as ChatGPT Agent and GenSpark are increasingly used for routine web-based tasks, yet they still rely on text-based input prompts, lack proactive detection of user intent, and offer no support for interactive data analysis and decision making. We present WebSeek, a mixed-initiative browser extension that enables users to discover and extract information from webpages to then flexibly build, transform, and refine tangible data artifacts-such as tables, lists, and visualizations-all within an interactive canvas. Within this environment, users can perform analysis-including data transformations such as joining tables or creating visualizations-while an in-built AI both proactively offers context-aware guidance and automation, and reactively responds to explicit user requests. An exploratory user study (N=15) with WebSeek as a probe reveals participants' diverse analysis strategies, underscoring their desire for transparency and control during human-AI collaboration.
Although much research has focused on AI explanations to support decisions in complex information-seeking tasks such as fact-checking, the role of evidence is surprisingly under-researched. In our study, we systematically varied explanation type, AI prediction certainty, and correctness of AI system advice for non-expert participants, who evaluated the veracity of claims and AI system predictions. Participants were provided the option of easily inspecting the underlying evidence. We found that participants consistently relied on evidence to validate AI claims across all experimental conditions. When participants were presented with natural language explanations, evidence was used less frequently although they relied on it when these explanations seemed insufficient or flawed. Qualitative data suggests that participants attempted to infer evidence source reliability, despite source identities being deliberately omitted. Our results demonstrate that evidence is a key ingredient in how people evaluate the reliability of information presented by an AI system and, in combination with natural language explanations, offers valuable support for decision-making. Further research is urgently needed to understand how evidence ought to be presented and how people engage with it in practice.
We present Motion 3-to-4, a feed-forward framework for synthesising high-quality 4D dynamic objects from a single monocular video and an optional 3D reference mesh. While recent advances have significantly improved 2D, video, and 3D content generation, 4D synthesis remains difficult due to limited training data and the inherent ambiguity of recovering geometry and motion from a monocular viewpoint. Motion 3-to-4 addresses these challenges by decomposing 4D synthesis into static 3D shape generation and motion reconstruction. Using a canonical reference mesh, our model learns a compact motion latent representation and predicts per-frame vertex trajectories to recover complete, temporally coherent geometry. A scalable frame-wise transformer further enables robustness to varying sequence lengths. Evaluations on both standard benchmarks and a new dataset with accurate ground-truth geometry show that Motion 3-to-4 delivers superior fidelity and spatial consistency compared to prior work. Project page is available at https://motion3-to-4.github.io/.
While large language models (LLMs) have shown to perform well on monolingual mathematical and commonsense reasoning, they remain unreliable for multilingual medical reasoning applications, hindering their deployment in multilingual healthcare settings. We address this by first introducing CUREMED-BENCH, a high-quality multilingual medical reasoning dataset with open-ended reasoning queries with a single verifiable answer, spanning thirteen languages, including underrepresented languages such as Amharic, Yoruba, and Swahili. Building on this dataset, we propose CURE-MED, a curriculum-informed reinforcement learning framework that integrates code-switching-aware supervised fine-tuning and Group Relative Policy Optimization to jointly improve logical correctness and language stability. Across thirteen languages, our approach consistently outperforms strong baselines and scales effectively, achieving 85.21% language consistency and 54.35% logical correctness at 7B parameters, and 94.96% language consistency and 70.04% logical correctness at 32B parameters. These results support reliable and equitable multilingual medical reasoning in LLMs. The code and dataset are available at https://cure-med.github.io/