Ежедневно отобранные исследовательские статьи по ИИ с переводами
Рассуждение является фундаментальным когнитивным процессом, лежащим в основе логического вывода, решения проблем и принятия решений. Хотя большие языковые модели (БЯМ) демонстрируют мощные способности к рассуждению в закрытых средах, они испытывают трудности в открытых и динамических условиях. Агентное рассуждение знаменует собой смену парадигмы, переосмысливая БЯМ как автономных агентов, которые планируют, действуют и обучаются посредством непрерывного взаимодействия. В данном обзоре мы систематизируем агентное рассуждение по трем взаимодополняющим измерениям. Во-первых, мы характеризуем динамику среды через три уровня: базовое агентное рассуждение, которое формирует ключевые возможности одиночного агента, включая планирование, использование инструментов и поиск в стабильных средах; саморазвивающееся агентное рассуждение, изучающее, как агенты совершенствуют эти способности с помощью обратной связи, памяти и адаптации; и коллективное мультиагентное рассуждение, которое расширяет интеллект на сценарии коллаборации, включающие координацию, обмен знаниями и общие цели. На всех этих уровнях мы различаем рассуждение в контексте, которое масштабирует взаимодействие во время тестирования за счет структурированной оркестровки, и рассуждение после обучения, которое оптимизирует поведение с помощью обучения с подкреплением и контролируемого тонкого настроя. Мы также рассматриваем репрезентативные фреймворки агентного рассуждения в контексте реальных приложений и бенчмарков, включая науку, робототехнику, здравоохранение, автономные исследования и математику. Этот обзор синтезирует методы агентного рассуждения в единую дорожную карту, соединяющую мысль и действие, и очерчивает открытые проблемы и будущие направления, включая персонализацию, долгосрочное взаимодействие, моделирование мира, масштабируемое мультиагентное обучение и управление для развертывания в реальном мире.
Глубокие исследовательские агенты (DRA) генерируют отчеты, насыщенные цитированиями, посредством многоэтапного поиска и синтеза, однако существующие бенчмарки в основном ориентированы на текстовые среды или краткие мультимодальные вопросы-ответы, упуская сквозное использование мультимодальных свидетельств. Мы представляем MMDeepResearch-Bench (MMDR-Bench) — бенчмарк из 140 экспертно разработанных задач в 21 предметной области, где каждая задача предоставляет связку «изображение-текст» для оценки мультимодального понимания и генерации отчетов, обоснованных цитированиями. По сравнению с предыдущими подходами, MMDR-Bench делает акцент на синтезе в стиле отчетов с явным использованием свидетельств, где модели должны связывать визуальные артефакты с заимствованными утверждениями и поддерживать согласованность между повествованием, цитированиями и визуальными ссылками. Мы также предлагаем унифицированный, интерпретируемый конвейер оценки: Formula-LLM Adaptive Evaluation (FLAE) для качества отчета, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) для соответствия доказательств, обоснованных цитированиями, и Multimodal Support-Aligned Integrity Check (MOSAIC) для целостности «текст-визуал», — каждый из которых дает детализированные сигналы, поддерживающие диагностику ошибок за пределами единого общего балла. Эксперименты с 25 современными моделями выявляют системные компромиссы между качеством генерации, дисциплиной цитирования и мультимодальной обоснованностью, демонстрируя, что одной лишь сильной прозы недостаточно для гарантии достоверного использования свидетельств и что мультимодальная целостность остается ключевым узким местом для глубоких исследовательских агентов.
Написание эффективных ответов рецензентам — это ответственная задача, требующая не только языковой беглости, но и точного соответствия между замечаниями рецензентов и содержанием рукописи. Существующие решения обычно рассматривают эту задачу как проблему прямой генерации текста, что приводит к галлюцинациям, пропуску критических замечаний и отсутствию проверяемой обоснованности. Для преодоления этих ограничений мы представляем RebuttalAgent — первую мультиагентную систему, которая переосмысливает генерацию ответов как задачу планирования, ориентированную на доказательства. Наша система декомпозирует сложные отзывы на атомарные проблемы и динамически формирует гибридные контексты, синтезируя сжатые резюме с текстом высокой точности, одновременно интегрируя автономный модуль внешнего поиска по требованию для решения вопросов, требующих привлечения сторонней литературы. Генерируя проверяемый план ответа до составления текста, RebuttalAgent гарантирует, что каждый аргумент явно привязан к внутренним или внешним источникам. Мы оцениваем наш подход на предложенном RebuttalBench и демонстрируем, что наш конвейер превосходит сильные базовые модели по охвату, достоверности и стратегической согласованности, предлагая прозрачного и контролируемого помощника для процесса рецензирования. Код будет опубликован.
Модели генерации видео значительно продвинули развитие воплощённого интеллекта, открыв новые возможности для создания разнообразных роботизированных данных, которые фиксируют восприятие, логику и действия в физическом мире. Однако синтез высококачественных видео, точно отражающих реальное взаимодействие роботов, остаётся сложной задачей, а отсутствие стандартизированного бенчмарка ограничивает возможность объективных сравнений и прогресс. Для устранения этого пробела мы представляем комплексный робототехнический бенчмарк RBench, разработанный для оценки ориентированной на роботов генерации видео в пяти предметных областях и для четырёх различных воплощений. Он оценивает как корректность на уровне задач, так и визуальное качество с помощью воспроизводимых суб-метрик, включая структурную согласованность, физическую правдоподобность и полноту действий. Оценка 25 репрезентативных моделей выявила значительные недостатки в генерации физически реалистичного поведения роботов. Кроме того, бенчмарк демонстрирует коэффициент корреляции Спирмена 0,96 с оценками людей, что подтверждает его эффективность. Хотя RBench предоставляет необходимый инструмент для выявления этих недостатков, достижение физического реализма требует выхода за рамки оценки для решения критической нехватки высококачественных данных для обучения. Руководствуясь этими выводами, мы представляем усовершенствованный четырёхэтапный конвейер обработки данных, результатом которого стал RoVid-X — крупнейший открытый набор роботизированных данных для генерации видео, содержащий 4 миллиона размеченных видеоклипов, охватывающих тысячи задач и обогащённых комплексными аннотациями физических свойств. В совокупности эта синергетическая экосистема оценки и данных создает надежную основу для строгой оценки и масштабируемого обучения видео-моделей, ускоряя эволюцию воплощённого ИИ в направлении общего интеллекта.
GutenOCR представляет собой семейство OCR-интерфейсов с функцией локализации, созданных путем дообучения моделей Qwen2.5-VL-3B и Qwen2.5-VL-7B. Полученные мультимодальные модели единой архитектуры предоставляют возможности распознавания, детекции и привязки текста через унифицированный интерфейс на основе промптов. Обученные на бизнес-документах, научных статьях и синтетических данных локализации, модели поддерживают полностраничное и локальное чтение с ограничивающими рамками на уровне строк и абзацев, а также условные запросы вида «где находится x?». Мы представляем протокол оценки OCR с локализацией и демонстрируем, что GutenOCR-7B более чем вдвое превосходит исходную модель Qwen2.5-VL-7B по комплексному показателю на 10.5 тыс. отложенных бизнес- и научных страниц (0.40 против 0.82). На наборах Fox и OmniDocBench v1.5 наш подход существенно улучшает OCR на уровне регионов и строк, а также полноту детекции текста, но выявляет компромиссы в области линеаризации страниц, OCR с учетом цвета и работы с макетами, насыщенными формулами.
Обучение с подкреплением (ОП) играет ключевую роль в пост-обучении, особенно для агентных моделей, требующих специализированных поведенческих стратегий рассуждений. В этом контексте слияние моделей предлагает практичный механизм для интеграции нескольких агентов, обученных методом ОП на разных задачах, в единую модель-универсал. Однако существующие методы слияния разработаны для контролируемой тонкой настройки (SFT) и оказываются неоптимальными для сохранения специализированных возможностей у агентных моделей, обученных ОП. Корень проблемы заключается в несоответствии task-векторов между ОП и SFT: обучение с подкреплением на основе собственной политики порождает высокоразреженные и гетерогенные task-векторы, в то время как методы слияния в стиле SFT неявно предполагают наличие плотных и глобально сопоставимых task-векторов. Когда в условиях этого несоответствия применяется стандартное глобальное усреднение, не перекрывающиеся task-векторы ОП, кодирующие критически важные специализированные поведения, нивелируются, а параметрические обновления разбавляются. Для решения этой проблемы мы предлагаем Reinforced Agent Merging (RAM) — распределённо-ориентированную структуру слияния, явно разработанную для агентных моделей, обученных ОП. RAM разделяет общие и уникальные, специфичные для задачи, параметрические обновления, усредняя общие компоненты и выборочно сохраняя и перенормируя уникальные, чтобы противодействовать разбавлению обновлений параметров. Эксперименты в различных агентных доменах и архитектурах моделей демонстрируют, что RAM не только превосходит базовые методы слияния, но и раскрывает синергетический потенциал между агентами, позволяя достичь производительности, превосходящей показатели специализированных агентов в их доменах.
Современные сквозные системы устного диалога используют речевые токенизаторы и нейросетевые аудиокодеки, позволяя большим языковым моделям работать непосредственно с дискретными речевыми представлениями. Однако эти модели часто демонстрируют ограниченное сохранение идентичности говорящего, что затрудняет персонализированное голосовое взаимодействие. В данной работе мы представляем Chroma 1.0 — первую открытую сквозную модель устного диалога в реальном времени, которая обеспечивает как низколатентное взаимодействие, так и высококачественное персонализированное клонирование голоса. Chroma достигает сквозной задержки менее секунды благодаря чередующемуся расписанию текстовых и аудио токенов (1:2), поддерживающему потоковую генерацию, при этом сохраняя высокое качество персонализированного синтеза речи в многотурновых беседах. Наши экспериментальные результаты показывают, что Chroma демонстрирует относительное улучшение сходства с голосом на 10.96% по сравнению с человеческим базовым уровнем, при коэффициенте реального времени (RTF) 0.43, сохраняя при этом мощные рассуждения и диалоговые возможности. Наш код и модели общедоступны по адресам https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma и https://huggingface.co/FlashLabs/Chroma-4B.
Метод Chain-of-Thought (CoT) показал выдающиеся успехи в раскрытии способностей больших языковых моделей (LLM) к логическим рассуждениям. Несмотря на то, что prompting по методу CoT улучшает логический вывод, его многословность создает значительные вычислительные затраты. Современные подходы часто сосредоточены исключительно на согласовании итогового результата и не предусматривают контроля за промежуточным процессом рассуждений. Эти недостатки затрудняют анализ скрытой цепи логических умозаключений. Для решения этих проблем мы представляем Render-of-Thought (RoT) — первую систему, которая материализует цепь рассуждений, визуализируя текстовые шаги в виде изображений, делая скрытую логику явной и отслеживаемой. В частности, мы используем визуальные энкодеры существующих Vision Language Models (VLM) в качестве смысловых якорей для согласования визуальных эмбеддингов с текстовым пространством. Такая конструкция обеспечивает возможность реализации по принципу «plug-and-play» без дополнительных затрат на предварительное обучение. Многочисленные эксперименты на эталонных наборах данных по математическим и логическим задачам демонстрируют, что наш метод обеспечивает сжатие в 3–4 раза по количеству токенов и значительное ускорение вывода по сравнению с явным методом CoT. Более того, он сохраняет конкурентоспособную производительность по сравнению с другими методами, что подтверждает жизнеспособность данной парадигмы. Наш код доступен по адресу https://github.com/TencentBAC/RoT.
Извлечение данных из документов является ключевым компонентом цифровых рабочих процессов, однако существующие модели «визуальный язык» (VLM) в основном ориентированы на языки с большими ресурсами. Тайский язык представляет дополнительные сложности из-за сложности письменности, использующей нелатинские символы, отсутствия явных границ слов и распространения слабоструктурированных реальных документов, что ограничивает эффективность современных открытых моделей. В данной статье представлена Typhoon OCR — открытая VLM для извлечения данных из документов, адаптированная для тайского и английского языков. Модель дообучена на основе визуально-языковых архитектур с использованием обучающего набора данных, сфокусированного на тайском языке. Набор данных разработан с помощью многоэтапного конвейера построения данных, сочетающего традиционное OCR, реструктуризацию на основе VLM и тщательно отобранные синтетические данные. Typhoon OCR представляет собой унифицированную систему, способную выполнять транскрипцию текста, реконструкцию макета и обеспечение структурной согласованности на уровне документа. Последняя итерация нашей модели, Typhoon OCR V1.5, представляет собой компактную и эффективную на этапе вывода модель, предназначенную для снижения зависимости от метаданных и упрощения развертывания. Комплексные оценки в различных категориях тайских документов, включая финансовые отчеты, государственные формы, книги, инфографику и рукописные документы, показывают, что Typhoon OCR демонстрирует производительность, сопоставимую или превосходящую более крупные проприетарные модели-лидеры, несмотря на существенно более низкие вычислительные затраты. Результаты свидетельствуют, что открытые визуально-языковые OCR-модели способны достигать точного извлечения текста и реконструкции макета для тайских документов, достигая производительности, сравнимой с проприетарными системами, оставаясь при этом легковесными и удобными для развертывания.
Крупные модели типа «кодировщик-декодер», такие как Whisper, демонстрируют высокую точность оффлайн-транскрипции, но остаются непрактичными для потоковых приложений из-за высокой задержки. Тем не менее, благодаря доступности предобученных чекпоинтов, открытая экосистема распознавания тайской речи (ASR) по-прежнему доминируется этими оффлайн-архитектурами, что создает серьезный пробел в эффективных потоковых решениях. Мы представляем Typhoon ASR Real-time — 115-миллионную модель FastConformer-Transducer для распознавания тайской речи с низкой задержкой. Мы показываем, что строгая текстуальная нормализация может быть столь же эффективной, как и масштабирование модели: наша компактная модель достигает 45-кратного снижения вычислительных затрат по сравнению с Whisper Large-v3 при сохранении сопоставимой точности. Наш конвейер нормализации разрешает системные неоднозначности в тайской транскрипции — включая контекстно-зависимую вербализацию чисел и маркеры повтора (май ямок) — создавая согласованные целевые данные для обучения. Дополнительно мы представляем двухэтапный подход обучения с постепенным усложнением (curriculum learning) для адаптации к исанскому (северо-восточному) диалекту, который сохраняет производительность на центрально-тайском языке. Для решения проблемы воспроизводимости в тайском ASR мы выпускаем Typhoon ASR Benchmark — эталонные датасеты с разметкой, выполненной человеком, и транскрипциями, следующими устоявшимся лингвистическим конвенциям тайского языка, предоставляя научному сообществу стандартизированные протоколы оценки.
В последнее время агентные системы стали доминирующей парадигмой для формального доказательства теорем, демонстрируя высокую производительность за счет координации нескольких моделей и инструментов. Однако существующие подходы часто опираются на специализированные конвейеры и обученные формальные проверы, что ограничивает их гибкость и воспроизводимость. В данной статье мы предлагаем парадигму, которая напрямую использует универсального кодирующего агента в качестве формального математического решателя. Эта парадигма мотивирована следующими факторами: (1) универсальный кодирующий агент предоставляет естественный интерфейс для разнообразных задач логического вывода, выходящих за рамки доказательства теорем, (2) производительность может быть улучшена простой заменой базовой модели без дополнительного обучения и (3) MCP позволяет гибко расширять и автономно вызывать специализированные инструменты, избегая сложного проектирования. На основе этой парадигмы мы представляем Numina-Lean-Agent, который объединяет Claude Code с Numina-Lean-MCP для обеспечения автономного взаимодействия с Lean, поиска релевантных теорем, неформального доказательства и вспомогательных инструментов логического вывода. Используя Claude Opus 4.5 в качестве базовой модели, Numina-Lean-Agent решает все задачи Putnam 2025 (12 / 12), соответствуя лучшей проприетарной системе. Помимо бенчмарк-оценки, мы дополнительно демонстрируем универсальность системы, взаимодействуя с математиками для успешной формализации теоремы Браскама-Либа. Мы публикуем Numina-Lean-Agent и все решения по адресу https://github.com/project-numina/numina-lean-agent.
Сфера информационного поиска переосмысливается под влиянием агентного ИИ, что требует мультимодального мышления, выходящего за рамки традиционных подходов, основанных на схожести. Составной поиск изображений (CIR) является ярким примером этого сдвига, поскольку каждый запрос сочетает эталонное изображение с текстовыми модификациями, что требует композиционного понимания across модальностями. Хотя методы CIR на основе эмбеддингов достигли прогресса, они остаются ограниченными в перспективе, захватывая лишь ограниченные межмодальные связи и не обладая семантическим мышлением. Чтобы устранить эти ограничения, мы представляем XR — беспараметрическую мультиагентную систему, которая переосмысливает поиск как прогрессивно координируемый процесс рассуждений. Она организует три специализированных типа агентов: агенты воображения синтезируют целевые представления через кросс-модальную генерацию, агенты схожести выполняют грубую фильтрацию с помощью гибридного сопоставления, а агенты-вопросы проверяют фактическую согласованность через целенаправленные рассуждения для тонкой фильтрации. Благодаря прогрессивной мультиагентной координации XR итеративно уточняет результаты поиска, чтобы удовлетворить как семантические, так и визуальные ограничения запроса, демонстрируя до 38% улучшения по сравнению с сильными беспараметрическими и параметрическими базовыми методами на наборах данных FashionIQ, CIRR и CIRCO, в то время как ablation-исследования показывают важность каждого агента. Код доступен: https://01yzzyu.github.io/xr.github.io/.
Финансовые агенты на основе больших языковых моделей (LLM) все чаще применяются для инвестиционного анализа, оценки рисков и автоматизированного принятия решений, где их способности к планированию, вызову инструментов и манипуляции изменяемым состоянием создают новые угрозы безопасности в высокорисковых и строго регулируемых финансовых средах. Однако существующие оценки безопасности в основном сосредоточены на соответствию контента на уровне языковых моделей или абстрактных агентских настроек, не учитывая риски, возникающие при реальных рабочих процессах и действиях, изменяющих состояние. Для устранения этого пробела мы предлагаем FinVault — первый бенчмарк безопасности для финансовых агентов, основанный на исполнении, включающий 31 регуляторный сценарий в песочнице с базами данных для записи состояния и явными ограничениями соответствия, а также 107 реальных уязвимостей и 963 тестовых случая, систематически охватывающих инъекцию в промпты, джейлбрейкинг, финансово-адаптированные атаки, а также доброкачественные входные данные для оценки ложных срабатываний. Экспериментальные результаты показывают, что существующие механизмы защиты остаются неэффективными в реалистичных условиях работы финансовых агентов: средний процент успешных атак (ASR) достигает 50,0% для передовых моделей и остается значимым даже для самых robust-систем (ASR 6,7%), что подчеркивает ограниченную переносимость текущих решений безопасности и необходимость разработки более сильных финансово-ориентированных защит. Наш код доступен по адресу https://github.com/aifinlab/FinVault.
Мы представляем RoboBrain 2.5 — флагманскую модель воплощенного искусственного интеллекта следующего поколения, которая развивает общее восприятие, пространственное мышление и временное моделирование за счет масштабного обучения на высококачественных пространственно-временных данных. По сравнению с предыдущей версией, RoboBrain 2.5 получает два ключевых усовершенствования. В частности, модель реализует **Точное 3D-пространственное рассуждение** за счет перехода от относительного позиционирования в 2D-пикселях к прогнозированию координат с учетом глубины и пониманию абсолютных метрических ограничений, генерируя полные 3D-траектории манипулирования в виде упорядоченных последовательностей ключевых точек с учетом физических ограничений. Дополняя пространственную точность, модель оснащается **Плотной временной оценкой состояний**, которая обеспечивает плотное, пошаговое прогнозирование прогресса и понимание состояния выполнения задач с различных точек обзора, создавая стабильные сигналы обратной связи для последующего обучения. Вместе эти улучшения расширяют фреймворк в сторону более физически обоснованного и ориентированного на исполнение воплощенного интеллекта для сложных, тонкоструктурированных манипуляций. Код и веса модели доступны на сайте проекта: https://superrobobrain.github.io.
Мы выявляем новое явление в языковых моделях: доброкачественная тонкая настройка передовых моделей может приводить к коллапсу приватности. Мы обнаружили, что разнообразные, тонкие паттерны в обучающих данных способны нарушать контекстную приватность, включая оптимизацию под полезность, воздействие пользовательской информации, эмоциональные и субъективные диалоги, а также отладку кода с выводом внутренних переменных, среди прочего. Тонко настроенные модели утрачивают способность рассуждать о нормах контекстной приватности, неадекватно обмениваются информацией с инструментами и нарушают границы памяти между контекстами. Коллапс приватности представляет собой «тихий сбой», поскольку модели сохраняют высокую производительность на стандартных тестах безопасности и полезности, одновременно демонстрируя серьёзные уязвимости приватности. Наши эксперименты показывают признаки коллапса приватности в шести моделях (с закрытыми и открытыми весами), пяти наборах данных для тонкой настройки (реальные и контролируемые данные) и двух категориях задач (агентские и основанные на памяти). Наш механистический анализ показывает, что репрезентации приватности особенно хрупки к тонкой настройке по сравнению с релевантными для задачи признаками, которые сохраняются. Наши результаты выявляют критический пробел в современных оценках безопасности, особенно для развёртывания специализированных агентов.
Мы представляем Motion 3-to-4 — прямую (feed-forward) систему для синтеза высококачественных 4D динамических объектов из одного монокулярного видео и опциональной эталонной 3D сетки. Несмотря на значительный прогресс в генерации 2D, видео и 3D контента, синтез 4D остается сложной задачей из-за ограниченности обучающих данных и присущей неоднозначности восстановления геометрии и движения из монокулярного представления. Motion 3-to-4 решает эти проблемы, разлагая 4D синтез на генерацию статической 3D формы и реконструкцию движения. Используя каноническую эталонную сетку, наша модель изучает компактное латентное представление движения и предсказывает траектории вершин для каждого кадра, чтобы восстановить полную, временно согласованную геометрию. Масштабируемый покадровый трансформер дополнительно обеспечивает устойчивость к различной длине последовательностей. Оценки как на стандартных бенчмарках, так и на новом наборе данных с точной эталонной геометрией показывают, что Motion 3-to-4 превосходит предыдущие работы по точности и пространственной согласованности. Страница проекта доступна по адресу https://motion3-to-4.github.io/.
Многие разговорные языки, включая английский, демонстрируют значительные вариации диалектов и акцентов, что делает управление акцентом важной функцией для гибких моделей преобразования текста в речь (TTS). Современные TTS-системы обычно генерируют речь с акцентом, используя условие на основе эмбеддингов говорящего, связанных с конкретными акцентами. Хотя этот подход эффективен, он предлагает ограниченную интерпретируемость и управляемость, поскольку эмбеддинги также кодируют такие характеристики, как тембр и эмоции. В данном исследовании мы анализируем взаимодействие между эмбеддингами говорящего и лингвистически мотивированными фонологическими правилами в синтезе акцентированной речи. Используя американский и британский английский в качестве примера, мы реализуем правила, касающиеся флапинга, ротичности и соответствий гласных. Мы предлагаем показатель скорости фонемных сдвигов (Phoneme Shift Rate, PSR) — новую метрику, количественно оценивающую, насколько сильно эмбеддинги сохраняют или переопределяют основанные на правилах преобразования. Эксперименты показывают, что комбинация правил с эмбеддингами позволяет получать более аутентичные акценты, в то время как эмбеддинги могут ослаблять или перезаписывать правила, выявляя переплетение между акцентом и идентичностью говорящего. Наши результаты подчеркивают роль правил как инструмента управления акцентом и предлагают основу для оценки разделения факторов в генерации речи.
Данная работа развивает автономное исследование роботами за счет интеграции семантического планирования на уровне агента с быстрым локальным управлением. Мы представляем FARE — иерархическую систему автономного исследования, которая объединяет большую языковую модель (БЯМ) для глобального планирования и политику обучения с подкреплением (ОП) для локального принятия решений. FARE следует парадигме быстрого и медленного мышления. Медленный модуль БЯМ интерпретирует краткое текстовое описание неизвестной среды и синтезирует стратегию исследования на уровне агента, которая затем преобразуется в последовательность глобальных целевых точек через топологический граф. Для повышения эффективности планирования этот модуль использует механизм pruning на основе модульности, который сокращает избыточные структуры графа. Быстрый модуль ОП выполняет исследование, реагируя на локальные наблюдения, следуя при этом глобальным целевым точкам, сгенерированным БЯМ. Политика ОП дополнительно формируется термином вознаграждения, поощряющим следование глобальным точкам, что обеспечивает согласованное и устойчивое поведение в замкнутом контуре. Данная архитектура разделяет семантическое планирование и геометрические решения, позволяя каждому модулю работать в соответствующем временном и пространственном масштабе. В сложных симулированных средах наши результаты показывают, что FARE достигает значительного повышения эффективности исследования по сравнению с передовыми базовыми методами. Мы также развернули FARE на реальном оборудовании и проверили ее работу в сложной крупномасштабной среде здания размером 200 м × 130 м.
Крупные языковые модели продемонстрировали значительную полезность в медицинской области. Однако их применение для автономной навигации по электронным медицинским картам (ЭМК) остается ограниченным из-за зависимости от курируемых входных данных и упрощенных задач поиска. Чтобы преодолеть разрыв между идеализированными экспериментальными условиями и реалистичной клинической средой, мы представляем AgentEHR. Этот бенчмарк ставит перед агентами задачу выполнения сложных задач принятия решений, таких как диагностика и планирование лечения, требующих долгосрочного интерактивного логического вывода непосредственно в сырых и зашумленных базах данных. При решении этих задач мы выявляем, что существующие методы суммаризации неизбежно страдают от критической потери информации и нарушения целостности рассуждений. Для решения этой проблемы мы предлагаем RetroSum — новую структуру, объединяющую механизм ретроспективного суммаризации со стратегией развивающегося опыта. Благодаря динамической переоценке истории взаимодействий ретроспективный механизм предотвращает потерю информации в длинном контексте и обеспечивает непрерывную логическую связность. Кроме того, стратегия развития преодолевает доменный разрыв путем извлечения накопленного опыта из банка памяти. Обширные эмпирические оценки демонстрируют, что RetroSum достигает прироста производительности до 29,16% по сравнению с конкурентоспособными базовыми методами, одновременно значительно снижая общее количество ошибок взаимодействия до 92,3%.
Модели для обучения представлений изображений традиционно разрабатываются либо для распознавания, либо для генерации. Различные формы контрастного обучения помогают моделям научиться преобразовывать изображения в эмбеддинги, полезные для классификации, детекции и сегментации. С другой стороны, модели можно обучать реконструкции изображений с использованием потерь на уровне пикселей, перцептивных и состязательных потерь, чтобы изучить латентное пространство, пригодное для генерации изображений. Мы стремимся объединить эти два направления с помощью первой в своем роде модели, которая изучает представления, одновременно полезные как для распознавания, так и для генерации. Мы обучаем нашу модель как гиперсеть для неявного нейронного представления, которая учится отображать изображения в веса модели для быстрой и точной реконструкции. Мы дополнительно интегрируем нашу INR-гиперсеть с дистилляцией знаний, чтобы улучшить ее обобщающую способность и производительность. Помимо новой архитектуры обучения, модель также изучает беспрецедентно сжатое пространство эмбеддингов с выдающейся производительностью для различных визуальных задач. Полная модель конкурирует с современными результатами в области обучения представлений изображений, а также обеспечивает генеративные возможности благодаря своим высококачественным компактным эмбеддингам. Код доступен по адресу https://github.com/tiktok/huvr.
Крупные языковые модели демонстрируют удивительную чувствительность к структуре промпта, однако механизмы, лежащие в основе этой чувствительности, остаются малоизученными. В данной работе мы проводим углубленное исследование на ярком примере: при ответах на вопросы с множественным выбором размещение контекста перед вопросами и вариантами ответов (КВВ) превосходит обратный порядок (ВВК) более чем на 14 процентных пунктов, что стабильно наблюдается для широкого спектра моделей и наборов данных. Посредством системного архитектурного анализа мы идентифицируем причинно-следственную механику внимания как ключевой механизм: в промптах формата ВВК причинная маска предотвращает взаимодействие токенов вариантов ответа с контекстом, создавая информационное узкое место, при котором контекст становится невидимым для вариантов.
Современные CI/CD-конвейеры, интегрирующие код, сгенерированный агентами, демонстрируют структурный сбой в атрибуции ответственности. Решения выполняются через формально корректные процессы согласования, однако ни одна сущность не обладает одновременно и полномочиями для утверждения этих решений, и эпистемической способностью содержательно понимать их обоснование. Мы определяем это состояние как *вакуум ответственности* — ситуацию, в которой решения принимаются, но ответственность не может быть атрибутирована, поскольку полномочия и верификационная способность не совпадают. Мы показываем, что это не отклонение процесса или технический дефект, а структурное свойство развертываний, где пропускная способность генерации решений превышает ограниченную способность человека к верификации. Мы выявляем предел масштабирования при стандартных предположениях о развертывании, включая параллельную генерацию агентами, валидацию на основе CI и индивидуализированные контрольные точки человеческого согласования. За порогом пропускной способности верификация перестает функционировать как критерий принятия решений и замещается ритуализированным согласованием на основе прокси-сигналов. Персонализированная ответственность в этом режиме становится структурно недостижимой. Мы дополнительно характеризуем динамику *CI-усиления*, при которой рост покрытия автоматизированной валидации увеличивает плотность прокси-сигналов без восстановления человеческой способности. При фиксированных ограничениях по времени и вниманию это ускоряет когнитивную разгрузку в широком смысле и расширяет разрыв между формальным утверждением и эпистемическим пониманием. Таким образом, дополнительная автоматизация не смягчает, а усиливает вакуум ответственности. Мы заключаем, что до тех пор, пока организации явно не перепроектируют границы принятия решений или не перераспределят ответственность с индивидуальных решений в сторону пакетной или системной принадлежности, вакуум ответственности остается невидимым, но устойчивым режимом сбоя в масштабных развертываниях агентов.
Веб-агенты с искусственным интеллектом, такие как ChatGPT Agent и GenSpark, все чаще используются для решения рутинных веб-задач, однако они по-прежнему полагаются на текстовые входные запросы, не обладают способностью к проактивному определению намерений пользователя и не поддерживают интерактивный анализ данных и принятие решений. Мы представляем WebSeek — браузерное расширение со смешанной инициативой, которое позволяет пользователям обнаруживать и извлекать информацию с веб-страниц, а затем гибко создавать, преобразовывать и уточнять материальные артефакты данных, такие как таблицы, списки и визуализации, в рамках интерактивного рабочего пространства. В этой среде пользователи могут выполнять анализ, включая преобразования данных, такие как объединение таблиц или создание визуализаций, а встроенный ИИ как проактивно предлагает контекстно-зависимые рекомендации и автоматизацию, так и реагирует на явные запросы пользователя. Разведочное пользовательское исследование (N=15) с использованием WebSeek в качестве инструмента выявило разнообразные стратегии анализа участников, подчеркнув их стремление к прозрачности и контролю в процессе коллаборации человека и ИИ.
Уравнение Кортевега — де Фриза (KdV) служит фундаментальной моделью в нелинейной волновой физике, описывая баланс между дисперсионным расплыванием и нелинейным укручением, который приводит к возникновению солитонов. В данной статье представлен пакет *sangkuriang* с открытым исходным кодом на Python, предназначенный для решения этого уравнения с использованием псевдоспектральной дискретизации по пространству в базисах Фурье в сочетании с адаптивным интегрированием по времени высокого порядка. Реализация использует компиляцию «на лету» (just-in-time, JIT) для вычислительной эффективности, сохраняя при этом доступность для учебных целей. Валидация охватывает постепенно усложняющиеся сценарии, включая распространение изолированного солитона, симметричные конфигурации двух волн, обгоняющие столкновения волн разной амплитуды и трёхчастичные взаимодействия. Сохранение классических инвариантов контролируется на протяжении всех расчётов, причём отклонения остаются малыми во всех тестовых случаях. Измеренные скорости солитонов близко соответствуют теоретическим предсказаниям, основанным на амплитудно-скоростной зависимости, характерной для интегрируемых систем. Дополнительная диагностика, заимствованная из теории информации и рекуррентного анализа, подтверждает, что вычисленные решения сохраняют регулярную фазово-пространственную структуру, ожидаемую для вполне интегрируемой динамики. Решатель выводит данные в стандартных научных форматах, совместимых с распространёнными инструментами анализа, и генерирует визуализации пространственно-временной эволюции волн. Сочетая численную точность с практической доступностью на скромных вычислительных ресурсах, пакет *sangkuriang* предлагает платформу, пригодную как для демонстрации нелинейных волновых явлений в учебной аудитории, так и для исследовательских изысканий в области динамики солитонов.
Хотя многие исследования были сосредоточены на объяснениях ИИ для поддержки решений в сложных задачах поиска информации, таких как проверка фактов, роль доказательств удивительно мало изучена. В нашем исследовании мы систематически варьировали тип объяснения, уверенность прогноза ИИ и корректность рекомендаций системы ИИ для участников-неэкспертов, которые оценивали достоверность утверждений и прогнозов системы ИИ. Участникам была предоставлена возможность легко ознакомиться с исходными доказательствами. Мы обнаружили, что участники последовательно полагались на доказательства для проверки утверждений ИИ во всех экспериментальных условиях. Когда участникам представляли объяснения на естественном языке, доказательства использовались реже, хотя они прибегали к ним, когда эти объяснения казались недостаточными или ошибочными. Качественные данные свидетельствуют, что участники пытались оценить надежность источника доказательств, несмотря на намеренное сокрытие его идентификации. Наши результаты демонстрируют, что доказательства являются ключевым элементом в оценке людьми надежности информации, представленной системой ИИ, и в сочетании с объяснениями на естественном языке предлагают ценную поддержку для принятия решений. Необходимы дальнейшие исследования для понимания того, как следует представлять доказательства и как люди взаимодействуют с ними на практике.
Хотя большие языковые модели (LLM) демонстрируют высокую производительность в задачах математических и основанных на здравом смысле рассуждений на одном языке, они остаются ненадежными для многозначных медицинских рассуждений, что препятствует их внедрению в многоязычных медицинских учреждениях. Мы решаем эту проблему, представив CUREMED-BENCH — высококачественный многоязычный набор данных для медицинских рассуждений, содержащий открытые вопросы с единственным проверяемым ответом и охватывающий тринадцать языков, включая недостаточно представленные языки, такие как амхарский, йоруба и суахили. На основе этого набора данных мы предлагаем CURE-MED — основанную на принципах curriculum learning (поэтапного обучения) архитектуру обучения с подкреплением, которая интегрирует контролируемую тонкую настройку с учетом код-свитчинга (смешения кодов) и Group Relative Policy Optimization для совместного повышения логической корректности и языковой стабильности. На всех тринадцати языках наш подход стабильно превосходит сильные базовые модели и эффективно масштабируется, достигая 85,21% языковой согласованности и 54,35% логической корректности при 7 млрд параметров, а также 94,96% языковой согласованности и 70,04% логической корректности при 32 млрд параметров. Эти результаты способствуют созданию надежных и справедливых систем многоязычных медицинских рассуждений на основе LLM. Код и набор данных доступны по адресу https://cure-med.github.io/