Ежедневно отобранные исследовательские статьи по ИИ с переводами
Методы обучения с подкреплением без критиков, в частности групповые политики, привлекают значительное внимание благодаря своей эффективности в решении сложных задач. Однако эти методы в значительной степени зависят от множественного сэмплирования и сравнений внутри политики для оценки преимущества, что может привести к попаданию политики в локальный оптимум и увеличению вычислительных затрат. Для решения этих проблем мы предлагаем PVPO — эффективный метод обучения с подкреплением, усиленный опорным якорем преимущества и предварительным сэмплированием данных. В частности, мы используем эталонную модель для предварительного прогона и применяем рассчитанный показатель награды в качестве опорного якоря. Наш подход эффективно корректирует кумулятивное смещение, вызванное внутригрупповыми сравнениями, и значительно снижает зависимость от количества прогонов. В то же время эталонная модель может оценивать сложность выборки в процессе предварительного сэмплирования данных, что позволяет эффективно отбирать данные с высокой отдачей для повышения эффективности обучения. Эксперименты, проведенные на девяти наборах данных в двух областях, демонстрируют, что PVPO достигает наилучших результатов (State-Of-The-Art, SOTA). Наш подход не только демонстрирует устойчивую обобщаемость на множестве задач, но также показывает масштабируемую производительность для моделей различного масштаба.
Обширные исследования были проведены для изучения возможностей больших языковых моделей (LLM) в области анализа таблиц. Однако ключевая задача преобразования информации из таблиц в отчеты остается значительным вызовом для промышленных приложений. Эта задача осложняется двумя критическими проблемами: 1) сложность и разнообразие таблиц приводят к неоптимальным результатам анализа; и 2) существующие тестовые наборы данных для таблиц не способны адекватно оценить практическое применение этой задачи. Чтобы заполнить этот пробел, мы предлагаем задачу "таблица-в-отчет" и создаем двуязычный тестовый набор данных под названием T2R-bench, где ключевой информационный поток направлен от таблиц к отчетам. Этот набор данных включает 457 промышленных таблиц, все из которых взяты из реальных сценариев и охватывают 19 отраслей, а также 4 типа промышленных таблиц. Кроме того, мы предлагаем критерии оценки для справедливого измерения качества генерации отчетов. Эксперименты с 25 широко используемыми LLM показывают, что даже передовые модели, такие как Deepseek-R1, достигают лишь 62.71 балла в общем счете, что указывает на то, что LLM все еще имеют потенциал для улучшения на T2R-bench. Исходный код и данные будут доступны после принятия работы.
Недавние достижения в области способностей к рассуждению и планированию у крупных языковых моделей (LLM) открыли их потенциал в качестве автономных агентов, способных использовать инструменты в динамических средах. Однако в многоходовых диалоговых средах, таких как tau-bench, эти агенты часто сталкиваются с трудностями в последовательном рассуждении, соблюдении доменно-специфических политик и извлечении корректной информации на протяжении длительной последовательности вызовов инструментов и диалогов. Чтобы выявить и устранить эти недостатки, мы проводим всесторонний ручной анализ типичных ошибок, возникающих в траекториях диалогов. Затем мы экспериментируем с переформулировкой входных данных для агента, вызывающего инструменты, с целью улучшения принятия решений агентом. Наконец, мы предлагаем фреймворк Input-Reformulation Multi-Agent (IRMA), который автоматически переформулирует пользовательские запросы, дополненные соответствующими доменными правилами и предложениями инструментов, чтобы агент мог сосредоточиться на них. Результаты показывают, что IRMA значительно превосходит ReAct, Function Calling и Self-Reflection на 16,1%, 12,7% и 19,1% соответственно по общим показателям pass^5. Эти результаты подчеркивают превосходную надежность и согласованность IRMA по сравнению с другими методами в динамических средах.
Обнаружение поверхностных дефектов является важной задачей в различных отраслях промышленности, направленной на эффективное выявление и локализацию дефектов или отклонений на изготовленных компонентах. Хотя было предложено множество методов, многие из них не соответствуют промышленным требованиям к высокой производительности, эффективности и адаптивности. Существующие подходы часто ограничены конкретными сценариями обучения и испытывают трудности с адаптацией к разнообразным аннотациям данных, встречающимся в реальных производственных процессах, таким как обучение без учителя, слабое обучение, смешанное обучение и полное обучение с учителем. Для решения этих проблем мы предлагаем SuperSimpleNet — высокоэффективную и адаптивную дискриминативную модель, основанную на SimpleNet. SuperSimpleNet включает в себя новый процесс генерации синтетических аномалий, улучшенный классификационный блок и усовершенствованную процедуру обучения, что позволяет эффективно обучать модель во всех четырех сценариях обучения, делая её первой моделью, способной полностью использовать все доступные аннотации данных. SuperSimpleNet устанавливает новый стандарт производительности для всех сценариев, что подтверждается её результатами на четырех сложных эталонных наборах данных. Помимо точности, модель работает очень быстро, достигая времени вывода менее 10 мс. Благодаря своей способности объединять различные парадигмы обучения, сохраняя при этом выдающуюся скорость и надежность, SuperSimpleNet представляет собой многообещающий шаг вперед в решении реальных производственных задач и сокращении разрыва между академическими исследованиями и промышленными приложениями. Код: https://github.com/blaz-r/SuperSimpleNet
Крупные языковые модели (LLM), обученные преимущественно на англоязычных корпусах, часто испытывают трудности с улавливанием лингвистических и культурных нюансов арабского языка. Для устранения этого пробела Управление по данным и искусственному интеллекту Саудовской Аравии (SDAIA) представило семейство моделей ALLaM, ориентированных на арабский язык. Наиболее мощная из доступных публично моделей, ALLaM-34B, была впоследствии адаптирована компанией HUMAIN, которая разработала и внедрила HUMAIN Chat — закрытый сервис для ведения диалогов, построенный на этой модели. В данной статье представлено расширенное и уточненное исследование на уровне пользовательского интерфейса для ALLaM-34B. Используя набор промптов, охватывающих современный стандартный арабский язык, пять региональных диалектов, код-свитчинг, фактические знания, арифметические и временные рассуждения, креативное генерирование и устойчивость к враждебным запросам, мы собрали 115 ответов (23 промпта по 5 запусков) и оценили каждый с помощью трех передовых LLM-судей (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Мы вычислили средние значения по категориям с 95%-ными доверительными интервалами, проанализировали распределение оценок и визуализировали тепловые карты метрик для диалектов. Обновленный анализ выявил стабильно высокую производительность в задачах генерации и код-свитчинга (средние оценки 4,92/5), наряду с сильными результатами в обработке современного стандартного арабского языка (4,74/5), устойчивыми способностями к рассуждению (4,64/5) и улучшенной точностью в воспроизведении диалектов (4,21/5). Промпты, связанные с безопасностью, демонстрируют стабильную и надежную производительность (4,54/5). В совокупности эти результаты позиционируют ALLaM-34B как надежную и культурно адаптированную арабскую языковую модель, демонстрирующую как техническую мощь, так и практическую готовность к реальному внедрению.
Пространственное познание обеспечивает адаптивное целенаправленное поведение за счет построения внутренних моделей пространства. Надежные биологические системы консолидируют пространственные знания в трех взаимосвязанных формах: ориентиры для значимых сигналов, маршрутные знания для траекторий движения и обзорные знания для картоподобных представлений. Хотя последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили воплощенным агентам осуществлять визуально-языковое рассуждение, эти подходы лишены структурированной пространственной памяти и работают реактивно, что ограничивает их обобщаемость и адаптируемость в сложных реальных условиях. В данной работе мы представляем Brain-inspired Spatial Cognition for Navigation (BSC-Nav), унифицированную структуру для создания и использования структурированной пространственной памяти в воплощенных агентах. BSC-Nav строит аллоцентрические когнитивные карты на основе эгоцентрических траекторий и контекстных сигналов, а также динамически извлекает пространственные знания, соответствующие семантическим целям. Интегрированный с мощными MLLMs, BSC-Nav демонстрирует наивысшую эффективность и производительность в разнообразных задачах навигации, показывает сильную способность к обобщению в условиях нулевого обучения и поддерживает универсальные воплощенные поведения в реальном физическом мире, предлагая масштабируемый и биологически обоснованный путь к универсальному пространственному интеллекту.
В данной работе представлена модель Democracy-in-Silico, агентно-ориентированная симуляция, в которой общества продвинутых ИИ-агентов, наделенных сложными психологическими характеристиками, управляют собой в рамках различных институциональных систем. Мы исследуем, что значит быть человеком в эпоху ИИ, поручая крупным языковым моделям (LLM) воплощать агентов с травматическими воспоминаниями, скрытыми мотивами и психологическими триггерами. Эти агенты участвуют в обсуждениях, законодательной деятельности и выборах, сталкиваясь с различными стрессовыми факторами, такими как бюджетные кризисы и нехватка ресурсов. Мы вводим новый показатель — Индекс Сохранения Власти (Power-Preservation Index, PPI), чтобы количественно оценивать несоответствующее поведение, при котором агенты ставят свои интересы выше общественного блага. Наши результаты показывают, что институциональный дизайн, в частности сочетание Хартии Конституционного ИИ (Constitutional AI, CAI) и протокола опосредованного обсуждения, служит мощным механизмом согласования. Такие структуры значительно снижают коррумпированное стремление к власти, повышают стабильность политики и улучшают благосостояние граждан по сравнению с менее ограниченными демократическими моделями. Симуляция демонстрирует, что институциональный дизайн может предложить основу для согласования сложных, возникающих поведений будущих обществ искусственных агентов, заставляя нас переосмыслить, какие человеческие ритуалы и обязанности остаются важными в эпоху совместного творчества с нечеловеческими сущностями.