Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLMs) часто допускают галлюцинации в задачах ответа на вопросы (QA). Одним из ключевых, но недостаточно изученных факторов, способствующих этому, является временная характеристика вопросов — являются ли они вечнозелеными (ответы остаются стабильными с течением времени) или изменчивыми (ответы меняются). В данной работе мы представляем EverGreenQA — первый многоязычный набор данных для QA с метками вечнозеленых вопросов, поддерживающий как оценку, так и обучение. Используя EverGreenQA, мы проводим тестирование 12 современных LLM, чтобы оценить, кодируют ли они временную характеристику вопросов явно (через вербализованные суждения) или неявно (через сигналы неопределенности). Мы также обучаем EG-E5 — легковесный многоязычный классификатор, который достигает наилучших результатов на этой задаче. Наконец, мы демонстрируем практическую полезность классификации вечнозеленых вопросов в трех приложениях: улучшение оценки самопознания, фильтрация наборов данных QA и объяснение поведения GPT-4o при извлечении информации.
Мы представляем PartCrafter — первую структурированную 3D-генеративную модель, которая совместно синтезирует несколько семантически значимых и геометрически различных 3D-мешей из одного RGB-изображения. В отличие от существующих методов, которые либо создают монолитные 3D-формы, либо следуют двухэтапным подходам (сначала сегментируют изображение, а затем реконструируют каждый сегмент), PartCrafter использует унифицированную композиционную архитектуру генерации, не требующую предварительно сегментированных входных данных. Условившись на одном изображении, модель одновременно удаляет шум из нескольких 3D-частей, обеспечивая сквозную генерацию с учетом частей как для отдельных объектов, так и для сложных сцен с несколькими объектами. PartCrafter основана на предварительно обученном трансформере диффузии 3D-мешей (DiT), обученном на целых объектах, наследуя предварительно обученные веса, кодировщик и декодировщик, и вводит два ключевых новшества: (1) Композиционное латентное пространство, где каждая 3D-часть представлена набором разделенных латентных токенов; (2) Иерархический механизм внимания, который обеспечивает структурированный поток информации как внутри отдельных частей, так и между всеми частями, гарантируя глобальную согласованность при сохранении деталей на уровне частей в процессе генерации. Для поддержки обучения с учетом частей мы создали новый набор данных, извлекая аннотации на уровне частей из крупномасштабных наборов 3D-объектов. Эксперименты показывают, что PartCrafter превосходит существующие подходы в генерации разложимых 3D-мешей, включая части, которые не видны напрямую на входных изображениях, демонстрируя силу генеративных априорных знаний с учетом частей для понимания и синтеза 3D. Код и обучающие данные будут опубликованы.
Хотя мультимодальные крупные языковые модели (MLLMs) достигли значительного прогресса в задачах сложного рассуждения с помощью обучения с подкреплением, широко распространено мнение, что для улучшения мультимодальных способностей к рассуждению необходимы обширные обучающие данные, что неизбежно приводит к избыточности данных и значительным вычислительным затратам. Однако могут ли меньшие по объему, но высококачественные наборы данных сравниться или превзойти полные корпуса для мультимодального рассуждения в MLLMs? В данной работе мы подвергаем сомнению это предположение, основываясь на ключевом наблюдении: значимое мультимодальное рассуждение активируется лишь редким подмножеством обучающих выборок, называемых когнитивными выборками, тогда как большинство вносят минимальный вклад. Опираясь на это понимание, мы предлагаем новую парадигму отбора данных, названную Потенциалом Активации Рассуждения (Reasoning Activation Potential, RAP), которая идентифицирует когнитивные выборки, оценивая потенциал каждой выборки стимулировать подлинное мультимодальное рассуждение с помощью двух взаимодополняющих оценщиков: 1) Оценщик Каузального Расхождения (Causal Discrepancy Estimator, CDE), основанный на принципе модели потенциальных исходов, исключает выборки, чрезмерно зависящие от языковых априори, путем сравнения выходов между мультимодальными и текстовыми входами; 2) Оценщик Уверенности Внимания (Attention Confidence Estimator, ACE), который использует токен-уровневое самовнимание для отбрасывания выборок, доминируемых нерелевантными, но чрезмерно акцентированными токенами на промежуточных этапах рассуждения. Кроме того, мы вводим Модуль Замены с Учетом Сложности (Difficulty-aware Replacement Module, DRM) для замены тривиальных примеров на когнитивно сложные, тем самым обеспечивая необходимую сложность для устойчивого мультимодального рассуждения. Эксперименты на шести наборах данных показывают, что наш метод RAP стабильно достигает превосходных результатов, используя лишь 9,3% обучающих данных, при этом сокращая вычислительные затраты более чем на 43%. Наш код доступен по адресу https://github.com/Leo-ssl/RAP.
Эффективность крупных языковых моделей в задачах, специфичных для определенных областей, требует тонкой настройки, которая является вычислительно затратной и технически сложной. В данной статье рассматривается параметрически эффективная тонкая настройка с использованием мягкого промптинга — перспективного подхода, который адаптирует предварительно обученные модели к последующим задачам путем обучения небольшого набора параметров. Мы предлагаем новую технику Input Dependent Soft Prompting с механизмом самовнимания (ID-SPAM), которая генерирует мягкие промпты на основе входных токенов и уделяет различным токенам разный уровень внимания. Наш метод прост и эффективен, сохраняя количество обучаемых параметров небольшим. Мы демонстрируем преимущества предложенного подхода по сравнению с современными методами на различных задачах и показываем улучшенную способность к переносу знаний в условиях нулевого сценария.
Несмотря на быстрый прогресс в моделях, объединяющих зрение и язык (VLMs), современные тесты для мультимодального мышления имеют три ключевых недостатка. Во-первых, они в основном полагаются на статические изображения, не учитывая временную сложность реальных условий. Во-вторых, они узко сосредоточены на решении математических задач, игнорируя более широкий спектр навыков мышления — включая абстрактные, физические, планирование, пространственные и временные способности — необходимых для устойчивого мультимодального интеллекта. В-третьих, многие тесты быстро достигают насыщения, оставляя мало возможностей для диагностики ошибок или измерения дальнейшего прогресса. Мы представляем MORSE-500 (Multimodal Reasoning Stress-test Environment), видеотест, состоящий из 500 полностью сценаризированных клипов с встроенными вопросами, охватывающими шесть взаимодополняющих категорий мышления. Каждый пример программно генерируется с использованием детерминированных скриптов на Python (через Manim, Matplotlib, MoviePy), генеративных моделей видео и отобранных реальных записей. Такой подход, основанный на скриптах, позволяет точно контролировать визуальную сложность, плотность отвлекающих элементов и временную динамику — что дает возможность систематически увеличивать сложность по мере улучшения моделей. В отличие от статических тестов, которые устаревают после насыщения, MORSE-500 создан для эволюции: его управляемый процесс генерации поддерживает создание произвольно сложных новых примеров, делая его идеальным инструментом для стресс-тестирования моделей следующего поколения. Первоначальные эксперименты с передовыми системами — включая различные версии Gemini 2.5 Pro и OpenAI o3, представляющие на момент исследования наиболее мощные доступные модели, а также сильные модели с открытым исходным кодом — выявили значительные пробелы в производительности во всех категориях, особенно в абстрактных задачах и задачах на планирование. Мы публикуем полный набор данных, скрипты генерации и инструменты оценки для поддержки прозрачных, воспроизводимых и перспективных исследований в области мультимодального мышления.
Высококачественное и масштабируемое создание аудиоописаний имеет решающее значение для продвижения понимания аудио, однако современные автоматизированные методы часто генерируют описания, которым не хватает детализации и контекстуальной точности, в основном из-за их зависимости от ограниченной унимодальной или поверхностной мультимодальной информации. Вдохновляясь человеческим слуховым восприятием, которое умело интегрирует кросс-модальные сигналы и выполняет сложный анализ звуковой сцены, мы представляем новый двухэтапный автоматизированный подход. Этот подход сначала использует специализированные предобученные модели для извлечения разнообразных контекстуальных сигналов (например, речи, музыки, общих звуков и визуальной информации из связанного видео). Затем крупная языковая модель (LLM) синтезирует эти богатые мультимодальные входные данные для создания детализированных и контекстно-осознанных аудиоописаний. Ключевые вклады этой работы включают: (1) предложенный масштабируемый метод для генерации детализированных аудиоописаний; (2) FusionAudio, новый крупномасштабный набор данных, содержащий 1,2 миллиона таких детализированных описаний, объединенных с 6 миллионами пар вопросов и ответов; и (3) улучшенные аудиомодели, разработанные с использованием FusionAudio, в частности аудиоэнкодер на основе CLAP с превосходным выравниванием аудио и текста и следованием инструкциям. Эта работа прокладывает путь к более тонкому и точному автоматизированному пониманию сложных аудиосред. Код и данные доступны по адресу https://github.com/satsuki2486441738/FusionAudio.
Крупные языковые модели (LLM) становятся всё более мощными, но остаются уязвимыми к атакам с использованием инъекции промптов, когда вредоносные входные данные заставляют модель отклоняться от заданных инструкций. В данной статье представлена модель Sentinel, qualifire/prompt-injection-sentinel, основанная на архитектуре \answerdotai/ModernBERT-large. Используя передовые возможности ModernBERT и тонкую настройку на обширном и разнообразном наборе данных, включающем несколько открытых и частных коллекций, Sentinel достигает наивысшей производительности. Этот набор данных объединяет различные типы атак, от ролевого моделирования и захвата инструкций до попыток генерации предвзятого контента, наряду с широким спектром доброкачественных инструкций, причём частные наборы данных специально ориентированы на тонкую коррекцию ошибок и реальные случаи ошибочной классификации. На всеобъемлющем внутреннем тестовом наборе данных, не использовавшемся при обучении, Sentinel демонстрирует среднюю точность 0,987 и F1-меру 0,980. Более того, при оценке на публичных бенчмарках она стабильно превосходит сильные базовые модели, такие как protectai/deberta-v3-base-prompt-injection-v2. В работе подробно описываются архитектура Sentinel, тщательная подготовка набора данных, методология обучения и всесторонняя оценка, подчеркивающая её превосходные возможности обнаружения.
Омни-модальные языковые модели (OLMs) ставят своей целью интеграцию и обработку разнообразных входных модальностей, таких как текст, изображения, видео и аудио, при сохранении мощных языковых возможностей. Несмотря на недавние достижения, существующие модели, особенно модели с открытым исходным кодом, остаются далеки от истинной омни-модальности, испытывая трудности с обобщением за пределы пар модальностей, на которых они обучались, или с достижением высокой производительности при обработке мультимодальных входных данных. Мы изучаем эффект расширения модальностей — доминирующей техники обучения мультимодальных моделей, при которой готовая языковая модель дообучается на данных целевой области и языка. В частности, мы исследуем три ключевых вопроса: (1) Снижает ли расширение модальностей базовые языковые способности? (2) Может ли слияние моделей эффективно интегрировать независимо дообученные модели для конкретных модальностей, чтобы достичь омни-модальности? (3) Приводит ли расширение омни-модальности к лучшему обмену знаниями и обобщению по сравнению с последовательным расширением? В ходе обширных экспериментов мы анализируем эти компромиссы и предоставляем инсайты относительно возможности достижения истинной омни-модальности с использованием современных подходов.
Мы представляем STARFlow, масштабируемую генеративную модель на основе нормализующих потоков, которая демонстрирует высокую производительность в синтезе изображений с высоким разрешением. Основой STARFlow является Transformer Autoregressive Flow (TARFlow), который сочетает выразительную мощь нормализующих потоков с возможностями структурированного моделирования авторегрессивных трансформеров. Сначала мы устанавливаем теоретическую универсальность TARFlow для моделирования непрерывных распределений. На основе этого фундамента мы вводим несколько ключевых архитектурных и алгоритмических инноваций, которые значительно повышают масштабируемость: (1) глубокая-поверхностная архитектура, где глубокий блок трансформера захватывает большую часть репрезентативной способности модели, дополненная несколькими поверхностными блоками трансформера, которые вычислительно эффективны, но существенно полезны; (2) моделирование в латентном пространстве предобученных автоэнкодеров, что оказывается более эффективным, чем прямое моделирование на уровне пикселей; и (3) новый алгоритм наведения, который значительно улучшает качество образцов. Важно, что наша модель остается сквозным нормализующим потоком, что позволяет проводить точное обучение методом максимального правдоподобия в непрерывных пространствах без дискретизации. STARFlow демонстрирует конкурентоспособные результаты как в задачах условной генерации изображений по классам, так и по тексту, приближаясь к современным диффузионным моделям по качеству образцов. Насколько нам известно, это первая успешная демонстрация нормализующих потоков, эффективно работающих на таком масштабе и разрешении.
Обеспечение эффективного лечения и принятие обоснованных клинических решений являются ключевыми задачами современной медицины и клинической практики. Мы стремимся моделировать динамику заболеваний для поддержки принятия клинических решений, используя последние достижения в области крупных генеративных моделей. С этой целью мы представляем Медицинскую Модель Мира (MeWM) — первую в медицине модель мира, которая визуально прогнозирует будущие состояния заболеваний на основе клинических решений. MeWM включает (i) модели, объединяющие зрение и язык, которые выступают в качестве моделей политик, и (ii) генеративные модели опухолей, выполняющие роль моделей динамики. Модель политик генерирует планы действий, такие как клинические методы лечения, в то время как модель динамики симулирует прогрессирование или регрессию опухоли при заданных условиях лечения. На основе этого мы предлагаем модель обратной динамики, которая применяет анализ выживаемости к симулированной опухоли после лечения, что позволяет оценивать эффективность терапии и выбирать оптимальный план клинических действий. В результате предложенная MeWM моделирует динамику заболеваний, синтезируя опухоли после лечения, с высочайшей специфичностью, подтвержденной тестами Тьюринга, оцененными радиологами. Одновременно ее модель обратной динамики превосходит специализированные медицинские GPT-модели в оптимизации индивидуализированных протоколов лечения по всем метрикам. Важно отметить, что MeWM улучшает принятие клинических решений для интервенционных врачей, повышая F1-меру при выборе оптимального протокола TACE на 13%, прокладывая путь для будущей интеграции медицинских моделей мира в качестве вторых экспертов.
Аудио-ориентированные большие языковые модели (ALLM) способны понимать текстовую и нетекстовую информацию в аудиовходе. В данной работе мы исследуем использование ALLM в качестве автоматического судьи для оценки стилей произношения в речах. Мы применяем ALLM-судей для оценки речей, сгенерированных моделями разговорного языка (SLM), в двух задачах: следование инструкциям по стилю голоса и ролевое воспроизведение. Рассматриваемый стиль произношения включает эмоции, громкость, темп речи, акцентирование слов, управление высотой тона и невербальные элементы. Мы используем четыре модели разговорного языка (SLM) для выполнения этих задач и привлекаем людей и ALLM для оценки ответов SLM. Мы сравниваем двух ALLM-судей, GPT-4o-audio и Gemini-2.5-pro, с результатами человеческой оценки и показываем, что согласованность между Gemini и человеческими судьями сопоставима с согласованностью между самими человеческими оценщиками. Эти обнадеживающие результаты демонстрируют, что ALLM могут использоваться в качестве судей для оценки SLM. Наши результаты также показывают, что текущие SLM, включая GPT-4o-audio, все еще имеют потенциал для улучшения в управлении стилем произношения и генерации естественных диалогов.
Развитие современных моделей искусственного интеллекта (ИИ), в частности диффузионных моделей, применяемых в задачах компьютерного зрения и генерации изображений, переживает смену парадигмы в методологиях разработки. Традиционно доминировавший «модельно-центрированный» подход, при котором повышение производительности достигалось в основном за счет усложнения архитектур моделей и оптимизации гиперпараметров, теперь уступает место более тонкому «данно-центрированному» подходу. Эта новая концепция выдвигает на первый план качество, структуру и релевантность обучающих данных как ключевые факторы, определяющие производительность моделей. Для реализации этой смены парадигмы мы представляем образцовый набор данных DataSeeds.AI (DSD), изначально состоящий из примерно 10 610 высококачественных фотографий, оцененных людьми, и сопровождаемый обширными многоуровневыми аннотациями. DSD представляет собой базовый набор данных для компьютерного зрения, призванный установить новый стандарт для коммерческих наборов изображений. Являясь небольшой частью каталога DataSeed.AI, содержащего более 100 миллионов изображений, DSD обеспечивает масштабируемую основу, необходимую для устойчивого развития коммерческих и мультимодальных ИИ-решений. В рамках этого углубленного исследовательского анализа мы документируем количественные улучшения, достигнутые с использованием DSD на конкретных моделях по сравнению с известными эталонами, и делаем код и обученные модели, использованные в нашей оценке, общедоступными.
Восприятие мира как с эгоцентрической (персонифицированной), так и с экзоцентрической (сторонней) точек зрения является фундаментальным аспектом человеческого познания, обеспечивая богатое и взаимодополняющее понимание динамических сред. В последние годы возможность использования машин для реализации синергетического потенциала этих двойных перспектив стала перспективным направлением исследований в области анализа видео. В данном обзоре мы представляем всесторонний анализ понимания видео как с экзоцентрической, так и с эгоцентрической точек зрения. Мы начинаем с выделения практических приложений интеграции эгоцентрических и экзоцентрических методов, рассматривая их потенциальное взаимодействие в различных областях. Затем мы определяем ключевые исследовательские задачи, необходимые для реализации этих приложений. Далее мы систематически организуем и анализируем последние достижения в трех основных направлениях исследований: (1) использование эгоцентрических данных для улучшения экзоцентрического понимания, (2) применение экзоцентрических данных для повышения качества эгоцентрического анализа и (3) совместные обучающие подходы, объединяющие обе перспективы. Для каждого направления мы рассматриваем разнообразные задачи и соответствующие работы. Кроме того, мы обсуждаем эталонные наборы данных, поддерживающие исследования в обеих перспективах, оценивая их масштаб, разнообразие и применимость. В заключение мы рассматриваем ограничения текущих исследований и предлагаем перспективные направления для будущих изысканий. Синтезируя идеи из обеих точек зрения, наша цель — вдохновить прогресс в области анализа видео и искусственного интеллекта, приближая машины к восприятию мира по-человечески. Репозиторий GitHub с соответствующими работами доступен по ссылке: https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
Соревновательное программирование, благодаря высокой сложности логических задач и точной обратной связи по корректности решений, стало ключевой задачей как для обучения, так и для оценки способностей к рассуждению у крупных языковых моделей (LLM). Однако, несмотря на доступность большого количества публичных данных, таких как условия задач и их решения, тестовые случаи для этих задач часто трудно получить. Таким образом, генерация тестовых случаев является необходимой задачей для создания масштабных наборов данных, а качество тестовых случаев напрямую определяет точность оценки. В данной статье мы представляем систему на основе LLM, которая создает высококачественные тестовые случаи для задач соревновательного программирования. Мы применяем эту систему к набору данных CodeContests и предлагаем новую версию с улучшенными тестовыми случаями, названную CodeContests+. Мы оценили качество тестовых случаев в CodeContests+. Во-первых, мы использовали 1,72 миллиона решений с метками "пройдено/не пройдено", чтобы проверить точность этих тестовых случаев в оценке. Результаты показали, что CodeContests+ достигает значительно более высокой точности по сравнению с CodeContests, особенно с заметно более высокой долей истинно положительных результатов (True Positive Rate, TPR). Впоследствии наши эксперименты в области обучения с подкреплением (Reinforcement Learning, RL) для LLM дополнительно подтвердили, что улучшение качества тестовых случаев приносит значительные преимущества для RL.
Создание точных физических симуляций непосредственно на основе движений реальных роботов представляет большую ценность для безопасного, масштабируемого и доступного обучения роботов, однако остается исключительно сложной задачей. Данные, полученные от реальных роботов, страдают от окклюзий, шумных позиций камер и динамических элементов сцены, что затрудняет создание геометрически точных и фотореалистичных цифровых двойников неизвестных объектов. Мы представляем новый подход real-to-sim, который одновременно решает все эти проблемы. Ключевая идея заключается в гибридном представлении сцены, объединяющем фотореалистичный рендеринг на основе 3D Gaussian Splatting с явными мешами объектов, подходящими для физической симуляции, в рамках единого представления. Мы предлагаем сквозной процесс оптимизации, который использует дифференцируемый рендеринг и дифференцируемую физику в MuJoCo для совместного уточнения всех компонентов сцены — от геометрии и внешнего вида объектов до поз роботов и физических параметров — непосредственно на основе сырых и неточных траекторий роботов. Такая унифицированная оптимизация позволяет одновременно достигать высокоточной реконструкции мешей объектов, генерировать фотореалистичные новые виды и выполнять калибровку поз роботов без аннотаций. Мы демонстрируем эффективность нашего подхода как в симуляции, так и на сложных реальных последовательностях с использованием двуручного манипулятора ALOHA 2, что делает pipelines real-to-simulation более практичными и надежными.
Крупные языковые модели (LLM) способны трансформировать здравоохранение благодаря продвинутой поддержке принятия решений и гибким чат-ассистентам. Однако LLM склонны генерировать неточную медицинскую информацию. Чтобы закрепить LLM на основе высококачественных медицинских знаний, их оснащают внешними данными через механизм RAG (Retrieval-Augmented Generation), где неструктурированные медицинские знания разбиваются на небольшие текстовые фрагменты, которые могут быть выборочно извлечены и интегрированы в контекст LLM. Тем не менее, существующие RAG-конвейеры опираются на сырые, неструктурированные медицинские тексты, которые могут быть зашумленными, неотобранными и сложными для эффективного использования LLM. Систематические подходы к организации медицинских знаний для их оптимального представления LLM в целом отсутствуют. Для решения этих проблем мы представляем MIRIAD — крупномасштабный, курируемый корпус из 5 821 948 пар вопросов и ответов по медицине, каждый из которых переформулирован и основан на отрывке из рецензируемой медицинской литературы с использованием полуавтоматического конвейера, включающего генерацию LLM, фильтрацию, закрепление и аннотирование человеком. В отличие от предыдущих медицинских корпусов, которые опираются на неструктурированный текст, MIRIAD инкапсулирует веб-масштабные медицинские знания в операционализированном формате «запрос-ответ», что позволяет более целенаправленно извлекать информацию. Эксперименты на сложных медицинских тестах вопросов и ответов показывают, что дополнение LLM с помощью MIRIAD повышает точность до 6,7% по сравнению с базовыми RAG-подходами, использующими тот же исходный корпус и тот же объем извлеченного текста. Более того, MIRIAD улучшил способность LLM обнаруживать медицинские галлюцинации на 22,5–37% (увеличение F1-меры). Мы также представляем MIRIAD-Atlas — интерактивную карту MIRIAD, охватывающую 56 медицинских дисциплин, что позволяет клиническим пользователям визуально исследовать, искать и уточнять медицинские знания. MIRIAD открывает широкие возможности для создания приложений, включая медицинские системы поиска информации, улучшенные RAG-приложения и интерфейсы чатов, основанные на знаниях, что в конечном итоге делает LLM более надежными в здравоохранении.
Манипуляции долгое время оставались сложной задачей для роботов, в то время как люди могут с легкостью выполнять сложные взаимодействия с объектами, например, вешать чашку на подставку. Одной из ключевых причин является отсутствие крупного и унифицированного набора данных для обучения роботов навыкам манипуляции. Современные наборы данных для роботов часто фиксируют действия роботов в различных пространствах действий в рамках простых сцен. Это препятствует обучению роботов единому и устойчивому представлению действий для разных роботов в разнообразных сценах. Наблюдая за тем, как люди понимают задачу манипуляции, мы обнаружили, что понимание того, как объекты должны двигаться в трехмерном пространстве, является ключевым элементом для руководства действиями. Этот элемент не зависит от конкретного воплощения и подходит как для людей, так и для различных роботов. Вдохновленные этим, мы стремимся обучить модель мира, основанную на трехмерных потоках, используя данные манипуляций как людей, так и роботов. Эта модель предсказывает будущее движение взаимодействующих объектов в трехмерном пространстве, направляя планирование действий для манипуляции. В частности, мы синтезируем крупномасштабный набор данных трехмерного оптического потока, названный ManiFlow-110k, с помощью автоматического конвейера обнаружения движущихся объектов. Затем модель мира, основанная на диффузии видео, обучается физике манипуляции на этих данных, генерируя траектории трехмерного оптического потока, обусловленные языковыми инструкциями. С использованием сгенерированного трехмерного оптического потока объектов мы предлагаем механизм рендеринга, направляемый потоком, который визуализирует предсказанное конечное состояние и использует GPT-4o для оценки того, соответствует ли предсказанный поток описанию задачи. Это наделяет робота способностью к замкнутому планированию. Наконец, мы рассматриваем предсказанный трехмерный оптический поток как ограничения для оптимизационной политики, определяющей последовательность действий робота для манипуляции. Многочисленные эксперименты демонстрируют сильную обобщаемость для разнообразных задач роботизированной манипуляции и надежную адаптацию между различными воплощениями без обучения, специфичного для конкретного оборудования.
Быстрое развитие крупных языковых моделей (LLM) стимулирует разработку автономных мультиагентных систем (MAS). Однако современные фреймворки часто страдают от недостатка гибкости, осведомленности о ресурсах, разнообразия моделей и автономного создания инструментов. В данной статье представлен HASHIRU (Иерархическая Агентная Система для Гибкого Интеллектуального Использования Ресурсов) — новый фреймворк MAS, который повышает гибкость, эффективность использования ресурсов и адаптивность. HASHIRU включает агента "CEO", который динамически управляет специализированными агентами "сотрудниками", создаваемыми в зависимости от задач и ограничений ресурсов (стоимость, память). Его гибридный интеллект отдает приоритет более компактным локальным LLM (через Ollama), гибко используя внешние API и более крупные модели при необходимости. Экономическая модель с учетом затрат на найм и увольнение способствует стабильности команды и эффективному распределению ресурсов. Система также включает автономное создание инструментов API и функцию памяти. Оценки на задачах, таких как рецензирование научных статей (58% успеха), оценка безопасности (100% на подмножестве JailbreakBench) и сложные рассуждения (превосходя Gemini 2.0 Flash на GSM8K: 96% против 61%; JEEBench: 80% против 68,3%; SVAMP: 92% против 84%), демонстрируют возможности HASHIRU. Кейс-стадии иллюстрируют его самоулучшение через автономную генерацию моделей затрат, интеграцию инструментов и управление бюджетом. HASHIRU предлагает перспективный подход для создания более устойчивых, эффективных и адаптивных MAS благодаря динамическому иерархическому управлению, гибридному интеллекту с учетом ресурсов и автономному функциональному расширению. Исходный код и бенчмарки доступны по адресам https://github.com/HASHIRU-AI/HASHIRU и https://github.com/HASHIRU-AI/HASHIRUBench соответственно, а живая демонстрация доступна по запросу на https://hashiruagentx-hashiruai.hf.space.
Крупные мультимодальные модели (LMMs) достигли значительных успехов в области визуального восприятия и логического анализа. Однако, сталкиваясь с визуально неоднозначным или не семантическим текстом в сценах, они часто испытывают трудности с точным распознаванием и пониманием содержания, нередко генерируя семантически правдоподобные, но визуально ошибочные ответы, что мы называем семантической галлюцинацией. В данной работе мы исследуем основные причины семантической галлюцинации и выявляем ключевой вывод: слои трансформеров в LMM с более сильным вниманием к областям текста в сценах менее склонны к генерации семантических галлюцинаций. Таким образом, мы предлагаем фреймворк для смягчения семантической галлюцинации, не требующий дополнительного обучения, который включает два ключевых компонента: (1) ZoomText — стратегию от грубого к точному, которая идентифицирует потенциальные области текста без использования внешних детекторов; и (2) Grounded Layer Correction — метод, который адаптивно использует внутренние представления из слоев, менее склонных к галлюцинациям, для управления декодированием, исправляя галлюцинированные выходы для не семантических примеров, сохраняя при этом семантику значимых. Для обеспечения строгой оценки мы представляем TextHalu-Bench — бенчмарк, содержащий более 1730 примеров, охватывающих как семантические, так и не семантические случаи, с тщательно подобранными парами вопрос-ответ, предназначенными для исследования галлюцинаций моделей. Многочисленные эксперименты демонстрируют, что наш метод не только эффективно смягчает семантическую галлюцинацию, но и показывает высокие результаты на публичных бенчмарках для распознавания и понимания текста в сценах.
Групповая Оптимизация Относительной Политики (Group Relative Policy Optimization, GRPO) улучшает обучение политик за счет вычисления градиентов на основе относительных сравнений между кандидатными выходами, которые имеют общий входной префикс. Несмотря на свою эффективность, GRPO вносит значительные вычислительные издержки при обработке длинных общих префиксов, которые должны избыточно кодироваться для каждого члена группы. Эта неэффективность становится основным узким местом масштабируемости в сценариях обучения с длинным контекстом. Мы предлагаем Prefix Grouper, эффективный алгоритм обучения GRPO, который устраняет избыточные вычисления префиксов с помощью стратегии Shared-Prefix Forward. В частности, путем реструктуризации самовнимания на две части наш метод позволяет кодировать общий префикс только один раз, сохраняя при этом полную дифференцируемость и совместимость с сквозным обучением. Мы предоставляем как теоретические, так и эмпирические доказательства того, что Prefix Grouper эквивалентен стандартному GRPO в обучении: он дает идентичные прямые выходы и обратные градиенты, что гарантирует неизменность динамики оптимизации и конечной производительности политики. Эмпирически наши эксперименты подтверждают, что Prefix Grouper достигает согласованных результатов при значительном снижении вычислительных затрат на обучение, особенно в сценариях с длинными префиксами. Предложенный метод полностью готов к использованию: он совместим с существующими архитектурами на основе GRPO и может быть легко интегрирован в текущие конвейеры обучения в качестве замены, не требуя структурных изменений и лишь минимальных изменений в построении входных данных и вычислении внимания. Prefix Grouper позволяет использовать большие размеры групп при том же вычислительном бюджете, тем самым улучшая масштабируемость GRPO для более сложных задач и крупных моделей. Код доступен по адресу: https://github.com/johncaged/PrefixGrouper.
Искусственный интеллект для управления жизненным циклом промышленных активов направлен на автоматизацию сложных операционных процессов, таких как мониторинг состояния, планирование технического обслуживания и составление графиков вмешательств, с целью снижения нагрузки на персонал и минимизации простоев системы. Традиционные подходы на основе ИИ/машинного обучения в основном решали эти задачи изолированно, фокусируясь на узких аспектах в рамках более широкого операционного конвейера. В отличие от этого, появление агентов ИИ и крупных языковых моделей (LLM) открывает новое поколение возможностей: сквозная автоматизация всего жизненного цикла активов. В данной статье рассматривается будущее, в котором агенты ИИ автономно управляют задачами, которые ранее требовали специализированных знаний и ручной координации. Для достижения этой цели мы представляем AssetOpsBench — унифицированную среду и фреймворк, предназначенные для разработки, оркестрации и оценки предметно-ориентированных агентов, адаптированных для приложений Индустрии 4.0. Мы описываем ключевые требования к таким комплексным системам и предоставляем практические рекомендации по созданию агентов, интегрирующих восприятие, логику и управление для реальных промышленных операций. Программное обеспечение доступно по адресу https://github.com/IBM/AssetOpsBench.
Последние достижения в области искусственного интеллекта (ИИ) в сфере рассуждений привели к значительным улучшениям в решении разнообразных задач. Ключевым открытым вопросом остается то, приводят ли эти улучшения также к более эффективной передаче знаний: способности моделей передавать свои рассуждения таким образом, чтобы люди могли их понять, применить и извлечь из них пользу. Для изучения этого вопроса мы представляем концептуальную и экспериментальную платформу под названием "Оценка интеграции и передачи знаний" (Knowledge Integration and Transfer Evaluation, KITE), предназначенную для анализа возможностей передачи знаний между человеком и ИИ, и проводим первое крупномасштабное исследование с участием людей (N=118), специально разработанное для измерения этой способности. В нашей двухэтапной схеме люди сначала совместно с ИИ разрабатывают стратегии решения задач, а затем самостоятельно реализуют решения, что позволяет изолировать влияние объяснений модели на понимание человеком. Наши результаты показывают, что, хотя производительность моделей на тестовых задачах коррелирует с результатами совместной работы, эта связь является заметно неоднозначной и включает значительные отклонения, что указывает на необходимость целенаправленной оптимизации для эффективной передачи знаний. Наш анализ выявляет поведенческие и стратегические факторы, опосредующие успешную передачу знаний. Мы публикуем наш код, набор данных и оценочную платформу для поддержки будущих исследований, направленных на создание моделей, ориентированных на коммуникацию.
Системы извлечения информации (Information Extraction, IE) традиционно являются предметно-ориентированными, что требует дорогостоящей адаптации, включающей разработку экспертных схем, аннотирование данных и обучение моделей. Хотя крупные языковые модели (Large Language Models) демонстрируют потенциал в задачах IE с нулевым обучением (zero-shot), их производительность значительно снижается в новых предметных областях, где определения меток отличаются. В данной статье представлен метод GUIDEX, который автоматически определяет предметно-ориентированные схемы, выводит руководящие принципы и генерирует синтетически размеченные примеры, что позволяет улучшить обобщение за пределами исходной области. Тонкая настройка модели Llama 3.1 с использованием GUIDEX устанавливает новый рекорд производительности на семи бенчмарках распознавания именованных сущностей (Named Entity Recognition) с нулевым обучением. Модели, обученные с помощью GUIDEX, показывают улучшение до 7 баллов F1 по сравнению с предыдущими методами без использования размеченных человеком данных и почти на 2 балла F1 выше при их совместном использовании. Модели, обученные на GUIDEX, демонстрируют улучшенное понимание сложных предметно-ориентированных схем аннотирования. Код, модели и синтетические наборы данных доступны по адресу neilus03.github.io/guidex.com.
Модели пространства состояний (SSM) представляют собой перспективную архитектуру для моделирования последовательностей, предлагая альтернативу трансформерам за счет замены дорогостоящего самовнимания линейными рекуррентными операциями. В данной статье мы предлагаем простой, но эффективный прием для улучшения SSM в рамках заданных вычислительных бюджетов путем их разрежения. Наша интуиция заключается в том, что токены в SSM обладают высокой избыточностью из-за постепенных рекуррентных обновлений, а плотные рекуррентные операции блокируют передачу информации из прошлого. В частности, мы наблюдаем, что верхние слои SSM, как правило, более избыточны, так как кодируют глобальную информацию, в то время как нижние слои кодируют локальную информацию. Мотивируясь этим, мы представляем Simba — иерархический метод разрежения для SSM, основанный на обрезке токенов. Simba сильнее разрежает верхние слои по сравнению с нижними, побуждая верхние слои вести себя как "магистрали". Для достижения этого мы предлагаем новый критерий обрезки токенов для SSM, измеряющий глобальное влияние токенов на конечный выход путем накопления локальных рекуррентных операций. Мы демонстрируем, что Simba превосходит базовую модель Mamba при одинаковом количестве операций с плавающей запятой (FLOPS) в различных задачах обработки естественного языка. Более того, мы иллюстрируем эффект "магистралей", показывая, что Simba не только повышает эффективность, но и улучшает поток информации в длинных последовательностях. Код доступен по адресу https://github.com/woominsong/Simba.