Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя промышленные базовые модели уровня 10B продвинули границы возможностей восстановления изображений, их непомерные вычислительные затраты серьезно затрудняют практическое развертывание. Создание узкоспециализированного, высокооптимизированного решателя конкретных задач является многообещающим решением; однако экстремальное структурное сжатие неизбежно вызывает серьезное узкое место представления. Для преодоления этого мы предлагаем Moebius — высокоэффективный легковесный фреймворк для восстановления изображений. Мы систематически реконструируем диаффузионный бэкбон, вводя блок Local-λ Mix Interaction (LλMI). Состоящий из модулей Local-λ и Interactive-λ, он элегантно обобщает пространственные контексты и глобальные семантические априорные знания в линейные матрицы фиксированного размера, сохраняя сложные скрытые взаимодействия при радикальном сокращении параметров. Кроме того, чтобы раскрыть полную репрезентативную мощность этой высококомпактной архитектуры, мы синергетически объединяем ее с адаптивной стратегией дистилляции с несколькими гранулярностями. Действуя строго в скрытом пространстве во избежание дорогостоящего декодирования в пространстве пикселей, эта стратегия динамически балансирует несколько градиентных потерь для достижения высокоточного выравнивания. Обширные эксперименты на наборах данных естественных и портретных изображений показывают, что эта оптимальная синергия позволяет Moebius конкурировать или даже превосходить по качеству генерации промышленный генералист FLUX.1-Fill-Dev уровня 10B. Примечательно, что Moebius достигает этого, используя менее 2% параметров (0,22B против 11,9B), обеспечивая при этом ускорение общего времени вывода более чем в 15 раз, устанавливая новый стандарт эффективности для высокоточного восстановления изображений. Страница проекта: https://hustvl.github.io/Moebius.
Ловкое взаимодействие с сочлененными объектами важно для бытовой, вспомогательной и человекоподобной манипуляции, где многопальцевые руки могут обеспечивать податливые контактные схемы, выходящие за рамки захвата параллельными губками. Однако манипуляция сочлененными объектами отличается от манипуляции статическими объектами: целевая часть не может быть непосредственно приведена в действие, а ее движение должно возникать за счет устойчивого физического контакта «рука—ручка». Это делает переход от объектно-центрированной генерации сочлененных движений к управляемому рукой ловкому взаимодействию руки с объектом нетривиальным, поскольку воспроизведение геометрической траектории или выполнение по разомкнутому циклу не моделирует контактную динамику, необходимую для перемещения сочлененной части. Кроме того, политики, обученные только на завершение задачи при фиксированной динамике, могут переобучаться на номинальные контактные нагрузки, особенно при отсутствии тактильной или силовой обратной связи, и ухудшаться при изменении контактной нагрузки. Для решения этих проблем мы представляем DragMesh-2 — контактно-ориентированную структуру для ловкого взаимодействия с сочлененными объектами, которая расширяет сочлененное взаимодействие от объектно-центрированной генерации до управляемого рукой ловкого взаимодействия руки с объектом, где сочлененное движение должно возникать через физический контакт. Мы также предлагаем PICA — физически информированный механизм обучения с учетом контакта, который внедряет физические сигналы в обучение политики без тактильной или силовой обратной связи, повышая устойчивость и успешность выполнения задачи при изменяющихся контактных нагрузках. Наконец, мы проводим систематическую оценку в нескольких условиях демпфирования и категориях сочлененных объектов для изучения устойчивости к изменению контактной нагрузки, а также предоставляем ресурс для ловкого взаимодействия на основе чистой геометрии для поддержки будущих исследований в области локомоции-манипуляции и взаимодействия человекоподобной руки с объектом. Для семи объектов из набора GAPartNet DragMesh-2 демонстрирует более высокую устойчивость к изменению контактной нагрузки по сравнению с конкурирующими методами, сохраняя при этом высокий уровень успешности задач в различных условиях демпфирования.
Современные агентные робототехнические системы способны писать исполняемые программы в стиле «код как политика», наблюдать за обратной связью и корректировать поведение в рамках нескольких попыток, однако они остаются преимущественно ориентированными на выполнение задач: переиспользуемые навыки приобретаются только после явных инструкций. Мы исследуем игровое агентное обучение роботов, в котором воплощенный кодирующий агент использует самонаправленную игру как непрерывный этап обучения навыкам до поступления целевых задач. Мы представляем RATs — команды робототехнических агентов, предназначенные для приобретения навыков в игровом режиме. В процессе игры RATs предлагают новые, но обучаемые исследовательские задачи, планируют и выполняют робототехнические кодовые политики, проверяют промежуточный прогресс, диагностируют сбои, повторяют попытки с плотной пошаговой обратной связью и сохраняют успешные выполнения в постоянную библиотеку кодовых навыков. На этапе тестирования агент повторно использует релевантные навыки из этой замороженной библиотеки для решения новых задач. Эксперименты в средах LIBERO-PRO и MolmoSpaces показывают, что навыки, полученные в игре, улучшают выполнение отложенных целевых задач по сравнению с базовыми методами без игры и со случайной игрой, обеспечивая прирост в 20,6 и 17,0 процентных пунктов относительно CaP-Agent0 на LIBERO-PRO и MolmoSpaces соответственно. Более того, изученные навыки могут быть интегрированы в другие агенты, использующие подход «код как политика» на этапе вывода, путем простого извлечения их в контекст, что улучшает перенос на RoboSuite и реальный мир на 8,9 и 8,8 пункта соответственно без дообучения базовой модели.
Реальная пространственная интеллектуальность требует рассуждений о непрерывном и изменяющемся трехмерном мире, однако существующие VLM и агенты, расширенные инструментами, в значительной степени остаются привязанными к статическому, не имеющему состояния выводу на основе изолированных визуальных наблюдений. Мы представляем \textsc{S-Agent} — парадигму агента пространственного использования инструментов для понимания и рассуждения о непрерывных многовидовых изображениях и видео. Формулируя пространственное рассуждение как накопление пространственно-временных свидетельств, а не изолированное покадровое предсказание, S-Agent переосмысливает пространственное восприятие как понимание, центрированное на сцене, выходящее за рамки покадрового распознавания. В частности, S-Agent представляет VLM как семантического планировщика, который решает, какие свидетельства необходимы, в то время как иерархия пространственных инструментов и экспертов локализует объекты в 2D, поднимает их в 3D-геометрические свидетельства и агрегирует эти свидетельства в высокоуровневые пространственные знания (например, подсчет, измерение, ориентация и относительное положение). Кроме того, механизм временной памяти, включающий Память сцены для поддержания изменяющегося состояния сцены и Память агента для накопления контекста рассуждений, обеспечивает интеграцию свидетельств между кадрами и шагами рассуждений. Всесторонние эксперименты на эталонах пространственного рассуждения по многовидовым изображениям и видео показывают, что S-Agent последовательно улучшает как открытые, так и закрытые VLM без необходимости обучения. Помимо расширения во время вывода, контролируемая тонкая настройка (SFT) на сгенерированных S-Agent пространственных траекториях S-300K дает S-Agent-8B — компактный пространственный агент, который значительно превосходит базовые модели аналогичного масштаба (например, Qwen3-VL-8B) и показывает результаты, сопоставимые с продвинутыми закрытыми моделями (например, GPT-5.4 и Gemini 3).
LiveCodeBench (LCB) недавно стал широко используемым бенчмарком для оценки больших языковых моделей (LLM) на задачах генерации кода. Благодаря подборке задач по спортивному программированию, постоянному добавлению новых задач в набор и их фильтрации по датам выпуска, LCB обеспечивает оценку с учетом контаминации и предоставляет целостное представление о способностях кодирования. Однако LCB по-прежнему ограничен языком Python, оставляя открытым вопрос о том, способны ли LLM обобщать свои навыки на различные языки программирования, необходимые в реальной программной инженерии. Мы представляем Multi-LCB — бенчмарк для оценки LLM на двенадцати языках программирования, включая Python. Multi-LCB преобразует задачи из набора данных LCB на Python в эквивалентные задачи на других языках, сохраняя при этом механизмы контроля контаминации и протокол оценки LCB. Благодаря полной совместимости с оригинальным форматом LCB, Multi-LCB будет автоматически отслеживать будущие обновления LCB, обеспечивая систематическую оценку компетентности в генерации кода на разных языках и требуя от моделей поддержания производительности далеко за пределами Python. Мы оценили 24 LLM для инструкций и рассуждений на Multi-LCB, выявив признаки переобучения на Python, контаминации, специфичной для языка, и существенные различия в многоязычной производительности. Наши результаты утверждают Multi-LCB как строгий новый бенчмарк для оценки кода на нескольких языках программирования, напрямую устраняя основное ограничение LCB и раскрывая критические пробелы в текущих возможностях LLM.
Бенчмарки для агентов стремительно развиваются, однако ни один отдельно взятый бенчмарк не охватывает более четырёх-пяти из тех измерений, которые выявляются при развёртывании. В данной работе представлена крупнейшая на сегодняшний день скоординированная серия углублённых исследований одного промышленного бенчмарка на базе MCP: четырнадцать параллельных исследований, охватывающих новые классы активов (включая мультимодальное визуальное расширение), альтернативные оркестровки, стратегии поиска, режимы рассуждений, оптимизацию инфраструктуры и зонды для оценки методологии. Обобщая эти исследования вместе с семью предыдущими бенчмарками для агентов, мы утверждаем, что лидерборды, основанные на агрегированных показателях, систематически недоопределяют оценку развёрнутых агентов. Ранжирования, построенные на агрегированных баллах, не переносятся на условия вне распределения; недавние ретроспективы соревнований, где публичные результаты сравнивались со скрытыми, предоставляют прямые эмпирические доказательства такой нестабильности рангов. Мы предлагаем ранжировать конфигурации по предиктивной валидности — корреляции между рангами внутри выборки и вне выборки, а не по среднему значению внутри выборки, — и представляем двенадцатиуровневый измерительный аппарат, который выявляет ключевые для развёртывания измерения, сводимые к HELM и его последователям в эпоху агентов. Предлагаемая позиция операционализируется через три фальсифицируемых критерия для условий вне распределения с явными порогами; существующие данные частично её подтверждают, но недостаточны для окончательного вывода. В заключение мы приводим предварительно зарегистрированный пилотный дизайн и видение на уровне всей области — того, что должно содержать следующее поколение бенчмарков для агентов.
Генерация на основе двух референсов (стиля и содержания) направлена на синтез изображения, сохраняющего структуру и семантику референса содержания, при этом принимающего стиль отдельного референса стиля. Несмотря на недавний прогресс, эта задача остается сложной, поскольку модели должны обеспечивать баланс между точностью сохранения содержания, соответствием стилю и следованием инструкции, избегая утечки семантики из референса стиля. Ключевым узким местом является отсутствие крупномасштабных тройных данных с чистым разделением содержания и стиля и широким покрытием редких стилей. В данной работе мы предлагаем FreeStyle — масштабируемую структуру двухреференсной генерации, основанную на извлечении LoRA из сообщества. Мы рассматриваем LoRA сообщества как композиционные якоря для стиля и содержания и проектируем строгий конвейер генерации и фильтрации для создания крупномасштабных троек «референс стиля — референс содержания» для нескольких базовых моделей. Для устранения утечки содержания мы применяем двухэтапную учебную программу с механизмами разделения, специфичными для каждого этапа: ограничение обогащения на уровне внимания, подавляющее утечку из референса стиля на этапе переноса стиля, и стратегию модуляции RoPE с учетом частоты, нацеленную на утечку, основанную на позиционном соответствии, на более сложном этапе двух референсов. Мы также представляем эталон, охватывающий генерацию как на основе референса стиля, так и на основе двух референсов, с оценками сходства стиля, сохранения содержания, эстетики, следования инструкциям и подавления утечки. Эталон включает инвариантную к стилю Оценку согласованности содержания (CAS) и вводит калиброванную Оценку отклонения на основе VLM для оценки надежности генерации и подавления утечки. Обширные эксперименты показывают, что наша модель достигает сильного баланса между соответствием стилю, сохранением содержания и подавлением утечки.
Создание трехмерных визуальных иллюзий — одного 3D-меша, который с разных углов обзора раскрывает совершенно разную семантику — является увлекательной, но сложной задачей. Существующие методы, основанные на оптимизации, медленны и могут приводить к перенасыщенным цветам. Наивные подходы сшивания, напротив, не позволяют получать геометрически согласованные объекты, что приводит к видимым неестественным швам и утечкам семантики. В данной статье мы представляем быструю и не требующую обучения структуру для генерации текстово-управляемых 3D-иллюзий. Наш подход разделяет генерацию на два этапа. Сначала мы предлагаем процесс шумоподавления с двумя ветвями в кросс-пространственном представлении. Этот процесс динамически декодирует 3D-латентные представления в воксельное пространство для выравнивания ориентации под управлением CLIP и смешивания полей расстояний со знаком (SDF), что обеспечивает бесшовное геометрическое слияние. Затем мы вводим модуль синтеза текстур с учетом вида, который проецирует и агрегирует специфичные для каждого ракурса 2D-диффузионные априорные данные на объединенную геометрию. Обширные эксперименты показывают, что наш метод создает высокореалистичные двойные семантические 3D-иллюзии всего за 3–5 минут. Он значительно превосходит существующие методы по геометрической целостности, семантической распознаваемости и эффективности. Страница проекта: https://siang1105.github.io/JanusMesh.github.io/
Условные диффузионные модели и модели потоков регулярно не выполняют те самые ограничения, которые определяют их задачу. Например, модель, обученная с условием по глубине, часто генерирует изображения, повторно извлеченная глубина которых не соответствует входной, несмотря на то, что прямой оператор — предиктор глубины, определяющий ограничение, — доступен как на этапе обучения, так и на этапе вывода. Существующие подходы обычно делятся на две категории: контролируемые модели, которые рассматривают сигнал условия как статическую подсказку и игнорируют информацию о согласованности на этапе вывода, и методы, основанные на направляющей информации, которые обращаются к ней через настраиваемые вручную линейные обновления, как правило, жертвуя точностью соблюдения условия ради правдоподобия генерируемого образца. Мы утверждаем, что фундаментальный пробел в обеих парадигмах заключается в том, что модель никогда не обучается использовать свою собственную ошибку согласованности. Мы представляем FlowBender — замкнутую среду, которая рассматривает эту ошибку как входные данные первого класса, обучая сеть усваивать политику коррекции, обусловленную обратной связью на этапе вывода. На каждом шаге проход предварительного просмотра без направляющей информации оценивает чистый сигнал, через прямой оператор вычисляется отклонение, специфичное для задачи, и проход уточнения потребляет этот сигнал для получения скорректированной скорости. Мы предлагаем несколько вариантов FlowBender, включая формулировку на основе градиента для дифференцируемых операторов и вариант нулевого порядка для недифференцируемых сценариев, таких как сжатие JPEG. Для эффективной выборки мы вводим ярлык предыдущего шага, который позволяет выполнять замкнутую коррекцию с минимальными дополнительными вычислительными затратами. В задачах перевода изображение-в-изображение, восстановления и текстурирования 3D-сеток FlowBender последовательно превосходит стандартные контролируемые базовые модели, обучение с дополнением функции потерь на согласованность и современные методы направляющей информации на этапе вывода, одновременно улучшая точность и правдоподобие, а не жертвуя одним ради другого. Страница проекта: https://flow-bender.github.io/
Модели мировых действий (WAMs) обычно опираются на генерацию видео для связывания визуального моделирования мира и управления роботами. Однако видеогенеративные WAM сталкиваются с тремя взаимосвязанными ограничениями: плотные многофреймовые токены будущего приводят к высоким вычислительным затратам при выводе, полное предсказание видео тратит ресурсы на нерелевантные для действия временные и внешние детали, а долгосрочное предвидение будущего может вносить ошибки, искажающие предсказание действий. Эти проблемы ставят простой вопрос: действительно ли модели мировых действий нуждаются в генерации видео? Мы предлагаем ImageWAM — простую структуру WAM, которая адаптирует предобученные модели редактирования изображений для предсказания действий робота. В отличие от генерации видео, редактирование изображений предоставляет лучше согласованный априорный контекст: оно требует моделирования только преобразования целевого кадра, фокусируется на релевантных для действия визуальных различиях между текущим и целевым состояниями и привязывает инструкции задачи к локализованным визуальным изменениям благодаря предварительному обучению редактированию. На практике ImageWAM не декодирует целевой кадр во время вывода; вместо этого она передаёт условия для эксперта действий с потоковым согласованием через KV-кэши, полученные при шумоподавлении в процессе редактирования изображений, используя их как компактный контекст «мир–действие». ImageWAM превосходит стандартные базовые модели VLA и сопоставимые конкурентные WAM без дополнительного предварительного обучения политик как в симуляционных, так и в реальных экспериментах. Она также сокращает количество FLOPs до 1/6, а задержку — до 1/4 от показателей видеогенеративных WAM. Анализ внимания дополнительно показывает, что кэши редактирования фокусируются на релевантных задаче областях изменений, что подтверждает эффективность редактирования изображений как альтернативы моделированию мировых действий на основе видео.
Достижения в области полей излучения позволили реализовать фотореалистичный синтез новых ракурсов. В ряде областей были разработаны крупномасштабные наборы данных на основе реальных сцен, поддерживающие комплексное эталонное тестирование и способствующие прогрессу за рамки реконструкции, специфичной для конкретной сцены. Однако для полей излучения без помех до сих пор отсутствует крупномасштабный набор данных, содержащий как чистые, так и загроможденные изображения для каждой сцены, что ограничивает развитие этого направления. Для устранения этого пробела мы представляем DF3DV-1K — крупномасштабный набор реальных данных, включающий 1 048 сцен, каждая из которых предоставляет наборы чистых и загроможденных изображений для эталонного тестирования. В общей сложности набор данных содержит 89 924 изображения, полученные с помощью бытовых камер для имитации любительской съёмки, и охватывает 128 типов помех и 161 тематику сцен в условиях помещений и на открытом воздухе. Подмножество из 41 тщательно отобранной сцены, DF3DV-41, систематически спроектировано для оценки устойчивости методов построения полей излучения без помех в сложных сценариях. Используя DF3DV-1K, мы проводим эталонное тестирование девяти современных методов построения полей излучения без помех и метода 3D Gaussian Splatting, выявляя наиболее устойчивые методы и наиболее сложные сценарии. Помимо эталонного тестирования, мы демонстрируем применение DF3DV-1K: тонкая настройка диффузионного 2D-улучшателя для совершенствования методов полей излучения позволяет добиться среднего улучшения PSNR на 0,96 дБ и LPIPS на 0,057 на отложенном наборе (например, DF3DV-41) и наборе On-the-go. Мы надеемся, что DF3DV-1K будет способствовать развитию компьютерного зрения без помех и стимулировать прогресс за рамки подходов, специфичных для отдельных сцен. Набор данных и таблица лидеров доступны по адресу https://johnnylu305.github.io/df3dv1k_web/.
Достижение ловкого роботизированного манипулирования в реальном мире в значительной степени зависит от человеческого контроля и инженерной разработки алгоритмов, что становится ключевым узким местом на пути к общему физическому интеллекту. Хотя появляющиеся программные агенты (coding agents) способны генерировать код для автоматизации поиска алгоритмов, их успехи в основном ограничены цифровыми средами. Мы предполагаем, что отсутствующей абстракцией для автоматизации робототехнических исследований является повторяемая обратная связь для улучшения политики в реальном мире: сброс сцены, выполнение политики, верификация результата и уточнение следующей итерации. Для преодоления этого разрыва мы представляем ENPIRE — каркасную среду (harness framework) для программных агентов, которая реализует эту процедуру физической обратной связи с помощью четырех основных модулей: модуля среды (Environment, EN) для автоматического сброса и верификации; модуля улучшения политики (Policy Improvement, PI), запускающего уточнение политики; модуля развертывания (Rollout, R) для оценки политик с помощью одного или нескольких физических роботов, работающих параллельно; и модуля эволюции (Evolution, E), в котором программные агенты анализируют журналы, изучают литературу, улучшают инфраструктуру обучения и код алгоритмов для устранения режимов отказов. Эта замкнутая система превращает обучение манипулированию в реальном мире в контролируемую процедуру оптимизации, минимизируя усилия человека и позволяя проводить корректные абляции по вариантам рецептов обучения и агентов. Работая на базе ENPIRE, передовые программные агенты могут автономно обучить политику достижения 99% успеха на сложных задачах ловкого манипулирования, таких как упорядочивание коробки с булавками, затягивание кабельной стяжки и использование инструментов — процесс, который дополнительно ускоряется при развертывании команды агентов на флоте роботов. Наши результаты указывают на практичный и масштабируемый путь внедрения программных агентов для автономного продвижения робототехники в физическом мире.
Модели мира всё чаще рассматриваются как решающий шаг на пути к общему искусственному интеллекту, однако моделирование физического мира требует не просто генерации убедительных кадров по запросу: для этого необходимо внутреннее состояние мира, которое непрерывно развивается во времени, независимо от наблюдения, чтобы объекты сохраняли устойчивость, а события завершались независимо от того, смотрит ли камера, — подобно тому, как Луна продолжает своё движение по орбите, когда на неё никто не смотрит. Это требование остаётся слепой зоной существующих бенчмарков, которые оценивают поверхностные свойства, такие как точность, движение и управляемость камеры, но никогда не проверяют, продолжает ли сгенерированный мир развиваться, когда он перестаёт наблюдаться. Мы представляем WRBench — первый систематический диагностический бенчмарк, который трактует движение камеры как вмешательство в наблюдаемость и разбивает оценку на калиброванную человеком цепочку вопросов: выполняет ли камера запрошенное взаимодействие, остаётся ли сцена непрерывной и идентифицируемой, пока находится в поле зрения, и соответствует ли возвращающийся целевой объект событию, которое было запущено. На 9600 видеороликах от 23 моделей, охватывающих четыре парадигмы управления, один вывод оказывается незыблемым: современные системы поддерживают наблюдаемый мир как трекинг-шот, возобновляя возвращающийся целевой объект в том состоянии, в котором он был оставлен, а не продвигая событие, пока оно оставалось невидимым. Поскольку эта неудача повторяется во всех парадигмах управления, семействах моделей и масштабах, надёжная эволюция состояния мира не следует из более чистого изображения, более точного управления, более богатых геометрических априорных представлений или одного лишь количества параметров. Поэтому мы утверждаем, что стабильность ядра физического состояния и согласованность мировых линий при вмешательстве точки обзора должны стать целями первого порядка при разработке модели мира, чтобы модель мира отражала то, как мир будет разворачиваться, а не то, как выглядит следующий кадр.
Многоэтапные LLM-пайплайны выходят из строя из-за взаимодействия между этапами извлечения, рассуждения и форматирования, поэтому оптимизация только промптов может не заметить узких мест в цепочке. Мы представляем FAPO (Fully Autonomous Prompt Optimization) — фреймворк, позволяющий Claude Code оптимизировать LLM-пайплайн в стандартизированной кодовой базе. FAPO оценивает пайплайн, проверяет промежуточные шаги, диагностирует сбои, предлагает ограниченные изменения и многократно проверяет варианты для оптимизации относительно функции оценки. Сначала он пытается редактировать промпты и только когда оптимизация промптов кажется недостаточной, изменяет структуру цепочки в разрешенных пределах, если атрибуция выявляет структурное узкое место. На шести тестовых наборах и трех моделях задач FAPO превосходит базовый GEPA в 15 из 18 сравнений модель-тест. В 11 сравнениях модель-тест FAPO побеждает с непересекающимися диапазонами среднего ± стандартное отклонение по испытаниям, а средний прирост FAPO над GEPA составляет +14,1 п.п. В шести сравнениях на HoVer и IFBench, где поиск с приоритетом промптов перешел к структурным изменениям, FAPO выигрывает все шесть со средним приростом +33,8 п.п. FAPO также улучшает производительность на задачах безопасности: на CTIBench-RCM, задаче сопоставления CVE с CWE в области безопасности, FAPO только с промптами повышает точность теста на +4,0 п.п. на GPT-5, +7,1 п.п. на Foundation-Sec-8B-Instruct и +2,0 п.п. на Foundation-Sec-8B-Reasoning. Эти результаты позиционируют FAPO как передовую технику оптимизации пайплайнов как для задач общего назначения, так и для задач безопасности.
Большие языковые модели (LLMs) часто дают сбой, когда ответ требует выявления небольшого, но решающего фрагмента доказательств в длинном или сложном контексте, например, одной строки в трассировке инструментов или тонкой детали на изображении. Мы предлагаем ContextRL — контекстно-зависимый метод обучения с подкреплением (RL), который улучшает долгосрочное рассуждение и мультимодальную производительность с помощью косвенной вспомогательной цели. Вместо контроля только финального ответа, ContextRL предъявляет модели запрос, ответ и два очень похожих контекста, а затем вознаграждает её за выбор контекста, который подтверждает пару «запрос–ответ», тем самым стимулируя точное обоснование. Мы формируем контрастные контекстные данные в двух областях: для программных агентов в качестве контекстов выступают траектории, что даёт 1 тыс. пар, построенных с помощью фильтрации по условиям; для мультимодального рассуждения в качестве контекстов выступают изображения, что даёт 7 тыс. пар, построенных с помощью генеративного редактирования и поиска по сходству. ContextRL достигает среднего прироста +2.2% по сравнению со стандартным GRPO на 5 долгосрочных бенчмарках и +1.8% на 12 разнообразных бенчмарках вопросно-ответных задач по изображениям. Чтобы отделить влияние предложенной цели от влияния дополнительных данных, мы сравниваем её с базовыми линиями увеличения данных, которые используют те же контрастные контексты в качестве стандартных примеров «запрос–контекст–ответ». Эти базовые линии дают незначительное улучшение или не дают его вовсе, что свидетельствует о том, что выигрыш возникает благодаря предложенной цели выбора контекста, а не только за счёт контрастных данных.
Недавние подходы на основе генерации с дополнением результатов поиска (RAG) продемонстрировали высокую эффективность при обработке сложных запросов, однако современные исследования упускают из виду критическую проблему: для достижения оптимальной производительности различные системы поиска требуют принципиально разных стратегий формулирования запросов. В данной работе мы впервые проводим систематический анализ того, как большие языковые модели (LLM) могут научиться адаптировать свои стратегии формулирования запросов под различные поисковые системы с помощью обучения с подкреплением (RL). Наше эмпирическое исследование показывает, что RL эффективно обучает LLM подстраивать запросы под конкретные характеристики поисковых систем. Мы обнаружили, что разные поисковые системы демонстрируют удивительно разные оптимальные стили запросов (например, описательные в сравнении с вопросительными), что указывает на неэффективность стратегий, разработанных для одной системы, при применении к другой. Далее мы демонстрируем, что производительность может быть улучшена за счет включения специфичных для поисковых систем рекомендаций от человека и увеличения размера модели. Для облегчения обучения на траекториях с несколькими шагами поиска мы вводим технику развертки на основе ветвления, которая повышает стабильность обучения. Наша работа представляет первые эмпирические доказательства и практически применимые идеи для построения действительно осведомленных о поисковых системах RAG-систем. Код и ресурсы доступны по адресу https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.
Визуальное мышление должно не только выглядеть правдоподобно, но и предъявлять свои доказательства. Хотя современные модели зрения-языка (VLM) способны генерировать цепочки рассуждений на естественном языке, эти цепочки часто оставляют опорные области изображения неявными, что затрудняет их проверку и контроль. Мы вводим визуально обоснованное мышление — процесс рассуждения, в котором модели чередуют мысли на естественном языке с явными точечными или прямоугольными привязками к визуальным свидетельствам, используемым на каждом шаге. Это позволяет модели выражать промежуточные рассуждения на языке, одновременно привязывая ключевые объекты к тем областям изображения, на которые они ссылаются. Для обучения такого поведения мы создаем масштабируемый конвейер синтеза, который дистиллирует корректные трассы визуальных рассуждений, извлекает требуемые в трассах визуальные объекты, привязывает их с помощью агента на основе SAM3 и выводит согласованные точечные и прямоугольные сигналы обучения из полученных масок. Кроме того, мы предлагаем усиленное обучение с учетом привязки, которое объединяет награды за правильность ответов с плотными наградами за привязку, оценивающими, соответствуют ли сгенерированные ссылки на объекты правильным визуальным свидетельствам. На двух бенчмарках подсчета и четырех бенчмарках пространственных рассуждений добавление визуально обоснованного мышления к модели Gemma3-4B-IT последовательно улучшает производительность по сравнению с исходной моделью и базовой линией без обоснованного мышления. В пространственных рассуждениях модели с визуально обоснованным мышлением на 4B параметров достигают, а в некоторых случаях и превосходят, модель Gemma3-27B-IT из того же семейства моделей. Наш анализ показывает, что точечная привязка хорошо подходит для подсчета, в то время как прямоугольная привязка получает наибольшую выгоду от явных наград за привязку в пространственных задачах. В целом, наши результаты показывают, что VLM мыслят лучше, когда их промежуточные мысли связаны с теми областями изображения, которые делают их истинными.
Агенты, вызывающие инструменты с соблюдением политик в сферах обслуживания клиентов, должны поддерживать состояния задач на протяжении нескольких циклов взаимодействия, одновременно вызывая инструменты и следуя политикам домена. Состояния задач включают релевантные факты, идентификаторы, ограничения и условия, наблюдаемые в ходе взаимодействия с пользователем и вызовов инструментов. В стандартных агентах состояния задач не представлены отдельно. Наблюдения, результаты работы инструментов и инструкции политик помещаются в подсказку, оставляя агентам необходимость каждый раз заново восстанавливать релевантные состояния при принятии решения о следующем действии. Такая конструкция делает управление состояниями неявным, порождая два распространённых типа сбоев. Агент может извлечь верные факты, но затем обосновать своё решение устаревшей, отсутствующей или неверной информацией; синтаксически корректный вызов инструмента может нарушить политику домена, зависящую от текущего состояния задачи. Мы представляем LedgerAgent — метод времени вывода для агентов, вызывающих инструменты, который поддерживает наблюдаемые состояния задач в отдельном реестре и отображает эти состояния в подсказку. Реестр также используется для проверки зависящих от состояния ограничений политик перед выполнением вызовов инструментов, изменяющих окружение, блокируя нарушения политик. На четырёх доменах обслуживания клиентов и смешанной панели моделей с открытым и закрытым весом LedgerAgent улучшает средний показатель passk по сравнению со стандартным подходом вызова инструментов на основе подсказок, причём наибольший прирост наблюдается при более строгих метриках согласованности по нескольким попыткам.
Ожидается, что воплощенные фундаментальные модели выиграют от масштабирования данных, как и большие языковые модели, но сталкиваются с гораздо более жестким узким местом данных. Траектории реальных роботов, управляемых телеоператором, остаются доминирующим источником предварительного обучения благодаря точному контролю действий и согласованию с воплощением, однако их масштабируемость ограничена высокой стоимостью сбора, сложностью получения и низким разнообразием поведения и окружающей среды. Эти ограничения вызвали интерес к эгоцентрическим видеозаписям человека как масштабируемой, значительно более дешевой и более разнообразной альтернативе для предварительного обучения воплощенных моделей. Однако его эффективность по сравнению с данными реальных роботов, управляемых телеоператором, остается недостаточно изученной. Чтобы ответить на этот вопрос, мы проводим систематическое исследование, сравнивающее эгоцентрические видеозаписи человека и траектории реальных роботов, управляемых телеоператором, в качестве источников данных для предварительного обучения воплощенных фундаментальных моделей, при фиксированных протоколах посттренировки и валидации. Удивительно, но мы обнаруживаем, что эгоцентрические данные, обработанные с помощью тщательно разработанного конвейера фильтрации и маркировки, являются не просто жизнеспособной заменой для предварительного обучения моделей, но могут привести к превосходной производительности. При одинаковом объеме данных для предварительного обучения модели, обученные на эгоцентрических данных, достигают на 24% меньших потерь при валидации при прогнозировании действий реального робота, а также на 52,5% и 90% более высоких показателей успеха при выполнении задач реальным роботом в распределении и вне распределения соответственно. Этот результат подтверждает масштабируемую парадигму для воплощенных фундаментальных моделей: предварительное обучение на эгоцентрических видеозаписях человека для изучения разнообразных представлений мира, затем адаптация с небольшим количеством размеченных данных реальных роботов для согласования пространства действий. Мы надеемся, что это исследование поощрит более широкое изучение эгоцентрических данных и предложит руководство по оценке качества данных перед дорогостоящим сбором данных роботов.
Модели мира видео движутся в сторону сохранения наблюдаемого мира при управляемом движении камеры и объектов, одновременно допуская изменение его состояния окружающей среды. Однако эти средства управления остаются изолированными, и генерация погоды обычно опирается на исходное видео или реконструированную сцену, которая уже задает будущую структуру. Мы изучаем настройку «источник-состояние» с привязкой к первому кадру, где модель начинает работу с одного изображения, следует явным командам управления камерой и объектами, а также опциональным указанием погоды, после чего генерирует видео, которое либо сохраняет исходный мир, либо переносит его в целевое состояние погоды. Для решения этих задач мы сначала создаем HoloStateData — набор видеоданных состояний, который преобразует разнообразные видео в унифицированные образцы управления для контроля камеры, объектов и погоды. Во-вторых, мы представляем Holo-World — унифицированную управляемую модель мира видео, которая совместно управляет сценой на основе одного изображения. Ее унифицированный адаптер сцены факторизует сохранение мира и перенос погоды в различные подпространства параметров, используя визуализированный фон, буферы геометрии и управление объектами для поддержания управляемой структуры сцены при моделировании зависящих от погоды внешнего вида и эффектов частиц. Кроме того, разложенный CFG «сцена-погода» направляет остатки сцены и погоды отдельно, усиливая целевые погодные эффекты без чрезмерного усиления полного условия. Количественные и качественные эксперименты показывают, что Holo-World сохраняет точное управление камерой и объектами с согласованной структурой сцены, перенося сцены в различные целевые состояния погоды, превосходя базовые методы редактирования погоды из видео в видео в генерации состояний погоды. Страница проекта доступна по адресу https://xiangchenyin.github.io/Holo-World/.
Прогресс в области юридического искусственного интеллекта всё больше зависит от доступа к авторитетным юридическим текстам в масштабе. Однако один из наиболее значимых уровней американского права по-прежнему почти не представлен в существующих машиночитаемых корпусах: местные постановления. Местные кодексы регулируют зонирование, жильё, лицензирование бизнеса, общественное здравоохранение, шум, контроль за животными и многие другие сферы повседневного регулирования, но они раздроблены по платформам поставщиков, предназначенным для просмотра человеком, а не для массового исследовательского доступа. Мы представляем LOCUS — корпус местных постановлений для Соединённых Штатов (Local Ordinance Corpus for the United States) — всеобъемлющий корпус и согласованный на уровне округов слой доступа для муниципальных и окружных кодексов постановлений США. Сырой корпус, доступный для исследователей, охватывает практически все общедоступные муниципальные и окружные кодексы постановлений. Полученный сырой корпус содержит кодексы из 9 239 городов и округов. Меньший согласованный на уровне округов слой доступа LOCUS обеспечивает покрытие для 2 309 из 3 144 крупнейших округов США, что составляет большинство населения. Мы используем OCR для обработки множества форматов документов, которые препятствовали тому, чтобы право стало общедоступным ресурсом. Мы публикуем корпус с метаданными о покрытии для поддержки воспроизводимости, последующих исследований в области юридического ИИ и постепенного расширения машиночитаемого доступа к местному праву. Мы обучаем набор классификаторов и скоринговых моделей на основе ModernBERT для анализа местного права США по нескольким измерениям, таким как непрозрачность и патернализм, которые ранее не изучались в таком масштабе. LOCUS-v1 и его производные модели доступны по адресу: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
Расстояние Фреше для начальных слоёв (FID) является фактическим критерием оценки качества генерации изображений, однако в большинстве статей приводится лишь одно число, полученное от одной обученной модели при одном значении сида сэмплирования. Насколько воспроизводимо это число, если переобучить модель или просто повторить сэмплирование из неё? В данной работе мы рассматриваем FID как случайную величину на двумерной панели сидов обучения и генерации и непосредственно измеряем её дисперсию на нескольких сотнях сетей SiT, обученных на условном по классам ImageNet 256x256. Мы сообщаем о поразительных результатах: (a) Переобучение модели по тому же рецепту, но с другим сидом, изменяет FID в 3,2 раза сильнее (в пространстве признаков Inception), чем повторная генерация выборок из фиксированной сети. (b) Этот разрыв обусловлен тремя факторами: случайной инициализацией, порядком данных и гауссовым шумом на каждом шаге в функции потерь согласования потоков. (c) Увеличение вычислительных ресурсов или размера модели едва сужает разброс, удерживая коэффициент вариации (КВ) FID в пределах 1–2%. (d) Настройка безклассового направляющего сигнала для каждой ячейки вдвое уменьшает разброс, но перетасовывает, какие сиды работают лучше всего, при этом удачный сид обучения достигает того же FID при вычислительных затратах до двух раз меньших, чем неудачный. На основе этих результатов мы рекомендуем новый протокол оценки FID: проводить оценку при оптимальной для каждой ячейки настройке направляющего сигнала, считать любой разрыв FID ниже эмпирически измеренного ~1,3% КВ неубедительным и сообщать доверительный интервал по нескольким сидам обучения, а не единственное число FID.
Гибридные модели линейного внимания предлагают многообещающий путь к более быстрому инференсу длинных контекстов: они снижают квадратичную стоимость и нагрузку на KV-кэш полного softmax-внимания, сохраняя при этом значительную часть качества моделей Transformer. Практический способ получения таких моделей заключается в конвертации предобученного Transformer вместо обучения новой архитектуры с нуля, однако такая конвертация остаётся неустойчивой. Простое копирование проекций внимания учителя в студента Gated DeltaNet (GDN) не задаёт новую рекуррентную динамику затухания, записи и выходного стробирования. В результате конвертированная модель часто начинает работу в плохом динамическом режиме и вынуждена тратить множество токенов дистилляции на исправление инициализации вместо изучения оставшегося поведения учителя. Мы предлагаем Taylor-Calibrate — легковесный метод инициализации для гибридных студентов GDN. Метод использует статистику внимания учителя, направляемую разложением Тейлора, для установки проекции значений, временного масштаба памяти, строгов записи и выходного строба, после чего применяет короткий шаг поканального выравнивания для согласования каждого конвертированного слоя с выходом учителя. В четырёх конфигурациях учителя и трёх стратегиях сохранённых слоёв Taylor-Calibrate даёт существенно более сильные нуль-шот студенты, с улучшением до 88 раз в репрезентативной абляции, и достигает целевых показателей восстановления при использовании в 4,9–9,2 раза меньшего количества обучающих токенов по сравнению с наивной конвертацией.
Точные механические свойства (или материаловедческие) — модуль Юнга (E), коэффициент Пуассона (ν) и плотность (ρ) — являются необходимыми для достоверного физического моделирования цифровых миров, однако большинство 3D-ресурсов не содержат эту информацию. Мы предлагаем AdaVoMP — метод прогнозирования точных плотных пространственно-варьирующихся (E, ν, ρ) для входных 3D-объектов разных представлений, улучшающий разрешение, точность и эффективность использования памяти по сравнению с современным уровнем техники. Основой нашего подхода является разреженная и адаптивная воксельная структура SAV, которая эффективно представляет как входную 3D-форму, так и выходное поле материала. Мы заменяем модель с фиксированным вокселем наиболее точного предшествующего метода VoMP на новую модель кодер-декодер на основе разреженного трансформера, которая авторегрессивно учится генерировать уникальную SAV для каждой входной формы, чтобы представлять её материалы, достигая разрешения в 16^3 раз выше, чем в предшествующих работах. Эксперименты показывают, что AdaVoMP оценивает более точные объёмные свойства даже при меньших вычислительных затратах во время тестирования по сравнению со всеми предшествующими подходами. Это позволяет нам преобразовывать сложные 3D-объекты высокого разрешения в ресурсы, готовые к симуляции, что приводит к реалистичным симуляциям деформируемых тел.
Типичные подходы к видео-объектно-центрированному обучению (VOCL) используют слотовые архитектуры, основанные на реконструктивно-управляемых структурах кодировщик-декодировщик, где обучение опосредуется двумя пространственными картами: картами внимания от кодировщика и картами объектов от декодировщика. Поскольку эти две различные карты обладают разными свойствами, недавняя стратегия плотного выравнивания попыталась устранить это несоответствие, принуждая к согласованию всех пространственно-временных патчей через контрастное обучение. Однако такое неизбирательное выравнивание непреднамеренно распространяет внутренние слабости каждого модуля, такие как зашумленные предсказания кодировщика и размытые границы декодировщика. Более того, вычисление плотных сходств по всем парам влечет квадратичную вычислительную сложность относительно общего числа пространственно-временных патчей, что резко ограничивает масштабируемость. Исходя из этого, мы предлагаем селективное синергетическое обучение (SSync). Вместо исчерпывающего попарного выравнивания патчей SSync предотвращает распространение ошибок, дистиллируя лишь наиболее надежные сигналы: используя кодировщик строго для уточнения границ, а декодировщик — для устранения шума внутри объектов. Это реализуется с помощью псевдо-маркировки с линейной сложностью, что исключает необходимость квадратичных пространственных сравнений. Кроме того, чтобы избежать усиления архитектурных смещений, таких как избыточность слотов, мы вводим транзитивное объединение псевдо-меток, которое консолидирует перекрывающиеся слоты на основе согласованности пространственно-временной активации. Обширные эксперименты показывают, что SSync улучшает качество декомпозиции, работает как универсальный подключаемый модуль, а также демонстрирует исключительную устойчивость к конфигурациям слотов. Код доступен по ссылке github.com/wjun0830/SSync.
Политики планирования в масштабных конвейерах обслуживания систем автоматического распознавания речи (ASR) играют ключевую роль в определении сквозной задержки (E2E). Тем не менее, широко используемые движки обслуживания полагаются на планирование по принципу «первым пришёл — первым обслужен» (FCFS), которое игнорирует изменчивость длительности запросов и приводит к блокировке головы очереди при дрейфе нагрузки. Мы показываем, что длительность аудио является точным прокси для времени обработки задачи в таких моделях ASR, как Whisper, и используем это наблюдение для внедрения планирования, учитывающего длительность. Мы интегрируем два классических алгоритма — «кратчайшая задача первой» (SJF) и «следующий с наибольшим коэффициентом отклика» (HRRN) — в vLLM и оцениваем их в условиях реалистичных и дрейфующих нагрузок. На наборе данных LibriSpeech test-clean SJF снижает медианную сквозную задержку до 73% при высокой нагрузке по сравнению с базовым вариантом, но увеличивает хвостовую задержку на 90-м процентиле до 97% из-за голодания длинных запросов. HRRN решает эту проблему компромисса: он уменьшает медианную сквозную задержку до 28%, ограничивая ухудшение хвостовой задержки не более чем 24%. Эти преимущества сохраняются при дрейфе нагрузки, без падения пропускной способности и с накладными расходами на планирование менее 0,1 мс на запрос.
Системы ИИ, развернутые в юридических рабочих процессах, галлюцинируют с частотой, которую агрегированные метрики оценивают примерно в 52%, но это среднее значение скрывает, где концентрируются ошибки и в каком направлении они возникают, оставляя сотрудников по комплаенсу без действенного сигнала для надежного развертывания. Мы представляем LegalHalluLens — фреймворк аудита с тремя компонентами: типизированные профили галлюцинаций по четырем юридически обоснованным категориям утверждений (числовые, временные, обязательства/права, фактические) на основе CUAD (Hendrycks et al., 2021); Индекс направления риска (RDI), сводящий смещение между пропуском и изобретением к одному скаляру, сопоставимому при развертывании; и типизированный дебатный пайплайн, откалиброванный как по величинам, так и по направлениям. На 510 контрактах и 249 252 экземплярах уровня пунктов мы измерили внутримодельный разрыв приблизительно в 38–40 процентных пунктов между утверждениями об обязательствах/числах и временными утверждениями, который скрывает агрегированная отчетность, и показали, что две системы с одинаковым показателем в 52% могут иметь противоположные RDI. Дебатный пайплайн сокращает сфабрикованные обнаружения на 45%, при этом выигрыш по каждой категории отслеживает диагноз, соответствуя коммерческим API при существенно меньшей магистрали (4 млрд активных параметров). Типизированные профили и RDI выявляют режимы отказов, которые скрывают агрегированные метрики; мы также показываем, что эти диагностические данные служат калибровочными входами для многомодельных дебатных пайплайнов, где скептические возражения и асимметричные шлюзы, нацеленные на измеренные режимы отказов, превосходят дебаты с общей настройкой. Фреймворк поддерживает закупки с учетом направления, подотчетность и разработку агентов для юридического ИИ, развернутого в реальных условиях.
Обучение с использованием FP4 обещает существенное снижение затрат памяти и вычислений при предварительном обучении больших языковых моделей (LLM), однако текущие аппаратные тракты и рецепты FP4, включая системы класса NVIDIA Blackwell/Rubin и графические процессоры серии AMD MI350, по-прежнему ориентированы на элементы данных формата E2M1. В данном исследовании мы выявляем фундаментальное ограничение этого выбора: неоднородные форматы, такие как E2M1, по своей сути страдают от смещения сжатия (Shrinkage Bias) — систематической отрицательной ошибки округления, вызванной геометрической асимметрией их представимых сегментов. Мы показываем, что это смещение накапливается мультипликативно по слоям и усиливается случайным преобразованием Адамара (RHT), что дает единое объяснение нестабильности обучения, наблюдаемой в существующих рецептах FP4 на основе E2M1. Напротив, равномерные сетки (E1M2/INT4) обходят эту ошибку геометрии сетки и лучше преобразуют улучшенное использование сегментов, обеспечиваемое RHT, в более высокое качество квантования. Основываясь на этом открытии, мы предлагаем UFP4 — рецепт равномерного 4-битного обучения, который применяет RHT ко всем трем обучающим GEMM, ограничивая стохастическое округление только градиентом dY. При длительном предварительном обучении моделей Dense 1.5B, MoE 7.9B и MoE 124B UFP4 стабильно достигает меньшего относительного ухудшения потерь по сравнению с BF16, чем сильные базовые подходы на основе E2M1, что подтверждается анализом законов масштабирования и абляционными исследованиями. Наши результаты показывают, что будущие ускорители должны поддерживать равномерные 4-битные сетки типа E1M2/INT4 в качестве первоклассных примитивов обучения наряду с E2M1.
Точная трехмерная пространственная организация в генерации видео по текстовому описанию остается значительной проблемой, особенно для сцен с несколькими объектами, где семантическая компоновка и временная динамика часто взаимосвязаны. В то время как существующие модели, работающие с условиями глубины, достигают хорошей структурной точности, они требуют плотного, покадрового руководства, которое трудоемко в создании для динамических событий с деформируемыми объектами. Мы представляем LooseControlVideo — фреймворк, обеспечивающий интуитивное и выразительное управление путем использования разреженных ориентированных 3D-боксов в качестве «блокирующего» прокси. Это позволяет пользователям задавать высокоуровневую компоновку и траекторию, в то время как генеративная модель видео создает реалистичные окклюзии, динамику и взаимодействия. Мы достигаем этого путем тонкой настройки бэкбона Wan 2.2 на наборе видеоданных, аннотированных с помощью DNOCS — нового кодирования для трехмерного размера, ориентации и окклюзий с глубинной упорядоченностью. Кроме того, наш метод позволяет выполнять локализованное уточнение, например, корректировку траектории прыжка или добавление взаимодействия, с минимальным нарушением общего контекста сцены. Обширные оценки на бенчмарках nuScenes, HO-3D и BEHAVE демонстрируют, что LooseControlVideo значительно превосходит существующие базовые модели, использующие 2D-боксы и потоковые методы. Наши результаты показывают улучшение в 1.2–3 раза по ошибке траектории; улучшение в 2 раза по согласованности жесткого движения; и увеличение точности окклюзий в 1.5–2 раза по сравнению с современными моделями, работающими с условиями компоновки, что демонстрирует, что ориентированные 3D-примитивы обеспечивают хорошую геометрическую предварительную информацию для сложного многодетального видеосоздания.
Современная разработка игр с использованием искусственного интеллекта достигла значительного прогресса в генерации ассетов, проектировании геймплея и кодировании веб-игр, однако инженерия кода на уровне проектов в профессиональных игровых движках остаётся малоизученной из-за отсутствия крупномасштабных наборов данных и детерминированных методов оценки. Мы представляем JamSet и JamBench — первый набор данных и эталонный тест для игрового кода на уровне проектов, построенные на базе профессионального игрового движка. Ключевая идея заключается в том, что соревнования Game Jam — сообщественные мероприятия, где разработчики создают полноценные игры в условиях жёстких временных ограничений — предоставляют тысячи открытых проектов, подходящих для этой цели. Используя текстовый формат и режим безголового выполнения движка Godot, мы разрабатываем детерминированный конвейер верификации, охватывающий этапы от проверки целостности файлов до сбора поведения во время выполнения, и выделяем 8 133 верифицированных проекта из более чем 240 000 репозиториев. Из них 300 проектов, прошедших ручную верификацию, образуют JamBench; остальные входят в состав JamSet. JamBench определяет задачи тематической генерации и дополнения кода, оцениваемые с помощью конвейера, объединяющего процент успешной компиляции, оценку структурной полноты (SCS) и оценку поведенческого соответствия (BAS). Оценка 9 передовых моделей выявила «обрыв возможностей» по мере увеличения масштаба проекта: показатель успешного выполнения снизился с 80,4% для малых проектов до 5,7% для крупных (Task2a). Кодовые агенты улучшают показатели компиляции, но не повышают качество поведения во время выполнения, что указывает на то, что узким местом является архитектурное проектирование, а не синтаксическая корректность. Эксперименты подтверждают эффективность JamSet в качестве обучающих данных. Все данные и код находятся в открытом доступе.
Контексты пациентов охватывают сотни разнородных документов и тысячи структурированных точек данных, однако метаданные на уровне документов, необходимые системам ИИ для поиска и сортировки, отсутствуют или являются неполными. Стандартная генерация с расширенным поиском (RAG) не справляется с этими данными, неправильно обрабатывая временные рассуждения, междокументные зависимости и отсутствующие метаданные. Мы развёртываем ACIE (Агентное клиническое извлечение информации) в Университетской клинике Эссена: локальный агентный конвейер RAG, который анализирует полные контексты пациентов и подкрепляет каждый ответ исходными фрагментами для проверки врачом. Мы количественно оцениваем разрыв в метаданных, прослеживаем архитектурные решения, сформированные этим разрывом, и оцениваем извлечение данных наряду с независимым ретроспективным исследованием регистра лимфомы, в котором врачи ядерной медицины проверяют каждое извлечённое значение на соответствие указанным источникам. На 7 326 оценках врачи приняли 96,5% извлечений, причём приемлемость по типам варьировалась от 80% до 99%.
Существует значительный разрыв между теорией и практикой в глубоком обучении. Границы ошибок обобщения и аппроксимации часто выводятся для упрощенных моделей или оказываются слишком свободными, чтобы быть информативными. Многие опираются на гипотезу многообразия и на геометрические характеристики, такие как внутренняя размерность, кривизна и радиус достижимости. Прогресс требует понимания геометрии многообразий данных и подходящих эталонных тестов, однако существующие варианты поляризованы: аналитические многообразия с известной геометрией, но ограниченной применимостью, или реальные наборы данных, где геометрию можно оценить лишь грубо. Мы представляем эталонную платформу для изучения геометрии данных. Мы перепрофилируем и расширяем dSprites и COIL-20, добавляя новые оси преобразований и плотную, выровненную по осям выборку, и объединяем их с конечно-разностными оценщиками, которые восстанавливают кривизну, радиус достижимости и объем с точностью, близкой к эталонной, в условиях, где универсальные оценщики ненадежны или сложны в применении. Эта платформа задумана как контролируемый испытательный стенд, полезный как среда калибровки для геометрических оценщиков и «песочница» для проверки теоретических предположений. Для иллюстрации ее использования мы представляем два прикладных исследования, а именно оценку поведения границ Геновезе и соавт. и Фефермана и соавт. при масштабировании, а также отслеживание послойной геометрии β-VAE, подчеркивая поведение текущих границ и ценность контролируемых эталонов для направления и проверки будущей теории. Справочная реализация доступна по адресу https://github.com/koulakis/manifold-microscope.
Существующие системы программирования по примерам (PBE) часто полагаются на упрощённые эталоны, которые не отражают высокую структурную сложность реальных регулярных выражений, такую как более глубокая вложенность и частое использование операций объединения. Для преодоления связанного с этим снижения производительности мы предлагаем ReSyn — не зависящую от конкретного синтезатора структуру «разделяй и властвуй», которая разбивает сложную задачу синтеза на управляемые подзадачи. Мы также представляем Set2Regex — эффективный по числу параметров синтезатор, учитывающий инвариантность примеров к перестановкам. Результаты экспериментов показывают, что ReSyn значительно повышает точность различных синтезаторов, а его комбинация с Set2Regex устанавливает новый современный уровень на сложном реальном эталоне. Полный исходный код, наборы данных и предобученные контрольные точки моделей доступны по адресу https://github.com/mrseongminkim/ReSyn.
Большие языковые модели (БЯМ) значительно продвинули автоматизацию задач программной инженерии. Одним из ярких примеров является генерация кода, где БЯМ создает код на указанном языке программирования на основе описания на естественном языке. Большинство исследований в этой области сосредоточено на высокоресурсных языках, таких как Python или Java, которые выигрывают от обилия обучающих данных. Меньшее число работ посвящено низкоресурсным языкам, которые недостаточно представлены в обучающих корпусах. В противоположность этому, языки с нулевыми ресурсами, для которых БЯМ практически не видели обучающих данных, остаются в значительной степени неизученными. Такие языки часто возникают в промышленности, где организации разрабатывают проприетарные или предметно-ориентированные языки, не поддерживаемые коммерческими инструментами, такими как GitHub Copilot. Это приводит к необходимости для компаний развертывать собственные внутренние рекомендаторы кода. Для изучения возможных решений в этом контексте мы создаем и публикуем три бенчмарка генерации кода для языков с нулевыми ресурсами, основанных на двух недавно предложенных языках программирования, для которых доступно очень мало обучающих данных. Используя эти бенчмарки, мы экспериментируем с несколькими решениями для обучения БЯМ работе с языками с нулевыми ресурсами, включая методы на основе подсказок, а также предобучение и дообучение с использованием доступного небольшого объема данных. Хотя дальнейшее предобучение дает наибольший прирост производительности для языков с нулевыми ресурсами, его непосредственное применение к моделям, настроенным на инструкции, вредит их способности следовать инструкциям. Чтобы решить эту проблему, мы начинаем с базовой модели, дополнительно предобучаем ее на целевом языке, а затем внедряем способность следовать инструкциям через перенос разности весов из инструктивной модели. Такой подход значительно улучшает возможности генерации кода в условиях нулевых ресурсов, позволяя компаниям дешево развертывать специализированную инструктивную модель, не сталкиваясь с вычислительными затратами на дообучение на инструкциях.