Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области генерации видео выявили неожиданный феномен: диффузионные видео-модели демонстрируют нетривиальные способности к рассуждению. Предыдущие работы объясняют это механизмом Цепочки Кадров (Chain-of-Frames, CoF), в котором предполагается, что рассуждение разворачивается последовательно по кадрам видео. В данной работе мы оспариваем это предположение и обнаруживаем принципиально иной механизм. Мы показываем, что рассуждение в видео-моделях возникает в основном вдоль шагов денойзинга диффузии. Благодаря качественному анализу и целенаправленным пробирующим экспериментам мы обнаруживаем, что модели исследуют несколько кандидатных решений на ранних шагах денойзинга и постепенно сходятся к окончательному ответу — процесс, который мы называем Цепочкой Шагов (Chain-of-Steps, CoS). Помимо этого основного механизма, мы идентифицируем несколько эмерджентных поведений рассуждения, критически важных для производительности модели: (1) рабочую память, обеспечивающую постоянную ссылку; (2) самокоррекцию и улучшение, позволяющие исправлять некорректные промежуточные решения; и (3) восприятие перед действием, когда на ранних шагах устанавливается семантическое основание, а на поздних шагах выполняется структурированное манипулирование. В рамках одного шага диффузии мы также обнаруживаем само-развившуюся функциональную специализацию внутри Diffusion Transformers: ранние слои кодируют плотную перцептивную структуру, средние слои выполняют рассуждение, а поздние слои консолидируют латентные представления. Мотивированные этими инсайтами, мы представляем простую стратегию без обучения в качестве доказательства концепции, демонстрируя, как можно улучшить рассуждение путем ансамблирования латентных траекторий из идентичных моделей с разными случайными сидами. В целом, наша работа дает систематическое понимание того, как рассуждение возникает в моделях генерации видео, предлагая основу для направления будущих исследований в сторону лучшего использования присущей видео-моделям динамики рассуждения как нового субстрата для интеллекта.
Современные крупные языковые модели для работы с кодом демонстрируют выдающийся прогресс в решении общих программных задач. Однако их производительность значительно снижается в промышленных сценариях, требующих анализа семантики оборудования, специализированных языковых конструкций и строгих ограничений по ресурсам. Для решения этих проблем мы представляем InCoder-32B (Industrial-Coder-32B) — первую фоновую модель для работы с кодом объемом 32 миллиарда параметров, объединяющую интеллектуальную обработку кода в областях проектирования микросхем, оптимизации GPU-ядре, встроенных систем, оптимизации компиляторов и 3D-моделирования. Используя эффективную архитектуру, мы обучаем InCoder-32B с нуля с помощью общего предварительного обучения кодом, контролируемого индустриального "отжига" кода, промежуточного обучения с прогрессивным расширением контекста от 8K до 128K токенов на синтетических данных промышленного логического вывода и последующего обучения с проверкой на основе исполнения. Мы проводим всестороннюю оценку на 14 основных общих бенчмарках для кода и 9 промышленных бенчмарках, охватывающих 4 специализированные области. Результаты показывают, что InCoder-32B демонстрирует высококонкурентную производительность на общих задачах, одновременно устанавливая надежные открытые базовые уровни для промышленных доменов.
Омнимодальные большие языковые модели (ОБЯМ) переопределяют взаимодействие человека и машины за счет нативной интеграции аудио, видео и текста. Однако существующие бенчмарки ОБЯМ остаются привязанными к статичным, ориентированным на точность задачам, оставляя критический пробел в оценке социальной интерактивности — фундаментальной способности ориентироваться в динамических сигналах естественных диалогов. Для решения этой проблемы мы предлагаем SocialOmni, комплексный бенчмарк, который операционализирует оценку этой диалоговой интерактивности по трем основным направлениям: (i) разделение и идентификация говорящих (кто говорит), (ii) управление временем вмешательства (когда вступить в разговор) и (iii) генерация естественных вмешательств (как сформулировать реплику). SocialOmni включает 2000 перцептивных примеров и контролируемый диагностический набор из 209 инстансов генерации взаимодействий со строгими временными и контекстными ограничениями, дополненный сценариями контролируемой аудиовизуальной противоречивости для проверки устойчивости моделей. Мы протестировали 12 ведущих ОБЯМ, что выявило значительный разброс в их способностях к социальному взаимодействию. Более того, наш анализ показывает выраженное расхождение между перцептивной точностью модели и ее способностью генерировать контекстуально уместные вмешательства, указывая на то, что метрики, ориентированные только на понимание, недостаточны для характеристики социальной компетентности в диалоге. Что более обнадеживает, эта диагностика с помощью SocialOmni дает практические сигналы для преодоления разрыва между восприятием и взаимодействием в будущих ОБЯМ.
Мы представляем MiroThinker-1.7 — нового исследовательского агента, разработанного для сложных задач с длинными горизонтами рассуждений. На этой основе мы также представляем MiroThinker-H1, который расширяет агента возможностями интенсивного логического вывода для более надежного решения многошаговых задач. В частности, MiroThinker-1.7 повышает надежность каждого шага взаимодействия за счет агентской стадии промежуточного обучения, акцентирующей структурированное планирование, контекстные рассуждения и взаимодействие с инструментами. Это обеспечивает более эффективное многошаговое взаимодействие и устойчивые рассуждения в сложных задачах. MiroThinker-H1 дополнительно интегрирует верификацию непосредственно в процесс рассуждений на локальном и глобальном уровнях. Промежуточные логические решения могут оцениваться и уточняться во время вывода, в то время как общая траектория рассуждений аудируется для обеспечения согласованных цепочек доказательств, подтверждающих итоговые ответы. В тестах, охватывающих веб-исследования, научные рассуждения и финансовый анализ, MiroThinker-H1 демонстрирует передовые результаты в задачах углубленного исследования, сохраняя при этом высокую эффективность в специализированных областях. Мы также выпускаем MiroThinker-1.7 и MiroThinker-1.7-mini в качестве открытых моделей, предлагающих конкурентоспособные возможности исследовательского агента при значительном повышении эффективности.
Мы представляем Qianfan-OCR — сквозную визуально-языковую модель с 4 миллиардами параметров, которая объединяет парсинг документов, анализ разметки и понимание документов в единой архитектуре. Модель выполняет прямую конвертацию из изображения в Markdown и поддерживает разнообразные задачи по запросу, включая извлечение таблиц, понимание диаграмм, вопросно-ответную работу с документами и извлечение ключевой информации. Чтобы решить проблему потери явного анализа разметки в сквозном OCR, мы предлагаем метод Layout-as-Thought — опциональную фазу "размышления", активируемую специальными токенами. Эта фаза генерирует структурированные представления разметки (ограничивающие рамки, типы элементов и порядок чтения) перед формированием окончательного результата, восстанавливая возможности привязки к разметке и повышая точность работы со сложными макетами. Qianfan-OCR занимает первое место среди сквозных моделей в тестах OmniDocBench v1.5 (93.12) и OlmOCR Bench (79.8), показывает конкурентоспособные результаты на OCRBench, CCOCR, DocVQA и ChartQA по сравнению с общими VLM-моделями сопоставимого масштаба и достигает наивысшего среднего балла на публичных бенчмарках по извлечению ключевой информации, превосходя Gemini-3.1-Pro, Seed-2.0 и Qwen3-VL-235B. Модель общедоступна через платформу Baidu AI Cloud Qianfan.
Последние достижения в области мультимодальных моделей с расширенными возможностями рассуждений (MLRM) значительно повысили производительность в задачах визуального ответа на вопросы. Однако мы наблюдаем, что переходные слова (например, «потому что», «однако», «подождите») тесно связаны с галлюцинациями и склонны проявлять состояния с высокой энтропией. Мы полагаем, что адекватная контекстная информация для рассуждений может быть извлечена непосредственно из распределения вероятностей токенов. Вдохновленные теорией суперпозиционного представления, мы предлагаем использовать латентное суперпозиционное рассуждение для интеграции множества кандидатных семантик и сохранения латентных траекторий рассуждений. Гипотеза состоит в том, что зависимость от дискретных текстовых входных данных может подталкивать модель к последовательному явному рассуждению, недостаточно используя плотные контекстные сигналы на этапах рассуждения с высокой энтропией. Следовательно, мы предлагаем строить богатые семантические представления из распределений вероятностей токенов для улучшения контекстных рассуждений. Для достижения этой цели мы представляем Latent Entropy-Aware Decoding (LEAD) — эффективную декодирующую стратегию типа «plug-and-play», которая использует семантический контекст для достижения надежных рассуждений. Суть нашего метода заключается в переключении режимов рассуждения с учетом энтропии. Модель использует непрерывные эмбеддинги, взвешенные по вероятности, в состояниях с высокой энтропией и возвращается к дискретным эмбеддингам токенов по мере уменьшения энтропии. Кроме того, мы предлагаем стратегию инжекции визуальных якорей, управляемую априорными знаниями, которая побуждает модель фокусироваться на визуальной информации. Многочисленные эксперименты показывают, что LEAD эффективно снижает галлюцинации в различных MLRM на множестве бенчмарков.
Моделирование взаимодействий робота с окружающим миром является краеугольным камнем воплощенного ИИ. Недавно несколько работ показали перспективность использования генерации видео для преодоления жестких визуальных/физических ограничений традиционных симуляторов. Однако они в основном работают в 2D-пространстве или управляются статическими средовыми сигналами, игнорируя фундаментальную реальность: взаимодействия робота с миром по своей природе являются 4D-пространственно-временными событиями, требующими точного интерактивного моделирования. Чтобы восстановить эту 4D-сущность, обеспечивая при этом точное управление роботом, мы представляем Kinema4D — новый 4D-генеративный роботизированный симулятор, обусловленный действиями, который разделяет взаимодействие робота с миром на: i) Точное 4D-представление управляющих сигналов робота: мы управляем 3D-роботом на основе URDF через кинематику, создавая точную 4D-траекторию управления. ii) Генеративное 4D-моделирование реакций среды: мы проецируем 4D-траекторию робота в карту точек как пространственно-временной визуальный сигнал, управляя генеративной моделью для синтеза реактивной динамики сложных сред в синхронизированные последовательности RGB/карт точек. Для облегчения обучения мы создали крупномасштабный набор данных Robo4D-200k, содержащий 201 426 эпизодов взаимодействия роботов с высококачественными 4D-аннотациями. Многочисленные эксперименты демонстрируют, что наш метод эффективно моделирует физически правдоподобные, геометрически согласованные и независимые от воплощения взаимодействия, которые достоверно отражают разнообразную динамику реального мира. Впервые показана потенциальная возможность zero-shot переноса, что закладывает высокоточную основу для развития симуляторов воплощенного интеллекта следующего поколения.
Последние достижения в области видео-диффузионных трансформеров позволили создать интерактивные игровые мировые модели, которые позволяют пользователям исследовать генерируемые среды в течение продолжительных временных горизонтов. Однако существующие подходы испытывают трудности с точным управлением действиями и 3D-согласованностью на длинных горизонтах. Большинство предыдущих работ рассматривают действия пользователя как абстрактные сигналы кондиционирования, упуская из виду фундаментальную геометрическую связь между действиями и 3D-миром, где действия вызывают относительные движения камеры, которые накапливаются в глобальную позицию камеры внутри 3D-мира. В данной работе мы устанавливаем позицию камеры в качестве унифицирующего геометрического представления для совместного обоснования непосредственного управления действиями и долгосрочной 3D-согласованности. Во-первых, мы определяем основанное на физике непрерывное пространство действий и представляем пользовательский ввод в алгебре Ли для получения точных 6-DoF позиций камеры, которые внедряются в генеративную модель через модуль кодирования камеры для обеспечения точного соответствия действий. Во-вторых, мы используем глобальные позиции камеры в качестве пространственных индексов для извлечения релевантных прошлых наблюдений, что позволяет геометрически согласованно возвращаться к локациям во время навигации на длинных горизонтах. Для поддержки этого исследования мы представляем крупномасштабный набор данных, содержащий 3000 минут аутентичного геймплея с аннотациями траекторий камеры и текстовых описаний. Многочисленные эксперименты показывают, что наш подход существенно превосходит современные интерактивные игровые мировые модели по управляемости действиями, визуальному качеству на длинных горизонтах и 3D-пространственной согласованности.
Преобладающая парадигма улучшения больших языковых моделей основывается на офлайн-обучении с использованием человеческих аннотаций или симулированных сред, что полностью оставляет неиспользованным богатый опыт, накопленный в ходе реального развертывания. Мы предлагаем Онлайн-обучение на основе опыта (Online Experiential Learning, OEL) — фреймворк, который позволяет языковым моделям непрерывно совершенствоваться на основе опыта их собственного применения. OEL работает в два этапа: сначала передаваемое знание, основанное на опыте, извлекается и накапливается из траекторий взаимодействия, собранных на стороне пользователя; затем это знание закрепляется в параметрах модели с помощью контекстной дистилляции на основе текущей политики, что не требует доступа к среде на стороне пользователя. Эти два этапа итеративно повторяются, формируя цикл онлайн-обучения, в котором улучшенная модель собирает более качественные траектории, которые, в свою очередь, дают более богатый опыт для последующих раундов. Мы оцениваем OEL в текстовых игровых средах на моделях различного масштаба, как с механизмом "рассуждений", так и без него. OEL демонстрирует последовательное улучшение по мере итераций, повышая как точность выполнения задач, так и эффективность использования токенов, при этом сохраняя производительность на данных вне распределения. Наш анализ дополнительно показывает, что извлеченное знание на основе опыта значительно эффективнее сырых траекторий, а соответствие политики между источником знаний и обучаемой моделью критически важно для эффективного обучения.
Парсинг Text-to-SQL достиг значительного прогресса в условиях предположения о полной схеме (Full Schema Assumption). Однако в реальных корпоративных средах это предположение не выполняется, поскольку базы данных содержат сотни таблиц с обширными зашумленными метаданными. Вместо того чтобы заранее загружать полную схему, агент должен активно выявлять и проверять только релевантное подмножество, что порождает сценарий Неизвестной Схемы (Unknown Schema), изучаемый в данной работе. Для решения этой задачи мы предлагаем TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). Мы формулируем задачу как частично наблюдаемый марковский процесс принятия решений (POMDP), в котором наш автономный агент использует структурированный четырехфазный протокол для обоснования рассуждений проверенными метаданными. Ключевым моментом является то, что этот протокол обеспечивает структурную границу для нашей новой стратегии Dual-Track GRPO. Применяя маскированные преимущества на уровне токенов, эта стратегия изолирует вознаграждения за исследование от результатов выполнения, чтобы решить проблему распределения заслуг, что дает относительное улучшение на 9.9% по сравнению со стандартным GRPO. Многочисленные эксперименты на пяти бенчмарках показывают, что TRUST-SQL достигает среднего абсолютного улучшения на 30.6% и 16.6% для вариантов на 4B и 8B параметров соответственно по сравнению с их базовыми моделями. Примечательно, что, несмотря на полное отсутствие предзагруженных метаданных, наша система стабильно соответствует или превосходит сильные базовые методы, полагающиеся на предварительное заполнение схемы.
Интеграция больших языковых моделей (LLM) в финансовую сферу вызывает смену парадигмы — от пассивного извлечения информации к динамическому агентному взаимодействию. Хотя обучение работе с инструментами общего назначения сопровождается бумом бенчмарков, финансовый сектор, для которого характерны высокие ставки, строгое регулирование и быстрая изменчивость данных, остается критически недостаточно охваченным. Существующие финансовые оценки в основном сосредоточены на статическом текстовом анализе или вопросах на основе документов, игнорируя сложные реалии выполнения инструментальных операций. В свою очередь, общие бенчмарки для инструментов лишены предметной строгости, необходимой для финансов, часто опираясь на упрощенные среды или ничтожное количество финансовых API. Чтобы заполнить этот пробел, мы представляем FinToolBench — первый пригодный для запуска бенчмарк реального мира, предназначенный для оценки агентов, обучающихся работе с финансовыми инструментами. В отличие от предыдущих работ, ограниченных небольшим числом имитационных инструментов, FinToolBench создает реалистичную экосистему, объединяющую 760 исполняемых финансовых инструментов с 295 строгими запросами, требующими их использования. Мы предлагаем новую систему оценки, выходящую за рамки бинарного успеха выполнения, и оценивающую агентов по критически важным для финансов параметрам: своевременности, типу намерения и соответствию нормативной области. Кроме того, мы представляем FATR — финансово-ориентированный базовый метод поиска инструментов и рассуждений, который повышает стабильность и соответствие требованиям. Предоставляя первую испытательную среду для проверяемого агентного финансового исполнения, FinToolBench устанавливает новый стандарт доверенного ИИ в финансах. Манифест инструментов, среда выполнения и код оценки будут открыты для содействия будущим исследованиям.
Многие приложения больших языковых моделей требуют кондиционирования на длинных контекстах. Трансформеры обычно поддерживают это за счет хранения большого KV-кэша активаций прошлых слоев, что приводит к значительным затратам памяти. Желательной альтернативой является компрессионная память: однократное чтение контекста, сохранение его в компактном состоянии и ответ на множество запросов из этого состояния. Мы изучаем это в условиях удаления контекста, когда модель должна генерировать ответ без доступа к исходному контексту во время вывода. Мы представляем GradMem, который записывает контекст в память посредством оптимизации на этапе тестирования для каждого примера. Для заданного контекста GradMem выполняет несколько шагов градиентного спуска на небольшом наборе префиксных токенов памяти, сохраняя веса модели замороженными. GradMem явно оптимизирует самоконтролируемую функцию потерь реконструкции контекста на уровне модели, что приводит к операции записи, управляемой потерями, с итеративной коррекцией ошибок, в отличие от методов, основанных только на прямом проходе. На задаче ассоциативного извлечения "ключ-значение" GradMem превосходит методы записи памяти только с прямым проходом при том же размере памяти, а дополнительные шаги градиента масштабируют емкость гораздо эффективнее, чем повторные записи прямым проходом. Мы также показываем, что GradMem обобщается за пределы синтетических бенчмарков: с предобученными языковыми моделями он достигает конкурентоспособных результатов на задачах обработки естественного языка, включая варианты bAbI и SQuAD, полагаясь исключительно на информацию, закодированную в памяти.
Хотя современные модели Flow Matching позволяют избежать узких мест реконструкции, свойственных латентным автоэнкодерам, работая непосредственно в пиксельном пространстве, отсутствие семантической непрерывности на пиксельном многообразии приводит к сильному переплетению путей оптимального транспорта. Это вызывает значительные конфликты траекторий вблизи пересечений, приводя к субоптимальным решениям. Вместо обхода данной проблемы через информационно-потерьные латентные представления мы предлагаем прямой метод развязывания траекторий в пиксельном пространстве — Waypoint Diffusion Transformers (WiT). WiT факторизует непрерывное векторное поле с помощью семантических промежуточных точек (waypoints), проецируемых из предобученных моделей компьютерного зрения. Это эффективно разделяет траектории генерации, разбивая оптимальный транспорт на сегменты: от априорного распределения к точкам и от точек к пикселям. В частности, в процессе итеративного шумоподавления легковесный генератор динамически выводит эти промежуточные точки из текущего зашумленного состояния. Затем они непрерывно обусловливают основной диффузионный трансформер через механизм Just-Pixel AdaLN, направляя эволюцию к следующему состоянию и в конечном итоге формируя итоговые RGB-пиксели. На выборке ImageNet 256×256 WiT превосходит сильные базовые методы в пиксельном пространстве, ускоряя сходимость обучения JiT в 2,2 раза. Код будет общедоступен по адресу https://github.com/hainuo-wang/WiT.git.
Унифицированные мультимодальные модели (UMM) часто ограничены предварительным обучением их компонентов визуальной генерации, которое обычно опирается на неэффективные парадигмы и дефицитные высококачественные парные данные «текст-изображение». В данной работе мы систематически анализируем методы предварительного обучения для визуальной генерации в UMM и идентифицируем эти две проблемы как основные узкие места. Для их решения мы предлагаем обучение UMM только на изображениях (IOMM) — ресурсоэффективную двухэтапную框架 обучения. На первом этапе компонент визуальной генерации предварительно обучается исключительно на большом количестве немаркированных данных, содержащих только изображения, что устраняет зависимость от парных данных на этой затратной стадии. На втором этапе модель дообучается с использованием смеси немаркированных изображений и небольшого отобранного набора пар «текст-изображение», что приводит к улучшению соответствия инструкциям и качества генерации. Многочисленные эксперименты показывают, что IOMM не только повышает эффективность обучения, но и достигает наилучших на сегодняшний день (SOTA) результатов. Например, наша модель IOMM-B (3.6B) была обучена с нуля, используя всего около 1050 GPU-часов на H800 (причем подавляющее большинство — 1000 часов — было затрачено на эффективный этап предварительного обучения только на изображениях). Она демонстрирует показатели 0.89 на GenEval и 0.55 на WISE, превосходя сильные базовые модели, такие как BAGEL-7B (0.82 и 0.55) и BLIP3-o-4B (0.84 и 0.50). Код доступен по адресу: https://github.com/LINs-lab/IOMM.
Многократные оценки языковых моделей в многоходовых играх с несколькими агентами часто демонстрируют значительную вариативность от запуска к запуску. В долгосрочных взаимодействиях небольшие ранние отклонения накапливаются на протяжении ходов и усиливаются за счет связи между агентами. Это смещает оценки процента побед и делает рейтинги ненадежными при повторных турнирах. Выбор промпта усугубляет эту проблему, порождая различные эффективные политики. Мы решаем проблемы нестабильности и низкой производительности с помощью MEMO (Memory-augmented MOdel context optimization) — фреймворка самообучения, который оптимизирует контекст на этапе вывода, сочетая удержание и исследование. Удержание поддерживает постоянный банк памяти, сохраняющий структурированные инсайты из траекторий самообучения и внедряющий их в качестве априорных знаний в последующих играх. Исследование проводит эволюцию промптов в турнирном стиле с учетом неопределенности через TrueSkill и использует приоритизированное воспроизведение для повторного анализа редких и решающих состояний. В пяти текстовых играх MEMO повышает средний процент побед с 25,1% до 49,5% для GPT-4o-mini и с 20,9% до 44,3% для Qwen-2.5-7B-Instruct, используя по 2000 игр самообучения на задачу. Вариативность между запусками также снижается, обеспечивая более стабильные рейтинги при изменении промптов. Эти результаты свидетельствуют, что производительность и надежность языковых моделей в многопользовательских играх имеют значительный потенциал для улучшения через оптимизацию контекста. MEMO демонстрирует наибольший прогресс в переговорах и играх с неполной информацией, тогда как обучение с подкреплением остается более эффективным в условиях полной информации.
Хотя большие языковые модели (LLM) эволюционировали в агентов, использующих инструменты, они остаются ненадежными в долгосрочных взаимодействиях. В отличие от математических рассуждений, где ошибки часто можно исправить путем возврата, сбои при использовании инструментов часто вызывают необратимые побочные эффекты, что делает критически важной точную пошаговую верификацию. Однако существующие бенчмарки на уровне процессов в основном ограничены замкнутыми математическими областями и не отражают динамическую и открытую природу выполнения инструментов. Чтобы заполнить этот пробел, мы представляем AgentProcessBench — первый бенчмарк, предназначенный для оценки эффективности на уровне шагов в реалистичных траекториях, усиленных инструментами. Бенчмарк включает 1000 разнообразных траекторий и 8509 размеченных человеком шагов с согласованностью аннотаторов 89,1%. Он использует трехзначную схему маркировки для фиксации исследования и правило распространения ошибок для снижения неоднозначности разметки. Масштабные эксперименты выявили ключевые инсайты: (1) более слабые модельные политики демонстрируют завышенную долю правильных шагов из-за преждевременного завершения; (2) различение нейтральных и ошибочных действий остается серьезной проблемой для современных моделей; и (3) сигналы, полученные из процесса, предоставляют дополнительную ценность по сравнению с контролем по результату, значительно улучшая масштабируемость во время тестирования. Мы надеемся, что AgentProcessBench будет способствовать будущим исследованиям в области моделей вознаграждения и проложит путь к созданию универсальных агентов. Код и данные доступны по адресу https://github.com/RUCBM/AgentProcessBench.
Высококачественный машинный перевод (МП) может масштабироваться на сотни языков, устанавливая высокую планку для многоязычных систем. Однако по сравнению с 7000 языками мира современные системы по-прежнему предлагают лишь ограниченное покрытие: около 200 языков на стороне перевода и, возможно, еще несколько сотен на стороне исходного языка, поддерживаемых благодаря кросс-лингвальному переносу. И даже эти цифры было сложно оценить из-за отсутствия надежных бенчмарков и метрик. Мы представляем Omnilingual Machine Translation (OMT) — первую систему МП, поддерживающую более 1600 языков. Такой масштаб стал возможен благодаря комплексной стратегии работы с данными, которая объединяет крупные публичные многоязычные корпусы с вновь созданными наборами данных, включая тщательно отобранный параллельный корпус MeDLEY. Мы исследуем два способа специализации большой языковой модели (LLM) для машинного перевода: как декодер-only модель (OMT-LLaMA) или как модуль в архитектуре энкодер-декодер (OMT-NLLB). Примечательно, что все наши модели объемом от 1 до 8 миллиардов параметров соответствуют или превосходят по качеству перевода базовую LLM на 70 миллиардов параметров, демонстрируя явное преимущество специализации и обеспечивая высокое качество перевода в условиях ограниченных вычислительных ресурсов. Более того, наша оценка переводов с английского на 1600 языков дополнительно показывает, что, хотя базовые модели могут интерпретировать слабоподдерживаемые языки, они часто не способны генерировать их с осмысленной точностью; модели OMT-LLaMA существенно расширяют набор языков, для которых возможно связное порождение текста. Кроме того, модели OMT демонстрируют улучшение в кросс-лингвальном переносе, приближаясь к решению «понимающей» части головоломки МП для 1600 оцениваемых языков. Наша таблица лидеров и основные созданные человеком оценочные наборы данных (BOUQuET и Met-BOUQuET) динамично развиваются в сторону омнилингвальности и находятся в свободном доступе.
Крупные языковые модели (LLMs) с цепочечными рассуждениями демонстрируют наилучшие результаты в решении сложных задач, однако их многословные траектории рассуждений и большие требования к контексту делают их непрактичными для развертывания на периферийных устройствах. Эти проблемы включают высокую стоимость генерации токенов, большой объем кэша ключей-значений (KV-cache) и неэффективность при переносе способности к рассуждениям в меньшие модели для мобильных устройств. Существующие подходы часто основаны на дистилляции траекторий рассуждений из больших моделей в меньшие, которые являются многословными и стилистически избыточными, что нежелательно для инференса на устройстве. В данной работе мы предлагаем легковесный подход для включения способности к рассуждениям в малых LLMs с использованием адаптеров LoRA в сочетании с контролируемым тонким настраиванием. Мы также вводим бюджетное форсирование с помощью обучения с подкреплением на этих адаптерах, что значительно сокращает длину ответа при минимальной потере точности. Для решения проблемы ограничений памяти при декодировании мы используем параллельное масштабирование на этапе тестирования, улучшая точность при незначительном увеличении задержки. Наконец, мы представляем механизм динамического переключения адаптеров, который активирует рассуждения только при необходимости, и стратегию совместного использования KV-cache при кодировании промпта, сокращая время до первого токена для инференса на устройстве. Эксперименты на Qwen2.5-7B показывают, что наш метод обеспечивает эффективные и точные рассуждения в условиях строгих ресурсных ограничений, делая рассуждения LLMs практичными для мобильных сценариев. Видео с демонстрацией работы нашего решения на мобильных устройствах доступны на странице проекта.
Навыки агентов — структурированные пакеты процедурных знаний, внедряемые во время вывода, — всё чаще используются для расширения возможностей LLM-агентов при решении задач программной инженерии. Однако их реальная полезность в сквозных сценариях разработки остаётся неясной. Мы представляем SWE-Skills-Bench — первый ориентированный на требования бенчмарк, который изолирует предельную полезность навыков агентов в реальной программной инженерии (SWE). Он объединяет 49 публичных SWE-навыков с аутентичными репозиториями GitHub, зафиксированными на определённых коммитах, и документами требований с явными критериями приемки, формируя около 565 экземпляров задач в шести поддоменах SWE. Мы вводим детерминированную схему верификации, которая сопоставляет критерии приемки каждой задачи с исполняемыми тестами, позволяя проводить контролируемое парное оценивание с навыком и без него. Наши результаты показывают, что преимущества внедрения навыков гораздо более ограничены, чем предполагает их быстрое распространение: 39 из 49 навыков не дают никакого улучшения процента успешных решений, а средний прирост составляет всего +1,2%. Токенные затраты варьируются от умеренной экономии до увеличения на 451%, при этом процент успешных решений остаётся неизменным. Лишь семь специализированных навыков обеспечивают значительный прирост (до +30%), тогда как три ухудшают производительность (до –10%) из-за несовместимости устаревших рекомендаций с контекстом проекта. Эти данные свидетельствуют, что навыки агентов являются узким вмешательством, чья полезность сильно зависит от соответствия домену, уровня абстракции и контекстуальной совместимости. SWE-Skills-Bench предоставляет среду для оценки проектирования, выбора и развёртывания навыков в агентах программной инженерии. SWE-Skills-Bench доступен по адресу https://github.com/GeniusHTX/SWE-Skills-Bench.
Мы представляем SegviGen — фреймворк, который перепрофилирует нативные 3D-генеративные модели для задач семантической сегментации частей 3D-объектов. Существующие подходы либо переносят сильные 2D-априорные знания в 3D через дистилляцию или агрегацию масок с нескольких ракурсов, что часто приводит к межракурсной несогласованности и размытым границам, либо исследуют нативную 3D-дискриминативную сегментацию, которая обычно требует крупномасштабных размеченных 3D-данных и значительных вычислительных ресурсов для обучения. В отличие от них, SegviGen использует структурные априорные знания, закодированные в предобученной 3D-генеративной модели, для индукции сегментации через различимую колоризацию частей, создавая новый и эффективный фреймворк для сегментации частей. Конкретно, SegviGen кодирует 3D-объект и предсказывает цвета, указывающие на части, на активных вокселях геометрически выровненной реконструкции. Он поддерживает интерактивную сегментацию частей, полную сегментацию и полную сегментацию с 2D-подсказками в единой системе. Многочисленные эксперименты показывают, что SegviGen превосходит предыдущие state-of-the-art методы на 40% в задаче интерактивной сегментации частей и на 15% в задаче полной сегментации, используя при этом всего 0,32% размеченных обучающих данных. Это демонстрирует, что априорные знания предобученных 3D-генеративных моделей эффективно переносятся на задачу 3D-сегментации частей, обеспечивая высокую производительность при ограниченном количестве размеченных данных. Смотрите нашу проектную страницу: https://fenghora.github.io/SegviGen-Page/.
Video Super-Resolution (VSR) ставит своей задачей восстановление высококачественных видеокадров из низкокачественных (LR) исходников. Однако большинство существующих подходов к VSR во время вывода работают как «черные ящики»: пользователи не могут надежно исправлять неожиданные артефакты, а вынуждены принимать результат работы модели как есть. В данной статье мы предлагаем новую интерактивную архитектуру VSR под названием SparkVSR, которая использует разреженные ключевые кадры в качестве простого и выразительного управляющего сигнала. А именно, пользователи могут сначала повысить разрешение небольшого набора ключевых кадров с помощью любой доступной модели повышения разрешения изображений (ISR), после чего SparkVSR распространяет априорную информацию с ключевых кадров на всю видеопоследовательность, оставаясь при этом привязанным к исходному движению в видео низкого качества. Конкретно, мы представляем двухэтапный конвейер обучения, работающий в латентно-пиксельном пространстве и обусловленный ключевыми кадрами, который объединяет латентные представления LR-видео с разреженно закодированными латентными представлениями HR-ключевых кадров для изучения надежного межпространственного распространения и улучшения перцептивных деталей. На этапе вывода SparkVSR поддерживает гибкий выбор ключевых кадров (ручное указание, извлечение I-кадров кодеком или случайная выборка) и механизм управления без референсов, который непрерывно балансирует между соответствием ключевым кадрам и слепым восстановлением, обеспечивая надежную работу даже при отсутствии или неидеальности референсных ключевых кадров. Эксперименты на нескольких бенчмарках VSR демонстрируют улучшенную временную согласованность и высокое качество восстановления, превосходя базовые методы на 24,6%, 21,8% и 5,6% по метрикам CLIP-IQA, DOVER и MUSIQ соответственно, что позволяет реализовать управляемое повышение разрешения видео на основе ключевых кадров. Более того, мы показываем, что SparkVSR является универсальной интерактивной архитектурой для обработки видео, обусловленной ключевыми кадрами, так как она может быть непосредственно применена к новым задачам, таким как реставрация старых пленок и перенос стиля в видео. Страница проекта доступна по адресу: https://sparkvsr.github.io/
Мы представляем полную формализацию в Lean 4 характеристики равновесия в системе Власова-Максвелла-Ландау (ВМЛ), описывающей движение заряженной плазмы. Данный проект демонстрирует полный цикл исследований с ИИ-ассистентом: модель логического вывода (Gemini DeepThink) сгенерировала доказательство из гипотезы, агент-кодер (Claude Code) перевел его в Lean из prompts на естественном языке, специализированный провер (Aristotle) закрыл 111 лемм, а ядро Lean верифицировало результат. Единственный математик курировал процесс в течение 10 дней при стоимости в \$200, не написав ни строчки кода. Весь процесс разработки является публичным: все 229 человеческих промптов и 213 коммитов git архивированы в репозитории. Мы сообщаем о детальных наблюдениях относительно типичных сбоев ИИ — креп гипотез, баги согласования определений, поведение уклонения агентов — и о том, что сработало: разделение доказательств на абстрактные и конкретные, адверсариальный самоанализ и критическая роль человеческого ревью ключевых определений и формулировок теорем. Примечательно, что формализация была завершена до окончания финального черновика соответствующей математической статьи.
Обработка длинных контекстов остается ключевой проблемой для языковых моделей: даже при расширенных окнах контекста модели часто не могут надежно извлекать, анализировать и использовать информацию из протяженных контекстов. Недавние работы, такие как рекурсивные языковые модели (RLM), подошли к решению этой задачи с помощью агентного подхода, декомпозируя длинные контексты на рекурсивные подвызовы посредством программного взаимодействия на этапе вывода. Несмотря на перспективность, успех RLM критически зависит от выбора этих программ контекстного взаимодействия, что до сих пор оставалось малоизученным. В данной статье мы исследуем эту проблему и представляем SRLM — фреймворк, дополняющий программное взаимодействие с контекстом саморефлексией с учетом неопределенности. SRLM использует три внутренних сигнала: самосогласованность, длину рассуждений и вербализованную уверенность. Эти сигналы служат комплементарными индикаторами внутренней неопределенности модели, которую она использует для оценки и сравнения кандидатных программ контекстного взаимодействия. Масштабные эксперименты на различных наборах данных, длинах контекста и базовых моделях показывают, что SRLM стабильно превосходит современные базовые методы, демонстрируя до 22% улучшения по сравнению с RLM при одинаковом бюджете времени. Наши результаты свидетельствуют, что рекурсия сама по себе не является основным драйвером производительности в RLM, и простой саморефлексивный поиск программ может соответствовать или превзойти RLM без необходимости само-запросов или явных механизмов рекурсии. Мы обнаружили, что для длин контекста в пределах окна модели RLM с рекурсией часто ухудшают производительность по сравнению с базовой моделью, тогда как SRLM обеспечивает стабильное улучшение как для коротких, так и для длинных контекстов. Также мы выявили, что RLM менее эффективны в задачах с семантически насыщенной природой, где эвристический поиск программ недостаточен и требуется более широкое контекстное понимание, в то время как саморефлексия в SRLM предоставляет семантический сигнал, который лучше направляет рассуждения в таких сценариях.
Потоковая реконструкция по неоткалиброванному монокулярному видео остается сложной задачей, поскольку требует как высокоточной оценки позы, так и вычислительно эффективного онлайн-уточнения в динамических средах. Хотя объединение 3D-фундаментальных моделей с фреймворками SLAM является многообещающей парадигмой, сохраняется ключевое ограничение: большинство многовидовых фундаментальных моделей оценивают позы прямым проходом, выдавая соответствия на уровне пикселей, которые не обладают необходимой точностью для строгой геометрической оптимизации. Для решения этой проблемы мы представляем M^3, который расширяет многовидовую фундаментальную модель специальным модулом сопоставления (Matching head) для получения мелкозернистых плотных соответствий и интегрирует ее в надежный монокулярный SLAM на основе гауссовских сплатов (Monocular Gaussian Splatting SLAM). M^3 дополнительно повышает стабильность отслеживания за счет включения подавления динамических областей и перекрестного вывода для выравнивания внутренних параметров. Обширные эксперименты на различных эталонных наборах данных для помещений и улиц демонстрируют передовую точность как в оценке позы, так и в реконструкции сцены. Примечательно, что M^3 снижает среднеквадратичную ошибку абсолютной траектории (ATE RMSE) на 64,3% по сравнению с VGGT-SLAM 2.0 и превосходит ARTDECO на 2,11 дБ по PSNR на наборе данных ScanNet++.
Надежная оценка является ключевым аспектом разработки и внедрения больших языковых моделей, однако на практике она часто требует значительных ручных усилий: специалистам необходимо подбирать соответствующие бенчмарки, воспроизводить разнородные кодобазы для оценки, настраивать схемы сопоставления данных и интерпретировать агрегированные метрики. Для решения этих проблем мы представляем One-Eval — агентскую систему оценки, преобразующую запросы на естественном языке в исполняемые, отслеживаемые и настраиваемые рабочие процессы оценки. One-Eval объединяет (i) NL2Bench для структурирования намерений и персонализированного планирования бенчмарков, (ii) BenchResolve для разрешения бенчмарков, автоматического сбора данных и нормализации схемы для обеспечения исполняемости, а также (iii) Metrics & Reporting для выбора метрик с учетом задачи и формирования отчетов, ориентированных на принятие решений, выходящих за рамки скалярных оценок. Система также включает контрольные точки с участием человека для проверки, редактирования и отката изменений, сохраняя при этом трассировку примеров для отладки и аудита. Эксперименты показывают, что One-Eval способна выполнять сквозную оценку по разнообразным запросам на естественном языке при минимальных усилиях пользователя, обеспечивая более эффективную и воспроизводимую оценку в промышленных условиях. Наш фреймворк доступен по адресу https://github.com/OpenDCAI/One-Eval.
С быстрым развитием визуально-языковых моделей все больше исследований изучают их потенциал для задач генерации SVG. Хотя существующие подходы повышают производительность за счет создания масштабируемых наборов данных SVG и введения специализированных SVG-токенов, они по-прежнему страдают от ограниченной обобщающей способности, избыточных путей в выходном коде и отсутствия явных рассуждений. В данной работе мы представляем CTRL-S — унифицированную структуру, которая вводит механизм цепочки рассуждений для явного отображения процесса логического вывода модели во время генерации SVG. Для поддержки этого структурированного рассуждения мы создали SVG-Sophia, высококачественный набор данных, содержащий 145 тыс. образцов для задач очистки кода SVG, преобразования текста в SVG и изображения в SVG. Обучая модель генерировать структурированный SVG-код на групповом уровне, CTRL-S значительно улучшает структурную согласованность и визуальную достоверность. Кроме того, мы применяем алгоритм GRPO и разрабатываем многокритериальную оптимизационную структуру, включающую вознаграждения за DINO, схожесть изображения и текста, формат и эффективность кода. Благодаря совместной многокритериальной оптимизации и многозадачному обучению наш подход систематически повышает общие возможности генерации. Многочисленные эксперименты показывают, что CTRL-S превосходит существующие методы, демонстрируя более высокие показатели успешности выполнения задач, превосходное качество SVG-кода и исключительную визуальную достоверность.
Выборка из категориального распределения математически проста, однако при декодировании с большим словарем она часто приводит к дополнительной нагрузке на память и запуску дополнительных ядер после выходного слоя языковой модели (LM head). Мы представляем FlashSampling — точный примитив выборки, который интегрирует процедуру выборки в матричное умножение выходного слоя и полностью избегает материализации тензора логитов в высокоскоростной памяти (HBM). Метод прост: вычислять логиты поблочно на кристалле, добавлять шум Гумбеля, сохранять только один максимум на строку и на блок словаря, завершая процесс компактной редукцией по блокам. Объединенное поблочное ядро является точным, поскольку операция argmax декомпозируется на разделы; групповые варианты для онлайн-режима и тензорного параллелизма остаются точными благодаря иерархической факторизации категориального распределения. На GPU H100, H200, B200 и B300 FlashSampling ускоряет рабочие нагрузки декодирования на уровне ядра, а в сквозных экспериментах с vLLM сокращает время на генерацию одного токена до 19% для протестированных моделей. Эти результаты демонстрируют, что точную выборку без аппроксимаций можно интегрировать в само матричное умножение, превращая ограниченный пропускной способностью этап постобработки в легковесный эпилог. Страница проекта: https://github.com/FlashSampling/FlashSampling.
Преобладающая точка зрения в области обучения роботов гласит, что одной лишь симуляции недостаточно; широко распространено мнение, что для эффективного переноса из симуляции в реальность требуется как минимум некоторый сбор данных в реальном мире или специфичная для задачи донастройка, чтобы преодолеть разрыв между моделируемой и физической средой. Мы оспариваем это предположение. Показываем, что при наличии достаточно масштабных и разнообразных синтетических обучающих данных, сгенерированных в симуляции, передача в реальный мир без дообучения (zero-shot) не только возможна, но и эффективна как для статического, так и для мобильного манипулирования. Мы представляем MolmoBot-Engine — полностью открытый конвейер для процедурной генерации данных для различных роботов, задач и разнообразных моделируемых сред в MolmoSpaces. Вместе с ним мы выпускаем MolmoBot-Data, набор данных, содержащий 1.8 миллиона экспертных траекторий для манипулирования шарнирными объектами и задач pick-and-place. Мы обучаем три класса политик: MolmoBot — многокадровую визуально-языковую модель на основе Molmo2 с головой действий на основе flow matching; MolmoBot-Pi0, который воспроизводит архитектуру π_0 для обеспечения прямого сравнения; и MolmoBot-SPOC — облегченную политику, подходящую для развертывания на периферийных устройствах и пригодную для донастройки с подкреплением. Оценка проводится на двух роботизированных платформах: Franka FR3 для задач манипулирования на столе и мобильном манипуляторе Rainbow Robotics RB-Y1 для открывания дверей, манипулирования ящиками, взаимодействия с шкафами и мобильного pick-and-place. Без какой-либо донастройки в реальном мире наши политики достигают переноса без дообучения на незнакомые объекты и среды. В задаче pick-and-place на столе MolmoBot достигает показателя успеха 79.2% в реальных испытаниях в 4 различных условиях, превосходя результат π_{0.5} в 39.2%. Наши результаты демонстрируют, что процедурная генерация сред в сочетании с разнообразными моделями шарнирных объектов позволяет создавать надежные политики манипулирования, которые успешно обобщаются на реальный мир. Технический блог: https://allenai.org/blog/molmobot-robot-manipulation
Точный контроль процесса остается ключевой проблемой для роботизированных манипуляций с длительным горизонтом планирования. Основное узкое место заключается в том, что современные видео-MLLM, обученные преимущественно по парадигме контролируемой тонкой настройки (SFT), функционируют как пассивные «наблюдатели», которые распознают текущие события, а не оценивают текущее состояние относительно конечной цели задачи. В данной статье мы представляем PRIMO R1 — фреймворк на 7 миллиардах параметров, который преобразует видео-MLLM в активных «критиков». Мы используем обучение с подкреплением на основе результата, чтобы стимулировать явное построение цепочек рассуждений для оценки прогресса. Кроме того, наша архитектура формирует структурированный временной вход, явно связывая видео-последовательность между изображениями начального и текущего состояний. Подкрепленные предложенными набором данных PRIMO и бенчмарком, масштабные эксперименты в разнообразных внутридоменных средах и внедоменных сценариях реального мира с гуманоидными роботами демонстрируют, что PRIMO R1 достигает наилучшей производительности. Количественно наша 7B-модель обеспечивает 50%-ное снижение средней абсолютной ошибки по сравнению со специализированными базовыми моделями рассуждений, демонстрируя значительное улучшение относительной точности по сравнению с общими MLLM масштаба 72B. Более того, PRIMO R1 демонстрирует сильную способность к нулевому обобщению на сложных задачах обнаружения сбоев. Мы устанавливаем наилучший результат на бенчмарке RoboFail с точностью 67.0%, превосходя закрытые модели, такие как OpenAI o1, на 6.0%.
Нативные 3D-генеративные модели достигли впечатляющей точности и скорости, однако страдают от критического ограничения: неспособности задавать точные структурные артикуляции, где точный структурный контроль в рамках нативного 3D-пространства остается малоизученным. В данной статье предлагается SK-Adapter — простая, но высокоэффективная и действенная структура, которая открывает возможность точного скелетного манипулирования для нативной 3D-генерации. Выходя за рамки текстовых или изображенческих подсказок, которые могут быть неоднозначными для точной структуры, мы рассматриваем 3D-скелет как управляющий сигнал первого класса. SK-Adapter представляет собой облегченную структурную адаптерную сеть, которая кодирует координаты и топологию суставов в обучаемые токены, внедряемые в замороженную базовую модель 3D-генерации посредством перекрестного внимания. Такая продуманная конструкция позволяет модели не только эффективно «уделять внимание» конкретным 3D-структурным ограничениям, но и сохранять свои исходные генеративные априорные знания. Для преодоления разрыва в данных мы представляем набор данных Objaverse-TMS, крупномасштабный набор из 24 тыс. пар текст-меш-скелет. Многочисленные эксперименты подтверждают, что наш метод обеспечивает надежный структурный контроль, сохраняя при этом качество геометрии и текстуры базовой модели, значительно превосходя существующие базовые уровни. Кроме того, мы расширяем эту возможность до локального 3D-редактирования, позволяя осуществлять специфичное для региона редактирование существующих ассетов с помощью скелетного руководства, что было недостижимо для предыдущих методов. Страница проекта: https://sk-adapter.github.io/
Несмотря на то, что междисциплинарные исследования приводят к более значительному и долгосрочному влиянию, большинство работ по-прежнему остаются ограниченными академическими «силосами» отдельных областей. Современные подходы к научному открытию на основе ИИ демонстрируют потенциал для междисциплинарных исследований, но многие из них ориентированы на быстрое проектирование экспериментов и решений, обходя исследовательские, collaborative процессы рассуждений, которые лежат в основе творческих междисциплинарных прорывов. В результате предыдущие усилия в значительной степени были направлены на автоматизацию научного открытия, а не на усиление процессов рассуждения, лежащих в основе научных прорывов. Мы представляем Idea-Catalyst — новую концептуальную основу, которая систематически выявляет междисциплинарные инсайты для поддержки творческого мышления как у людей, так и у больших языковых моделей. Начиная с абстрактной исследовательской цели, Idea-Catalyst призван помочь на этапе мозгового штурма, явно избегая преждевременной фиксации на конкретных решениях. Данная концепция воплощает ключевые метакогнитивные особенности междисциплинарного мышления: (а) определение и оценка исследовательских целей, (b) осведомленность о возможностях и нерешенных проблемах в предметной области и (с) стратегическое исследование междисциплинарных идей на основе потенциала их влияния. Конкретно, Idea-Catalyst декомпозирует абстрактную цель (например, «улучшение коллаборации человека и ИИ») на ключевые исследовательские вопросы целевой области, которые направляют анализ прогресса и открытых проблем в рамках этой области. Эти проблемы переформулируются в предметно-независимые концептуальные задачи, что позволяет осуществлять поиск релевантных решений в смежных дисциплинах (например, психологии, социологии), которые занимаются аналогичными вопросами. Синтезируя и переконтекстуализируя инсайты из этих областей обратно в целевую область, Idea-Catalyst ранжирует исходные дисциплины по их междисциплинарному потенциалу. Эмпирически, такая целенаправленная интеграция повышает среднюю новизну идей на 21% и их глубину на 16%, сохраняя при этом связь с исходной исследовательской проблемой.
Хотя мультимодальные большие языковые модели (МБЯМ) демонстрируют обнадеживающие результаты в автоматизированной интерпретации электрокардиограмм, остается неясным, действительно ли они выполняют пошаговые рассуждения или просто полагаются на поверхностные визуальные паттерны. Для изучения этого вопроса мы представляем ECG-Reasoning-Benchmark — новую многозадачную оценочную систему, содержащую более 6400 образцов для систематической оценки пошаговых рассуждений по 17 ключевым ЭКГ-диагнозам. Наше комплексное тестирование современных моделей выявляет критический провал в выполнении многошагового логического вывода. Хотя модели обладают медицинскими знаниями для извлечения клинических критериев диагноза, они демонстрируют почти нулевой процент успеха (6% Completion) в поддержании полной цепочки рассуждений, в основном неспособные привязать соответствующие ЭКГ-находки к фактическим визуальным признакам в сигнале ЭКГ. Эти результаты доказывают, что современные МБЯМ обходят действительную визуальную интерпретацию, обнажая фундаментальный недостаток существующих подходов к обучению и подчеркивая необходимость создания надежного медицинского ИИ, ориентированного на логические рассуждения. Код и данные доступны по адресу https://github.com/Jwoo5/ecg-reasoning-benchmark.
Недавние исследования показали, что остаточные связи — это не просто инструмент оптимизации, а часть репрезентационного механизма модели. Мы согласны с этим, но считаем, что наиболее четкий способ организации этого пространства проектирования — двухосевое представление трансформера. Декодер развивает информацию вдоль двух упорядоченных измерений: позиции в последовательности и глубины слоя. Само-внимание уже обеспечивает адаптивное смешивание вдоль последовательностной оси, тогда как остаточный поток обычно выполняет фиксированное суммирование вдоль оси глубины. Если зафиксировать позицию токена и рассматривать индекс слоя как упорядоченную переменную, то причинно-следственное чтение с остаточным глубинным вниманием — это в точности тот же локальный оператор, что и причинно-следственное краткое скользящее оконное внимание (ShortSWA), только записанный по глубине, а не по последовательности. Это ключевая двойственность остаточного потока, лежащая в основе Transformer^2. Данная перспектива также проясняет последние публикации. Модели ELC-BERT и DenseFormer уже демонстрируют, что обученная агрегация по глубине может превзойти равномерное остаточное накопление, в то время как Vertical Attention, DeepCrossAttention (DCA), MUDDFormer и Attention Residuals продвигаются дальше в сторону явной маршрутизации на основе внимания между ранними слоями. Однако ключевой момент заключается в том, что двойственность на уровне операторов не подразумевает симметрии на системном уровне. Для крупных авторегрессионных моделей ShortSWA на последовательностной оси обычно является более удобным для аппаратного обеспечения решением, поскольку оно повторно использует ядра скользящего окна для токенов, структуры KV-кэша и чанковое выполнение. Если же цель — изменить сам шорткат, то Deep Delta Learning (DDL) является более чистым вмешательством, поскольку модифицирует сам остаточный оператор напрямую, а не добавляет отдельный путь кросс-слойного извлечения. Таким образом, наша рекомендация проста: используйте DDL, когда шорткат является объектом интереса, и используйте ShortSWA на последовательностной оси, когда цель — локальное адаптивное смешивание.
В последнее время диффузия в пространстве пикселей вновь стала серьезной альтернативой латентной диффузии, позволяя получать высококачественные изображения без использования предварительно обученных автоэнкодеров. Однако стандартные модели диффузии в пространстве пикселей получают относительно слабую семантическую супервизию и не предназначены явным образом для захвата высокоуровневой визуальной структуры. Недавние методы выравнивания представлений (например, REPA) показывают, что предобученные визуальные признаки могут существенно улучшить обучение диффузии, а визуальное совместное шумоподавление стало перспективным направлением для интеграции таких признаков в генеративный процесс. Однако существующие подходы к совместному шумоподавлению часто объединяют несколько проектных решений, что затрудняет определение действительно ключевых из них. Поэтому мы представляем V-Co — систематическое исследование визуального совместного шумоподавления в единой JiT-основанной структуре. Этот контролируемый подход позволяет нам выявить компоненты, обеспечивающие эффективность визуального совместного шумоподавления. Наше исследование выявляет четыре ключевых компонента для эффективного визуального совместного шумоподавления. Во-первых, сохранение специфичных для признаков вычислений при обеспечении гибкого межпотокового взаимодействия требует полностью двухпоточной архитектуры. Во-вторых, эффективное управление без классификатора требует структурно определенного безусловного предсказания. В-третьих, более сильная семантическая супервизия лучше всего обеспечивается гибридной потерей с учетом перцептивного дрейфа. В-четвертых, стабильное совместное шумоподавление дополнительно требует надлежащей калибровки между потоками, которую мы реализуем через масштабирование признаков на основе RMS. В совокупности эти результаты дают простой рецепт для визуального совместного шумоподавления. Эксперименты на ImageNet-256 показывают, что при сравнимых размерах моделей V-Co превосходит базовую модель диффузии в пространстве пикселей и сильные prior-методы пиксельной диффузии, используя при этом меньше эпох обучения, что предлагает практическое руководство для будущих генеративных моделей с выровненными представлениями.
Стилизация на основе диффузионных моделей достигла значительного прогресса, однако существующие методы ограничиваются цветовыми преобразованиями, игнорируя сложную семантику и детали материалов. Мы представляем StyleExpert — семантически-ориентированную архитектуру, основанную на принципе смеси экспертов (MoE). Наша система использует унифицированный кодировщик стилей, обученный на масштабном наборе данных из троек «контент-стиль-стилизованное изображение», для встраивания разнообразных стилей в согласованное латентное пространство. Полученные эмбеддинги используются для управления механизмом маршрутизации с учетом сходства, который динамически распределяет стили между специализированными экспертами в архитектуре MoE. Благодаря этой архитектуре наш метод эффективно обрабатывает разнообразные стили на различных семантических уровнях — от поверхностных текстур до глубокой семантики. Многочисленные эксперименты демонстрируют, что StyleExpert превосходит существующие подходы в сохранении семантики и деталей материалов, одновременно обобщаясь на неизвестные стили. Наш код и собранные изображения доступны на странице проекта: https://hh-lg.github.io/StyleExpert-Page/.
Доминирующая парадигма улучшения математических рассуждений в языковых моделях опирается на обучение с подкреплением с верифицируемыми вознаграждениями. Однако существующие методы рассматривают каждую задачу изолированно, не используя повторно применяемые стратегии, которые возникают и накапливаются в процессе обучения. Для решения этой проблемы мы представляем ARISE (Agent Reasoning via Intrinsic Skill Evolution) — иерархическую框架 обучения с подкреплением, в которой общая политика функционирует как на высоком уровне для управления навыками, так и на низком уровне для генерации ответов (обозначаемых соответственно как Менеджер навыков и Работник). Менеджер поддерживает многоуровневую библиотеку навыков через выделенный процесс генерации навыков, который выполняет структурированное суммирование успешных траекторий решений (после выполнения), одновременно используя механизм выбора на основе политики для извлечения релевантных навыков с целью обусловливания будущих траекторий (до выполнения). Иерархическая схема вознаграждений направляет совместную эволюцию способности к рассуждению и качества библиотеки. Эксперименты на двух базовых моделях и семи тестовых наборах, охватывающих как олимпиадную математику, так и Omni-MATH, показывают, что ARISE стабильно превосходит алгоритмы семейства GRPO и базовые методы с расширенной памятью, с особенно значительным преимуществом на задачах вне распределения. Абляционные исследования подтверждают, что каждый компонент вносит вклад в наблюдаемые улучшения, а качество библиотеки и производительность рассуждений улучшаются параллельно на протяжении всего обучения. Код доступен по адресу https://github.com/Skylanding/ARISE.
Последние достижения в области мультимодальных агентов улучшили взаимодействие с компьютером и использование инструментов, однако большинство существующих систем остаются реактивными, оптимизируя действия изолированно без рассуждений о будущих состояниях или долгосрочных целях. Это ограничивает согласованность планирования и не позволяет агентам надежно решать сложные многоэтапные задачи. Мы представляем TraceR1 — двухэтапную архитектуру обучения с подкреплением, которая явно тренирует упреждающие рассуждения за счет прогнозирования краткосрочных траекторий до выполнения действий. На первом этапе проводится обучение с подкреплением на уровне траекторий с использованием вознаграждений, обеспечивающих глобальную согласованность предсказанных последовательностей действий. На втором этапе применяется предметно-ориентированная тонкая настройка методом подкрепления, где обратная связь от выполнения замороженными инструментальными агентами используется для повышения пошаговой точности и исполнимости. TraceR1 оценивается на семи тестовых наборах, охватывающих онлайн- и офлайн-взаимодействие с компьютером, а также мультимодальные задачи на рассуждение с использованием инструментов, демонстрируя существенное улучшение стабильности планирования, устойчивости выполнения и обобщающей способности по сравнению с реактивными и одноэтапными аналогами. Эти результаты показывают, что упреждающий анализ траекторий является ключевым принципом для создания мультимодальных агентов, способных эффективно рассуждать, планировать и действовать в сложных реальных условиях.
Постоянная память является ключевой способностью ИИ-агентов, однако математические основы извлечения воспоминаний, управления жизненным циклом и обеспечения согласованности остаются неисследованными. Современные системы используют косинусное сходство для поиска, эвристическое затухание для определения значимости и не предоставляют формального механизма обнаружения противоречий. Мы закладываем информационно-геометрические основы через три вклада. Во-первых, метрика поиска, выведенная из структуры информации Фишера для семейств диагональных гауссианов, удовлетворяющая аксиомам римановой метрики, инвариантная относительно достаточных статистик и вычислимая за время O(d). Во-вторых, жизненный цикл памяти, сформулированный как риманова динамика Ланжевена с доказанными существованием и единственностью стационарного распределения через уравнение Фоккера-Планка, заменяющая ручную настройку затухания гарантированной сходимостью. В-третьих, модель клеточного пучка, где нетривиальные классы первого когомологий точно соответствуют непримиримым противоречиям между контекстами памяти. На бенчмарке LoCoMo математические слои показывают прирост +12.7 процентных пунктов по сравнению с инженерными базовыми уровнями на шести диалогах, достигая +19.9 п.п. на наиболее сложных беседах. Четырехканальная архитектура поиска достигает 75% точности без зависимости от облачных сервисов. Результаты с облачным усилением достигают 87.7%. Конфигурация без использования больших языковых моделей удовлетворяет требованиям Закона ЕС об ИИ к суверенитету данных на уровне архитектуры. Насколько нам известно, это первая работа, устанавливающая информационно-геометрические, теоретико-пучковые и стохастико-динамические основы для систем памяти ИИ-агентов.
Принятие решений в реальных условиях, от оценки налоговой добросовестности до медицинской диагностики, требует агрегирования множества зашумленных и потенциально противоречивых источников свидетельств. Существующие подходы либо не имеют явного количественного оценивания неопределенности (нейросетевые методы агрегирования), либо опираются на ручное проектирование дискретных предикатов (вероятностные логические框架), что ограничивает их масштабируемость на неструктурированные данные. Мы представляем Latent Posterior Factors (LPF) — framework, преобразующий апостериорные распределения латентного пространства Вариационных Автокодировщиков (VAE) в мягкие likelihood-факторы для вывода в Sum-Product Networks (SPN), обеспечивая разрешимое вероятностное рассуждение над неструктурированными свидетельствами с сохранением калиброванных оценок неопределенности. Мы реализуем LPF как LPF-SPN (структурный вывод на основе факторов) и LPF-Learned (сквозное обученное агрегирование), позволяя проводить принципиальное сравнение между явным вероятностным рассуждением и обученной агрегацией в рамках единого представления неопределенности. В восьми предметных областях (семь синтетических и бенчмарк FEVER) LPF-SPN демонстрирует высокую точность (до 97.8%), низкую ошибку калибровки (ECE 1.4%) и сильное соответствие вероятностной модели, существенно превосходя evidential deep learning, крупные языковые модели и графовые базовые методы по 15 случайным сидам. Вклад: (1) Framework, связывающий латентные представления неопределенности со структурным вероятностным выводом. (2) Двойная архитектура, позволяющая контролируемое сравнение парадигм рассуждения. (3) Воспроизводимая методология обучения с выбором сидов. (4) Сравнение с базовыми методами EDL, BERT, R-GCN и крупными языковыми моделями. (5) Кросс-доменная валидация. (6) Формальные гарантии в сопутствующей статье.
Мы представляем полную теоретическую характеристику Латентных Постериорных Факторов (LPF) — принципиального подхода для агрегирования множества гетерогенных элементов доказательств в задачах вероятностного прогнозирования. Рассуждения на основе множества доказательств повсеместно возникают в областях с высокими ставками, включая медицинскую диагностику, оценку финансовых рисков, анализ юридических дел и соблюдение нормативных требований, однако существующие подходы либо не имеют формальных гарантий, либо архитектурно не справляются со сценариями множественных доказательств. LPF кодирует каждый элемент доказательства в гауссово латентное апостериорное распределение с помощью вариационного автоэнкодера, преобразует апостериорные распределения в мягкие факторы посредством маргинализации методом Монте-Карло и агрегирует факторы с помощью точного вывода в Суммарно-Произвольной Сети (LPF-SPN) или обученного нейросетевого агрегатора (LPF-Learned). Мы доказываем семь формальных гарантий, охватывающих ключевые требования к достоверному ИИ: Сохранение Калибровки (ECE <= epsilon + C/sqrt(K_eff)); Спад Ошибки Монте-Карло как O(1/sqrt(M)); не тривиальную границу PAC-Байеса с разрывом обучение-тестирование 0.0085 при N=4200; работу в пределах 1.12 от информации-теоретической нижней границы; устойчивую деградацию как O(epsilon*delta*sqrt(K)) при повреждениях, сохраняя 88% производительности при замене половины доказательств противником; спад калибровки O(1/sqrt(K)) с R^2=0.849; и точное разложение эписемической-алеаторной неопределенности с ошибкой ниже 0.002%. Все теоремы эмпирически проверены на контролируемых наборах данных объемом до 4200 обучающих примеров. Наша теоретическая основа утверждает LPF в качестве фундамента для достоверного многодоказательного ИИ в критически важных для безопасности приложениях.
Мы представляем VAREX (VARied-schema EXtraction) — эталонный набор для оценки мультимодальных базовых моделей в задаче извлечения структурированных данных из государственных форм. VAREX использует конвейер обратной аннотации, который программно заполняет PDF-шаблоны синтетическими значениями, создавая детерминированную разметку, проверенную в ходе трехэтапного контроля качества. Набор включает 1777 документов с 1771 уникальной схемой, распределенных по трем структурным категориям, каждый из которых представлен в четырех входных модальностях: обычный текст, текст с сохранением layout'а (выровненный по пробелам для приближения позиций колонок), изображение документа или комбинация текста и изображения. В отличие от существующих эталонов, оценивающих модели на основе единого представления входных данных, VAREX предоставляет четыре контролируемые модальности на документ, что позволяет систематически исследовать влияние формата ввода на точность извлечения — возможность, отсутствовавшая в предыдущих наборах. Мы оцениваем 20 моделей — от передовых проприетарных до компактных открытых, с особым вниманием к моделям ≤4B параметров, пригодным для развертывания в условиях ограничений по стоимости и задержкам. Результаты показывают, что: (1) при размере менее 4B параметров основным узким местом является не способность к извлечению, а соответствие структурированному выводу; в частности, эхо-эффект схемы (когда модели воспроизводят структуру, соответствующую схеме, вместо извлеченных значений) снижает показатели на 45–65 п.п. у затронутых моделей; (2) специфичная для извлечения дообучение модели на 2B параметрах дает прирост +81 п.п., демонстрируя, что дефицит следования инструкциям устраним без масштабирования; (3) текст с сохранением layout'а обеспечивает наибольший прирост точности (+3–18 п.п.), превосходя визуальные сигналы на уровне пикселей; и (4) набор наиболее эффективно дифференцирует модели в диапазоне точности 60–95%. Данные и код оценки находятся в открытом доступе.
Решение задач с использованием инструментов при наличии явных ограничений представляет собой крайне сложный, но неизбежный сценарий для больших языковых моделей (LLM), требующий таких способностей, как вызов функций, следование инструкциям и самокоррекция. Однако прогресс сдерживался отсутствием специализированных оценок. Чтобы устранить этот пробел, мы представляем CCTU — бенчмарк для оценки использования инструментов LLM в условиях сложных ограничений. CCTU основан на таксономии из 12 категорий ограничений, охватывающих четыре измерения (а именно: ресурсы, поведение, набор инструментов и ответ). Бенчмарк включает 200 тщательно отобранных сложных тестовых случаев в разнообразных сценариях использования инструментов, каждый из которых в среднем затрагивает семь типов ограничений и имеет среднюю длину промпта, превышающую 4700 токенов. Для обеспечения надежной оценки мы разработали исполняемый модуль валидации ограничений, который выполняет пошаговую проверку и обеспечивает соблюдение правил в ходе многотурового взаимодействия между моделями и их окружением. Мы оценили девять современных LLM в двух режимах: с размышлением и без. Результаты показывают, что при требовании строгого соблюдения всех ограничений ни одна модель не достигает уровня завершения задач выше 20%. Дальнейший анализ reveals, что модели нарушают ограничения более чем в 50% случаев, особенно в измерениях ресурсов и ответа. Более того, LLM демонстрируют ограниченную способность к самокоррекции даже после получения детальной обратной связи о нарушениях ограничений, что указывает на критическое узкое место в разработке надежных агентов, использующих инструменты. Для содействия будущим исследованиям мы публикуем данные и код.
Визуальные базовые модели (VFMs), основанные на архитектуре Vision Transformers (ViTs), демонстрируют выдающиеся результаты в решении разнообразных задач компьютерного зрения, однако страдают от квадратичной сложности, что ограничивает их масштабируемость для длинных последовательностей. Существующие подходы с линейным вниманием для ViTs обычно обучаются с нуля, требуя значительных вычислительных ресурсов, в то время как методы линеаризации, разработанные для декодеров больших языковых моделей, плохо переносятся на ViTs. Для решения этих проблем мы предлагаем ViT-AdaLA — новую структуру для эффективной адаптации и передачи предварительных знаний из VFMs в ViTs с линейным вниманием. ViT-AdaLA состоит из трех этапов: выравнивания внимания, выравнивания признаков и контролируемого дообучения. На этапе выравнивания внимания мы согласуем стандартное линейное внимание с исходным вниманием на основе softmax в каждом блоке, чтобы приблизить его поведение к softmax-вниманию. Однако остаточные ошибки аппроксимации неизбежно накапливаются по слоям. Мы смягчаем это путем дообучения линеаризованного ViT для согласования его признаков на последнем слое с признаками замороженной VFM-учителя с softmax-вниманием. Наконец, адаптированные предварительные знания передаются для решения последующих задач через контролируемое дообучение. Многочисленные эксперименты по классификации и сегментации демонстрируют эффективность и универсальность ViT-AdaLA по сравнению с различными современными аналогами, использующими линейное внимание.
Понимание человека по лидарным облакам точек является одной из наиболее важных задач в автономном вождении из-за ее тесной связи с безопасностью пешеходов, однако она остается сложной в условиях разнообразных взаимодействий человек-объект и загроможденного фона. Тем не менее, существующие методы в значительной степени упускают потенциал использования взаимодействий человек-объект для построения надежных систем оценки 3D позы человека. Существуют две основные проблемы, которые мотивируют включение взаимодействия человек-объект. Во-первых, взаимодействия человек-объект вносят пространственную неоднозначность между точками человека и объекта, что часто приводит к ошибочным прогнозам 3D ключевых точек человека в областях взаимодействия. Во-вторых, существует серьезный дисбаланс классов в количестве точек между взаимодействующими и невзаимодействующими частями тела, причем области частого взаимодействия, такие как кисти рук и стопы, слабо наблюдаются в лидарных данных. Для решения этих проблем мы предлагаем фреймворк Human-Object Interaction Learning (HOIL) для надежной оценки 3D позы человека по лидарным облакам точек. Чтобы смягчить проблему пространственной неоднозначности, мы представляем контрастное обучение с учетом взаимодействия человек-объект (HOICL), которое эффективно усиливает различение признаков между точками человека и объекта, особенно в областях взаимодействия. Для устранения проблемы дисбаланса классов мы вводим контактно-чувствительное пулинговое объединение с учетом частей тела (CPPool), которое адаптивно перераспределяет репрезентативную емкость, сжимая избыточно представленные точки, сохраняя при этом информативные точки от взаимодействующих частей тела. Кроме того, мы представляем опциональное временное уточнение на основе контакта, которое корректирует ошибочные покадровые оценки ключевых точек, используя контактные сигналы во времени. В результате наш HOIL эффективно использует взаимодействие человек-объект для разрешения пространственной неоднозначности и дисбаланса классов в областях взаимодействия. Код будет опубликован.
Маскированные диффузионные модели (MDM) демонстрируют превосходную обобщающую способность при обучении с использованием схемы частичного маскирования (Prime). Этот подход преобразует токены в под-токены и моделирует процесс диффузии на уровне под-токенов. Мы выявляем два ограничения фреймворка MDM-Prime. Во-первых, нам не хватает инструментов для обоснованного выбора гиперпараметра гранулярности токенов в субтокенизаторе. Во-вторых, мы обнаруживаем, что функциональная форма субтокенизатора значительно ухудшает оценку правдоподобия при использовании с широко распространенными токенизаторами Byte-Pair-Encoding (BPE). Для преодоления этих ограничений мы исследуем плотность вариационной границы в MDM-Prime и разрабатываем MDM-Prime-v2 — маскированную диффузионную языковую модель, которая включает в себя двоичное кодирование и перестановку индексов. Наш анализ масштабирования показывает, что MDM-Prime-v2 в 21,8 раза эффективнее по вычислительным затратам, чем авторегрессивные модели (ARM). В вычислительно-оптимальных сравнениях MDM-Prime-v2 достигает перплексии 7,77 на OpenWebText, превосходя показатели ARM (12,99), MDM (18,94) и MDM-Prime (13,41). При увеличении размера модели до 1,1 млрд параметров наша модель дополнительно демонстрирует превосходную точность в условиях zero-shot на различных задачах здравого рассуждения.
Существующие методы генерации 3D-сцен на основе диффузии в основном работают в латентных пространствах 2D-изображений/видео, что изначально затрудняет обеспечение кросс-видовой согласованности внешнего вида и геометрии. Для преодоления этого разрыва мы представляем OneWorld — фреймворк, выполняющий диффузию непосредственно в связном 3D-пространстве представлений. Ключевым элементом нашего подхода является 3D-автокодировщик унифицированного представления (3D-URAE), который использует предварительно обученные 3D-фундаментальные модели и дополняет их геометрически-центричную природу путем внедрения информации о внешнем виде и дистилляции семантики в единое 3D-латентное пространство. Кроме того, мы вводим функцию потерь согласованности кросс-видового соответствия (CVC) на уровне токенов для явного принудительного структурного выравнивания между видами и предлагаем метод принудительного дрейфа многообразия (MDF) для снижения смещения экспозиции между обучением и выводом, а также для формирования устойчивого 3D-многообразия путем смешивания смещенных и исходных представлений. Комплексные эксперименты демонстрируют, что OneWorld генерирует высококачественные 3D-сцены с превосходной кросс-видовой согласованностью по сравнению с передовыми методами на основе 2D. Наш код будет доступен по адресу https://github.com/SensenGao/OneWorld.
Мы представляем Polyglot-Lion — семейство компактных многоязычных моделей автоматического распознавания речи (ASR), адаптированных для языкового ландшафта Сингапура и охватывающих английский, китайский (мандарин), тамильский и малайский языки. Наши модели получены путем дообучения моделей Qwen3-ASR-0.6B и Qwen3-ASR-1.7B исключительно на общедоступных речевых корпусах с использованием сбалансированной стратегии выборки, которая уравнивает количество обучающих высказываний для каждого языка и намеренно исключает conditioning по языковым меткам, чтобы модель научилась неявно определять язык по аудио. На 12 тестовых наборах данных, охватывающих четыре целевых языка, модель Polyglot-Lion-1.7B демонстрирует средний уровень ошибок 14.85%, что сопоставимо с результатами модели MERaLiON-2-10B-ASR (14.32%) — которая в 6 раз больше — при этом стоимость обучения составила всего $81 на одной видеокарте RTX PRO 6000 по сравнению с $18,862 для базового варианта на 128 GPU. Пропускная способность при выводе примерно в 20 раз выше, чем у MERaLiON: 0.10 с/выборку против 2.02 с/выборку. Эти результаты демонстрируют, что лингвистически сбалансированное дообучение моделей умеренного масштаба, предварительно обученных на больших данных, позволяет получить готовые к развертыванию многоязычные системы ASR за малую долю стоимости более крупных специализированных систем.
Диффузионные модели функционируют в рефлекторном режиме Системы 1, ограниченные фиксированным, не зависящим от контента расписанием сэмплирования. Эта ригидность возникает из-за проклятия размерности состояния, когда комбинаторный взрыв возможных состояний в высокоразмерном шумовом многообразии делает явное планирование траектории неразрешимой задачей и приводит к систематическому нерациональному распределению вычислительных ресурсов. Для решения этой проблемы мы представляем Chain-of-Trajectories (CoTj) — не требующий дообучения фреймворк, обеспечивающий обдумывающее планирование Системы 2. Ключевым элементом CoTj является Diffusion DNA — низкоразмерная сигнатура, которая количественно оценивает сложность удаления шума на каждом этапе и служит прокси для высокоразмерного пространства состояний, позволяя переформулировать сэмплирование как задачу планирования на графе, представленном в виде направленного ациклического графа. Используя парадигму «Предсказать-Спланировать-Выполнить», CoTj динамически распределяет вычислительные усилия на наиболее сложные фазы генерации. Эксперименты с различными генеративными моделями демонстрируют, что CoTj обнаруживает контекстно-зависимые траектории, улучшая качество и стабильность выходных данных при одновременном сокращении избыточных вычислений. Данная работа закладывает новую основу для ресурсно-эффективного, основанного на планировании диффузионного моделирования. Код доступен по адресу https://github.com/UnicomAI/CoTj.
Системы с расширением генерации за счет поиска (RAG) сталкиваются с трудностями при обработке сложных многошаговых вопросов, и для решения этих сложностей были предложены агентские фреймворки, такие как Search-R1 (Jin et al., 2025), работающие итеративно. Однако такие подходы могут приводить к неэффективности, включая повторное извлечение ранее обработанной информации и трудности с эффективной контекстуализацией полученных результатов в рамках текущего промпта генерации. Эти проблемы могут вызывать избыточные циклы поиска, неоптимальные рассуждения, неточные ответы и повышенное потребление токенов. В данной статье мы исследуем модификации конвейера Search-R1 на этапе тестирования для смягчения выявленных недостатков. В частности, мы изучаем интеграцию двух компонентов и их комбинацию: модуля контекстуализации для лучшего включения релевантной информации из найденных документов в процесс рассуждения и модуля дедупликации, который заменяет ранее извлеченные документы следующими по релевантности. Мы оцениваем наши подходы на наборах данных HotpotQA (Yang et al., 2018) и Natural Questions (Kwiatkowski et al., 2019), сообщая показатель точного совпадения (EM), оценку корректности ответов с помощью LLM-as-a-Judge и среднее количество циклов. Наша наиболее эффективная модификация, использующая GPT-4.1-mini для контекстуализации, демонстрирует увеличение показателя EM на 5,6% и сокращение количества циклов на 10,5% по сравнению с базовым уровнем Search-R1, что свидетельствует о повышении точности ответов и эффективности поиска.
Мы представляем HistoAtlas — пан-раковый вычислительный атлас, который извлекает 38 интерпретируемых гистологических признаков из 6745 диагностических срезов, окрашенных гематоксилином и эозином (H&E), по 21 типу рака из базы данных TCGA и систематически связывает каждый признак с выживаемостью, экспрессией генов, соматическими мутациями и иммунными подтипами. Все ассоциации скорректированы на ковариаты, поправлены на множественное тестирование и классифицированы по уровням достоверности доказательств. Атлас воспроизводит известные биологические процессы, от иммунной инфильтрации и прогноза до пролиферации и киназной сигнализации, одновременно выявляя компартмент-специфические иммунные сигналы и морфологические подтипы с различными исходами. Каждый результат может быть пространственно отслежен до тканевых компартментов и отдельных клеток, статистически калиброван и открыт для запросов. HistoAtlas позволяет проводить систематическое обнаружение биомаркеров в крупных масштабах на основе рутинных срезов H&E без необходимости специального окрашивания или секвенирования. Данные и интерактивный веб-атлас свободно доступны по адресу https://histoatlas.com.
Химические языковые модели (ХЯМ) зарекомендовали себя как перспективные конкуренты популярным классическим моделям машинного обучения для задач прогнозирования молекулярных свойств (ПМС). Однако все большее количество исследований сообщает о противоречивых и несогласованных результатах относительно производительности ХЯМ в различных бенчмарк-задачах ПМС. В данном исследовании мы проводим и анализируем сотни тщательно контролируемых экспериментов, чтобы систематически изучить влияние различных факторов, таких как объем набора данных, размер модели и стандартизация, на производительность ХЯМ на этапах предварительного обучения и тонкой настройки для задач ПМС. В условиях отсутствия устоявшихся законов масштабирования для кодировочных моделей с маскированием языка наша цель — предоставить всесторонние численные доказательства и более глубокое понимание механизмов, влияющих на производительность ХЯМ для задач ПМС, некоторые из которых, судя по всему, полностью игнорируются в литературе.
Крупномасштабный захват земель под спекулятивное мега-развитие представляет собой неравновесный пространственный процесс, скорость, топология и необратимость которого остаются слабо количественно оцененными. Мы исследуем прибрежный мега-проект Пантаи Индах Капук 2 (PIK2) к северу от Джакарты, Индонезия, используя восьмилетние (2017–2024 гг.) данные дистанционного зондирования Sentinel-2 о землепользовании и покрове земель (LULC) с разрешением 10 метров. Ландшафт проецируется на марксовский вероятностный симплекс, разделяющий наземные пиксели на доли Общего, Аграрного и Капитала. Геодезические расстояния Фишера–Рао на этом симплексе выявляют импульс преобразования величиной 0,405 рад/год в период 2019–2020 гг., совпадающий с активной фазой строительства. Анализ с помощью поглощающей цепи Маркова дает ожидаемое время поглощения в застроенную среду: 46,0 лет для пахотных земель и 38,1 лет для древесного покрова, при общей скорости самосохранения застроенной площади 96,4%. Анализ перколяции показывает, что гигантская связная компонента, содержащая 89–95% всех застроенных пикселей, сохраняется при вероятностях занятости p в диапазоне [0,096, 0,162], что значительно ниже порога случайной перколяции p_c ≈ 0,593, что указывает на плановый, а не стохастический пространственный рост. Фрактальная размерность городской границы, рассчитанная методом подсчета ячеек, увеличивается с d_f = 1,316 до 1,397, что согласуется с усилением неправильности расширения фронтира. Эти результаты позволяют предположить, что информационно-геометрические и статистико-механические инструменты могут с количественной точностью характеризовать кинематические и топологические сигнатуры капиталистического пространственного накопления.