Ежедневно отобранные исследовательские статьи по ИИ с переводами
Иерархическая модель рассуждений (Hierarchical Reasoning Model, HRM) представляет собой новый подход, использующий две небольшие нейронные сети, работающие на разных частотах. Этот биологически вдохновленный метод превосходит крупные языковые модели (Large Language Models, LLMs) в сложных задачах, таких как судоку, лабиринты и ARC-AGI, при этом обучаясь на небольших моделях (27 миллионов параметров) и малых объемах данных (около 1000 примеров). HRM демонстрирует значительный потенциал для решения сложных задач с использованием небольших сетей, однако она еще недостаточно изучена и может быть неоптимальной. Мы предлагаем Tiny Recursive Model (TRM) — значительно более простой подход к рекурсивным рассуждениям, который достигает существенно более высокой обобщающей способности, чем HRM, используя при этом одну крошечную сеть всего с двумя слоями. С всего 7 миллионами параметров TRM достигает 45% точности на тестовых данных ARC-AGI-1 и 8% на ARC-AGI-2, что выше, чем у большинства LLM (например, Deepseek R1, o3-mini, Gemini 2.5 Pro), при использовании менее 0,01% параметров.
Обучение с подкреплением, ориентированное на результат, значительно продвинуло способность к рассуждению в больших языковых моделях (LLM), однако преобладающие подходы, использующие инструменты, обучают единую монолитную политику, которая чередует мысли и вызовы инструментов в полном контексте; это плохо масштабируется для длительных горизонтов и разнообразных инструментов и слабо обобщается на новые сценарии. Агентские системы предлагают многообещающую альтернативу, распределяя работу между специализированными модулями, однако большинство из них остаются без обучения или полагаются на оффлайн-обучение, оторванное от динамики многократного взаимодействия в реальном времени. Мы представляем AgentFlow, обучаемую агентскую структуру, которая координирует четыре модуля (планировщик, исполнитель, верификатор, генератор) через развивающуюся память и напрямую оптимизирует свой планировщик внутри цикла многократного взаимодействия. Для обучения в реальных средах мы предлагаем Flow-based Group Refined Policy Optimization (Flow-GRPO), который решает проблему распределения кредита для длительных горизонтов и редких наград, преобразуя многократную оптимизацию в последовательность управляемых обновлений политики для каждого шага. Он передает единый, проверяемый результат на уровне траектории на каждый шаг, чтобы согласовать локальные решения планировщика с глобальным успехом, и стабилизирует обучение с помощью групповой нормализации преимуществ. На десяти тестовых наборах AgentFlow с базовой моделью масштаба 7B превосходит лучшие базовые подходы с увеличением средней точности на 14,9% для задач поиска, 14,0% для агентских задач, 14,5% для математических задач и 4,1% для научных задач, даже опережая более крупные проприетарные модели, такие как GPT-4o. Дополнительные анализы подтверждают преимущества оптимизации в реальном времени, демонстрируя улучшенное планирование, повышенную надежность вызовов инструментов и положительное масштабирование с увеличением размера модели и количества шагов рассуждения.
Интегрированное использование инструментов для рассуждений стало ключевым направлением для создания агентных приложений. Среди них DeepResearch Agents привлекли значительное внимание благодаря своей высокой производительности на сложных, открытых задачах поиска информации. Мы представляем Fathom-DeepResearch, агентную систему, состоящую из двух специализированных моделей. Первая — это Fathom-Search-4B, модель DeepSearch, обученная на основе Qwen3-4B и оптимизированная для доказательного исследования через живой поиск в интернете и целенаправленный запрос веб-страниц. Ее обучение объединяет три новшества: (i) DUETQA, набор данных из 5 тысяч примеров, сгенерированный с помощью мультиагентного самообучения, который обеспечивает строгую зависимость от веб-поиска и разнородное заземление источников; (ii) RAPO, расширение GRPO с нулевыми накладными расходами, стабилизирующее многократное обучение с подкреплением с проверяемыми наградами через учебное сокращение, масштабирование преимуществ с учетом наград и буферы воспроизведения для каждого запроса; и (iii) управляемая пошаговая награда, классифицирующая каждый вызов инструмента по когнитивному поведению и предельной полезности, что позволяет явно контролировать широту, глубину и горизонт поисковой траектории. Эти улучшения позволяют надежно расширять количество вызовов инструментов до более чем 20, когда это необходимо. Вторая модель — Fathom-Synthesizer-4B, обученная на основе Qwen3-4B, которая преобразует многократные трассы DeepSearch в структурированные, насыщенные цитатами отчеты DeepResearch для комплексного синтеза. Оцененная на бенчмарках DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) и DeepResearch-Bench, система демонстрирует передовые результаты в категории открытых весов, а также сильную обобщаемость для разнообразных задач рассуждения, включая HLE, AIME-25, GPQA-Diamond и MedQA.
Модели вознаграждения за процесс (Process Reward Models, PRMs) недавно появились как мощный инструмент для улучшения способностей к рассуждению у крупных моделей рассуждений (Large Reasoning Models, LRMs), особенно в контексте масштабирования на этапе тестирования (Test-Time Scaling, TTS). Однако их потенциал для контроля LRMs в задачах табличного рассуждения остается недостаточно изученным. В ходе детального эмпирического анализа мы выявили, что существующие PRMs, хотя и широко применяются для контроля текстовых шагов рассуждения, испытывают трудности с операциями, специфичными для таблиц, такими как извлечение подтаблиц и взаимодействие со схемами, что приводит к серьезным ограничениям в производительности. Чтобы устранить этот недостаток, мы предлагаем TaTToo — новую PRM-модель, основанную на таблицах, которая (i) явно рассуждает на основе шагов табличного рассуждения и (ii) интегрирует инструментальную проверку для обеспечения точного контроля вознаграждения. Конкретно, мы сначала разрабатываем масштабируемый конвейер подготовки данных, который создает более 60 тысяч высококачественных аннотаций на уровне шагов, объединяя обоснования проверки таблиц с инструментальным выполнением. На основе собранных данных мы обучаем TaTToo с использованием двухэтапной парадигмы: начальное тонкое обучение с учителем для улавливания паттернов рассуждения с использованием инструментов, за которым следует обучение с подкреплением с формированием вознаграждения на основе инструментов для согласования модели с табличной проверкой. Мы проводим всестороннюю оценку улучшений политики, вызванных нашей новой PRM. На пяти сложных тестах табличного рассуждения, охватывающих численные рассуждения, проверку фактов и анализ данных, TaTToo улучшает производительность LRMs на 30,9% на этапе вывода, превосходит сильные базовые PRM, такие как Qwen-2.5-Math-PRM-72B, имея всего 8 миллиардов параметров, и демонстрирует высокую обобщаемость для различных стратегий TTS.
Авторегрессивные (AR) большие языковые модели (LLM) достигли выдающихся результатов в широком спектре задач обработки естественного языка, однако их присущее последовательное декодирование ограничивает эффективность вывода. В данной работе мы представляем Fast-dLLM v2 — тщательно разработанную блочную диффузионную языковую модель (dLLM), которая эффективно адаптирует предобученные AR-модели для параллельной генерации текста, требуя всего около 1 млрд токенов для тонкой настройки. Это представляет собой 500-кратное сокращение объема обучающих данных по сравнению с диффузионными LLM с полным вниманием, такими как Dream (580 млрд токенов), при сохранении производительности исходной модели. Наш подход включает новый метод обучения, который сочетает механизм блочной диффузии с дополнительной маской внимания, позволяя моделировать двунаправленный контекст по блокам без ущерба для целей AR-обучения. Для дальнейшего ускорения декодирования мы разработали иерархический механизм кэширования: кэш на уровне блоков, который сохраняет представления исторического контекста между блоками, и кэш на уровне подблоков, обеспечивающий эффективную параллельную генерацию внутри частично декодированных блоков. В сочетании с нашим конвейером параллельного декодирования Fast-dLLM v2 достигает ускорения до 2,5 раз по сравнению со стандартным AR-декодированием без ущерба для качества генерации. Многочисленные эксперименты на различных бенчмарках демонстрируют, что Fast-dLLM v2 соответствует или превосходит базовые AR-модели по точности, обеспечивая при этом передовую эффективность среди dLLM — что представляет собой значительный шаг к практическому внедрению быстрых и точных LLM. Код и модель будут опубликованы в открытом доступе.
Диффузионные языковые модели обещают двусторонний контекст и возможности заполнения пробелов, которых не хватает авторегрессивным кодировщикам, однако практические системы остаются ресурсоемкими. Мы представляем CoDA — диффузионный кодировщик с 1,7 миллиардами параметров, обученный на TPU с полностью открытым конвейером обучения. CoDA сочетает масштабное диффузионное предварительное обучение с промежуточным обучением, ориентированным на код, и настройкой по инструкциям, что позволяет использовать выборку с учетом уверенности, сохраняя конкурентоспособную задержку при выводе. На наборах данных Humaneval, MBPP и EvalPlus CoDA-1.7B-Instruct соответствует или превосходит диффузионные модели с параметрами до 7 миллиардов. Наш релиз включает контрольные точки модели, инструменты для оценки и конвейеры обучения на TPU, чтобы ускорить исследования в области легковесных диффузионных помощников для кодирования.
Диффузионные и flow-based неавторегрессивные (NAR) модели продемонстрировали значительный потенциал в задачах моделирования больших языков, однако их возможности для автоматического распознавания речи (ASR) остаются в значительной степени неисследованными. Мы предлагаем Drax — дискретный фреймворк flow matching для ASR, который обеспечивает эффективное параллельное декодирование. Для лучшего согласования обучения и вывода мы строим аудио-условный вероятностный путь, который направляет модель через траектории, напоминающие вероятные промежуточные ошибки вывода, вместо прямых переходов от случайного шума к целевым состояниям. Наш теоретический анализ связывает разрыв в обобщении с расхождениями между распределениями данных в обучении и выводе, контролируемыми кумулятивными ошибками скорости, что мотивирует наш выбор архитектуры. Эмпирическая оценка показывает, что наш подход достигает точности распознавания, сопоставимой с современными моделями речи, при этом предлагая улучшенный баланс между точностью и эффективностью, что подчеркивает дискретное flow matching как перспективное направление для развития NAR ASR.
Модели рассуждений повышают производительность, решая задачи пошагово, разбивая их на подзадачи и исследуя длинные цепочки мыслей перед выдачей ответа. Однако применение расширенного рассуждения к каждому шагу вносит значительную избыточность, поскольку подзадачи сильно различаются по сложности: небольшое количество ключевых шагов действительно являются сложными и решающими для конечного ответа, в то время как многие другие требуют лишь простых пересмотров или элементарных вычислений. Поэтому естественной идеей является наделение моделей рассуждений способностью адаптивно реагировать на это разнообразие, а не одинаково детализировать все шаги. В связи с этим мы предлагаем MixReasoning — фреймворк, который динамически регулирует глубину рассуждений в рамках одного ответа. В результате цепочка мыслей становится смесью детализированных рассуждений на сложных шагах и кратких выводов на более простых. Эксперименты на наборах данных GSM8K, MATH-500 и AIME показывают, что MixReasoning сокращает длину рассуждений и существенно повышает эффективность без ущерба для точности.
Способность к рассуждению является ключевой для больших языковых моделей (LLM) при решении сложных задач, однако достижение надежного и масштабируемого рассуждения остается сложной задачей. Хотя метод Chain-of-Thought (CoT) стал основным подходом, существующие методы часто страдают от неконтролируемой генерации, недостаточного качества и ограниченного разнообразия путей рассуждения. Недавние исследования используют код для улучшения CoT, основывая рассуждения на исполняемых шагах, но такие методы обычно ограничены предопределенными математическими задачами, что препятствует масштабируемости и обобщаемости. В данной работе мы предлагаем Caco (Code-Assisted Chain-of-ThOught), новый фреймворк, который автоматизирует синтез высококачественных, проверяемых и разнообразных данных для рассуждений на основе инструкций и CoT с помощью кодовой аугментации. В отличие от предыдущих работ, Caco сначала дообучает генератор CoT на основе кода на существующих математических и программных решениях в унифицированном формате кода, затем масштабирует генерацию данных до большого количества разнообразных траекторий рассуждений. Ключевым моментом является введение автоматической проверки через исполнение кода и фильтрацию на основе правил для обеспечения логической корректности и структурного разнообразия, после чего отфильтрованные результаты преобразуются обратно в инструкции на естественном языке и языковые CoT для повышения адаптивности задач. Этот замкнутый процесс позволяет полностью автоматизировать и масштабировать синтез данных для рассуждений с гарантированной исполняемостью. Эксперименты на созданном наборе данных Caco-1.3M демонстрируют, что модели, обученные с использованием Caco, достигают высокой конкурентоспособной производительности на бенчмарках математических рассуждений, превосходя существующие сильные базовые методы. Дополнительный анализ показывает, что кодовая проверка и разнообразие инструкций в Caco способствуют лучшей обобщаемости на невидимых задачах. Наша работа устанавливает парадигму для создания самоподдерживающихся и надежных систем рассуждений без вмешательства человека.
Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в задачах однократного преобразования текста в SQL, однако реальные приложения баз данных преимущественно требуют многошаговых взаимодействий для обработки неоднозначных запросов, ошибок выполнения и изменяющихся требований пользователей. Существующие бенчмарки для многошаговых взаимодействий не соответствуют реальным условиям, рассматривая историю диалога как статический контекст или ограничивая оценку операциями только для чтения, что не отражает сложностей, с которыми сталкиваются ассистенты баз данных в производственной среде. Мы представляем BIRD-INTERACT — бенчмарк, который восстанавливает реализм за счет: (1) комплексной среды взаимодействия, объединяющей каждую базу данных с иерархической базой знаний, метаданными и симулятором пользователя, управляемым функциями, что позволяет моделям запрашивать уточнения, извлекать знания и восстанавливаться после ошибок без участия человека; (2) двух режимов оценки, включающих предопределенный протокол взаимодействия (c-Interact) и открытый агентский режим (a-Interact), где модели самостоятельно решают, когда обращаться к симулятору пользователя или исследовать среду; (3) сложного набора задач, охватывающего весь спектр CRUD для бизнес-аналитики и операционных сценариев, защищенных исполняемыми тестовыми случаями. Каждая задача включает неоднозначные и последующие подзадачи, требующие динамического взаимодействия. Набор включает BIRD-INTERACT-FULL (600 задач, до 11 796 взаимодействий) для всесторонней оценки производительности и BIRD-INTERACT-LITE (300 задач с упрощенными базами данных) для детального анализа поведения и быстрой разработки методов. Наши эмпирические результаты подчеркивают сложность BIRD-INTERACT: GPT-5 завершает только 8,67% задач в c-Interact и 17,00% в a-Interact. Анализ с использованием методов memory grafting и Interaction Test-time Scaling подтверждает важность эффективного взаимодействия для сложных и динамических задач преобразования текста в SQL.
Генерация 4D-форм на основе видео направлена на восстановление изменяющейся во времени 3D-геометрии и согласованного по виду внешнего облика непосредственно из входного видео. В данной работе мы представляем нативную структуру для генерации 4D-форм из видео, которая синтезирует единое динамическое 3D-представление напрямую из видео. Наша структура включает три ключевых компонента, основанных на крупномасштабных предобученных 3D-моделях: (i) временное внимание, которое учитывает все кадры при генерации, создавая динамическое представление с временной индексацией; (ii) временно-осознанная выборка точек и 4D-латентная привязка, способствующие временной согласованности геометрии и текстуры; и (iii) совместное использование шума между кадрами для повышения временной стабильности. Наш метод точно захватывает нежесткое движение, изменения объема и даже топологические переходы без оптимизации для каждого кадра. На разнообразных видео из реального мира наш метод повышает устойчивость и перцептивную точность, а также уменьшает количество ошибок по сравнению с базовыми подходами.
Современные методы пост-обучения крупных языковых моделей (LLM) опираются на механизмы обрезки на уровне токенов в процессе обучения с подкреплением (RL). Однако мы выявили фундаментальный недостаток в этой парадигме RL с контролем по результатам (OSRL): коэффициенты важности (IS) для токенов с положительным преимуществом оказываются несогласованными, что приводит к дисбалансу в весовых коэффициентах для положительных и отрицательных токенов. Это несоответствие подавляет обновление токенов с низкой вероятностью, одновременно чрезмерно усиливая уже высоковероятные токены. Для решения этой проблемы мы предлагаем метод оптимизации политики с асимметричным взвешиванием важности (ASPO), который использует простую, но эффективную стратегию, инвертирующую коэффициенты IS для токенов с положительным преимуществом, согласуя направление их обновления с динамикой обучения отрицательных токенов. ASPO также включает мягкий механизм двойной обрезки для стабилизации экстремальных обновлений при сохранении потока градиентов. Комплексные эксперименты на тестах по программированию и математическому рассуждению демонстрируют, что ASPO значительно снижает преждевременную сходимость, улучшает стабильность обучения и повышает итоговую производительность по сравнению с сильными базовыми методами на основе GRPO. Наш анализ предоставляет новые инсайты о роли взвешивания на уровне токенов в OSRL и подчеркивает критическую важность корректировки IS в RL для LLM. Код и модели ASPO доступны по адресу https://github.com/wizard-III/Archer2.0.
Продвижение научных статей стало важным средством повышения видимости исследований. Однако существующие автоматизированные методы сталкиваются с ограниченным повествованием, недостаточным эстетическим качеством и ограниченной способностью к самонастройке, что затрудняет эффективное и увлекательное распространение. В основе этих проблем лежит простой принцип: невозможно улучшить то, что нельзя правильно оценить. Для решения этой задачи мы представляем EvoPresent — фреймворк для самообучающегося агента, который объединяет последовательные повествования, эстетически осознанный дизайн и реалистичную подачу через виртуальных персонажей. Ключевым элементом EvoPresent является PresAesth — многозадачная модель эстетики на основе обучения с подкреплением (RL), которая обеспечивает надежную оценку эстетики, корректировку дефектов и сравнительную обратную связь, что позволяет осуществлять итеративное самообучение даже при ограниченных данных для эстетической тренировки. Для систематической оценки методов мы представляем EvoPresent Benchmark — всеобъемлющий бенчмарк, включающий: Качество генерации презентаций, основанный на 650 лучших статьях с конференций по ИИ с мультимодальными ресурсами (слайды, видео и сценарии) для оценки как содержания, так и дизайна; и Эстетическое восприятие, состоящее из 2000 пар слайдов с различным уровнем эстетики, поддерживающее совместное обучение и оценку по шкалированию, корректировке дефектов и сравнению. Наши результаты показывают, что (i) Высококачественная обратная связь необходима для самообучения агента, тогда как начальные способности сами по себе не гарантируют эффективной самокоррекции. (ii) Автоматизированные процессы генерации демонстрируют компромисс между визуальным дизайном и построением контента. (iii) Многозадачное обучение с подкреплением показывает более сильную обобщаемость в задачах эстетического восприятия.
Последние достижения в области генеративных медицинских моделей ограничены сценариями, специфичными для отдельных модальностей, что затрудняет интеграцию дополнительных данных из визуализации, патологии и клинических записей. Эта фрагментация ограничивает их развитие в фундаментальные модели, способные обучаться и рассуждать на основе всего спектра биомедицинских данных. Мы предлагаем MeDiM — первую медицинскую модель с дискретным диффузионным процессом, которая изучает общие распределения для различных модальностей без использования специфичных для них компонентов. MeDiM объединяет несколько генеративных задач: перевод между изображениями и текстом, а также совместное создание пар изображение-отчет в различных областях в ответ на запросы. Основанная на дискретном диффузионном подходе, MeDiM связывает визуальные и языковые представления через общее вероятностное пространство. Для обеспечения универсальной и гибкой медицинской генерации мы используем мультимодальную крупную языковую модель (MLLM) в качестве основы для диффузии, используя её предварительные знания и способность к кросс-модальным рассуждениям. Введены два ключевых решения: (1) удаление маски каузального внимания для двунаправленного контекста и (2) внедрение непрерывных временных вложений для осознания диффузии. Эксперименты демонстрируют высококачественную медицинскую генерацию (FID 16.60 на MIMIC-CXR и FID 24.19 на PathGen) и точное создание отчетов (METEOR 0.2650 и 0.2580). Совместно сгенерированные пары изображение-отчет дополнительно улучшают производительность на последующих этапах (плюс 6.43% BLEU-1, плюс 18.57% BLEU-2, плюс 31.58% BLEU-3, плюс 4.80% METEOR), что показывает, что MeDiM поддерживает согласованные и клинически обоснованные мультимодальные результаты.
Мультимодальные большие языковые модели (MLLM) недавно достигли значительного прогресса в радиологии, объединяя визуальное восприятие с пониманием естественного языка. Однако они часто генерируют клинически неподтвержденные описания, известные как медицинские галлюцинации, которые представляют серьезные риски в медицинских приложениях, требующих точности и выводов, основанных на изображениях. Эмпирический анализ показывает, что галлюцинации, вызванные промптами, остаются распространенными в радиологических MLLM, в основном из-за чрезмерной чувствительности к клиническим разделам. Для решения этой проблемы мы представляем Clinical Contrastive Decoding (CCD) — легковесный и не требующий обучения или поиска фреймворк для вывода, который интегрирует структурированные клинические сигналы от экспертных моделей, специфичных для задач радиологии. CCD вводит двухэтапный контрастный механизм для уточнения логарифмических вероятностей на уровне токенов в процессе генерации, тем самым повышая клиническую достоверность без изменения базовой MLLM. Эксперименты на трех наборах данных и нескольких моделях демонстрируют, что CCD последовательно улучшает общую производительность в задаче генерации радиологических отчетов (RRG). На наборе данных MIMIC-CXR он обеспечивает улучшение до 17% по метрике RadGraph-F1 при применении к современным моделям RRG. Наш подход предлагает легковесное и универсальное решение для снижения медицинских галлюцинаций, эффективно объединяя экспертные модели и MLLM в радиологии.
Мы представляем OneFlow — первую неавторегрессивную мультимодальную модель, которая позволяет осуществлять генерацию переменной длины и одновременное смешанно-модальное создание. В отличие от авторегрессивных моделей, которые накладывают строгую причинно-следственную последовательность между генерацией текста и изображения, OneFlow сочетает в себе Edit Flow на основе вставок для дискретных текстовых токенов и Flow Matching для латентных представлений изображений. OneFlow обеспечивает одновременный синтез текста и изображения с использованием иерархической выборки, которая отдает приоритет содержанию перед грамматикой. В ходе контролируемых экспериментов с размерами моделей от 1B до 8B мы демонстрируем, что OneFlow превосходит авторегрессивные базовые модели как в задачах генерации, так и в задачах понимания, при этом используя до 50% меньше FLOPs для обучения. OneFlow превосходит как авторегрессивные, так и диффузионные подходы, открывая новые возможности для одновременной генерации, итеративного уточнения и генерации, напоминающей естественное рассуждение.
Ключевым компонентом контекстного рассуждения является способность языковых моделей (ЯМ) связывать сущности для последующего извлечения. Например, ЯМ может представить утверждение "Анна любит пирог", связав "Анну" с "пирогом", что позволяет ей впоследствии извлечь "Анну" в ответ на вопрос "Кто любит пирог?". Предыдущие исследования, посвящённые коротким спискам связанных сущностей, обнаружили убедительные доказательства того, что ЯМ реализуют такое извлечение с помощью позиционного механизма, где "Анна" извлекается на основе её позиции в контексте. В данной работе мы обнаруживаем, что этот механизм плохо обобщается на более сложные сценарии: по мере увеличения числа связанных сущностей в контексте позиционный механизм становится шумным и ненадёжным для средних позиций. Чтобы компенсировать это, мы выясняем, что ЯМ дополняют позиционный механизм лексическим механизмом (извлечение "Анны" с использованием связанной с ней сущности "пирог") и рефлексивным механизмом (извлечение "Анны" через прямой указатель). В ходе обширных экспериментов на девяти моделях и десяти задачах связывания мы выявляем устойчивую закономерность в том, как ЯМ комбинируют эти механизмы для управления поведением модели. Используя эти инсайты, мы разрабатываем причинную модель, объединяющую все три механизма, которая оценивает распределения следующих токенов с 95% согласованностью. Наконец, мы показываем, что наша модель обобщается на значительно более длинные входные данные, состоящие из открытого текста, перемежающегося группами сущностей, что дополнительно демонстрирует устойчивость наших выводов в более естественных условиях. В целом, наше исследование формирует более полное представление о том, как ЯМ связывают и извлекают сущности в контексте.
Преобладающие методы обучения больших языковых моделей (LLM) в качестве текстовых энкодеров основываются на контрастных функциях потерь, которые рассматривают модель как черный ящик, отбрасывая её генеративные и логические способности в пользу статических эмбэддингов. Мы представляем GRACE (Generative Representation Learning via Contrastive Policy Optimization) — новый фреймворк, который переосмысливает контрастные сигналы не как потери, которые нужно минимизировать, а как награды, направляющие генеративную политику. В GRACE LLM выступает в роли политики, которая создает явные, интерпретируемые человеком рациональные объяснения — структурированные естественно-языковые объяснения её семантического понимания. Эти объяснения затем кодируются в высококачественные эмбэддинги с помощью усреднения (mean pooling). Используя оптимизацию методом градиента политики, мы обучаем модель с многокомпонентной функцией награды, которая максимизирует сходство между положительными парами запросов и минимизирует сходство с отрицательными. Это превращает LLM из непрозрачного энкодера в интерпретируемого агента, чей процесс рассуждения прозрачен и доступен для анализа. На бенчмарке MTEB GRACE демонстрирует значительные улучшения в различных категориях: в среднем по четырем базовым моделям, контролируемая настройка улучшает общий показатель на 11.5% по сравнению с базовыми моделями, а неконтролируемый вариант добавляет 6.9%, сохраняя при этом общие способности. Эта работа рассматривает контрастные цели как награды за рациональные объяснения, объединяя обучение представлений с генерацией для создания более сильных эмбэддингов и прозрачных объяснений. Модель, данные и код доступны по адресу https://github.com/GasolSun36/GRACE.
Мы представляем Human3R — унифицированную прямую (feed-forward) систему для онлайн-реконструкции 4D-человека и сцены в мировых координатах на основе монохромных видео, снятых в произвольных условиях. В отличие от предыдущих подходов, которые полагаются на многоэтапные конвейеры, итеративную оптимизацию с учетом контактов между людьми и сценой, а также на ресурсоемкие зависимости, такие как детекция людей, оценка глубины и предварительная обработка SLAM, Human3R совместно восстанавливает глобальные SMPL-X модели нескольких людей («всех»), плотную 3D-сцену («всю») и траектории камеры за один прямой проход («все сразу»). Наш метод основан на модели онлайн-реконструкции 4D CUT3R и использует параметрически эффективную настройку визуальных подсказок (visual prompt tuning), чтобы сохранить богатые пространственно-временные априорные знания CUT3R, одновременно обеспечивая прямое извлечение нескольких SMPL-X моделей. Human3R — это унифицированная модель, которая устраняет ресурсоемкие зависимости и итеративную оптимизацию. После обучения на относительно небольшом синтетическом наборе данных BEDLAM всего за один день на одном GPU она демонстрирует превосходную производительность с высокой эффективностью: реконструирует нескольких людей за один проход вместе с 3D-сценой в одном этапе, работая в реальном времени (15 кадров в секунду) с низким потреблением памяти (8 ГБ). Многочисленные эксперименты показывают, что Human3R обеспечивает передовые или конкурентоспособные результаты в различных задачах, включая глобальную оценку движения человека, локальное восстановление сетки человека, оценку глубины видео и оценку позы камеры, используя единую унифицированную модель. Мы надеемся, что Human3R станет простым, но мощным базовым решением, которое легко расширять для последующих приложений. Код доступен по адресу: https://fanegg.github.io/Human3R.
Современные модели обработки естественного языка достигли беспрецедентного масштаба, однако инструменты для их оценки часто остаются вычислительным узким местом, ограничивая темпы исследований. Это особенно актуально для метрик, используемых во время обучения, таких как сигналы вознаграждения на уровне предложений в обучении с подкреплением, которые должны эффективно работать с пакетами идентификаторов токенов непосредственно на GPU. В данной статье мы представляем TensorBLEU — новую реализацию метрики BLEU, разработанную с нуля для этого конкретного случая использования. Наш подход полностью векторизован для ускоренных вычислений на GPU на уровне предложений в рамках PyTorch и включает в себя механизм подсчета, оптимизированный по использованию памяти. Создавая компактный, специфичный для пакета словарь n-грамм с использованием torch.unique, наш метод избегает непомерных затрат памяти, характерных для традиционной векторизации на основе хэширования, что делает его практичным для моделей с большим словарным запасом. Мы сравниваем TensorBLEU с NLTK — стандартной библиотекой для расчета BLEU на основе идентификаторов токенов на CPU. Эксперименты показывают, что TensorBLEU обеспечивает ускорение более чем в 13 раз на потребительских GPU (NVIDIA T4) и превышает 40 раз на оборудовании класса дата-центров (NVIDIA A100). Такая производительность превращает значительное узкое место в незначительную часть цикла обучения. Четко определив свою роль как "Token-ID BLEU" для целей разработки и открыв исходный код нашей реализации, мы предоставляем мощный инструмент для ускорения исследований в таких областях, как тонкая настройка моделей на основе обучения с подкреплением.
Контекстное ранжирование (In-context Ranking, ICR) — это новая парадигма в области информационного поиска (Information Retrieval, IR), которая использует контекстное понимание больших языковых моделей (LLM), напрямую включая описание задачи, кандидатные документы и запрос во входной промт модели, поручая LLM определить релевантные документы. Хотя этот подход эффективен, его производительность становится значительной проблемой, особенно при увеличении списка кандидатов из-за квадратичного или суперлинейного масштабирования операции внимания (attention) с длиной контекста. В связи с этим данная работа сначала выявляет внутренние и пригодные для использования структуры в механизме внимания LLM, дообученных для ICR: (1) разреженность между блоками документов: внимание плотное внутри каждого блока документа, но разреженное между разными документами в контексте; и (2) релевантность блока документа запросу: оценки внимания от определенных токенов запроса к блоку документа в средних слоях сильно коррелируют с фактической релевантностью этого документа. Вдохновленные этими наблюдениями, мы представляем BlockRank (блочное контекстное ранжирование) — новый метод, который адаптирует операцию внимания в LLM, (а) архитектурно обеспечивая наблюдаемую разреженность между блоками документов, снижая сложность внимания с квадратичной до линейной без потери производительности, и (б) оптимизируя релевантность блока документа запросу для действительно релевантных документов в процессе дообучения с использованием дополнительного контрастного целевого обучения, улучшая поиск в механизме внимания. Эксперименты на наборах данных BEIR, MSMarco и NQ с моделью Mistral-7B показывают, что FLARE Mistral соответствует или превосходит существующие SOTA ранкеры, работающие со списками, и базовые модели с контролируемым дообучением, при этом значительно более эффективен на этапе вывода (в 4,7 раза для 100 документов MSMarco в контексте) и масштабируется для длинных контекстов, обрабатывая около 500 документов в контексте (примерно 100K длины контекста) за секунду, предлагая масштабируемое и эффективное решение для ICR.
Обучение с подкреплением с верифицируемыми наградами (RLVR) представляет собой мощный подход для улучшения способностей крупных языковых моделей (LLM) к рассуждению, однако его успех зависит от эффективного исследования. Идеальная стратегия исследования должна решать две фундаментальные задачи: сохранять качество образцов и обеспечивать стабильность обучения. Хотя стандартная выборка с фиксированной температурой проста в реализации, она не справляется с балансировкой этих противоречивых требований, так как высокая температура ухудшает качество образцов, а низкая ограничивает возможности открытия. В данной работе мы предлагаем более простую и эффективную стратегию — Исследовательское Анеллированное Декодирование (EAD), основанную на идее, что исследование наиболее важно для начальных токенов, которые определяют семантическое направление последовательности. EAD реализует интуитивную стратегию **исследовать в начале, использовать в конце**, постепенно снижая температуру выборки от высокой к низкой в процессе генерации. Этот динамический график стимулирует значимое разнообразие на высоком уровне в начале, а затем постепенно снижает температуру для сохранения качества образцов и удержания распределения выборки близко к целевой политике, что важно для стабильного обучения. Мы демонстрируем, что EAD является легковесным, подключаемым методом, который значительно повышает эффективность выборки, стабильно превосходя выборку с фиксированной температурой в различных алгоритмах RLVR и размерах моделей. Наша работа показывает, что согласование исследования с естественной динамикой последовательной генерации предлагает надежный путь к улучшению способностей LLM к рассуждению.
Крупные модели рассуждений (LRMs) с возможностью многошагового анализа продемонстрировали впечатляющие способности к решению задач, однако они также выявили серьезные уязвимости в области безопасности, которые остаются недостаточно изученными. В данной работе мы исследуем причины сбоев в обеспечении безопасности в моделях рассуждений через призму механистической интерпретируемости. Используя линейный подход зондирования для отслеживания намерений отказа на различных позициях токенов, мы обнаружили примечательное явление, названное "обрывом отказа": многие плохо настроенные модели рассуждений корректно идентифицируют вредоносные запросы и сохраняют сильные намерения отказа в процессе мышления, но испытывают резкое падение показателей отказа на финальных токенах перед генерацией ответа. Это свидетельствует о том, что такие модели не являются изначально небезопасными; скорее, их намерения отказа систематически подавляются. С помощью анализа причинных вмешательств мы выявили небольшой набор голов внимания, которые негативно влияют на поведение отказа. Отключение всего 3\% этих голов позволяет снизить успешность атак ниже 10\%. Опираясь на эти механистические инсайты, мы предлагаем Cliff-as-a-Judge — новый метод выбора данных, который идентифицирует обучающие примеры с наибольшим "обрывом отказа" для эффективного восстановления безопасности в моделях рассуждений. Этот подход достигает сопоставимых улучшений в безопасности, используя всего 1.7\% стандартных данных для обучения безопасности, демонстрируя эффект "меньше — значит больше" в настройке безопасности.
Оцифровка физического мира в точные виртуальные среды, готовые для симуляции, открывает значительные возможности в различных областях, таких как дополненная и виртуальная реальность, игровая индустрия и робототехника. Однако современные методы 3D-реконструкции и понимания сцен часто не справляются с одним или несколькими критическими аспектами, такими как полнота геометрии, интерактивность объектов, физическая правдоподобность, фотореалистичный рендеринг или реалистичные физические свойства, необходимые для надежной динамической симуляции. Для преодоления этих ограничений мы представляем HoloScene — новый интерактивный фреймворк для 3D-реконструкции, который одновременно удовлетворяет всем этим требованиям. HoloScene использует комплексное интерактивное представление сцены в виде графа, кодирующего геометрию объектов, их внешний вид и физические свойства, а также иерархические и межобъектные связи. Реконструкция формулируется как задача энергетической оптимизации, объединяющей наблюдательные данные, физические ограничения и генеративные априорные знания в единый согласованный целевой функционал. Оптимизация эффективно выполняется с помощью гибридного подхода, сочетающего исследование на основе выборки с градиентным уточнением. Полученные цифровые двойники демонстрируют полную и точную геометрию, физическую стабильность и реалистичный рендеринг с новых точек зрения. Оценки, проведенные на нескольких эталонных наборах данных, показывают превосходную производительность, а практические примеры использования в интерактивных играх и манипуляции цифровыми двойниками в реальном времени иллюстрируют широкую применимость и эффективность HoloScene. Страница проекта: https://xiahongchi.github.io/HoloScene.
Крупные языковые модели (LLM) демонстрируют впечатляющие способности в решении широкого круга задач, однако остается неясным, отражает ли такой успех подлинное рассуждение или сложное воспроизведение информации. Мы представляем AInstein — фреймворк для тестирования способности LLM генерировать валидные решения задач в области исследований ИИ, используя только их предварительно обученные параметрические знания — без доменно-специфической тонкой настройки, усиления поиском или других внешних средств. Наш подход извлекает сжатые формулировки задач из высококачественных заявок на конференцию ICLR 2025, после чего специализированные агенты-решатели предлагают и улучшают технические решения через итеративные циклы критики, имитируя процессы предложения, рецензирования и доработки, ключевые для научного исследования. Мы оцениваем AInstein на 1 214 статьях ICLR, стратифицированных по уровню принятия (устные доклады, spotlight, постеры), используя парадигму LLM-как-судьи с руководством структурированной рубрики, дополненной целевыми ручными проверками. Производительность оценивается по трем метрикам: Успешность (решает ли предложение задачу?), Повторное открытие (соответствует ли оно методам, предложенным людьми?) и Новизна (предлагает ли оно валидные оригинальные подходы?). Наши результаты показывают, что, хотя LLM способны повторно находить выполнимые решения и иногда предлагать креативные альтернативы, их способность к решению задач остается хрупкой и сильно зависит от формулировки. Эти результаты предоставляют первые крупномасштабные доказательства того, в какой степени LLM могут выступать в качестве автономных научных решателей задач, подчеркивая как их скрытый потенциал, так и текущие ограничения.
Бесплатформенное ускорение стало перспективной областью исследований в генерации видео на основе диффузионных моделей. Избыточность латентных переменных в процессе вывода диффузионных моделей предоставляет естественную точку для ускорения. В данной работе мы разбиваем процесс вывода на этапы кодирования, удаления шума и декодирования и отмечаем, что методы ускорения на основе кэширования часто приводят к значительному увеличению использования памяти на последних двух этапах. Для решения этой проблемы мы анализируем характеристики вывода на разных этапах и предлагаем стратегии, специфичные для каждого этапа, направленные на снижение потребления памяти: 1) Асинхронная замена кэша. 2) Разделение признаков на фрагменты. 3) Срезы латентных переменных для декодирования. При этом мы обеспечиваем, что временные затраты, вносимые этими тремя стратегиями, остаются ниже получаемого ускорения. По сравнению с базовым подходом, наш метод обеспечивает более высокую скорость вывода и меньшее использование памяти, сохраняя ухудшение качества в допустимых пределах. Код доступен по адресу https://github.com/NKUShaw/LightCache.
Direct Preference Optimization (DPO) зарекомендовал себя как простой и эффективный метод для согласования больших языковых моделей. Однако его зависимость от фиксированного параметра температуры приводит к неоптимальному обучению на разнообразных данных предпочтений, вызывая переобучение на простых примерах и недостаточное обучение на информативных. В последнее время появились методы для решения этой проблемы. Хотя IPO устраняет общее переобучение, его равномерная регуляризация может быть излишне консервативной. Более целенаправленный подход beta-DPO страдает от собственных ограничений: его адаптация на уровне пакетов применяет единый, компромиссный параметр температуры к парам со смешанными отступами, его линейное правило обновления может приводить к нестабильным отрицательным значениям бета, а его механизм фильтрации отбрасывает потенциально полезные сигналы обучения. В данной работе мы представляем Margin-Adaptive Direct Preference Optimization (MADPO) — метод, который предлагает стабильное, сохраняющее данные и адаптивное на уровне отдельных примеров решение. MADPO использует практический двухэтапный подход: сначала обучает модель вознаграждения для оценки отступов предпочтений, а затем применяет эти отступы для непрерывного и адаптивного взвешивания функции потерь DPO для каждого отдельного обучающего примера. Эта схема перевзвешивания создает эффективный целевой отступ, который усиливается для сложных пар и ослабляется для простых, обеспечивая детализированный контроль над сигналом обучения. Мы предоставляем всесторонний теоретический анализ, доказывая, что MADPO имеет хорошо структурированный ландшафт оптимизации и устойчив к ошибкам оценки модели вознаграждения. Мы подтверждаем нашу теорию экспериментами на задаче генерации сентимента, где MADPO стабильно и значительно превосходит сильные базовые методы на наборах данных различного качества. Он достигает прироста производительности до +33,3% на данных высокого качества и +10,5% на данных низкого качества по сравнению с лучшим из существующих методов. Наши результаты подтверждают, что MADPO является более надежным и принципиальным подходом к согласованию предпочтений.
Мы представляем Equilibrium Matching (EqM), фреймворк для генеративного моделирования, основанный на динамике равновесия. EqM отказывается от нестационарной, зависящей от времени динамики, используемой в традиционных диффузионных и потоковых генеративных моделях, и вместо этого изучает равновесный градиент неявного энергетического ландшафта. Благодаря такому подходу, на этапе вывода можно использовать процесс выборки, основанный на оптимизации, где образцы получаются путем градиентного спуска по изученному ландшафту с регулируемым размером шага, адаптивными оптимизаторами и адаптивными вычислениями. EqM превосходит генеративные характеристики диффузионных/потоковых моделей на практике, достигая FID 1.90 на ImageNet 256×256. EqM также теоретически обоснован для изучения и выборки из многообразия данных. Помимо генерации, EqM является гибким фреймворком, который естественным образом справляется с задачами, включая частичное шумоподавление изображений, обнаружение выбросов (OOD) и композицию изображений. Заменяя зависящие от времени скорости единым равновесным ландшафтом, EqM предлагает более тесную связь между потоковыми и энергетическими моделями, а также простой путь к оптимизационно-ориентированному выводу.
Крупные языковые модели (LLM) демонстрируют потенциал в качестве научных ассистентов, однако существующие подходы либо полагаются исключительно на эволюцию алгоритмов, либо на углублённые исследования в изоляции, что в обоих случаях сталкивается с серьёзными ограничениями. Чистая эволюция алгоритмов, как в AlphaEvolve, опирается только на внутренние знания LLM и быстро достигает плато в сложных областях, тогда как чистое углублённое исследование предлагает идеи без их проверки, что приводит к нереалистичным или нереализуемым решениям. Мы представляем DeepEvolve — агент, который интегрирует углублённое исследование с эволюцией алгоритмов, объединяя извлечение внешних знаний, редактирование кода между файлами и систематическую отладку в рамках итерационного цикла, управляемого обратной связью. Каждая итерация не только предлагает новые гипотезы, но также уточняет, реализует и тестирует их, избегая как поверхностных улучшений, так и непродуктивного излишнего усложнения. На девяти тестовых наборах в областях химии, математики, биологии, материаловедения и патентов DeepEvolve последовательно улучшает начальный алгоритм, создавая исполняемые новые алгоритмы с устойчивым прогрессом. Устраняя разрыв между неконтролируемой эволюцией и исследованиями без заземления, DeepEvolve предоставляет надёжную основу для продвижения в области открытия научных алгоритмов. Наш код доступен по адресу https://github.com/liugangcode/deepevolve.
Системы RAG (Retrieval-Augmented Generation) и веб-агенты всё чаще оцениваются на задачах многошагового глубокого поиска, однако текущая практика страдает от двух основных ограничений. Во-первых, большинство бенчмарков раскрывают цепочку рассуждений в тексте вопроса, что позволяет моделям следовать поверхностным подсказкам вместо самостоятельного обнаружения логических связей. Во-вторых, оценка обычно сводится к единому показателю успешности, который объединяет разнообразные поведенческие паттерны в один балл и скрывает, вызваны ли ошибки недостаточным поиском, неэффективным использованием знаний или необоснованным отказом. Для решения этих проблем мы представляем WebDetective — бенчмарк, состоящий из вопросов с многошаговым поиском без подсказок, который сопровождается контролируемой песочницей Wikipedia, обеспечивающей полную отслеживаемость действий модели, а также целостной системой оценки, разделяющей достаточность поиска, использование знаний и поведение при отказе. Наша оценка 25 современных моделей выявила систематические слабости во всех архитектурах: модели испытывают трудности с использованием знаний, даже при наличии достаточных доказательств, и почти никогда не отказываются корректно при их отсутствии. Эти паттерны указывают на фундаментальный разрыв: современные системы преуспевают в выполнении заданных цепочек рассуждений, но терпят неудачу, когда требуется их самостоятельное обнаружение. Мы разработали агентский рабочий процесс EvidenceLoop, который явно нацелен на вызовы, выявленные нашим бенчмарком, включая циклы проверки и систематическое отслеживание доказательств, что улучшает как поисковые, так и синтетические способности. Этот базовый подход демонстрирует, что диагностическая структура WebDetective может направлять конкретные архитектурные улучшения, делая наш бенчмарк ключевым инструментом для разработки действительно автономных систем рассуждений, а не агентов, следующих шаблонам.
Большинство существующих бенчмарков для понимания эгоцентрического зрения сосредоточены в основном на дневных сценариях, упуская из виду условия низкой освещенности, которые неизбежны в реальных приложениях. Чтобы исследовать этот пробел, мы представляем EgoNight — первый всеобъемлющий бенчмарк для ночного эгоцентрического зрения, где основной задачей является визуальное ответы на вопросы (VQA). Ключевой особенностью EgoNight является введение видео, синхронизированных по дням и ночам, что повышает качество аннотаций для ночных данных с использованием дневных данных и выявляет явные различия в производительности между условиями освещения. Для достижения этого мы собираем как синтетические видео, созданные с помощью Blender, так и записи из реального мира, обеспечивая визуальную и временную синхронизацию сцен и действий. Используя эти парные видео, мы создаем EgoNight-VQA, поддерживаемый новым механизмом автоматической аннотации ночных данных с использованием дневных данных и уточнением через обширную проверку людьми. Каждая пара вопрос-ответ проверяется аннотаторами для обеспечения надежности. В общей сложности EgoNight-VQA содержит 3658 пар вопросов и ответов по 90 видео, охватывающих 12 различных типов вопросов, с более чем 300 часами человеческой работы. Оценки современных мультимодальных больших языковых моделей (MLLMs) показывают значительное снижение производительности при переходе от дневных к ночным условиям, подчеркивая сложности рассуждений в условиях низкой освещенности. Помимо VQA, EgoNight также вводит две вспомогательные задачи: поиск соответствий между днем и ночью и оценку глубины в эгоцентрическом зрении ночью, что дополнительно исследует границы существующих моделей. Мы считаем, что EgoNight-VQA предоставляет прочную основу для продвижения прикладных исследований в области эгоцентрического зрения и для разработки моделей, которые обобщают данные в различных условиях освещения. Все данные и код будут доступны после принятия.
Развертывание автономных ИИ-агентов в чувствительных областях, таких как здравоохранение, влечет за собой серьезные риски для безопасности, защиты и конфиденциальности. Эти агенты могут отклоняться от целей пользователя, нарушать политики обработки данных или быть скомпрометированы атаками злоумышленников. Для снижения этих угроз необходим механизм, который формально гарантирует, что действия агента соответствуют заранее заданным ограничениям безопасности, — задача, которую существующие системы не решают в полной мере. Мы представляем VeriGuard, новый фреймворк, обеспечивающий формальные гарантии безопасности для агентов на основе языковых моделей (LLM) через двухэтапную архитектуру, разработанную для обеспечения надежной и проверяемой корректности. На начальном этапе, выполняемом оффлайн, проводится всесторонний процесс валидации. Он начинается с уточнения намерений пользователя для установления точных спецификаций безопасности. Затем VeriGuard синтезирует поведенческую политику и подвергает ее как тестированию, так и формальной верификации, чтобы доказать ее соответствие этим спецификациям. Этот итеративный процесс уточняет политику до тех пор, пока она не будет признана корректной. На втором этапе осуществляется онлайн-мониторинг действий, где VeriGuard функционирует как монитор времени выполнения, проверяя каждое предлагаемое действие агента на соответствие предварительно проверенной политике перед его выполнением. Такое разделение исчерпывающей оффлайн-валидации и легковесного онлайн-мониторинга позволяет практически применять формальные гарантии, обеспечивая надежную защиту, которая существенно повышает доверие к LLM-агентам.
Эмоционально поддерживающий диалог (ESC) играет важную роль в снижении психологического стресса и предоставлении эмоциональной ценности через общение. Хотя недавние исследования в основном сосредоточены на увеличении данных и создании синтетических корпусов, они часто упускают из виду более глубокие когнитивные процессы рассуждения, лежащие в основе эффективной эмоциональной поддержки. Чтобы восполнить этот пробел, мы предлагаем CARE — новую структуру, которая укрепляет рассуждения в ESC, не полагаясь на крупномасштабные синтетические данные. CARE использует оригинальный обучающий набор ESC для того, чтобы направлять модели в генерации логически последовательных и поддерживающих ответов, тем самым явно усиливая когнитивное рассуждение. На основе этого подхода мы дополнительно применяем обучение с подкреплением для уточнения и укрепления процесса рассуждения. Экспериментальные результаты показывают, что CARE значительно улучшает как логическую обоснованность, так и поддерживающее качество ответов, способствуя развитию эмпатичных, когнитивно устойчивых и человекообразных систем эмоциональной поддержки.
Хотя посттренировочная квантизация широко применяется для эффективного развертывания крупных языковых моделей, механизмы, лежащие в основе устойчивости к квантизации, остаются неясными. Мы проводим всесторонний анализ деградации квантизации на траекториях обучения открытых языковых моделей с параметрами до 32 миллиардов и 15 триллионов токенов обучения, чтобы точно оценить взаимосвязь между динамикой обучения и производительностью квантизации. Наше ключевое открытие заключается в том, что ошибки квантизации в крупномасштабных тренировках обусловлены сложным взаимодействием между скоростью обучения и другими гиперпараметрами обучения. В частности, как только скорость обучения снижается, валидационная ошибка и ошибка квантизации начинают расходиться, в значительной степени независимо от масштаба обучающих данных. Чтобы исследовать вмешательства в динамику обучения и определить конкретные конфигурации, которые могут благоприятно повлиять на устойчивость к квантизации, мы обучаем собственные модели в контролируемых экспериментах до 100 миллиардов токенов. Наши результаты опровергают предположение о том, что увеличение масштаба набора данных неизбежно ухудшает эффективность квантизации, демонстрируя вместо этого, что стратегические вмешательства в гиперпараметры обучения могут улучшить качество квантизации на больших масштабах.
Сегментация объектов в видео по текстовому описанию (RVOS) требует выделения конкретных объектов в видео на основе естественного языкового описания. Основная задача RVOS заключается в привязке абстрактных лингвистических концепций к конкретному набору пикселей и их непрерывной сегментации в условиях сложной динамики видео. Столкнувшись с этой трудностью, предыдущие работы часто разбивали задачу на прагматичный конвейер «сначала локализовать, затем сегментировать». Однако такой каскадный подход создает информационное узкое место, упрощая семантику до грубых геометрических подсказок (например, точки), и испытывает трудности с поддержанием временной согласованности, поскольку процесс сегментации часто отделен от первоначальной привязки к языковому описанию. Чтобы преодолеть эти фундаментальные ограничения, мы предлагаем FlowRVS — новую концепцию, которая переосмысливает RVOS как задачу условного непрерывного потока. Это позволяет нам использовать преимущества предобученных моделей текст-видео (T2V), точного управления на уровне пикселей, семантического согласования текста и видео, а также временной согласованности. Вместо традиционного подхода генерации от шума к маске или прямого предсказания маски, мы переформулируем задачу как изучение прямого, управляемого языком преобразования из целостного представления видео в целевую маску. Наш одноэтапный генеративный подход достигает новых рекордных результатов на всех основных бенчмарках RVOS. В частности, мы достигаем показателя J&F 51.1 на MeViS (+1.6 по сравнению с предыдущим SOTA) и 73.3 на Ref-DAVIS17 в режиме zero-shot (+2.7), демонстрируя значительный потенциал моделирования задач понимания видео как процессов непрерывной деформации.
Крупные языковые модели (LLM) склонны к галлюцинациям — генерации правдоподобных, но фактически неверных утверждений. В данной работе исследуются внутренние, архитектурные причины этого типа ошибок через три основных вклада. Во-первых, для надежного отслеживания внутренних семантических сбоев мы предлагаем метод Distributional Semantics Tracing (DST) — унифицированный фреймворк, который интегрирует устоявшиеся методы интерпретируемости для создания причинно-следственной карты рассуждений модели, рассматривая значение как функцию контекста (дистрибутивная семантика). Во-вторых, мы определяем слой модели, на котором галлюцинация становится неизбежной, выделяя так называемый слой фиксации, где внутренние представления модели необратимо отклоняются от фактической достоверности. В-третьих, мы выявляем механизм, лежащий в основе этих ошибок. Мы наблюдаем конфликт между различными вычислительными путями, который интерпретируем через призму теории двойных процессов: быстрый, эвристический ассоциативный путь (аналогичный Системе 1) и медленный, осознанный контекстный путь (аналогичный Системе 2), что приводит к предсказуемым типам ошибок, таким как захват рассуждений через упрощенные пути. Способность нашего фреймворка количественно оценивать согласованность контекстного пути выявляет сильную отрицательную корреляцию (rho = -0.863) с частотой галлюцинаций, что указывает на то, что эти ошибки являются предсказуемыми следствиями внутренней семантической слабости. В результате мы получаем механистическое объяснение того, как, когда и почему галлюцинации возникают в архитектуре Transformer.
Гауссовский процесс (GP) регрессии предлагает стратегию для ускорения поиска седловых точек на высокоразмерных энергетических поверхностях, сокращая количество вычислений энергии и её производных по атомным координатам. Однако вычислительные затраты на оптимизацию гиперпараметров могут быть значительными, что делает подход неэффективным. Также могут возникать сбои, если поиск заходит в области, недостаточно хорошо представленные моделью GP. В данной работе эти проблемы решаются с использованием геометрически осознанных мер оптимального транспорта и активной стратегии отбора, основанной на суммировании расстояний Васерштейна-1 для каждого типа атомов при выборке по методу наиболее удалённых точек, что позволяет выбрать фиксированное подмножество геометрически разнообразных конфигураций и избежать быстрого роста затрат на обновление GP по мере добавления новых наблюдений. Устойчивость повышается за счёт перестановочно-инвариантной метрики, которая обеспечивает надёжный радиус доверия для ранней остановки, и логарифмического барьерного штрафа для роста дисперсии сигнала. Эти физически мотивированные изменения алгоритма демонстрируют свою эффективность, сокращая среднее время вычислений более чем вдвое на наборе из 238 сложных конфигураций из ранее опубликованного набора данных химических реакций. С этими улучшениями подход GP становится надёжным и масштабируемым алгоритмом для ускорения поиска седловых точек в случаях, когда вычисление энергии и атомных сил требует значительных вычислительных ресурсов.
Модели, объединяющие визуальные и языковые данные (VLMs), обычно предварительно обучаются на коротких текстовых окнах (<77 токенов), что приводит к усечению длинных описаний. Однако анализ распределения биомедицинских описаний из крупномасштабной открытой литературы показывает, что значительная часть описаний значительно превышает 77 токенов. В связи с этим мы исследуем влияние предварительного обучения на длинные биомедицинские описания, расширяя длину контекста текстовых кодировщиков в VLMs. Мы обнаруживаем, что более длинный контекст (и, следовательно, дополнительная информация, предоставляемая в длинных описаниях) коррелирует с улучшенной производительностью в задачах поиска и классификации. Учитывая это, мы представляем BIOMEDICA-LongCAP — набор данных из 1 миллиона пар изображение-описание, обогащенных контекстно-зависимыми описаниями из полных текстов статей, что обеспечивает более длинное и дополнительное текстовое сопровождение. Используя BIOMEDICA-LongCAP, мы обучаем BMC-LongCLIP — биомедицинскую VLM с длинным контекстом, текстовый кодировщик которой поддерживает окна до 512 токенов. Наша модель увеличивает емкость контекста в 6,6 раза, сокращая потери токенов с 55% до всего 2,2%. На тестах по поиску длинных описаний BMC-LongCLIP демонстрирует абсолютный прирост до +30% в Recall@1 и среднее улучшение на +2% в классификации, а также сходится быстрее, чем модели с коротким контекстом. Наши результаты показывают, что моделирование длинного контекста является перспективным направлением для развития биомедицинских VLMs.
Реальные развертывания крупных языковых моделей (например, системы диалогового ИИ, помощники по генерации кода) естественным образом генерируют множество неявных сигналов неудовлетворенности пользователей (DSAT), поскольку пользователи итеративно стремятся к лучшим ответам через уточнения, исправления и выраженные предпочтения, в то время как явные сигналы удовлетворенности (SAT) встречаются редко. Существующие подходы к обучению на основе предпочтений плохо согласуются с таким профилем данных, так как они полагаются на дорогостоящие аннотации от людей или предполагают изобилие положительных откликов. В данной статье мы представляем DRIFT (Dissatisfaction-Refined Iterative preFerence Training), который основывает обучение на реальных сигналах DSAT и динамически выбирает положительные примеры из развивающейся политики. Эмпирически, модели DRIFT, обученные на реальных наборах данных WildFeedback и синтетических наборах UltraFeedback, демонстрируют улучшение до +6,23% (7B) / +7,61% (14B) на WildBench Task Score и до +8,95% (7B) / +12,29% (14B) на AlpacaEval2 win rate по сравнению с базовыми моделями, превосходя сильные базовые методы, такие как итеративный DPO и SPIN. На более крупных масштабах улучшения особенно заметны: модели 14B, обученные с DRIFT, превосходят GPT-4o-mini на WildBench. Дополнительный анализ показывает, что DRIFT также сохраняет исследовательскую способность, предлагая более разнообразные решения с высокой наградой, а не сводя их к узким подмножествам. Теоретически мы демонстрируем, что такой дизайн сохраняет маржи предпочтений и избегает дегенерации градиента. Эти результаты показывают, что DRIFT является эффективным и масштабируемым рецептом для пост-обучения в реальных условиях, использующим наиболее обильный и информативный сигнал. Код и данные доступны по адресу https://github.com/cacayaya/DRIFT.git.
Данные кода, как было показано, улучшают способности к рассуждению у крупных языковых моделей (LLM), однако остаётся неясным, какие именно аспекты кода вносят наибольший вклад. Мы исследуем этот вопрос с помощью систематического, ориентированного на данные подхода. Мы создаём параллельные наборы инструкций на десяти языках программирования и применяем контролируемые изменения, которые избирательно нарушают структурные или семантические свойства кода. Затем мы дообучаем LLM из пяти семейств моделей и восьми масштабов на каждом варианте и оцениваем их производительность на задачах, связанных с естественным языком, математикой и кодом. В ходе 3 331 эксперимента наши результаты показывают, что LLM более уязвимы к структурным изменениям, чем к семантическим, особенно на задачах, связанных с математикой и кодом. Подходящие абстракции, такие как псевдокод и блок-схемы, могут быть столь же эффективны, как и код, при этом кодирование той же информации с меньшим количеством токенов без соблюдения исходного синтаксиса часто сохраняет или даже улучшает производительность. Примечательно, что даже искажённый код с вводящими в заблуждение сигналами остаётся конкурентоспособным, если сохраняются поверхностные закономерности. Наконец, синтаксические стили также влияют на специфические для задач улучшения: Python способствует рассуждениям на естественном языке, а языки более низкого уровня, такие как Java и Rust, — математическим. С помощью нашего систематического подхода мы стремимся пролить свет на то, как различные свойства кода влияют на рассуждения, и предоставить рекомендации по проектированию обучающих данных для улучшения способностей LLM к рассуждению.
Эффективность моделей машинного обучения в значительной степени зависит от обучающих данных. Недостаток крупномасштабных, качественно аннотированных наборов данных создает серьезные трудности при создании устойчивых моделей. Для решения этой проблемы синтетические данные, генерируемые с помощью симуляций и генеративных моделей, стали перспективным решением, повышающим разнообразие наборов данных и улучшающим производительность, надежность и устойчивость моделей. Однако для оценки качества таких сгенерированных данных требуется эффективная метрика. В данной статье представлена метрика качества синтетических данных (Synthetic Dataset Quality Metric, SDQM), предназначенная для оценки качества данных в задачах обнаружения объектов без необходимости сходимости обучения модели. Эта метрика позволяет более эффективно генерировать и выбирать синтетические наборы данных, решая ключевую проблему в задачах обнаружения объектов с ограниченными ресурсами. В наших экспериментах SDQM продемонстрировала сильную корреляцию с показателями средней точности (mean Average Precision, mAP) модели YOLOv11, одной из ведущих моделей для обнаружения объектов, тогда как предыдущие метрики показывали лишь умеренную или слабую корреляцию. Кроме того, она предоставляет практические рекомендации для улучшения качества наборов данных, минимизируя необходимость дорогостоящего итеративного обучения. Эта масштабируемая и эффективная метрика устанавливает новый стандарт для оценки синтетических данных. Код SDQM доступен по адресу https://github.com/ayushzenith/SDQM.
Автоматическое распознавание аккордов (ACR) с использованием моделей глубокого обучения постепенно достигает высокой точности распознавания, однако остаются две ключевые проблемы. Во-первых, предыдущие исследования в основном сосредоточены на ACR в аудиодомене, тогда как распознавание аккордов в символической музыке (например, в нотах) получает ограниченное внимание из-за недостатка данных. Во-вторых, существующие методы по-прежнему игнорируют стратегии, соответствующие практикам музыкального анализа, используемым человеком. Для решения этих проблем мы предлагаем два вклада: (1) мы представляем POP909-CL, улучшенную версию набора данных POP909 с синхронизированным по темпу содержанием и исправленными вручную метками аккордов, долей, тональностей и размеров тактов; и (2) мы предлагаем BACHI, модель распознавания аккордов в символической музыке, которая разбивает задачу на различные этапы принятия решений, а именно обнаружение границ и итеративное ранжирование корня аккорда, его качества и баса (инверсии). Этот механизм отражает практики тренировки слуха человека. Эксперименты показывают, что BACHI достигает наилучших результатов в распознавании аккордов как на классических, так и на поп-музыкальных тестах, а исследования с исключением компонентов подтверждают эффективность каждого модуля.
Модели искусственного интеллекта всё чаще используются для анализа и визуализации данных, однако бенчмарки редко затрагивают задачи, специфичные для точечных диаграмм, что ограничивает понимание их производительности. Чтобы восполнить этот пробел для одного из наиболее распространённых типов графиков, мы представляем синтетический аннотированный набор данных, содержащий более 18 000 точечных диаграмм, созданных с помощью шести генераторов данных и 17 вариантов оформления, а также бенчмарк на его основе. Мы оцениваем проприетарные модели OpenAI и Google, используя N-shot prompting для пяти различных задач, основанных на аннотациях ограничивающих прямоугольников кластеров, их центральных координат и координат выбросов. Модели OpenAI и Gemini 2.5 Flash, особенно при использовании примеров в подсказках, демонстрируют приемлемые результаты для подсчёта кластеров и, в случае Flash, выбросов (точность более 90%). Однако результаты для задач, связанных с локализацией, остаются неудовлетворительными: точность и полнота находятся на уровне или ниже 50%, за исключением Flash в задаче идентификации выбросов (65,01%). Кроме того, влияние дизайна диаграммы на производительность кажется второстепенным фактором, но рекомендуется избегать точечных диаграмм с широким соотношением сторон (16:9 и 21:9) или случайной цветовой палитрой. Дополнительные материалы доступны по адресу https://github.com/feedzai/biy-paper.
За последние два десятилетия распознавание эмоций по речи (SER) привлекает все больше внимания. Для обучения систем SER исследователи собирают базы данных эмоциональной речи, аннотированные краудсорсинговыми или внутренними оценщиками, которые выбирают эмоции из заранее определенных категорий. Однако разногласия между оценщиками встречаются часто. Традиционные методы рассматривают эти разногласия как шум, агрегируя метки в единый консенсусный целевой показатель. Хотя это упрощает SER как задачу с одной меткой, такой подход игнорирует присущую субъективность восприятия человеческих эмоций. Данная диссертация ставит под сомнение такие предположения и задает вопросы: (1) Следует ли отбрасывать редкие эмоциональные оценки? (2) Должны ли системы SER обучаться только на восприятии нескольких индивидуумов? (3) Должны ли системы SER предсказывать только одну эмоцию на образец? Психологические исследования показывают, что восприятие эмоций субъективно и неоднозначно, с пересекающимися границами эмоций. Мы предлагаем новые подходы к моделированию и оценке: (1) Сохранять все эмоциональные оценки и представлять их с помощью распределений мягких меток. Модели, обученные на индивидуальных оценках аннотаторов и совместно оптимизированные с традиционными системами SER, показывают улучшенную производительность на тестах с консенсусными метками. (2) Переопределить оценку SER, включая все эмоциональные данные и допуская сосуществующие эмоции (например, грусть и гнев). Мы предлагаем «всеобъемлющее правило», которое агрегирует все оценки для максимизации разнообразия в представлении меток. Эксперименты на четырех английских базах данных эмоций демонстрируют превосходную производительность по сравнению с методами большинства и множественности меток. (3) Создать матрицу штрафов, чтобы исключить маловероятные комбинации эмоций во время обучения. Интеграция этой матрицы в функции потерь дополнительно улучшает производительность. В целом, учет редких оценок, множественных аннотаторов и предсказания нескольких эмоций позволяет создавать более надежные и соответствующие человеческому восприятию системы SER.
Модели Vision-Language-Action (VLA) продемонстрировали выдающиеся результаты в управлении роботами. Однако они остаются принципиально ограниченными в задачах, требующих высокой точности, из-за своей парадигмы единичного вывода. Хотя подходы масштабирования во время тестирования с использованием внешних верификаторов показали перспективность, они требуют дополнительного обучения и не способны обобщать на неизвестные условия. Мы предлагаем Masking Distribution Guided Selection (MG-Select), новый фреймворк масштабирования во время тестирования для VLA, который использует внутренние свойства модели без необходимости дополнительного обучения или внешних модулей. Наш подход использует расхождение Кульбака-Лейблера (KL divergence) от эталонного распределения токенов действий как метрику уверенности для выбора оптимального действия из нескольких кандидатов. Мы вводим эталонное распределение, генерируемое той же VLA, но с случайно замаскированными состояниями и языковыми условиями в качестве входных данных, что обеспечивает максимальную неопределенность, оставаясь при этом согласованным с распределением целевой задачи. Кроме того, мы предлагаем стратегию совместного обучения, которая позволяет модели изучать как условные, так и безусловные распределения, применяя дропаут к состояниям и языковым условиям, что дополнительно улучшает качество эталонного распределения. Наши эксперименты показывают, что MG-Select достигает значительного улучшения производительности, включая 28%/35% улучшение в реальных задачах в распределении/вне распределения, а также 168% относительного прироста в задачах pick-and-place на RoboCasa, обученных с 30 демонстрациями.
Последние мультимодальные языковые модели (LLM) показали перспективные результаты в задачах визуального ответа на вопросы по графикам, однако их производительность резко снижается на неаннотированных графиках, требующих точной визуальной интерпретации, а не опоры на текстовые подсказки. Для решения этой проблемы мы представляем ChartAgent — новый агентный фреймворк, который явно выполняет визуальное рассуждение непосредственно в пространственной области графика. В отличие от текстового цепочечного рассуждения (chain-of-thought), ChartAgent итеративно разбивает запросы на визуальные подзадачи и активно манипулирует изображениями графиков, взаимодействуя с ними через специализированные действия, такие как нанесение аннотаций, обрезка областей (например, сегментирование секторов круговой диаграммы, выделение столбцов) и локализация осей, используя библиотеку инструментов для работы с графиками. Этот итеративный процесс рассуждения тесно отражает когнитивные стратегии человека при анализе графиков. ChartAgent достигает наивысшей точности на бенчмарках ChartBench и ChartX, превосходя предыдущие методы с абсолютным приростом до 16,07% в целом и 17,31% на неаннотированных, численно сложных запросах. Кроме того, наши анализы показывают, что ChartAgent (а) эффективен для различных типов графиков, (б) достигает наивысших результатов на разных уровнях визуальной и логической сложности и (в) служит модульным фреймворком, который повышает производительность различных базовых LLM. Наша работа является одной из первых, демонстрирующих визуально обоснованное рассуждение для понимания графиков с использованием мультимодальных агентов, усиленных инструментами.
Современные методы согласования предпочтений, такие как выбор лучшего из N (Best-of-N, BoN), основываются на моделях вознаграждения, обученных на данных попарных сравнений. Хотя этот подход эффективен для изучения относительных предпочтений, он не учитывает сигнал приемлемости ответа, что делает системы уязвимыми к выбору наименее плохого из множества неприемлемых вариантов. Это особенно проблематично для сложных запросов, где риск таких ложных принятий возрастает с увеличением числа образцов. В данной работе мы устраняем этот критический пробел в надежности, предлагая новый подход к сбору данных и моделированию. Дополняя данные о предпочтениях внешней альтернативой, вдохновленной моделями дискретного выбора, мы обучаем модель вознаграждения, которая способна определять не только то, что лучше, но и то, что достаточно хорошо. Мы используем эту возможность для создания адаптивной стратегии вывода, называемой "лучший из мини-N в цикле", которая разделяет бюджет генерации на последовательные циклы с калиброванным условием раннего выхода. Наши эксперименты показывают, что при настройке в качестве защитного механизма согласования она снижает количество сбоев надежности на 70%, а при настройке в качестве ускорителя вывода повышает среднюю скорость вывода более чем на 22% в настройке IMDB-сентимента. Таким образом, мы предлагаем принципиальный и гибкий подход, позволяющий специалистам явно управлять компромиссом между надежностью и вычислительной эффективностью.
Недавние исследования в области оценки контекста и памяти в основном сосредоточены на диалоговых сценариях, однако необходимость оценки памяти в динамичных корпоративных средах имеет решающее значение для её эффективного применения. Мы представляем MEMTRACK — эталонный тест, разработанный для оценки долговременной памяти и отслеживания состояния в многоплатформенных средах агентов. MEMTRACK моделирует реалистичные организационные рабочие процессы, интегрируя асинхронные события на нескольких платформах коммуникации и продуктивности, таких как Slack, Linear и Git. Каждый тестовый сценарий предоставляет хронологически переплетённую временную шкалу с зашумлённой, противоречивой, перекрестно ссылающейся информацией, а также потенциальным пониманием и исследованием кодовой базы/файловой системы. Таким образом, наш тест проверяет способности памяти, такие как приобретение, выбор и разрешение конфликтов. Мы создали набор данных MEMTRACK с помощью как ручного проектирования экспертами, так и масштабируемого синтеза на основе агентов, генерируя экологически валидные сценарии, основанные на реальных процессах разработки программного обеспечения. Мы вводим соответствующие метрики для оценки корректности, эффективности и избыточности, которые отражают эффективность механизмов памяти за пределами простой производительности в вопросах и ответах. Эксперименты с современными крупными языковыми моделями (LLM) и системами памяти выявили трудности в использовании памяти на длительных временных горизонтах, обработке зависимостей между платформами и разрешении противоречий. Примечательно, что лучшая модель GPT-5 достигает лишь 60% оценки корректности на MEMTRACK. Эта работа предоставляет расширяемую основу для продвижения исследований в области оценки агентов с расширенной памятью, выходя за рамки существующего акцента на диалоговых сценариях, и задаёт основу для тестирования памяти в многоплатформенных и многозадачных средах в сложных организационных условиях.
Уход за волосами является важной повседневной задачей, однако он остается недоступным для людей с ограниченной подвижностью и сложным для автономных роботизированных систем из-за тонкой физической структуры и сложной динамики волос. В данной работе мы представляем DYMO-Hair, систему роботизированного ухода за волосами, основанную на модели. Мы предлагаем новый подход к обучению динамике, подходящий для объемных объектов, таких как волосы, который опирается на механизм редактирования скрытых состояний, обусловленных действиями, в сочетании с компактным 3D скрытым пространством разнообразных причесок для повышения обобщаемости. Это скрытое пространство предварительно обучается в масштабе с использованием нового симулятора физики волос, что позволяет обобщать на ранее не встречавшиеся прически. Используя модель динамики с планировщиком Model Predictive Path Integral (MPPI), DYMO-Hair способен выполнять визуальное стилирование волос, ориентированное на цель. Эксперименты в симуляции демонстрируют, что модель динамики DYMO-Hair превосходит базовые подходы в захвате локальных деформаций для разнообразных, ранее не встречавшихся причесок. DYMO-Hair также превосходит базовые подходы в задачах замкнутого цикла стилирования волос на незнакомых прическах, с средним снижением конечной геометрической ошибки на 22% и увеличением успешности на 42% по сравнению с современной системой. Эксперименты в реальных условиях демонстрируют нулевую трансферность нашей системы на парики, достигая стабильного успеха на сложных незнакомых прическах, где современная система терпит неудачу. В совокупности эти результаты закладывают основу для моделирования роботизированного ухода за волосами, продвигаясь к более обобщаемому, гибкому и доступному стилированию волос роботами в неограниченных физических условиях. Дополнительные детали доступны на странице проекта: https://chengyzhao.github.io/DYMOHair-web/.
Дистилляция следов мышления крупной языковой модели (LLM) с возможностями логического рассуждения в меньшую модель доказала свою эффективность. Однако существует недостаток исследований о том, как производительность моделей масштабируется в зависимости от объема данных для дистилляции. В данной работе мы изучаем тренд масштабирования при дистилляции навыков конкурентного программирования на двух небольших LLM без способностей к рассуждению. Мы подтверждаем гипотезу о существовании "долины кодового рассуждения": производительность на задачах конкурентного программирования сначала снижается с увеличением объема данных, а затем устойчиво возрастает в более резкой, чем логарифмически линейная, манере. Обнаружив этот тренд, мы дополнительно дообучаем модели на двух различных этапах дистилляции на одних и тех же данных, чтобы сделать выводы о соответствующих фазах их обучения. Мы выясняем, что на этапах с малым и средненизким объемом данных небольшие модели значительно выигрывают от более простых вопросов по программированию, чем от сложных. Мы также обнаруживаем, что, что удивительно, корректность выходных данных в обучающих данных не влияет на результаты дистилляции. Наша работа представляет собой шаг вперед в понимании динамики обучения при дистилляции кодового рассуждения за пределами интуиции.
Крупные языковые модели (LLM) демонстрируют высокие результаты во многих задачах обработки естественного языка (NLP), но остаются склонными к галлюцинациям, что ограничивает доверие к их применению в реальных сценариях. Мы представляем HalluGuard — малую модель рассуждений (SRM) с 4 миллиардами параметров, предназначенную для снижения галлюцинаций в генерации, усиленной поиском (RAG). HalluGuard классифицирует пары документ-утверждение как обоснованные или галлюцинированные и предоставляет прозрачные обоснования, основанные на доказательствах. Наш подход объединяет (i) синтетический доменно-независимый набор данных, созданный на основе FineWeb и улучшенный с помощью многоэтапной обработки и реформации данных, (ii) синтетические обоснованные и галлюцинированные утверждения, а также (iii) тонкую настройку на основе предпочтений с использованием оптимизации предпочтений по коэффициенту шансов (Odds Ratio Preference Optimization) для переноса рассуждений крупной модели в меньшую архитектуру. На подмножестве RAGTruth бенчмарка LLM-AggreFact HalluGuard достигает 84,0% сбалансированной точности (BAcc), конкурируя со специализированными моделями, такими как MiniCheck (7B; 84,0%) и Granite Guardian 3.3 (8B; 82,2%), при этом используя примерно вдвое меньше параметров. На полном бенчмарке модель достигает 75,7% BAcc, что сопоставимо с более крупными универсальными LLM, такими как GPT-4o (75,9%). Мы опубликуем HalluGuard и наборы данных под лицензией Apache 2.0 после принятия работы.