Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном отчете представлена модель VibeVoice, разработанная для синтеза длинных речевых фрагментов с участием нескольких говорящих с использованием метода next-token diffusion — унифицированного подхода к моделированию непрерывных данных путем авторегрессивной генерации латентных векторов через диффузию. Для реализации этого мы предлагаем новый непрерывный токенизатор речи, который, по сравнению с популярной моделью Encodec, улучшает сжатие данных в 80 раз при сохранении сопоставимой производительности. Токенизатор эффективно сохраняет качество звука, значительно повышая вычислительную эффективность при обработке длинных последовательностей. Таким образом, VibeVoice способен синтезировать длинные речевые фрагменты продолжительностью до 90 минут (в контекстном окне длиной 64K) с участием до 4 говорящих, передавая аутентичную атмосферу диалога и превосходя как открытые, так и проприетарные модели диалогов.
Последние достижения в области выравнивания больших языковых моделей с использованием обучения с подкреплением позволили добиться значительных успехов в решении сложных задач логического рассуждения, однако ценой дорогостоящих on-policy прогонов и ограниченного исследования разнообразных путей рассуждения. В данной работе мы представляем TreePO, включающий самоуправляемый алгоритм прогона, который рассматривает генерацию последовательностей как процесс поиска с древовидной структурой. Состоящий из динамической политики выборки деревьев и декодирования сегментов фиксированной длины, TreePO использует локальную неопределенность для обеспечения дополнительных ветвей. Путем амортизации вычислений на общих префиксах и раннего отсечения низкоценных путей, TreePO существенно снижает вычислительную нагрузку на каждое обновление, сохраняя или даже повышая разнообразие исследования. Ключевые вклады включают: (1) алгоритм пошаговой выборки, который снижает нагрузку на кэш KV через непрерывные сегменты и создает новые ветви вместе с механизмом ранней остановки; (2) оценку преимуществ на уровне сегментов на основе дерева, учитывающую как глобальную, так и локальную оптимизацию проксимальной политики; и (3) анализ эффективности динамического расхождения и стратегии отката, основанных на вероятности и качестве. Мы эмпирически подтверждаем прирост производительности TreePO на наборе тестов для логического рассуждения и экономию вычислительных ресурсов GPU от 22\% до 43\% для обученных моделей, одновременно демонстрируя снижение вычислительной нагрузки на уровне траекторий до 40\% и на уровне токенов до 35\% для существующих моделей. Предлагая бесплатное повышение эффективности вывода, TreePO открывает практический путь к масштабированию пост-обучения на основе RL с меньшим количеством образцов и меньшими вычислительными затратами. Домашняя страница находится по адресу https://m-a-p.ai/TreePO.
Мы представляем CMPhysBench — новый бенчмарк, разработанный для оценки компетентности крупных языковых моделей (LLM) в области физики конденсированного состояния. CMPhysBench состоит из более чем 520 тщательно отобранных вопросов уровня аспирантуры, охватывающих как ключевые подразделы, так и фундаментальные теоретические основы физики конденсированного состояния, такие как магнетизм, сверхпроводимость, сильно коррелированные системы и другие. Чтобы обеспечить глубокое понимание процесса решения задач, мы сосредоточились исключительно на расчетных задачах, требующих от LLM самостоятельной генерации полных решений. Одновременно, используя древовидные представления выражений, мы вводим показатель Scalable Expression Edit Distance (SEED), который предоставляет детализированную (не бинарную) частичную оценку и позволяет более точно измерять сходство между предсказанием и эталонным ответом. Наши результаты показывают, что даже лучшие модели, такие как Grok-4, достигают лишь среднего значения SEED в 36 и точности в 28% на CMPhysBench, что подчеркивает значительный разрыв в возможностях, особенно для этой практической и передовой области по сравнению с традиционной физикой. Код и набор данных доступны публично по адресу https://github.com/CMPhysBench/CMPhysBench.
Локальное 3D-редактирование заданных областей имеет ключевое значение для игровой индустрии и взаимодействия с роботами. Современные методы обычно редактируют визуализированные изображения с нескольких ракурсов, а затем реконструируют 3D-модели, но сталкиваются с трудностями в точном сохранении неизмененных областей и общей согласованности. Вдохновленные структурированными 3D-генеративными моделями, мы предлагаем VoxHammer — новый подход, не требующий обучения, который выполняет точное и согласованное редактирование в 3D-латентном пространстве. Для заданной 3D-модели VoxHammer сначала предсказывает траекторию ее инверсии и получает инвертированные латентные переменные и ключевые токены на каждом временном шаге. Затем на этапе денойзинга и редактирования мы заменяем денойзинговые признаки сохраняемых областей соответствующими инвертированными латентными переменными и кэшированными ключевыми токенами. Сохраняя эти контекстные признаки, наш подход обеспечивает согласованную реконструкцию неизмененных областей и гармоничную интеграцию отредактированных частей. Для оценки согласованности сохраняемых областей мы создали Edit3D-Bench — аннотированный человеком набор данных, содержащий сотни образцов, каждый из которых имеет тщательно размеченные области 3D-редактирования. Эксперименты показывают, что VoxHammer значительно превосходит существующие методы как по 3D-согласованности сохраняемых областей, так и по общему качеству. Наш метод открывает перспективы для синтеза высококачественных отредактированных парных данных, закладывая основу для контекстной 3D-генерации. Подробнее на нашей странице проекта: https://huanngzh.github.io/VoxHammer-Page/.
Существующие модели видеоаватаров способны создавать плавные человеческие анимации, однако они сталкиваются с трудностями в выходя за пределы простого физического сходства, чтобы передать подлинную сущность персонажа. Их движения обычно синхронизируются с низкоуровневыми сигналами, такими как ритм аудио, не обладая более глубоким семантическим пониманием эмоций, намерений или контекста. Чтобы преодолеть этот разрыв, мы предлагаем фреймворк, предназначенный для генерации анимаций персонажей, которые не только физически правдоподобны, но также семантически согласованы и выразительны. Наша модель, OmniHuman-1.5, основана на двух ключевых технических достижениях. Во-первых, мы используем Мультимодальные Большие Языковые Модели для синтеза структурированного текстового представления условий, которое обеспечивает высокоуровневое семантическое руководство. Это руководство направляет наш генератор движений за пределы простой ритмической синхронизации, позволяя создавать действия, которые контекстуально и эмоционально резонируют. Во-вторых, чтобы обеспечить эффективное слияние этих мультимодальных входных данных и смягчить конфликты между модальностями, мы представляем специализированную архитектуру Multimodal DiT с новой конструкцией Pseudo Last Frame. Синергия этих компонентов позволяет нашей модели точно интерпретировать совместную семантику аудио, изображений и текста, тем самым генерируя движения, которые глубоко согласованы с персонажем, сценой и лингвистическим содержанием. Многочисленные эксперименты демонстрируют, что наша модель достигает лидирующих показателей по широкому набору метрик, включая точность синхронизации губ, качество видео, естественность движений и семантическую согласованность с текстовыми подсказками. Более того, наш подход демонстрирует замечательную расширяемость для сложных сценариев, таких как те, которые включают несколько человек и нечеловеческих субъектов. Домашняя страница: https://omnihuman-lab.github.io/v1_5/
Хотя модели Mixture of Experts (MoE) достигают впечатляющей эффективности за счет активации только подмножеств параметров, они страдают от высоких затрат на доступ к памяти во время вывода. Архитектуры с использованием слоев памяти предлагают привлекательную альтернативу с минимальным количеством обращений к памяти, но предыдущие попытки, такие как UltraMem, лишь соответствовали производительности моделей MoE с 2 экспертами, значительно уступая современным конфигурациям с 8 экспертами. Мы представляем UltraMemV2 — переработанную архитектуру с использованием слоев памяти, которая устраняет этот разрыв в производительности. Наш подход включает пять ключевых улучшений: интеграцию слоев памяти в каждый блок трансформера, упрощение расширения значений с помощью одиночных линейных проекций, использование обработки значений на основе FFN из PEER, внедрение принципиальной инициализации параметров и перебалансировку соотношения вычислений между памятью и FFN. В ходе обширной оценки мы демонстрируем, что UltraMemV2 достигает паритета производительности с моделями MoE с 8 экспертами при одинаковых вычислительных затратах и количестве параметров, но с значительно меньшим количеством обращений к памяти. Примечательно, что UltraMemV2 показывает превосходную производительность на задачах, интенсивно использующих память, с улучшениями на +1,6 балла в запоминании длинных контекстов, +6,2 балла в многораундовом запоминании и +7,9 балла в обучении в контексте. Мы подтверждаем наш подход на масштабных моделях с активированными параметрами до 2,5 млрд из общего числа 120 млрд параметров и устанавливаем, что плотность активации оказывает большее влияние на производительность, чем общее количество разреженных параметров. Наша работа выводит архитектуры с использованием слоев памяти на уровень производительности современных моделей MoE, предлагая убедительную альтернативу для эффективных разреженных вычислений.
Определение физических свойств трехмерных сцен на основе визуальной информации является важной, но сложной задачей для создания интерактивных и реалистичных виртуальных миров. Хотя люди интуитивно понимают такие характеристики материалов, как упругость или жесткость, существующие методы часто полагаются на медленную оптимизацию для каждой сцены, что ограничивает их обобщаемость и применимость. Для решения этой проблемы мы представляем PIXIE — новый метод, который обучает обобщаемую нейронную сеть для предсказания физических свойств в нескольких сценах на основе трехмерных визуальных признаков, используя исключительно контролируемые функции потерь. После обучения наша прямая сеть может быстро выводить правдоподобные поля материалов, что в сочетании с изученным статическим представлением сцены, таким как Gaussian Splatting, позволяет реалистично моделировать физику под воздействием внешних сил. Для поддержки этого исследования мы также собрали PIXIEVERSE — один из крупнейших известных наборов данных, содержащих парные трехмерные объекты и аннотации физических свойств материалов. Обширные оценки показывают, что PIXIE примерно в 1.46–4.39 раза лучше и на порядки быстрее, чем методы оптимизации на этапе тестирования. Благодаря использованию предобученных визуальных признаков, таких как CLIP, наш метод также может обобщать на реальные сцены в режиме zero-shot, несмотря на то, что обучался исключительно на синтетических данных. https://pixie-3d.github.io/
Последние достижения в области больших языковых моделей (LLM) сделали автоматизированные научные исследования следующим рубежом на пути к искусственному сверхразуму. Однако эти системы ограничены либо узкими задачами, либо ограниченными творческими возможностями LLM. Мы предлагаем Spacer — систему научных открытий, которая разрабатывает творческие и фактически обоснованные концепции без внешнего вмешательства. Spacer стремится достичь этого с помощью "осознанной деконтекстуализации" — подхода, который разбирает информацию на атомарные единицы (ключевые слова) и черпает творчество из неисследованных связей между ними. Spacer состоит из (i) Nuri — механизма вдохновения, который создает наборы ключевых слов, и (ii) Manifesting Pipeline, который преобразует эти наборы в детализированные научные утверждения. Nuri извлекает новые, перспективные наборы ключевых слов из графа, построенного на основе 180 000 академических публикаций в биологических областях. Manifesting Pipeline находит связи между ключевыми словами, анализирует их логическую структуру, проверяет их правдоподобность и в конечном итоге формулирует оригинальные научные концепции. Согласно нашим экспериментам, метрика оценки Nuri точно классифицирует высокоэффективные публикации с показателем AUROC 0,737. Наш Manifesting Pipeline также успешно восстанавливает ключевые концепции из последних статей ведущих журналов, используя только их наборы ключевых слов. Система оценки на основе LLM показывает, что это восстановление было корректным в более чем 85% случаев. Наконец, анализ пространства эмбеддингов демонстрирует, что результаты Spacer значительно ближе к ведущим публикациям по сравнению с результатами современных LLM.
Недавние базовые модели для работы с видео, такие как SAM2, демонстрируют выдающиеся результаты в сегментации видео по запросу, рассматривая маски как универсальный примитив. Однако во многих реальных сценариях требуется автономная сегментация, которая направлена на обнаружение и отслеживание всех объектов в видео без внешних подсказок, что делает современные подходы фрагментированными, основанными на специализированных моделях и конвейерах. Мы переосмысливаем потоковую сегментацию видео как последовательное предсказание масок, аналогичное языковому моделированию, и представляем Авторегрессионную Универсальную Модель Сегментации (AUSM) — единую архитектуру, объединяющую как сегментацию по запросу, так и автономную сегментацию. Основанная на современных моделях с пространством состояний, AUSM поддерживает фиксированный размер пространственного состояния и масштабируется для обработки видео произвольной длины. Кроме того, все компоненты AUSM разработаны для параллельного обучения на кадрах, что обеспечивает значительное ускорение по сравнению с итеративным обучением. На стандартных тестовых наборах (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021 и OVIS) AUSM превосходит предыдущие универсальные методы потоковой сегментации видео и достигает до 2,5-кратного ускорения обучения на последовательностях из 16 кадров.
Визуальные диффузионные модели демонстрируют впечатляющий прогресс, однако они обычно обучаются на ограниченных разрешениях из-за недостатка высококачественных данных и ограниченных вычислительных ресурсов, что препятствует их способности генерировать изображения или видео высокой четкости на более высоких разрешениях. Недавние исследования были направлены на изучение стратегий без дополнительной настройки, чтобы раскрыть неиспользованный потенциал генерации визуального контента с более высоким разрешением на основе предобученных моделей. Однако эти методы по-прежнему склонны создавать низкокачественный визуальный контент с повторяющимися паттернами. Основное препятствие заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий её обучающее разрешение, что приводит к нежелательным повторяющимся паттернам, возникающим из-за накопленных ошибок. В данной работе мы предлагаем CineScale — новый подход к выводу, который позволяет генерировать визуальный контент с более высоким разрешением. Для решения различных проблем, связанных с двумя типами архитектур генерации видео, мы предлагаем специализированные варианты, адаптированные для каждого из них. В отличие от существующих базовых методов, ограниченных генерацией изображений и видео с высоким разрешением (T2I и T2V), CineScale расширяет возможности, позволяя синтезировать видео с высоким разрешением на основе изображений (I2V) и видео (V2V), используя современные открытые фреймворки для генерации видео. Многочисленные эксперименты подтверждают превосходство нашего подхода в расширении возможностей генерации визуального контента с более высоким разрешением как для моделей изображений, так и для видео. Примечательно, что наш метод позволяет генерировать изображения с разрешением 8k без дополнительной настройки и достигать генерации видео с разрешением 4k при минимальной донастройке с использованием LoRA. Примеры сгенерированных видео доступны на нашем сайте: https://eyeline-labs.github.io/CineScale/.
Современные передовые методы (state-of-the-art, SOTA) для анимации персонажей, управляемой аудио, демонстрируют впечатляющие результаты в сценариях, связанных преимущественно с речью и пением. Однако они часто оказываются недостаточно эффективными в более сложных кинематографических и телевизионных постановках, которые требуют таких изощренных элементов, как тонкие взаимодействия персонажей, реалистичные движения тела и динамическая работа камеры. Для решения этой давней задачи достижения анимации персонажей на уровне кино мы предлагаем модель, управляемую аудио, которую мы называем Wan-S2V, основанную на Wan. Наша модель демонстрирует значительно улучшенную выразительность и точность в кинематографических контекстах по сравнению с существующими подходами. Мы провели обширные эксперименты, сравнивая наш метод с передовыми моделями, такими как Hunyuan-Avatar и Omnihuman. Результаты экспериментов последовательно показывают, что наш подход значительно превосходит эти существующие решения. Кроме того, мы исследуем универсальность нашего метода через его применение в генерации длинных видео и точном редактировании синхронизации губ в видео.
Современные подходы к генерации сеток обычно токенизируют треугольные сетки в последовательности токенов и обучают авторегрессионные модели для последовательной генерации этих токенов. Несмотря на значительный прогресс, такие последовательности токенов неизбежно повторно используют вершины для полного представления многообразий сеток, так как каждая вершина принадлежит нескольким граням. Эта избыточность приводит к чрезмерно длинным последовательностям токенов и неэффективным процессам генерации. В данной статье мы предлагаем эффективную структуру, которая генерирует художественные сетки, раздельно обрабатывая вершины и грани, что значительно снижает избыточность. Мы используем авторегрессионную модель исключительно для генерации вершин, сокращая количество токенов до примерно 23% от требуемого самым компактным существующим токенизатором. Затем мы применяем двунаправленный трансформер для завершения сетки за один шаг, учитывая взаимосвязи между вершинами и строя матрицу смежности, которая определяет грани сетки. Для дальнейшего улучшения качества генерации мы вводим усилитель точности, чтобы уточнить позиционирование вершин в более естественные конфигурации, и предлагаем постобработку для удаления нежелательных соединений ребер. Экспериментальные результаты показывают, что наш метод обеспечивает более чем 8-кратное ускорение генерации сеток по сравнению с передовыми подходами, при этом создавая сетки более высокого качества.
Крупные языковые модели (LLM) с цепочкой рассуждений продемонстрировали впечатляющие способности к решению задач, однако управление их вычислительными затратами остается серьезной проблемой для практического применения. Недавние проприетарные системы, такие как серия gpt-oss от OpenAI, представили дискретные режимы работы для интуитивного управления рассуждениями, но сообщество open-source в значительной степени не смогло достичь таких возможностей. В данной статье мы представляем ThinkDial — первую открытую end-to-end платформу, которая успешно реализует управляемое рассуждение в стиле gpt-oss через дискретные режимы работы. Наша система позволяет плавно переключаться между тремя различными режимами рассуждений: Высокий режим (полная способность к рассуждениям), Средний режим (сокращение количества токенов на 50% с ухудшением производительности менее чем на 10%) и Низкий режим (сокращение количества токенов на 75% с ухудшением производительности менее чем на 15%). Мы достигаем этого с помощью end-to-end парадигмы обучения, которая интегрирует управление бюджетными режимами на всех этапах: контролируемое тонкое обучение с бюджетными режимами, которое встраивает управляемые способности к рассуждениям непосредственно в процесс обучения, и двухэтапное обучение с подкреплением с учетом бюджета и адаптивным формированием наград. Многочисленные эксперименты показывают, что ThinkDial достигает целевых компромиссов между сжатием и производительностью с явным сокращением длины ответов при сохранении порогов производительности. Платформа также демонстрирует сильные способности к обобщению на задачах, выходящих за пределы распределения данных.
Появление агентов глубокого исследования значительно сократило время, необходимое для выполнения масштабных исследовательских задач. Однако такие задачи по своей природе требуют строгих стандартов фактической точности и полноты, что делает необходимым тщательную оценку перед их широким внедрением. В данной статье мы предлагаем ReportBench — систематический бенчмарк, предназначенный для оценки качества содержания исследовательских отчетов, генерируемых крупными языковыми моделями (LLM). Наша оценка сосредоточена на двух ключевых аспектах: (1) качестве и релевантности цитируемой литературы и (2) достоверности и правдивости утверждений в генерируемых отчетах. ReportBench использует высококачественные обзорные статьи, опубликованные на arXiv, в качестве эталонных источников, из которых мы применяем обратный инжиниринг промптов для создания предметно-ориентированных запросов и формирования комплексного корпуса для оценки. Кроме того, мы разрабатываем автоматизированную агентскую систему в рамках ReportBench, которая систематически анализирует генерируемые отчеты, извлекая цитаты и утверждения, проверяя достоверность цитируемого содержания по исходным источникам и валидируя некцитируемые утверждения с использованием веб-ресурсов. Эмпирические оценки показывают, что коммерческие агенты глубокого исследования, такие как разработанные OpenAI и Google, генерируют более полные и надежные отчеты, чем автономные LLM, дополненные инструментами поиска или просмотра. Тем не менее, остается значительный потенциал для улучшения в плане широты и глубины охвата исследований, а также фактической согласованности. Полный код и данные будут опубликованы по следующей ссылке: https://github.com/ByteDance-BandAI/ReportBench.
Открытие лекарств — это сложный и ресурсоемкий процесс, что делает раннее прогнозирование результатов одобрения критически важным для оптимизации инвестиций в исследования. Хотя классические методы машинного обучения и глубокого обучения показали перспективность в прогнозировании одобрения лекарств, их ограниченная интерпретируемость сдерживает их влияние. В данной работе мы представляем DrugReasoner — крупную языковую модель (LLM), основанную на архитектуре LLaMA и дообученную с использованием групповой относительной оптимизации политик (GRPO) для прогнозирования вероятности одобрения малых молекул. DrugReasoner интегрирует молекулярные дескрипторы с сравнительным анализом структурно схожих одобренных и неодобренных соединений, генерируя прогнозы вместе с пошаговыми обоснованиями и оценками уверенности. DrugReasoner продемонстрировал устойчивую производительность с AUC 0,732 и F1-мерой 0,729 на валидационном наборе данных, а также 0,725 и 0,718 на тестовом наборе соответственно. Эти результаты превзошли традиционные базовые методы, включая логистическую регрессию, метод опорных векторов и метод k-ближайших соседей, и показали конкурентоспособность по сравнению с XGBoost. На внешнем независимом наборе данных DrugReasoner превзошел как базовые методы, так и недавно разработанную модель ChemAP, достигнув AUC 0,728 и F1-меры 0,774, при этом сохраняя высокую точность и сбалансированную чувствительность, что демонстрирует устойчивость в реальных сценариях. Эти результаты показывают, что DrugReasoner не только обеспечивает конкурентоспособную точность прогнозирования, но и повышает прозрачность благодаря своим обоснованиям, тем самым устраняя ключевое узкое место в AI-ассистированном открытии лекарств. Это исследование подчеркивает потенциал крупных языковых моделей, усиленных логическим анализом, как интерпретируемых и эффективных инструментов для принятия решений в фармацевтике.
Эмпирические законы масштабирования сыграли ключевую роль в эволюции больших языковых моделей (LLM), однако их коэффициенты меняются при изменении архитектуры модели или конвейера данных. Модели с использованием смеси экспертов (Mixture-of-Experts, MoE), ставшие стандартом в современных системах, вводят новое измерение разреженности, которое игнорируется в текущих плотных моделях. Мы исследуем, как разреженность MoE влияет на два различных режима способностей: запоминание и логическое рассуждение. Мы обучаем семейства MoE-трансформеров, систематически варьируя общее количество параметров, активные параметры и маршрутизацию top-k при фиксированном бюджете вычислений. Для каждой модели мы фиксируем потери на предварительном обучении, потери на последующих задачах и точность выполнения задач, что позволяет нам отделить разрыв обобщения между обучением и тестированием от разрыва между потерями и точностью. Бенчмарки на запоминание монотонно улучшаются с увеличением общего количества параметров, отражая потери на обучении. В то же время производительность на задачах логического рассуждения насыщается и может даже ухудшаться, несмотря на продолжающийся рост общего количества параметров и снижение потерь на обучении. Изменение только top-k не оказывает значительного эффекта при постоянных активных параметрах, а классические гиперпараметры, такие как скорость обучения и инициализация, модулируют разрыв обобщения в том же направлении, что и разреженность. Ни посттренировочное обучение с подкреплением (GRPO), ни дополнительные вычисления во время тестирования не устраняют дефицит логического рассуждения в излишне разреженных моделях. Наши контрольные точки моделей, код и логи доступны в открытом доступе по адресу https://github.com/rioyokotalab/optimal-sparsity.
Решение научных задач представляет уникальные вызовы для крупных языковых моделей (LLM), требуя как глубоких знаний в предметной области, так и способности применять эти знания через сложные рассуждения. Хотя автоматизированные научные системы рассуждений обещают значительную помощь ученым, в настоящее время не существует широко принятого комплексного эталона для оценки научного мышления, и лишь немногие подходы систематически разделяют роли знаний и рассуждений в этих задачах. Для устранения этих пробелов мы представляем SciReas — разнообразный набор существующих эталонов для задач научного рассуждения, и SciReas-Pro — избирательное подмножество, требующее более сложных рассуждений. Наша комплексная оценка выявляет аспекты производительности в научных рассуждениях, которые остаются скрытыми при использовании отдельных эталонов. Затем мы предлагаем KRUX — фреймворк для изучения отдельных ролей рассуждений и знаний в научных задачах. Объединяя эти два подхода, мы проводим углубленный анализ, который приводит к нескольким ключевым выводам: (1) Извлечение релевантных для задачи знаний из параметров модели является критическим узким местом для LLM в научных рассуждениях; (2) Модели рассуждений последовательно выигрывают от добавления внешних знаний в контекст поверх улучшения рассуждений; (3) Улучшение вербализованных рассуждений повышает способность LLM выявлять релевантные для задачи знания. Наконец, мы проводим облегченный анализ, сравнивая нашу научно-ориентированную композицию данных с параллельными усилиями по длинному CoT SFT, и выпускаем SciLit01 — сильный базовый 8B-модель для научных рассуждений.
3D-инпейнтинг часто опирается на многовидовой 2D-инпейнтинг изображений, где присущие несоответствия между различными восстановленными видами могут приводить к размытым текстурам, пространственным разрывам и визуальным артефактам, отвлекающим внимание. Эти несоответствия представляют значительные трудности при стремлении к точному и реалистичному завершению 3D-объектов, особенно в приложениях, требующих высокой точности и структурной согласованности. Чтобы преодолеть эти ограничения, мы предлагаем ObjFiller-3D — новый метод, предназначенный для завершения и редактирования высококачественных и согласованных 3D-объектов. Вместо использования традиционной модели 2D-инпейнтинга изображений наш подход использует тщательно отобранную модель редактирования видео для заполнения замаскированных областей 3D-объектов. Мы анализируем разрыв в представлении между 3D и видео и предлагаем адаптацию модели инпейнтинга видео для инпейнтинга 3D-сцен. Кроме того, мы вводим метод 3D-инпейнтинга на основе референсов для дальнейшего повышения качества реконструкции. Эксперименты на различных наборах данных показывают, что по сравнению с предыдущими методами ObjFiller-3D обеспечивает более точные и детализированные реконструкции (PSNR 26.6 против 15.9 у NeRFiller и LPIPS 0.19 против 0.25 у Instant3dit). Более того, он демонстрирует значительный потенциал для практического применения в реальных задачах редактирования 3D. Страница проекта: https://objfiller3d.github.io/ Код: https://github.com/objfiller3d/ObjFiller-3D.
Крупные языковые модели (LLM) демонстрируют хорошие результаты в задачах общего вопросно-ответного взаимодействия, но часто испытывают трудности в узкоспециализированных сценариях. Метод генерации, дополненной извлечением данных (RAG), использует внешние знания, но страдает от галлюцинаций и задержек из-за шумного извлечения информации. Продолженное предобучение позволяет усвоить предметные знания, но оно затратно и не обеспечивает гибкости в кросс-доменных задачах. Мы связываем эту проблему с длиннохвостым распределением предметных знаний, что приводит к недостаточному использованию частично усвоенных, но полезных внутренних знаний. Мы также утверждаем, что процесс усвоения знаний должен быть прогрессивным, отражая человеческое обучение: сначала понимание концепций, затем их применение в сложных рассуждениях. Для решения этой задачи мы предлагаем Selct2Know (S2K), экономически эффективную структуру, которая усваивает предметные знания через стратегию самоотбора внутренних и внешних знаний и выборочное контролируемое тонкое обучение. Мы также представляем конвейер генерации структурированных данных для рассуждений и интегрируем GRPO для улучшения способности к рассуждению. Эксперименты на медицинских, юридических и финансовых вопросно-ответных бенчмарках показывают, что S2K стабильно превосходит существующие методы и достигает уровня LLM, предобученных в предметной области, при значительно меньших затратах.
В данной статье представлен MovieCORE — новый набор данных для ответов на вопросы по видео (Video Question Answering, VQA), предназначенный для исследования более глубокого когнитивного понимания содержания фильмов. В отличие от существующих наборов данных, ориентированных на поверхностное понимание, MovieCORE делает акцент на вопросах, которые вовлекают мышление Системы 2, оставаясь при этом специфичными к видеоматериалу. Мы предлагаем инновационный подход агентного мозгового штурма, использующий несколько крупных языковых моделей (LLM) в качестве мыслительных агентов для генерации и улучшения высококачественных пар вопрос-ответ. Для оценки качества набора данных мы разработали набор когнитивных тестов, оценивающих глубину, потенциал провокации мысли и синтаксическую сложность. Также мы предлагаем комплексную схему оценки для анализа производительности моделей VQA на задачах, требующих более глубокого когнитивного понимания. Чтобы устранить ограничения существующих видео-языковых моделей (VLM), мы вводим модуль агентного улучшения — Agentic Choice Enhancement (ACE), который повышает способности модели к рассуждению после обучения на величину до 25%. Наша работа способствует продвижению понимания фильмов в системах искусственного интеллекта и предоставляет ценные инсайты о возможностях и ограничениях современных моделей VQA при работе с более сложными и тонкими вопросами о кинематографическом контенте. Страница проекта, набор данных и код доступны по адресу https://joslefaure.github.io/assets/html/moviecore.html.
Крупные языковые модели (LLM) демонстрируют исключительные способности при обучении в исполняемых средах выполнения, особенно преуспевая в задачах программной инженерии благодаря проверенным циклам обратной связи. Однако масштабируемые и обобщаемые среды, основанные на исполнении, остаются редкими, что ограничивает прогресс в обучении более мощных ML-агентов. Мы представляем CTF-Dojo, первую крупномасштабную исполняемую среду, специально разработанную для обучения LLM с проверяемой обратной связью, включающую 658 полностью функциональных задач в стиле Capture-The-Flag (CTF), контейнеризованных в Docker с гарантированной воспроизводимостью. Для обеспечения быстрого масштабирования без ручного вмешательства мы разработали CTF-Forge — автоматизированный конвейер, который преобразует общедоступные артефакты в готовые к использованию среды выполнения за считанные минуты, устраняя необходимость в неделях экспертной настройки, традиционно требуемой для таких задач. Мы обучили LLM-агентов на основе всего 486 высококачественных, проверенных на исполнении траекторий из CTF-Dojo, достигнув абсолютного прироста до 11,6% по сравнению с сильными базовыми моделями на трех конкурентных бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша лучшая 32B-модель достигает показателя 31,9% Pass@1, устанавливая новый открытый рекорд, который конкурирует с передовыми моделями, такими как DeepSeek-V3-0324 и Gemini-2.5-Flash. Представляя задачи в стиле CTF как бенчмарк для обучения исполняемых агентов, CTF-Dojo демонстрирует, что сигналы обучения, основанные на исполнении, не только эффективны, но и играют ключевую роль в развитии высокопроизводительных ML-агентов без зависимости от дорогостоящих проприетарных систем.
Крупные языковые модели (LLM) изменили наш мир, добившись значительных успехов в науке, технике и обществе благодаря приложениям, начиная от научных открытий и медицинской диагностики до чат-ботов. Несмотря на их повсеместное распространение и полезность, внутренние механизмы работы LLM остаются скрытыми за миллиардами параметров и сложными структурами, что делает их внутреннюю архитектуру и когнитивные процессы трудными для понимания. Мы устраняем этот пробел, применяя подходы к изучению возникающей когниции в биологии и разрабатывая сетевую структуру, которая связывает когнитивные навыки, архитектуры LLM и наборы данных, что знаменует собой смену парадигмы в анализе базовых моделей. Распределение навыков в модульных сообществах показывает, что, хотя LLM не строго соответствуют фокусированной специализации, наблюдаемой в конкретных биологических системах, они демонстрируют уникальные сообщества модулей, чьи возникающие паттерны навыков частично отражают распределенную, но взаимосвязанную когнитивную организацию, наблюдаемую в мозгах птиц и мелких млекопитающих. Наши численные результаты подчеркивают ключевое отличие биологических систем от LLM, где приобретение навыков существенно выигрывает от динамических межрегиональных взаимодействий и нейропластичности. Интегрируя принципы когнитивной науки с машинным обучением, наша структура предоставляет новые инсайты в интерпретируемость LLM и предполагает, что эффективные стратегии тонкой настройки должны использовать распределенные динамики обучения, а не жесткие модульные вмешательства.
Продвинутые способности к рассуждению в больших языковых моделях (LLMs) привели к увеличению частоты возникновения галлюцинаций; однако большинство работ по их устранению сосредоточено на фильтрации постфактум, а не на формировании запросов, которые их вызывают. Мы представляем QueryBandits — фреймворк на основе бандитов, который разрабатывает стратегии переформулирования для максимизации модели вознаграждения, учитывающей склонность к галлюцинациям на основе чувствительности 17 лингвистических характеристик входного запроса, тем самым проактивно направляя LLMs в сторону избегания генерации галлюцинаций. На 13 разнообразных бенчмарках для вопросно-ответных систем и 1050 лексически измененных запросах на каждый набор данных наш лучший контекстный QueryBandit (Thompson Sampling) достигает 87,5% успешности по сравнению с базовым подходом без переформулирования и также превосходит статические стратегии нулевого сдвига ("перефразирование" или "расширение") на 42,6% и 60,3% соответственно. Таким образом, мы эмпирически подтверждаем эффективность QueryBandits в снижении галлюцинаций за счет вмешательства в виде переформулирования запроса. Интересно, что некоторые статические стратегии переформулирования, которые составляют значительную часть текущей литературы по переписыванию запросов, имеют более высокое совокупное сожаление, чем базовый подход без переформулирования, что указывает на то, что статические переформулирования могут усугублять галлюцинации. Более того, мы обнаруживаем, что сходящиеся векторы весов регрессионных характеристик для каждого "рукава" подтверждают, что не существует единой оптимальной стратегии переформулирования для всех запросов. В этом контексте направленное переформулирование с использованием семантических характеристик через QueryBandits может вызывать значительные изменения в поведении выходных данных через механизмы прямого прохода, обходя необходимость переобучения или адаптации на основе градиентов.
Крупные языковые модели (LLMs) демонстрируют выдающиеся результаты в различных задачах генерации. Тем не менее, эффективное согласование их поведения с желаемыми целями остается серьезной проблемой. Управление активациями представляет собой эффективный и экономичный подход, который напрямую изменяет активации LLMs на этапе вывода, согласовывая их ответы с желаемым поведением и избегая высоких затрат на тонкую настройку. Существующие методы обычно вмешиваются во все генерации без разбора или полагаются исключительно на вопрос для определения вмешательства, что ограничивает точную оценку силы вмешательства. В связи с этим мы предлагаем фреймворк Flexible Activation Steering with Backtracking (FASB), который динамически определяет как необходимость, так и силу вмешательства, отслеживая внутренние состояния LLMs в процессе генерации, учитывая как вопрос, так и сгенерированный контент. Поскольку вмешательство после обнаружения отклонения от желаемого поведения часто оказывается слишком запоздалым, мы дополнительно предлагаем механизм возврата (backtracking) для исправления отклоненных токенов и направления LLMs к желаемому поведению. Многочисленные эксперименты на наборе данных TruthfulQA и шести наборах данных с множественным выбором показывают, что наш метод превосходит базовые подходы. Наш код будет доступен по адресу https://github.com/gjw185/FASB.
В данном исследовании проводится оценка глубоких нейронных сетей для прогнозирования вероятностных распределений финансовых доходностей. Используются одномерные сверточные нейронные сети (CNN) и архитектуры с долгой краткосрочной памятью (LSTM) для прогнозирования параметров трех вероятностных распределений: нормального, распределения Стьюдента и асимметричного распределения Стьюдента. С помощью специальных функций потерь на основе отрицательного логарифма правдоподобия параметры распределений оптимизируются напрямую. Модели тестируются на шести основных фондовых индексах (S\&P 500, BOVESPA, DAX, WIG, Nikkei 225 и KOSPI) с использованием вероятностных метрик оценки, включая Логарифмический прогностический счет (LPS), Непрерывный ранговый вероятностный счет (CRPS) и Преобразование вероятностного интеграла (PIT). Результаты показывают, что модели глубокого обучения обеспечивают точные прогнозы распределений и конкурируют с классическими моделями GARCH в оценке Value-at-Risk. LSTM с асимметричным распределением Стьюдента демонстрирует наилучшие результаты по нескольким критериям оценки, учитывая как тяжелые хвосты, так и асимметрию в финансовых доходностях. Данная работа показывает, что глубокие нейронные сети являются жизнеспособной альтернативой традиционным эконометрическим моделям для оценки финансовых рисков и управления портфелями.
Юридические требования относятся к требованиям истца по делу и имеют ключевое значение для направления судебного рассуждения и разрешения дела. Хотя многие работы были сосредоточены на повышении эффективности работы юридических специалистов, исследования, направленные на помощь непрофессионалам (например, истцам), остаются малоизученными. В данной статье исследуется проблема генерации юридических требований на основе фактов конкретного дела. Во-первых, мы создаем ClaimGen-CN — первый набор данных для задачи генерации юридических требований на китайском языке, собранный из различных реальных юридических споров. Кроме того, мы разрабатываем метрику оценки, адаптированную для анализа сгенерированных требований, которая охватывает два ключевых аспекта: фактическую точность и ясность изложения. На основе этого мы проводим всестороннюю оценку в режиме zero-shot современных общих и специализированных на юридической тематике больших языковых моделей. Наши результаты подчеркивают ограничения текущих моделей в точности передачи фактов и ясности выражения, указывая на необходимость более целенаправленной разработки в этой области. Чтобы стимулировать дальнейшее исследование этой важной задачи, мы сделаем набор данных общедоступным.