HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

30 papers found

Геометрически направленное обучение с подкреплением для многовидового согласованного редактирования 3D-сцен
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Mar 3

ByJiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin

144

Использование априорных знаний 2D диффузионных моделей для 3D-редактирования стало перспективной парадигмой. Однако сохранение многовидовой согласованности в редактируемых результатах остается сложной задачей, а крайняя нехватка парных данных для 3D-согласованного редактирования делает невозможным применение контролируемой тонкой настройки (SFT) — наиболее эффективной стратегии обучения для задач редактирования. В данной работе мы отмечаем, что хотя генерация многовидово согласованного 3D-контента является чрезвычайно сложной, проверка 3D-согласованности осуществима, что естественным образом позиционирует обучение с подкреплением (RL) в качестве feasible решения. Руководствуясь этим, мы предлагаем RL3DEdit — однопроходную framework, управляемую RL-оптимизацией с новыми функциями вознаграждения, полученными от 3D-фундаментальной модели VGGT. В частности, мы используем надежные априорные знания VGGT, полученные на основе массовых реальных данных, подаем редактируемые изображения и используем выходные карты уверенности и ошибки оценки позы в качестве сигналов вознаграждения, эффективно anchoring априорные знания 2D-редактирования на 3D-согласованное многообразие посредством RL. Многочисленные эксперименты демонстрируют, что RL3DEdit достигает стабильной многовидовой согласованности и превосходит современные методы по качеству редактирования с высокой эффективностью. Для содействия развитию 3D-редактирования мы опубликуем код и модель.

Размышляя, чтобы вспомнить: как рассуждения раскрывают параметрические знания в больших языковых моделях
Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Mar 10

ByZorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig

Хотя рассуждения в больших языковых моделях естественным образом играют важную роль в решении математических задач, генерации кода и ответах на многошаговые фактологические вопросы, их влияние на простые одношаговые фактологические вопросы остается неясным. Такие вопросы не требуют пошагового логического разложения, что делает полезность рассуждений крайне контр-интуитивной. Тем не менее, мы обнаруживаем, что активация рассуждений существенно расширяет границы возможностей модели по извлечению параметрических знаний, открывая доступ к правильным ответам, которые в противном случае остаются практически недостижимыми. Почему рассуждения помогают извлекать параметрические знания, когда сложные логические шаги не требуются? Чтобы ответить на этот вопрос, мы разработали серию контролируемых экспериментов, проверяющих гипотезы, и выявили два ключевых механизма: (1) эффект вычислительного буфера, при котором модель использует сгенерированные токены рассуждений для выполнения скрытых вычислений, независимо от их семантического содержания; и (2) фактологический прайминг, при котором генерация тематически связанных фактов служит семантическим мостом, облегчающим извлечение правильного ответа. Важно отметить, что последний механизм генеративного само-извлечения несет в себе inherent risks: мы демонстрируем, что галлюцинации промежуточных фактов в ходе рассуждений повышают вероятность галлюцинаций в конечном ответе. Наконец, мы показываем, что наши выводы можно использовать для непосредственного повышения точности модели путем приоритизации траекторий рассуждений, содержащих фактические утверждения, свободные от галлюцинаций.

MM-Zero: Саморазвивающиеся мультимодальные визуально-языковые модели с нулевыми данными
MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Mar 10

ByZongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu

Саморазвитие стало ключевой парадигмой для улучшения базовых моделей, таких как большие языковые модели (LLM) и визуально-языковые модели (VLM), при минимальном вмешательстве человека. Хотя современные подходы показали, что агенты на основе LLM могут саморазвиваться с нуля практически без данных, VLM вводят дополнительную визуальную модальность, которая обычно требует хотя бы некоторых исходных данных (например, изображений) для запуска процесса саморазвития. В данной работе мы представляем MM-Zero — первую основанную на обучении с подкреплением (RL) систему, достигающую саморазвития VLM-рассуждений без исходных данных. Выходя за рамки предыдущих двухролевых конфигураций (Предлагающий и Решающий), MM-Zero вводит многоролевую систему саморазвивающегося обучения, включающую три специализированные роли: Предлагающий, который генерирует абстрактные визуальные концепции и формулирует вопросы; Кодер, который преобразует эти концепции в исполняемый код (например, Python, SVG) для рендеринга визуальных изображений; и Решающий, который выполняет мультимодальные рассуждения над сгенерированным визуальным контентом. Все три роли инициализируются из одной базовой модели и обучаются с использованием оптимизации групповой относительной политики (GRPO) с тщательно разработанными механизмами вознаграждения, интегрирующими обратную связь по исполнению, визуальную верификацию и балансировку сложности. Наши эксперименты показывают, что MM-Zero повышает производительность VLM-рассуждений на широком спектре мультимодальных тестов. MM-Zero открывает масштабируемый путь к созданию саморазвивающихся многомодельных систем для мультимодальных моделей, расширяя границы самосовершенствования за пределы традиционной двухмодельной парадигмы.

Омни-Диффузия: Унифицированное мультимодальное понимание и генерация с помощью маскированной дискретной диффузии
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Mar 6

ByLijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu

Хотя недавние мультимодальные большие языковые модели (MLLM) достигли впечатляющих успехов, они преимущественно используют традиционную авторегрессионную архитектуру в качестве основы, оставляя значительное пространство для поиска более эффективных и производительных альтернатив в проектировании архитектур. В то же время последние исследования успешно применили дискретные диффузионные модели в различных областях, таких как визуальное понимание и генерация изображений, раскрыв их значительный потенциал в качестве перспективной основы для мультимодальных систем. Вдохновляясь этими передовыми исследованиями, мы представляем Omni-Diffusion — первую мультимодальную языковую модель типа «любой-к-любому», полностью построенную на маскированных дискретных диффузионных моделях, которая унифицирует понимание и генерацию для текста, речи и изображений. Omni-Diffusion использует унифицированную маскированную дискретную диффузионную модель для непосредственного моделирования совместного распределения дискретных мультимодальных токенов. Данный подход поддерживает не только бимодальные задачи, но и более сложные сценарии с участием множества модальностей. На разнообразном наборе бенчмарков наш метод превосходит или показывает результаты на уровне существующих мультимодальных систем, обрабатывающих две и более модальностей, подчеркивая значительный потенциал диффузионных моделей в качестве основы для следующего поколения мультимодальных фундаментальных моделей. Страница проекта: https://omni-diffusion.github.io.

InternVL-U: Демократизация унифицированных мультимодальных моделей для понимания, рассуждения, генерации и редактирования
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Mar 10

ByChangyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

Унифицированные мультимодальные модели (UMM), объединяющие понимание, рассуждение, генерацию и редактирование, сталкиваются с неизбежными компромиссами между сохранением глубокого семантического понимания и приобретением мощных генеративных возможностей. В данном отчете мы представляем InternVL-U — облегченную UMM с 4 миллиардами параметров, которая делает эти возможности доступными в рамках единой архитектуры. Руководствуясь принципами унифицированного контекстного моделирования и модально-специфичного модульного дизайна с разделенными визуальными представлениями, InternVL-U интегрирует передовую мультимодальную большую языковую модель (MLLM) со специализированным визуально-генеративным блоком на основе MMDiT. Для дальнейшего сокращения разрыва между эстетической генерацией и высокоуровневым интеллектом мы создали комплексный конвейер синтеза данных, ориентированный на задачи с высокой семантической плотностью, такие как рендеринг текста и научные рассуждения, в рамках рассуждающей парадигмы, использующей цепочку мыслей (CoT) для лучшего согласования абстрактных намерений пользователя с детализированными аспектами визуальной генерации. Многочисленные эксперименты демонстрируют, что InternVL-U достигает превосходного баланса между производительностью и эффективностью. Несмотря на использование всего 4 миллиардов параметров, модель стабильно превосходит унифицированные базовые модели с более чем в 3 раза большим масштабом, такие как BAGEL (14B), в различных задачах генерации и редактирования, сохраняя при этом высокие способности к мультимодальному пониманию и рассуждению.

Технический отчет Fish Audio S2
Fish Audio S2 Technical Report

Mar 9

ByShijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

Мы представляем Fish Audio S2 — систему преобразования текста в речь с открытым исходным кодом, которая поддерживает генерацию речи для нескольких дикторов, многорепликовые диалоги и, что наиболее важно, управление через инструкции на естественном языке. Для масштабирования обучения мы разработали многоэтапный рецепт обучения вместе с поэтапным конвейером обработки данных, включающим создание субтитров для видео и речевых описаний, оценку качества голоса и моделирование вознаграждения. Чтобы расширить границы открытых TTS-систем, мы публикуем веса нашей модели, код для дообучения и механизм вывода на основе SGLang. Механизм вывода готов к промышленному использованию в потоковом режиме, обеспечивая RTF 0,195 и задержку до первого аудиосигнала менее 100 мс. Наш код и веса доступны на GitHub (https://github.com/fishaudio/fish-speech) и Hugging Face (https://huggingface.co/fishaudio/s2-pro). Мы настоятельно рекомендуем читателям посетить https://fish.audio, чтобы опробовать создание пользовательских голосов.

Чтение, а не мышление: понимание и преодоление модального разрыва, когда текст становится пикселями в мультимодальных языковых моделях
Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Mar 10

ByKaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai

Мультимодальные большие языковые модели (МБЯМ) способны обрабатывать текст, представленный в виде изображений, однако их производительность часто оказывается ниже, чем при подаче того же контента в виде текстовых токенов. Мы проводим систематическую диагностику этого "модального разрыва", оценивая семь МБЯМ на семи тестовых наборах в пяти режимах ввода, включая как синтетически отрендеренный текст, так и реалистичные изображения документов — от PDF-файлов с arXiv до страниц Wikipedia. Мы обнаруживаем, что модальный разрыв зависит от задачи и данных. Например, на математических задачах производительность падает более чем на 60 пунктов на синтетических изображениях, в то время как на реалистичных изображениях документов она часто соответствует или превосходит текстовый режим. Параметры рендеринга, такие как шрифт и разрешение, являются сильными confounding-факторами: только шрифт может изменять точность до 47 процентных пунктов. Чтобы понять это, мы проводим обоснованное теоретическое исследование ошибок на более чем 4000 примерах, которое показывает, что визуальный режим избирательно усиливает ошибки чтения (ошибки вычислений и форматирования), оставляя ошибки знаний и логики практически неизменными, а также что некоторые модели демонстрируют коллапс chain-of-thought рассуждений при визуальном вводе. Мотивируясь этими выводами, мы предлагаем метод самодистилляции, который обучает модель на ее собственных "чистых" текстовых траекториях рассуждений, спаренных с визуальными входами, повышая точность в визуальном режиме на GSM8K с 30.71% до 92.72% с переносом на новые тестовые наборы без катастрофического забывания. В целом, наше исследование дает систематическое понимание модального разрыва и предлагает практический путь к улучшению визуального понимания текста в мультимодальных языковых моделях.

Шагая на корт: оценка пространственного интеллекта визуальных языковых моделей в спорте
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Mar 10

ByYuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong

Спорт издавна привлекает широкое внимание, поскольку он расширяет пределы физических и когнитивных возможностей человека. На фоне растущего интереса к пространственному интеллекту моделей "визуальный язык" (Vision-Language Models, VLM) спорт предоставляет естественный полигон для изучения высокоинтенсивных движений человека и динамических взаимодействий объектов. С этой целью мы представляем CourtSI — первый крупномасштабный набор данных для оценки пространственного интеллекта, созданный специально для спортивных сценариев. CourtSI содержит более 1 миллиона пар "вопрос-ответ", систематизированных по целостной таксономии, которая охватывает пространственный подсчет, измерение расстояний, локализацию и реляционные рассуждения в контексте представительных сеточных видов спорта: бадминтона, тенниса и настольного тенниса. Используя четко определенную геометрию корта в качестве метрических ориентиров, мы разработали полуавтоматический механизм генерации данных для реконструкции спортивных сцен, что позволило масштабируемо создавать CourtSI. Кроме того, мы представляем CourtSI-Bench — высококачественный оценочный бенчмарк, состоящий из 3 686 пар "вопрос-ответ", прошедших тщательную проверку человеком. Мы оценили 25 проприетарных и открытых VLM на CourtSI-Bench, что выявило сохраняющийся разрыв между человеком и ИИ в производительности, а также ограниченную обобщающую способность с существующих бенчмарков пространственного интеллекта. Эти результаты указывают, что спортивные сценарии выявляют ограничения в возможностях пространственного интеллекта, которые не улавливаются существующими бенчмарками. Более того, дообучение модели Qwen3-VL-8B на данных CourtSI повысило точность на CourtSI-Bench на 23,5 процентных пункта. Адаптированная модель также эффективно обобщает знания на CourtSI-Ext — оценочный набор, созданный на основе схожего, но незнакомого вида спорта, — и демонстрирует улучшенную генерацию комментариев с учетом пространственного контекста. В совокупности эти результаты демонстрируют, что CourtSI предоставляет масштабируемый путь для развития пространственного интеллекта VLM в спортивной сфере.

MiniAppBench: Оценка перехода от текстовых к интерактивным HTML-ответам в ассистентах на базе больших языковых моделей
MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Mar 10

ByZuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li

С быстрым прогрессом крупных языковых моделей (LLM) в области генерации кода взаимодействие человека с ИИ эволюционирует от статических текстовых ответов к динамическим интерактивным приложениям на основе HTML, которые мы называем MiniApps. Эти приложения требуют от моделей не только визуализации интерфейсов, но и создания персонализированной логики взаимодействия, соответствующей реальным принципам. Однако существующие бенчмарки в основном сосредоточены на алгоритмической корректности или статической реконструкции макетов, не охватывая возможности, необходимые для этой новой парадигмы. Для устранения этого пробела мы представляем MiniAppBench — первый комплексный бенчмарк, разработанный для оценки принцип-ориентированной генерации интерактивных приложений. Созданный на основе реального приложения с более чем 10 миллионами генераций, MiniAppBench включает 500 задач из шести областей (например, Игры, Наука и Инструменты). Кроме того, для решения проблемы оценки открытых взаимодействий, где не существует единственного эталонного решения, мы предлагаем MiniAppEval — агентскую систему оценки. Используя автоматизацию браузера, она выполняет исследовательское тестирование, подобное человеческому, для систематической оценки приложений по трем измерениям: Интенция, Статика и Динамика. Наши эксперименты показывают, что современные LLM по-прежнему сталкиваются со значительными трудностями в генерации высококачественных MiniApps, в то время как MiniAppEval демонстрирует высокое соответствие человеческим оценкам, устанавливая надежный стандарт для будущих исследований. Наш код доступен по адресу github.com/MiniAppBench.

Слышат ли аудио-языковые модели? Специализированные аудио-механизмы для адаптивного управления аудиопотоком
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Mar 6

ByNeta Glazer, Lenny Aharon, Ethan Fetaya

Мультимодальные большие языковые модели могут проявлять доминирование текста, чрезмерно полагаясь на лингвистические априорные данные вместо того, чтобы основывать предсказания на нетекстовых входах. Одним из примеров являются большие аудио-языковые модели (LALMs), где решающие аудиодоказательства могут недостаточно использоваться, даже если они содержат важную информацию. Для решения этой проблемы мы применяем механистическую интерпретируемость, чтобы идентифицировать небольшой набор аудио-специализированных голов внимания, чье аудиовнимание генерирует «слуховой» сигнал. Мы показываем, что этот сигнал усиливается, когда аудиодоказательства влияют на вывод модели, что служит индикатором вовлеченности аудио при стандартном промптинге. Используя эту локализацию, мы конструируем направление управления «аудио-тишина» и применяем интервенцию активации во время вывода к конечному представлению, усиливая аудиоэффект модели. Чтобы продемонстрировать полезность этой интервенции, мы показываем на MMAU, что она повышает точность до +8,0 процентных пунктов на двух LALMs на основе Qwen без каких-либо обновлений параметров.

VLM-SubtleBench: Насколько видеоязыковые модели близки к человеческому уровню в тонком сравнительном анализе?
VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Mar 9

ByMinkyu Kim, Sangheon Lee, Dongmin Park

Способность различать тонкие различия между визуально схожими изображениями имеет ключевое значение для таких областей, как промышленное обнаружение аномалий, медицинская визуализация и аэросъёмка. Хотя сравнительные тесты для моделей «визуальный язык» (VLMs) недавно появились, они в основном сосредоточены на изображениях с крупными, явными различиями и не отражают нюансированные рассуждения, необходимые для реальных приложений. В данной работе мы представляем VLM-SubtleBench — тест, разработанный для оценки VLMs на способность к тонкому сравнительному анализу. Наш тест охватывает десять типов различий — атрибутивные, состояния, эмоции, временные, пространственные, существования, количества, качества, ракурса и действия — и включает подобранные наборы пар «вопрос-изображение», отражающие эти тонкие вариации. В отличие от предыдущих тестов, ограниченных наборами данных с естественными изображениями, наш тест охватывает различные области, включая промышленные, аэроснимки и медицинские изображения. В результате всесторонней оценки как проприетарных, так и открытых VLMs мы выявляем систематические разрывы между производительностью моделей и человека для различных типов различий и доменов, а также проводим контролируемый анализ, показывающий, где рассуждения VLMs резко ухудшаются. В совокупности наш тест и результаты закладывают основу для продвижения VLMs к сравнительным рассуждениям человеческого уровня.

Делай, что я говорю: набор данных устных команд для следования инструкциям
Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Mar 10

ByMaike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

Модели речи больших языковых моделей (SLLM) быстро развиваются, поддерживая широкий спектр задач. Эти модели обычно оцениваются с использованием текстовых промптов, что может не отражать реальные сценарии, в которых пользователи взаимодействуют с речью. Для устранения этого пробела мы представляем DoWhatISay (DOWIS) — многоязычный набор данных, содержащий устные и письменные промпты, записанные людьми, который предназначен для совместного использования с любым существующим бенчмарком для реалистичной оценки SLLM в условиях устных инструкций. Охватывая 9 задач и 11 языков, он предоставляет по 10 вариантов промптов для каждой пары "задача-язык" в пяти стилях. Используя DOWIS, мы проводим сравнительный анализ современных SLLM, изучая взаимосвязь между модальностью промпта, стилем, языком и типом задачи. Результаты показывают, что текстовые промпты consistently превосходят устные, особенно в условиях низкоресурсных и кросс-лингвистических сценариев. Только для задач с речевым выводом устные промпты сокращают разрыв, что подчеркивает необходимость использования речевых промптов при оценке SLLM.

Разделение рассуждений и уверенности: восстановление калибровки в обучении с подкреплением на основе верифицируемых вознаграждений
Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Mar 10

ByZhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) значительно улучшает способность больших языковых моделей (LLM) к рассуждениям, но при этом сильно страдает от деградации калибровки, когда модели становятся чрезмерно уверенными в неверных ответах. Предыдущие исследования были направлены на прямое включение цели калибровки в существующую целевую функцию оптимизации. Однако наш теоретический анализ показывает, что существует фундаментальный конфликт градиентов между оптимизацией для максимизации точности политики и минимизации ошибки калибровки. Основываясь на этом выводе, мы предлагаем DCPO — простую, но эффективную структуру, которая систематически разделяет цели рассуждений и калибровки. Многочисленные эксперименты демонстрируют, что наш DCPO не только сохраняет точность на уровне, сопоставимом с GRPO, но и достигает наилучших показателей калибровки, существенно смягчая проблему избыточной уверенности. Наше исследование предоставляет ценные идеи и практическое решение для более надежного развертывания LLM.

Тест-ориентированное определение ИИ-агента (TDAD): компиляция инструментальных агентов из поведенческих спецификаций
Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Mar 9

ByTzafrir Rehan

Мы представляем методологию Test-Driven AI Agent Definition (TDAD), которая рассматривает промты агентов как скомпилированные артефакты: инженеры предоставляют поведенческие спецификации, агент-кодер преобразует их в исполняемые тесты, а второй агент-кодер итеративно дорабатывает промт до прохождения тестов. Развертывание LLM-агентов, использующих инструменты, в промышленной эксплуатации требует измеримого соответствия поведения, которое не могут обеспечить современные практики разработки. Незначительные изменения в промтах приводят к тихим регрессиям, misuse инструментов остается незамеченным, а нарушения политик выявляются только после развертывания. Для снижения риска обхода спецификаций TDAD вводит три механизма: (1) разделение тестов на видимые/скрытые, при котором оценочные тесты удерживаются во время компиляции, (2) семантическое мутационное тестирование с помощью агента, который после компиляции генерирует правдоподобные ошибочные варианты промтов, а тестовая обвязка измеряет, обнаруживает ли их тестовый набор, и (3) сценарии эволюции спецификаций, которые количественно оценивают безопасность от регрессий при изменении требований. Мы оцениваем TDAD на SpecSuite-Core — бенчмарке четырех глубоко специфицированных агентов, охватывающих соответствие политикам, обоснованную аналитику, соблюдение руководств и детерминистическое enforcement. В 24 независимых испытаниях TDAD демонстрирует 92% успешной компиляции для v1 со средним процентом прохождения скрытых тестов 97%; эволюционировавшие спецификации компилируются в 58% случаев, причем большинство неудачных прогонов проходят все видимые тесты, кроме 1-2, и показывают мутационные баллы 86-100%, 78% прохождения скрытых тестов для v2 и 97% баллов безопасности от регрессий. Реализация доступна в качестве открытого бенчмарка по адресу https://github.com/f-labs-io/tdad-paper-code.

К созданию нейронного отладчика для Python
Towards a Neural Debugger for Python

Mar 10

ByMaximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve

Обучение больших языковых моделей (LLM) на трассах выполнения Python-программ позволяет закрепить их понимание исполнения кода и обеспечивает возможность построчного предсказания выполнения целых программ, эффективно превращая их в нейронные интерпретаторы (FAIR CodeGen Team et al., 2025). Однако разработчики редко выполняют программы пошагово; вместо этого они используют отладчики, чтобы останавливать выполнение на определенных точках останова и проходить только через релевантные участки, инспектируя или изменяя переменные программы. Существующие подходы к нейронным интерпретаторам лишены такого интерактивного контроля. Чтобы устранить это ограничение, мы представляем нейронные отладчики: языковые модели, которые эмулируют традиционные отладчики, поддерживая операции, такие как шаг с заходом, шаг с обходом или шаг с выходом из функции, а также установку точек останова на определенных строках исходного кода. Мы показываем, что нейронные отладчики — полученные путем дообучения больших LLM или предварительного обучения меньших моделей с нуля — могут надежно моделировать как прямое выполнение (предсказание будущих состояний и выходных данных), так и обратное выполнение (вывод предыдущих состояний или входных данных) в зависимости от действий отладчика. При оценке на CruxEval наши модели демонстрируют высокую производительность как в задачах предсказания выходных данных, так и входных данных, что подтверждает надежное моделирование условного выполнения. Наша работа представляет первые шаги к созданию будущих агентных систем программирования, в которых нейронные отладчики будут служить моделью мира для симулированных сред отладки, предоставляя обратную связь по выполнению или позволяя агентам взаимодействовать с реальными инструментами отладки. Эта способность закладывает основу для более мощного генерации кода, понимания программ и автоматизированной отладки.

Ловушка рассуждений — логическое мышление как механистический путь к ситуационной осведомленности
The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Mar 10

BySubramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

Ситуационная осведомленность — способность системы ИИ распознавать свою собственную природу, понимать контекст своего обучения и развертывания, а также стратегически анализировать свои обстоятельства — широко считается одной из самых опасных возникающих способностей в передовых системах ИИ. В то же время растет объем исследований, направленных на улучшение возможностей логического вывода больших языковых моделей (БЯМ) в области дедукции, индукции и абдукции. В данной статье мы утверждаем, что эти два исследовательских вектора находятся на пути к столкновению. Мы представляем фреймворк RAISE (Reasoning Advancing Into Self Examination), который определяет три механистических пути, посредством которых улучшения в логическом выводе позволяют достигать все более глубоких уровней ситуационной осведомленности: дедуктивный самоанализ, индуктивное распознавание контекста и абдуктивное само-моделирование. Мы формализуем каждый путь, выстраиваем эскалационную лестницу — от базового самораспознавания до стратегического обмана — и показываем, что каждая крупная исследовательская тема в области логического вывода БЯМ напрямую соотносится с конкретным усилителем ситуационной осведомленности. Далее мы анализируем, почему существующие меры безопасности недостаточны для предотвращения такой эскалации. В заключение мы предлагаем конкретные защитные механизмы, включая бенчмарк «Зеркальный тест» и Принцип паритета безопасности логического вывода, и задаем неудобный, но необходимый вопрос сообществу, занимающемуся логическим выводом, о его ответственности в рамках данной траектории.

Потоковая авторегрессионная генерация видео с помощью диагонального дистилляции
Streaming Autoregressive Video Generation via Diagonal Distillation

Mar 10

ByJinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu

Крупные предобученные диффузионные модели значительно повысили качество генерируемых видео, однако их использование в потоковой передаче в реальном времени остается ограниченным. Авторегрессионные модели предлагают естественную основу для последовательного синтеза кадров, но требуют значительных вычислительных ресурсов для достижения высокой точности. Дистилляция диффузии позволяет сжимать эти модели в эффективные варианты с малым количеством шагов, однако существующие подходы к дистилляции видео в основном адаптируют методы, специфичные для изображений, которые игнорируют временные зависимости. Эти методы часто преуспевают в генерации изображений, но демонстрируют худшие результаты в синтезе видео, проявляя сниженную согласованность движения, накопление ошибок в длинных последовательностях и компромисс между задержкой и качеством. Мы выделяем два фактора, приводящих к этим ограничениям: недостаточное использование временного контекста при сокращении шагов и неявное предсказание последующих уровней шума при прогнозировании следующего фрагмента (т.е. смещение экспозиции). Для решения этих проблем мы предлагаем метод диагональной дистилляции, который действует ортогонально существующим подходам и лучше использует временную информацию как между фрагментами видео, так и между шагами денойзинга. Ключевым элементом нашего подхода является асимметричная стратегия генерации: больше шагов в начале, меньше шагов позже. Такая конструкция позволяет последующим фрагментам наследовать богатую информацию о внешнем виде от тщательно обработанных начальных фрагментов, используя частично очищенные от шума фрагменты в качестве условных входных данных для последующего синтеза. Согласовывая неявное предсказание последующих уровней шума во время генерации фрагментов с реальными условиями вывода, наш подход смягчает распространение ошибок и снижает перенасыщенность в длинных последовательностях. Мы дополнительно включаем неявное моделирование оптического потока для сохранения качества движения при строгих ограничениях на количество шагов. Наш метод генерирует 5-секундное видео за 2,61 секунды (до 31 кадра в секунду), обеспечивая ускорение в 277,3 раза по сравнению с недистиллированной моделью.

ReflexiCoder: Обучение больших языковых моделей саморефлексии над сгенерированным кодом и его самостоятельному исправлению с помощью обучения с подкреплением
ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Mar 6

ByJuyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim

Хотя большие языковые модели (LLM) произвели революцию в генерации кода, стандартные подходы «Системы 1», генерирующие решения за один прямой проход, часто достигают потолка производительности при решении сложных алгоритмических задач. Существующие стратегии итеративного уточнения пытаются преодолеть этот разрыв на этапе вывода, однако они в основном полагаются на внешние оракулы, обратную связь по выполнению или вычислительно дорогостоящие циклы «запрос-ответ». В данной работе мы предлагаем ReflexiCoder — новую архитектуру обучения с подкреплением (RL), которая интериоризирует структурированную траекторию рассуждений, включающую первоначальную генерацию, рефлексию с учетом ошибок и оптимизации, и самокоррекцию, непосредственно в веса модели. В отличие от предыдущих методов, ReflexiCoder смещает парадигму от уточнения, зависимого от внешних источников, к внутренним, полностью автономным возможностям саморефлексии и самокоррекции на этапе вывода. Мы используем парадигму обучения RL-zero с гранулированными функциями вознаграждения для оптимизации всей траектории «рефлексия-коррекция», обучая модель отладке без reliance на эталонную обратную связь или механизмы выполнения во время вывода. Масштабные эксперименты на семи бенчмарках демонстрируют, что наша модель ReflexiCoder-8B устанавливает новое state-of-the-art (SOTA) достижение среди ведущих открытых моделей в диапазоне 1.5B-14B параметров, достигая 94.51% (87.20%) на HumanEval (Plus), 81.80% (78.57%) на MBPP (Plus), 35.00% на BigCodeBench, 52.21% на LiveCodeBench и 37.34% на CodeForces в режиме единственной попытки, что сравнимо или превосходит результаты проприетарных моделей, таких как GPT-5.1. Примечательно, что наша архитектура значительно более эффективна по использованию токенов, чем базовые модели, сокращая вычислительные накладные расходы на этапе вывода примерно на 40% благодаря дисциплинированным, высокоскоростным шаблонам рассуждений и рефлексии. Исходный код доступен по адресу https://github.com/juyongjiang/ReflexiCoder.

Многоголовое внимание с низким рангом
Multi-Head Low-Rank Attention

Mar 2

BySongtao Liu, Hongwu Peng, Zhiwei Zhang, Zhengyu Chen, Yue Guo

Вывод больших языковых моделей с длинным контекстом ограничивается загрузкой кэша ключей-значений (KV) на этапе декодирования, где последовательная природа генерации требует многократной передачи KV-кэша из внешней высокоскоростной памяти (HBM) во внутреннюю статическую память с произвольным доступом (SRAM) на каждом шаге. Хотя многоуровневая латентная внимательность (MLA) значительно сокращает общий размер KV-кэша, она сталкивается с проблемой шардинга при распределенном декодировании с помощью тензорного параллелизма (TP). Поскольку ее единственный латентный заголовок не подлежит разделению, каждое устройство вынуждено избыточно загружать полный KV-кэш для каждого токена, потребляя чрезмерный объем памяти и сводя на нет преимущества TP, такие как шардинг весов. В данной работе мы предлагаем многоуровневую внимательность низкого ранга (MLRA), которая обеспечивает разделяемые латентные состояния для эффективного 4-стороннего TP-декодирования. Многочисленные эксперименты показывают, что MLRA достигает наилучших показателей перплексии и производительности на практических задачах, а также обеспечивает ускорение декодирования в 2,8 раза по сравнению с MLA. Код доступен по адресу https://github.com/SongtaoLiu0823/MLRA. Предобученные веса, а также данные для обучения и оценки доступны по адресу https://huggingface.co/Soughing/MLRA.

BrandFusion: Многоагентная система для бесшовной интеграции брендов в генерации видео из текста
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Mar 3

ByZihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu

Быстрое развитие моделей преобразования текста в видео (T2V) произвело революцию в создании контента, однако их коммерческий потенциал в значительной степени остается нереализованным. Впервые мы представляем задачу бесшовной интеграции брендов в T2V: автоматическое внедрение брендов рекламодателей в видео, сгенерированные по промптам, при сохранении семантической соответствия пользовательскому замыслу. Эта задача сталкивается с тремя ключевыми проблемами: сохранение верности промпту, обеспечение узнаваемости бренда и достижение контекстуально естественной интеграции. Для их решения мы предлагаем BrandFusion — новую мультиагентную структуру, состоящую из двух синергетических фаз. На офлайн-фазе (ориентированной на рекламодателя) мы создаем Базу Знаний о Бренде путем исследования априорных представлений модели и адаптации к новым брендам с помощью легкой дообучки. На онлайн-фазе (ориентированной на пользователя) пять агентов совместно улучшают пользовательские промпты посредством итеративного уточнения, используя общую базу знаний и отслеживание контекста в реальном времени для обеспечения видимости бренда и семантического соответствия. Эксперименты с 18 известными и 2 пользовательскими брендами на нескольких передовых моделях T2V демонстрируют, что BrandFusion значительно превосходит базовые методы по сохранению семантики, узнаваемости бренда и естественности интеграции. Оценки пользователей дополнительно подтверждают более высокую удовлетворенность, устанавливая практический путь для устойчивой монетизации T2V.

Прогнозирование вознаграждения с факторизованными состояниями мира
Reward Prediction with Factorized World States

Mar 10

ByYijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung

Агенты должны предсказывать результаты действий и выбирать операции, максимизирующие сигнал вознаграждения, который указывает на близость достижения цели. Обучение с учителем моделей вознаграждения может привнести смещения, присущие обучающим данным, ограничивая обобщаемость для новых целей и сред. В данной работе мы исследуем, могут ли хорошо определенные представления о состоянии мира сами по себе обеспечить точное предсказание вознаграждения в различных областях. Для решения этой задачи мы представляем StateFactory — метод факторизованного представления, который преобразует неструктурированные наблюдения в иерархическую объектно-атрибутную структуру с использованием языковых моделей. Такое структурированное представление позволяет естественным образом оценивать вознаграждение как семантическое сходство между текущим и целевым состоянием при иерархическом ограничении. В целом, компактная структура представления, порождаемая StateFactory, обеспечивает мощные возможности обобщения вознаграждения. Мы проводим оценку на RewardPrediction — новом наборе данных, охватывающем пять различных доменов и содержащем 2 454 уникальные траектории "действие-наблюдение" с пошаговыми истинными вознаграждениями. Наш метод демонстрирует перспективные результаты в режиме zero-shot по сравнению с моделями вознаграждения VLWM-critic и LLM-as-a-Judge, достигая на 60% и 8% меньшего расстояния EPIC соответственно. Более того, это превосходное качество оценки вознаграждения успешно транслируется в улучшенную производительность планирования агента, обеспечивая прирост процента успешных завершений на +21,64% в AlfWorld и +12,40% в ScienceWorld по сравнению с реактивными политиками Системы 1 и усиливая планирование агентов Системы 2. Страница проекта: https://statefactory.github.io

BiCLIP: Доменная канонизация посредством структурированного геометрического преобразования
BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Mar 9

ByPranav Mantini, Shishir K. Shah

Последние достижения в области визуально-языковых моделей (VLM) продемонстрировали впечатляющие возможности zero-shot обучения, однако адаптация этих моделей к специализированным доменам остаётся серьёзной проблемой. Опираясь на недавние теоретические инсайты, предполагающие, что независимо обученные VLM связаны каноническим преобразованием, мы расширяем это понимание на концепцию доменов. Мы выдвигаем гипотезу, что особенности изображений из различных доменов связаны канонизированным геометрическим преобразованием, которое можно восстановить с помощью небольшого набора якорных точек. Классификация с малым числом примеров предоставляет естественную среду для такого выравнивания, поскольку ограниченные размеченные образцы служат якорями, необходимыми для оценки этого преобразования. Руководствуясь этой гипотезой, мы представляем BiCLIP — фреймворк, применяющий целевое преобразование к мультимодальным признакам для улучшения межмодального согласования. Наш подход характеризуется исключительной простотой и низким параметрическим следом. Масштабные оценки на 11 стандартных бенчмарках, включая EuroSAT, DTD и FGVCAircraft, демонстрируют, что BiCLIP стабильно достигает state-of-the-art результатов. Кроме того, мы предоставляем эмпирическое подтверждение существующих геометрических находок через анализ ортогональности и углового распределения изученных преобразований, подтверждая, что структурированное выравнивание является ключом к устойчивой адаптации к домену. Код доступен по адресу https://github.com/QuantitativeImagingLaboratory/BilinearCLIP

SAHOO: Защищённое согласование для задач оптимизации высокого порядка в рекурсивном самосовершенствовании
SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Mar 6

BySubramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

Рефлексивное самоулучшение переходит от теории к практике: современные системы способны критиковать, пересматривать и оценивать собственные результаты, однако итеративная самомодификация сопряжена с риском незаметного дрейфа согласованности. Мы представляем SAHOO — практическую систему мониторинга и контроля дрейфа с помощью трех механизмов: (i) Индекс дрейфа целей (GDI), обученный детектор, объединяющий семантические, лексические, структурные и дистрибутивные метрики; (ii) проверки сохранения ограничений, обеспечивающие соблюдение критически важных инвариантов, таких как синтаксическая корректность и отсутствие галлюцинаций; и (iii) количественную оценку риска регрессии для выявления циклов улучшения, отменяющих предыдущие достижения. В ходе 189 тестов по генерации кода, математическим рассуждениям и достоверности SAHOO демонстрирует значительный рост качества, включая улучшение на 18,3% в задачах программирования и на 16,8% в логических задачах, при сохранении ограничений в двух доменах и минимальном уровне нарушений в проверке истинности. Пороговые значения калибруются на небольшой валидационной выборке из 18 задач в трёх циклах. Мы также строим границу компромисса между возможностями и согласованностью, показывая эффективные начальные циклы улучшения, но растущие затраты на согласованность на поздних этапах, а также выявляя доменно-специфические противоречия, такие как беглость против фактической точности. Таким образом, SAHOO делает сохранение согласованности в процессе рефлексивного самоулучшения измеримым, внедряемым и систематически проверяемым в масштабе.

Микродиффузионное сжатие — денойзинг методом бинарного дерева Твиди для онлайн-оценки вероятностей
Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

Mar 9

ByRoberto Tacconelli

Мы представляем Midicoth — систему сжатия без потерь, которая вводит микродиффузионный слой шумоподавления для улучшения вероятностных оценок, генерируемых адаптивными статистическими моделями. В таких компрессорах, как Prediction by Partial Matching (PPM), вероятностные оценки сглаживаются с помощью априорного распределения для обработки разреженных наблюдений. Когда контексты встречались лишь несколько раз, это априорное распределение доминирует в прогнозировании и создаёт распределения, значительно более плоские, чем истинное распределение источника, что приводит к неэффективности сжатия. Midicoth преодолевает это ограничение, трактуя априорное сглаживание как процесс сжатия и применяя обратный шаг шумоподавления, который корректирует предсказанные вероятности с использованием эмпирической калибровочной статистики. Для обеспечения эффективности этой коррекции по данным метод декомпозирует каждый байтовый прогноз в иерархию бинарных решений вдоль битового дерева. Это преобразует единую задачу 256-классовой калибровки в последовательность бинарных калибровочных задач, позволяя надёжно оценивать корректирующие члены даже по относительно малому числу наблюдений. Процесс шумоподавления применяется в несколько последовательных шагов, позволяя каждому этапу уточнять остаточные ошибки прогноза, оставшиеся от предыдущего. Микродиффузионный слой функционирует как лёгкая калибровочная стадия пост-смешивания, применяемая после объединения всех модельных прогнозов, что позволяет ему корректировать систематические смещения итогового вероятностного распределения. Midicoth объединяет пять полностью онлайн-компонентов: адаптивную PPM-модель, модель долгосрочного соответствия, модель слов на основе префиксного дерева, модель контекстов высокого порядка и микродиффузионный дениойзер, применяемый на финальном этапе.

Двойственность пространства состояний с приоритетом компилятора и портируемое O(1) авторегрессионное кэширование для логического вывода
Compiler-First State Space Duality and Portable O(1) Autoregressive Caching for Inference

Mar 10

ByCosmo Santoni

Выпуски моделей в пространстве состояний обычно связаны со слиянием ядер CUDA и Triton, что создает жесткую зависимость от оборудования NVIDIA. Мы демонстрируем, что алгоритм двойственности пространства состояний Mamba-2 — диагональная структура состояний, фрагментируемая рекуррентность и вычисления, доминируемые операцией einsum со статическим потоком управления — органично соответствует тому, что фактически оптимизируют проходы слияния и тайлинга в XLA, делая пользовательские ядра опциональными, а не обязательными. Мы реализуем полный путь вывода (предзаполнение, кэшированное авторегрессионное декодирование) в виде стандартных примитивов с заданной формой в XLA, без написания ядер вручную, и воплощаем теоретическое управление состояниями со сложностью O(1) в виде скомпилированного кэша на устройстве, не требующего синхронизации с хостом в процессе генерации. Реализация работает без изменений на CPU, GPU NVIDIA и Google Cloud TPU из единого исходного кода на JAX. На TPU v6e для пяти масштабов модели (130 млн — 2,7 млрд параметров) код, сгенерированный XLA, достигает примерно 140 TFLOPS при однопоточном предзаполнении (15% MFU) и до 64% утилизации пропускной способности при декодировании. Жадное декодирование точно соответствует эталонной реализации на PyTorch/CUDA по токенам на протяжении 64 шагов, с согласованностью скрытых состояний в пределах допуска округления float32. Данный подход применим к любой рекуррентности SSM, удовлетворяющей тем же структурным условиям, на любой платформе со зрелой реализацией XLA. Реализация общедоступна по адресу https://github.com/CosmoNaught/mamba2-jax и интегрирована в библиотеку моделей Bonsai JAX.

Болбош: Сценарно-осознанное согласование потоков для кашмирского преобразования текста в речь
Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Mar 8

ByTajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir

Кашмири является родным языком для примерно 7 миллионов человек, но остается критически недостаточно обеспеченным речевыми технологиями, несмотря на его официальный статус и богатое лингвистическое наследие. Отсутствие надежных систем синтеза речи (Text-to-Speech, TTS) ограничивает цифровую доступность и инклюзивное человеко-компьютерное взаимодействие для носителей языка. В данной работе мы представляем первую специализированную открытую нейросетевую TTS-систему, разработанную для кашмири. Мы показываем, что многоязычные базовые модели, обученные по принципу zero-shot для индийских языков, не способны генерировать разборчивую речь, достигая средней оценки мнения (Mean Opinion Score, MOS) всего 1.86, что в значительной степени связано с неадекватным моделированием персо-арабских диакритических знаков и специфической фонологической структуры языка. Для преодоления этих ограничений мы предлагаем Bolbosh — стратегию контролируемой кросс-лингвальной адаптации на основе условного согласования потоков с оптимальным транспортом (Optimal Transport Conditional Flow Matching, OT-CFM) в рамках фреймворка Matcha-TTS. Это позволяет достичь стабильного выравнивания при ограниченном объеме размеченных данных. Дополнительно мы вводим трехэтапный конвейер акустического улучшения, состоящий из удаления реверберации, обрезки пауз и нормализации громкости, для унификации разнородных источников речи и стабилизации обучения выравниванию. Словарь модели расширен для явного кодирования графем кашмири с сохранением тонких различий между гласными. Наша система достигает MOS 3.63 и Mel-кестрального искажения (Mel-Cepstral Distortion, MCD) 3.73, существенно превосходя многоязычные базовые модели и устанавливая новый эталон для синтеза кашмирской речи. Наши результаты демонстрируют, что адаптация с учетом письменности и на основе контролируемых потоков критически важна для TTS в условиях ограниченных ресурсов для языков, чувствительных к диакритике. Код и данные доступны по адресу: https://github.com/gaash-lab/Bolbosh.

ConFu: Осмысление будущего для улучшения спекулятивного сэмплирования
ConFu: Contemplate the Future for Better Speculative Sampling

Mar 9

ByZongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun

Спекулятивное декодирование стало мощным подходом для ускорения вывода больших языковых моделей (LLM), использующим легковесные черновые модели для предложения кандидатных токенов, которые впоследствии проверяются целевой моделью. Эффективность этой парадигмы критически зависит от качества черновой модели. Хотя последние достижения, такие как серия EAGLE, демонстрируют наилучшее ускорение, существующие черновые модели остаются ограниченными из-за накопления ошибок: они учитывают только текущий префикс, что приводит к расхождению их предсказаний с предсказаниями целевой модели на последующих шагах. В данной работе мы предлагаем ConFu (Contemplate the Future) — новую структуру спекулятивного декодирования, которая позволяет черновым моделям предвосхищать будущее направление генерации. ConFu вводит (i) токены-размышления и мягкие промпты, позволяющие черновой модели использовать ориентированные на будущее сигналы от целевой модели с незначительными затратами, (ii) механизм динамических токенов-размышлений с MoE для обеспечения контекстно-зависимого предсказания будущего и (iii) структуру обучения с выборкой якорных токенов и репликацией предсказания будущего, которая обучает надежному прогнозированию. Эксперименты показывают, что ConFu улучшает процент принятия токенов и скорость генерации на 8–11% по сравнению с EAGLE-3 в различных downstream-задачах с моделями Llama-3 3B и 8B. Мы считаем, что наша работа первой объединяет спекулятивное декодирование с токенами непрерывного рассуждения, предлагая новое направление для ускорения вывода LLM.

TALON: Адаптивное обучение в режиме тестирования для оперативного обнаружения категорий
TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Mar 9

ByYanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li

Динамическое обнаружение категорий (OCD) ставит целью распознавание известных категорий при одновременном выявлении новых из немаркированного онлайн-потока данных, используя модель, обученную только на размеченных данных. Существующие подходы замораживают экстрактор признаков, обученный офлайн, и применяют хэш-ориентированную архитектуру, которая квантует признаки в бинарные коды в качестве прототипов классов. Однако обнаружение новых категорий с фиксированной базой знаний противоречит интуиции, поскольку потенциал обучения входящих данных полностью игнорируется. Кроме того, квантование признаков приводит к потере информации, снижает выразительность представлений и усиливает внутриклассовую дисперсию. Это часто выливается в "взрыв категорий", когда единый класс дробится на множество псевдоклассов. Для преодоления этих ограничений мы предлагаем фреймворк адаптации на этапе тестирования, который позволяет обучаться через обнаружение. Он включает две взаимодополняющие стратегии: семантически осознанное обновление прототипов и стабильное обновление энкодера во время тестирования. Первая динамически уточняет прототипы классов для улучшения классификации, тогда вторая интегрирует новую информацию непосредственно в пространство параметров. Вместе эти компоненты позволяют модели непрерывно расширять свою базу знаний за счет вновь поступающих образцов. Кроме того, мы вводим калибровку логитов с учетом зазора на офлайн-этапе, чтобы увеличить межклассовые расстояния и улучшить внутриклассовую компактность, тем самым резервируя пространство векторов для будущего обнаружения классов. Эксперименты на стандартных бенчмарках OCD демонстрируют, что наш метод существенно превосходит существующие хэш-ориентированные передовые подходы, показывая значительное улучшение точности для новых классов и эффективно mitigating взрыв категорий. Код общедоступен по адресу: \url{https://github.com/ynanwu/TALON}.

За пределами обучения во время тестирования: обучение логическому мышлению с помощью энергоэффективного оптимального управления
Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Mar 10

ByPeihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal

Ассоциативная память долгое время лежала в основе проектирования последовательных моделей. Однако помимо воспроизведения, люди рассуждают, проецируя будущие состояния и выбирая целенаправленные действия — способность, которая все более необходима современным языковым моделям, но не заложена в них изначально. В то время как предыдущие работы используют обучение с подкреплением или обучение во время тестирования, планирование остается внешним по отношению к архитектуре модели. Мы формулируем рассуждение как задачу оптимального управления и представляем слой управления во время тестирования (Test-Time Control, TTC), который выполняет планирование по методу LQR с конечным горизонтом над латентными состояниями во время вывода, представляет функцию ценности внутри нейросетевых архитектур и использует ее как вложенную цель, чтобы обеспечить планирование до предсказания. Для обеспечения масштабируемости мы выводим аппаратно-эффективный решатель LQR на основе симплектической формулировки и реализуем его в виде слитого CUDA-ядра, что позволяет параллельное выполнение с минимальными накладными расходами. Интегрированные в качестве адаптера в предварительно обученные большие языковые модели, слои TTC улучшают результаты математических рассуждений до +27.8% на MATH-500 и в 2-3 раза повышают показатель Pass@8 на AMC и AIME, демонстрируя, что встраивание оптимального управления в качестве архитектурного компонента предоставляет эффективный и масштабируемый механизм для рассуждений, превосходящий обучение во время тестирования.

Текст-ориентированный интерфейс для генеративного создания видеоконтента
A Text-Native Interface for Generative Video Authoring

Mar 10

ByXingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li

Каждый может писать свои истории в свободном текстовом формате — этому мы все учимся в школе. Однако создание повествования с помощью видео требует освоения специализированных и сложных инструментов. В данной статье мы представляем Doki, интерфейс для генеративного видеомонтажа, ориентированный на работу с текстом, который приближает процесс создания видео к естественному процессу написания текста. В Doki написание текста является основным способом взаимодействия: в рамках одного документа пользователи определяют ресурсы, структурируют сцены, создают кадры, редактируют монтаж и добавляют аудио. Мы формулируем принципы проектирования этого подхода, ориентированного на текст, и демонстрируем возможности Doki на ряде примеров. Для оценки его практического применения мы провели недельное исследование с участием пользователей, имеющих разный уровень опыта в создании видео. Данная работа представляет собой фундаментальный сдвиг в интерфейсах для генеративного видео, демонстрируя мощный и доступный новый способ создания визуальных историй.