HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

37 papers found

Астролябия: Управление обучением с подкреплением в прямом процессе для дистиллированных авторегрессивных моделей видео
Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Mar 17

BySongchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao

109

Дистиллированные авторегрессионные (AR) модели видео позволяют эффективно генерировать потоковое видео, но часто не соответствуют визуальным предпочтениям человека. Существующие фреймворки обучения с подкреплением (RL) не подходят для этих архитектур естественным образом, как правило, требуя либо дорогостоящей повторной дистилляции, либо оптимизации обратного процесса, сопряженной с решателем, что влечет значительные накладные расходы по памяти и вычислениям. Мы представляем Astrolabe — эффективный онлайн-фреймворк RL, разработанный специально для дистиллированных AR-моделей. Чтобы преодолеть существующие узкие места, мы вводим формулировку RL для прямого процесса на основе негативно-осознанной тонкой настройки. Сопоставляя позитивные и негативные сэмплы непосредственно в конечных точках вывода, этот подход устанавливает неявное направление улучшения политики без необходимости развертывания обратного процесса. Для масштабирования этого согласования на длинные видео мы предлагаем схему потокового обучения, которая постепенно генерирует последовательности с помощью скользящего KV-кэша, применяя RL-обновления исключительно к локальным клип-окнам, одновременно conditioning на предшествующий контекст для обеспечения долгосрочной связности. Наконец, для снижения риска взлома функции вознаграждения мы интегрируем многокритериальную целевую функцию, стабилизированную с помощью селективной регуляризации с учетом неопределенности и динамических обновлений референсов. Многочисленные эксперименты демонстрируют, что наш метод последовательно улучшает качество генерации для различных дистиллированных AR-моделей видео, выступая в качестве надежного и масштабируемого решения для согласования.

HopChain: Многошаговый синтез данных для обобщающих рассуждений в области компьютерного зрения и обработки естественного языка
HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Mar 17

ByShenzhi Wang, Shixuan Liu, Jing Zhou, Chang Gao, Xiong-Hui Chen, Binghai Wang, An Yang, Shiji Song, Bowen Yu, Gao Huang, Junyang Lin

109

Мультимодальные языковые модели (VLM) демонстрируют мощные мультимодальные способности, но по-прежнему испытывают трудности с тонким визуально-языковым рассуждением. Мы обнаружили, что длинные цепочки рассуждений (CoT) выявляют разнообразные типы ошибок, включая ошибки восприятия, логики, знаний и галлюцинаций, которые могут накапливаться на промежуточных шагах. Однако большинство существующих визуально-языковых данных, используемых для RLVR, не включают сложные цепочки рассуждений, последовательно опирающиеся на визуальные свидетельства, что оставляет эти слабости в основном непроявленными. Поэтому мы предлагаем HopChain — масштабируемую структуру для синтеза многошаговых данных визуально-языкового рассуждения, специально предназначенных для обучения VLMs методом RLVR. Каждый синтезированный многошаговый запрос формирует логически зависимую цепочку конкретных шагов, где предыдущие шаги устанавливают экземпляры, множества или условия, необходимые для последующих шагов, в то время как окончательный ответ остается конкретным, однозначным числом, пригодным для верифицируемого вознаграждения. Мы добавляем многошаговые данные, синтезированные HopChain, к исходным данным RLVR, использовавшимся для обучения моделей Qwen3.5-35B-A3B и Qwen3.5-397B-A17B, и сравниваем их с RLVR только на исходных данных по 24 тестам, охватывающим STEM и головоломки, общие VQA, распознавание текста и понимание документов, а также понимание видео. Хотя эти многошаговые данные не синтезировались для targeting конкретных тестов, их добавление улучшает результаты в 20 из 24 тестов для обеих моделей, что указывает на широкий и обобщаемый выигрыш. Чтобы продемонстрировать важность полных цепочек запросов, мы заменяем их на полу-многошаговые или одношаговые варианты, что снижает среднюю точность по 24 тестам на 5.3 и 7.0 пунктов соответственно. Многошаговое обучение также усиливает длинное визуально-языковое рассуждение CoT, с максимальным приростом точности более чем на 50 пунктов в режиме сверхдлинного CoT. Эти эксперименты подтверждают, что HopChain является эффективной и масштабируемой структурой для синтеза многошаговых данных, которые улучшают обобщаемое визуально-языковое рассуждение.

Терраскоп: Визуальное рассуждение с привязкой к пикселям для дистанционного зондирования Земли
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Mar 19

ByYan Shu, Bin Ren, Zhitong Xiong, Xiao Xiang Zhu, Begüm Demir, Nicu Sebe, Paolo Rota

Модели "визуальный язык" (VLM) показали перспективность в области дистанционного зондирования Земли (ДЗЗ), однако они испытывают трудности с задачами, требующими привязки сложных пространственных рассуждений к точным пиксельным визуальным представлениям. Для решения этой проблемы мы представляем TerraScope — унифицированную VLM, которая обеспечивает пиксельно-обоснованное геопространственное рассуждение благодаря двум ключевым возможностям: (1) модально-гибкое рассуждение: модель обрабатывает входные данные одной модальности (оптические или РЛС-данные) и адаптивно объединяет разные модальности в процесс рассуждения, когда обе доступны; (2) многовременное рассуждение: модель интегрирует временные последовательности для анализа изменений в нескольких временных точках. Кроме того, мы создали Terra-CoT, крупномасштабный набор данных, содержащий 1 миллион образцов с пиксельными масками, встроенными в цепочки рассуждений из различных источников. Мы также предлагаем TerraScope-Bench, первый эталонный тест для пиксельно-обоснованного геопространственного рассуждения с шести подзадачами, который оценивает как точность ответа, так и качество маски для обеспечения подлинного пиксельно-обоснованного рассуждения. Эксперименты показывают, что TerraScope значительно превосходит существующие VLM в задачах пиксельно-обоснованного геопространственного рассуждения, одновременно предоставляя интерпретируемые визуальные доказательства.

Гиперагенты
Hyperagents

Mar 19

ByJenny Zhang, Bingchen Zhao, Wannan Yang, Jakob Foerster, Jeff Clune, Minqi Jiang, Sam Devlin, Tatiana Shavrina

Самоулучшающиеся системы искусственного интеллекта направлены на снижение зависимости от человеческого инжиниринга путем обучения самостоятельному совершенствованию процессов обучения и решения задач. Существующие подходы к самоулучшению опираются на фиксированные, созданные вручную метауровневые механизмы, что принципиально ограничивает скорость улучшения таких систем. Машина Дарвина-Гёделя (DGM) демонстрирует неограниченное самоулучшение в области программирования путем многократного генерирования и оценки самоизменяющихся вариантов. Поскольку и оценка, и самомодификация являются задачами программирования, успехи в способности к программированию могут трансформироваться в улучшение способности к самоулучшению. Однако эта согласованность, как правило, не сохраняется за пределами доменов программирования. Мы представляем гиперагентов — самоссылающихся агентов, которые интегрируют рабочего агента (решающего целевую задачу) и мета-агента (модифицирующего себя и рабочего агента) в единую редактируемую программу. Ключевым моментом является то, что процедура модификации на метауровне сама является редактируемой, что позволяет осуществлять метакогнитивную самомодификацию, улучшая не только поведение при решении задач, но и механизм, генерирующий будущие улучшения. Мы реализуем эту структуру, расширяя DGM для создания DGM-Гиперагентов (DGM-H), устраняя предположение о доменно-специфической согласованности между производительностью задачи и навыком самомодификации, что потенциально может поддерживать самоускоряющийся прогресс в любой вычислимой задаче. В различных доменах DGM-H со временем улучшает производительность и превосходит базовые методы без самоулучшения или неограниченного исследования, а также предыдущие самоулучшающиеся системы. Более того, DGM-H улучшает процесс генерации новых агентов (например, постоянная память, отслеживание производительности), и эти улучшения на метауровне переносятся между доменами и накапливаются в ходе различных запусков. DGM-Гиперагенты предлагают glimpse неограниченных ИИ-систем, которые не просто ищут лучшие решения, но постоянно улучшают свой поиск способов улучшения.

ProactiveBench: Оценка проактивности мультимодальных больших языковых моделей
ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

Mar 19

ByThomas De Min, Subhankar Roy, Stéphane Lathuilière, Elisa Ricci, Massimiliano Mancini

Эффективное сотрудничество начинается с понимания, когда необходимо обратиться за помощью. Например, при попытке идентифицировать загороженный объект человек попросит кого-нибудь убрать препятствие. Способны ли MLLM проявить аналогичное «проактивное» поведение, запрашивая простые вмешательства пользователя? Чтобы исследовать это, мы представляем ProactiveBench — бенчмарк, созданный на основе семи перепрофилированных наборов данных, который тестирует проактивность в различных задачах, таких как распознавание закрытых объектов, улучшение качества изображения и интерпретация грубых набросков. Мы оценили 22 MLLM на ProactiveBench и показали, что: (i) им в целом не хватает проактивности; (ii) проактивность не коррелирует с мощностью модели; (iii) «намёки» на проактивность дают лишь незначительное улучшение. Неожиданно мы обнаружили, что история диалога и обучение в контексте создают негативные смещения, ухудшая результаты. Наконец, мы исследуем простую стратегию тонкой настройки на основе обучения с подкреплением: её результаты позволяют предположить, что проактивности можно обучить, причём даже с обобщением на ранее не встречавшиеся сценарии. Мы публично выпускаем ProactiveBench в качестве первого шага к созданию проактивных мультимодальных моделей.

Y-комбинатор для больших языковых моделей: решение проблемы деградации длинного контекста с помощью λ-исчисления
The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

Mar 20

ByAmartya Roy, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer, Haitham Bou-Ammar

Крупные языковые модели (LLM) все чаще используются как универсальные системы для рассуждений, однако длинные входные данные по-прежнему упираются в ограничение фиксированного контекстного окна. Рекурсивные языковые модели (RLM) решают эту проблему, экстернализируя промпт и рекурсивно решая подзадачи. Однако существующие RLM зависят от неограниченного цикла «чтение-вычисление-печать» (REPL), в рамках которого модель генерирует произвольный управляющий код, что затрудняет верификацию, прогнозирование и анализ выполнения. Мы представляем λ-RLM — фреймворк для рассуждений в длинном контексте, который заменяет свободную генерацию рекурсивного кода на типизированную функциональную среду выполнения, основанную на λ-исчислении. Она исполняет компактную библиотеку предварительно верифицированных комбинаторов и использует нейросетевой вывод только для ограниченных терминальных подзадач, превращая рекурсивные рассуждения в структурированную функциональную программу с явным потоком управления. Мы показываем, что λ-RLM допускает формальные гарантии, отсутствующие в стандартных RLM, включая завершаемость, замкнутые оценки вычислительной сложности, контролируемое масштабирование точности с глубиной рекурсии и оптимальное правило разбиения в рамках простой стоимостной модели. Эмпирически, на четырех задачах рассуждений в длинном контексте и девяти базовых моделях, λ-RLM превосходит стандартную RLM в 29 из 36 сравнений «модель-задача», повышает среднюю точность до +21.9 пункта across различным уровням моделей и снижает задержку до 4.1 раза. Эти результаты демонстрируют, что типизированное символьное управление обеспечивает более надежную и эффективную основу для рассуждений в длинном контексте, чем свободная генерация рекурсивного кода. Полная реализация λ-RLM имеет открытый исходный код для сообщества по адресу: https://github.com/lambda-calculus-LLM/lambda-RLM.

FlowScene: Стилистически согласованная генерация интерьеров с помощью мультимодального графа и выпрямленного потока
FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

Mar 20

ByZhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang

Генерация сцен имеет широкое промышленное применение, требуя как высокой реалистичности, так и точного контроля над геометрией и внешним видом. Методы, основанные на языковом поиске, создают правдоподобные сцены из обширной базы данных объектов, но игнорируют объектно-ориентированный контроль и часто не обеспечивают согласованность стиля на уровне сцены. Графовые подходы обеспечивают более высокую управляемость объектами и информируют о целостной согласованности за счет явного моделирования отношений, однако существующие методы не позволяют получать текстурированные результаты высокой точности, что ограничивает их практическую полезность. Мы представляем FlowScene — трехкомпонентную генеративную модель сцен, управляемую мультимодальными графами, которая совместно генерирует планировки сцен, формы объектов и их текстуры. В ее основе лежит тесно связанная модель выпрямленного потока, которая обменивается информацией об объектах в процессе генерации, обеспечивая совместное рассуждение на графе. Это позволяет осуществлять детальный контроль форм, текстур и отношений объектов, одновременно обеспечивая согласованность стиля на уровне сцены как в структуре, так и во внешнем виде. Многочисленные эксперименты показывают, что FlowScene превосходит базовые методы, управляемые как языком, так и графами, по реалистичности генерации, согласованности стиля и соответствию предпочтениям человека.

LumosX: Связывание произвольных объектов с их атрибутами для персонализированной генерации видео
LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

Mar 20

ByJiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu

Последние достижения в области диффузионных моделей значительно улучшили генерацию видео из текста, обеспечивая создание персонализированного контента с детализированным контролем как переднего, так и фонового плана. Однако точное согласование лицевых атрибутов между объектами остаётся сложной задачей, поскольку существующие методы не имеют явных механизмов для обеспечения внутригрупповой согласованности. Для решения этой проблемы требуются как стратегии явного моделирования, так и ресурсы данных с учётом лицевых атрибутов. Мы предлагаем LumosX — фреймворк, развивающий как данные, так и архитектуру моделей. Со стороны данных специализированный пайплайн организует подписи и визуальные маркеры из независимых видео, в то время как мультимодальные большие языковые модели выводят и назначают зависимости, специфичные для объектов. Эти извлечённые реляционные априоры накладывают более детализированную структуру, усиливающую выразительный контроль персонализированной генерации видео и позволяющую построить комплексный бенчмарк. Со стороны моделирования Relational Self-Attention и Relational Cross-Attention переплетают позиционно-чувствительные эмбеддинги с усовершенствованной динамикой внимания для явного кодирования зависимостей «объект-атрибут», обеспечивая дисциплинированную сплочённость внутри групп и усиливая разделение между различными кластерами объектов. Комплексные оценки на нашем бенчмарке демонстрируют, что LumosX достигает передовых результатов в детализированной, идентично-согласованной и семантически выровненной персонализированной генерации видео с множеством объектов. Код и модели доступны по адресу https://jiazheng-xing.github.io/lumosx-home/.

Рассуждение как сжатие: унификация бюджетного форсинга через условный информационный бутылочное горлышко
Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

Mar 9

ByFabio Valerio Massoli, Andrey Kuzmin, Arash Behboodi

Метод Chain-of-Thought (CoT) повышает точность больших языковых моделей (LLM) на сложных задачах, но часто увеличивает использование токенов и стоимость вывода. Существующие методы «бюджетного принуждения» (Budget Forcing), снижающие затраты путем дообучения с эвристическими штрафами за длину, подавляют как важные рассуждения, так и избыточные элементы. Мы переосмысливаем эффективное рассуждение как задачу сжатия с потерями в рамках принципа Информационного Бутылочного Горлышка (IB) и выявляем ключевой теоретический пробел при применении наивного IB к трансформерам: механизм внимания нарушает марковское свойство между промптом, трассой рассуждений и ответом. Чтобы решить эту проблему, мы моделируем генерацию CoT в рамках принципа Условного Информационного Бутылочного Горлышка (CIB), где трасса рассуждений Z выступает в качестве вычислительного моста, содержащего только ту информацию об ответе Y, которая не доступна напрямую из промпта X. Это приводит к общей задаче Обучения с Подкреплением: максимизировать награду за решение задачи, одновременно сжимая завершения при наличии априорного распределения над трассами рассуждений, что включает распространенные эвристики (например, штрафы за длину) как частные случаи (например, равномерные априорные распределения). В отличие от наивных подходов, основанных на подсчете токенов, мы вводим семантическое априорное распределение, которое измеряет стоимость токена через surprisal (неожиданность) относительно априорной языковой модели. Экспериментально наша цель CIB устраняет когнитивную избыточность, сохраняя беглость и логичность, повышая точность при умеренном сжатии и позволяя агрессивное сжатие с минимальным падением точности.

Фреймворк на основе подцелей для повышения эффективности LLM-агентов при решении задач с длинным горизонтом планирования
A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Mar 20

ByTaiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette

Агенты на основе больших языковых моделей (LLM) стали мощными автономными контроллерами для цифровых сред, включая мобильные интерфейсы, операционные системы и веб-браузеры. Веб-навигация, например, требует обработки динамического контента и длинных последовательностей действий, что делает ее особенно сложной задачей. Существующие LLM-агенты сталкиваются с проблемами в долгосрочном планировании двумя основными способами. Во время онлайн-выполнения они часто теряют ориентацию по мере поступления новой информации, не имея четкого и адаптивного пути к конечной цели. Эта проблема усугубляется в процессе тонкой настройки с подкрепляющим обучением (RL), где разреженные и отсроченные вознаграждения затрудняют для агентов идентификацию действий, ведущих к успеху, что мешает им поддерживать последовательные рассуждения в ходе продолжительных задач. Для решения этих проблем мы предлагаем два подхода. Во-первых, мы представляем архитектуру агента, которая использует проприетарные модели для онлайн-планирования через декомпозицию подцелей. Во-вторых, мы представляем MiRA (Milestoning your Reinforcement Learning Enhanced Agent) — фреймворк для RL-обучения, использующий плотные reward-сигналы на основе вех. Механизм планирования в реальном времени улучшает проприетарные модели, такие как Gemini, примерно на 10% в абсолютном выражении по показателю успешности (SR) в бенчмарке WebArena-Lite. В то же время применение MiRA к открытой модели Gemma3-12B повышает ее успешность с 6,4% до 43,0%. Этот результат превосходит показатели проприетарных систем, таких как GPT-4-Turbo (17,6%) и GPT-4o (13,9%), а также предыдущего передового открытого решения WebRL (38,4%). В целом, наши результаты демонстрируют, что сочетание явного планирования на этапе логического вывода с вознаграждениями на основе вех значительно улучшает способности агента к долгосрочному планированию, прокладывая путь к созданию более надежных и универсальных автономных систем.

Универсальное редактирование видеоконтента, действий и динамики без обучения
Versatile Editing of Video Content, Actions, and Dynamics without Training

Mar 18

ByVladimir Kulikov, Roni Paiss, Andrey Voynov, Inbar Mosseri, Tali Dekel, Tomer Michaeli

В последние годы управляемая генерация видео достигла значительного прогресса. Однако редактирование действий и динамических событий или вставка содержимого, которое должно влиять на поведение других объектов в реальных видео, остаются серьезной проблемой. Существующие обученные модели испытывают трудности со сложными правками, вероятно, из-за сложности сбора релевантных обучающих данных. Аналогично, существующие методы, не требующие обучения, по своей сути ограничены правками, сохраняющими структуру и движение, и не поддерживают модификацию движения или взаимодействий. В данной работе мы представляем DynaEdit — метод редактирования видео, не требующий обучения, который раскрывает широкие возможности редактирования с помощью предварительно обученных потоковых моделей «текст-видео». Наш метод опирается на недавно представленный подход без инверсии, который не вмешивается во внутреннюю структуру модели и, следовательно, является модельно-агностичным. Мы показываем, что наивная попытка адаптировать этот подход к общему неограниченному редактированию приводит к серьезному низкочастотному рассогласованию и высокочастотному дрожанию. Мы объясняем источники этих явлений и вводим новые механизмы для их преодоления. В ходе обширных экспериментов мы демонстрируем, что DynaEdit достигает передовых результатов в сложных задачах редактирования видео на основе текста, включая изменение действий, вставку объектов, взаимодействующих со сценой, и введение глобальных эффектов.

LoopRPT: Предварительное обучение с подкреплением для циклических языковых моделей
LoopRPT: Reinforcement Pre-Training for Looped Language Models

Mar 20

ByGuo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin

Петлевые языковые модели (LoopLM) выполняют итеративные латентные вычисления для уточнения внутренних представлений, предлагая перспективную альтернативу явному рассуждению по цепочке мыслей (CoT). Однако существующие парадигмы обучения с подкреплением (RL) в основном нацелены на выходные токены, что создает структурное несоответствие с петлевыми архитектурами, чье рассуждение разворачивается неявно. В данной работе мы предлагаем LoopRPT — фреймворк претренинга с подкреплением, разработанный специально для LoopLM. Переформулируя предсказание следующего токена как задачу рассуждения о следующем токене, LoopRPT назначает сигналы подкрепления непосредственно латентным шагам с использованием эталонного учителя на основе скользящего среднего (EMA) и зашумленных латентных прогонов. Такая формулировка позволяет RL напрямую формировать промежуточные представления, сжимая эффективное рассуждение в меньшее количество итераций. Мы реализуем LoopRPT на архитектуре Ouro для моделей различных масштабов. Результаты показывают, что LoopRPT последовательно улучшает качество представлений на каждом шаге, достигая парето-доминирования в компромиссах между точностью и вычислениями. Примечательно, что значительный прирост на сложных токенах указывает, что LoopRPT улучшает рассуждение на ранних стадиях, а не просто поощряет преждевременный выход. Наши результаты подчеркивают претренинг с подкреплением как принципиальную парадигму для обучения эффективному латентному рассуждению в петлевых моделях.

Глубокое исследование табличных данных с помощью непрерывного исполнения на основе опыта
Deep Tabular Research via Continual Experience-Driven Execution

Mar 10

ByJunnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Qiufeng Wang, Yinghui Li, Siyu An, Di Yin, Xing Sun, Feiyue Huang

Крупные языковые модели часто испытывают трудности со сложными аналитическими задачами длительного горизонта для неструктурированных таблиц, которые обычно характеризуются иерархическими и двунаправленными заголовками, а также неканоническим расположением данных. Мы формализуем эту проблему как Глубокое Табличное Исследование (DTR), требующее многошаговых рассуждений над взаимозависимыми областями таблицы. Для решения задачи DTR мы предлагаем новую агентную архитектуру, которая рассматривает табличные рассуждения как процесс принятия решений в замкнутом контуре. Мы тщательно проектируем связанное понимание запроса и таблицы для принятия решений о пути и операционного выполнения. Конкретно: (i) DTR сначала строит иерархический мета-граф для захвата двунаправленной семантики, отображая естественно-языковые запросы в пространство поиска на уровне операций; (ii) Для навигации в этом пространстве мы вводим стратегию выбора, учитывающую ожидания, которая расставляет приоритеты путям выполнения с высокой полезностью; (iii) Ключевым моментом является то, что результаты исторического выполнения синтезируются в сиамскую структурированную память, то есть параметризованные обновления и абстрагированные тексты, что позволяет осуществлять непрерывное уточнение. Обширные эксперименты на сложных эталонах для неструктурированных таблиц подтверждают эффективность и подчеркивают необходимость разделения стратегического планирования и низкоуровневого выполнения для табличных рассуждений длительного горизонта.

WorldAgents: Могут ли базовые модели изображений быть агентами для 3D-мировых моделей?
WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Mar 20

ByZiya Erkoç, Angela Dai, Matthias Nießner

Обладая впечатляющей способностью генерировать высококачественные изображения, двумерные фундаментальные модели поднимают фундаментальный вопрос: присущи ли им изначально возможности моделирования трехмерного мира? Для ответа на него мы систематически оцениваем современные модели генерации изображений и Vision-Language Models (VLM) на задаче синтеза 3D-сцен. Чтобы раскрыть и оценить их потенциальные скрытые 3D-способности, мы предлагаем агентский подход для облегчения генерации трехмерных миров. Наша методология использует многоагентную архитектуру: VLM-режиссера, формулирующего промпты для управления синтезом изображений; генератора, создающего новые ракурсы; и двухэтапного VLM-верификатора, который оценивает и выборочно курирует сгенерированные кадры как в 2D-изображениях, так и в 3D-реконструкциях. Ключевым результатом является демонстрация того, что наш агентский подход обеспечивает согласованную и устойчивую 3D-реконструкцию, создавая сцены, пригодные для навигации через рендеринг новых ракурсов. Многочисленные эксперименты с различными фундаментальными моделями подтверждают, что 2D-модели действительно содержат представление о трехмерных мирах. Используя это понимание, наш метод успешно синтезирует масштабные, реалистичные и 3D-согласованные среды.

BEAVER: Бесплатная иерархическая методика сжатия промптов на основе структурированного выбора страниц
BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

Mar 20

ByZhengpei Hu, Kai Li, Dapeng Fu, Chang Zeng, Yue Li, Yuanhao Tang, Jianqiang Huang

Экспоненциальное расширение контекстных окон в больших языковых моделях (LLM) открыло возможности для понимания длинных документов, но привело к серьезным проблемам с задержкой вывода и использованием информации. Существующие методы сжатия часто страдают от высоких затрат на обучение или семантической фрагментации из-за агрессивного удаления токенов. В данной статье мы предлагаем BEAVER — новую бесплатную для обучения структуру, которая переносит сжатие с линейного удаления токенов на иерархический отбор с учетом структуры. BEAVER максимизирует аппаратный параллелизм, преобразуя контексты переменной длины в плотные тензоры уровня страниц с помощью двунаправленного пулинга, и сохраняет целостность дискурса через гибридный планировщик, сочетающий семантический и лексический двунаправленный отбор со сглаживанием предложений. Обширные оценки на четырех эталонах длинного контекста показывают, что BEAVER демонстрирует сопоставимую производительность с передовыми методами, такими как LongLLMLingua. Примечательно, что на эталоне RULER BEAVER сохраняет высокую точность при многоигольчатом поиске, где базовые методы ухудшаются. В плане эффективности BEAVER сокращает задержку в 26,4 раза на контекстах длиной 128 тыс. токенов, предлагая масштабируемое решение для высокопроизводительных приложений. Наш код доступен по адресу https://cslikai.cn/BEAVER/.

Насколько хорошо генеративные рекомендационные системы обобщают?
How Well Does Generative Recommendation Generalize?

Mar 20

ByYijie Ding, Zitian Guo, Jiacheng Li, Letian Peng, Shuai Shao, Wei Shao, Xiaoqiang Luo, Luke Simon, Jingbo Shang, Julian McAuley, Yupeng Hou

Распространенная гипотеза, объясняющая превосходство генеративных моделей рекомендаций (GR) над традиционными моделями на основе ID товаров, заключается в их лучшей способности к обобщению. Однако существует мало систематических способов проверить эту гипотезу помимо поверхностного сравнения общей производительности. Чтобы заполнить этот пробел, мы классифицируем каждый экземпляр данных на основе конкретной способности, необходимой для корректного прогноза: либо запоминание (повторное использование паттернов переходов между товарами, наблюдавшихся во время обучения), либо обобщение (комбинирование известных паттернов для прогнозирования ненаблюдавшихся переходов). Масштабные эксперименты показывают, что модели GR работают лучше на экземплярах, требующих обобщения, тогда как модели на основе ID товаров превосходят их, когда более важно запоминание. Чтобы объяснить это расхождение, мы переносим анализ с уровня товаров на уровень токенов и показываем, что то, что выглядит как обобщение на уровне товаров, часто сводится к запоминанию на уровне токенов для моделей GR. Наконец, мы демонстрируем, что две парадигмы дополняют друг друга. Мы предлагаем простой индикатор, учитывающий запоминание, который адаптивно комбинирует их для каждого отдельного экземпляра, что приводит к улучшению общей производительности рекомендательной системы.

EgoForge: Эгоцентричный симулятор мира с целевым управлением
EgoForge: Goal-Directed Egocentric World Simulator

Mar 20

ByYifan Shen, Jiateng Liu, Xinzhuo Li, Yuanzhe Liu, Bingxuan Li, Houze Yang, Wenqi Jia, Yijiang Li, Tianjiao Yu, James Matthew Rehg, Xu Cao, Ismini Lourentzou

Генеративные мировые модели продемонстрировали потенциал для моделирования динамических сред, однако эгоцентрическое видео остается сложной задачей из-за быстрой смены точек обзора, частых взаимодействий рук с объектами и целенаправленных процедур, ход которых зависит от латентного человеческого намерения. Существующие подходы либо сосредоточены на синтезе инструкций с центрированием на руках при ограниченной эволюции сцены, либо выполняют трансляцию статического вида без моделирования динамики действий, либо полагаются на плотную разметку, такую как траектории камеры, длинные видео-префиксы, синхронизированную многокамерную съемку и т.д. В данной работе мы представляем EgoForge — симулятор эгоцентрического целенаправленного мира, который генерирует согласованные ролики видео от первого лица на основе минимальных статических входных данных: одного эгоцентрического изображения, высокоуровневой инструкции и опционального вспомогательного экзоцентрического вида. Для улучшения соответствия намерению и временной согласованности мы предлагаем VideoDiffusionNFT, метод рефинмента на уровне траектории с управляемым вознаграждением, который оптимизирует достижение цели, временную причинность, согласованность сцены и перцептивное качество в процессе сэмплирования диффузионной модели. Многочисленные эксперименты показывают, что EgoForge достигает последовательного улучшения в семантическом соответствии, геометрической стабильности и достоверности движения по сравнению с сильными базовыми методами, а также демонстрирует robustную производительность в экспериментах с реальными умными очками.

HiMu: Иерархический мультимодальный отбор кадров для ответов на вопросы по длинным видео
HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

Mar 19

ByDan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

Решение задач вопросно-ответных систем для длинных видео требует анализа протяженных временных контекстов, что делает выбор ключевых кадров критически важным для больших языково-визуальных моделей (LVLM), ограниченных конечными окнами контекста. Существующие методы сталкиваются с резким компромиссом: селекторы на основе схожести работают быстро, но сворачивают композиционные запросы в единый плотный вектор, теряя порядок под-событий и кросс-модальные связи; агентские методы восстанавливают эту структуру за счет итеративных выводов LVLM, но неприемлемо дороги. Мы представляем HiMu, беспарадигменную систему, устраняющую этот разрыв. Единственный вызов текстовой LLM декомпозирует запрос в иерархическое логическое дерево, листья которого являются атомарными предикатами, каждый из которых направляется к легковесному эксперту, охватывающему визуальную (CLIP, детекция с открытым словарем, OCR) и аудио (ASR, CLAP) модальности. Полученные сигналы нормализуются, временно сглаживаются для согласования различных модальностей и компонуются снизу вверх через операторы нечеткой логики, обеспечивающие временную последовательность и смежность, формируя непрерывную кривую удовлетворения запроса. Оценки на Video-MME, LongVideoBench и HERBench-Lite показывают, что HiMu продвигает Парето-фронт эффективности-точности: при 16 кадрах с Qwen3-VL 8B он превосходит все конкурирующие селекторы, а с GPT-4o превосходит агентские системы, работающие с 32-512 кадрами, требуя при этом примерно в 10 раз меньше FLOPs.

За пределами отдельных токенов: дистилляция дискретных диффузионных моделей с помощью дискретного MMD
Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

Mar 20

ByEmiel Hoogeboom, David Ruhe, Jonathan Heek, Thomas Mensink, Tim Salimans

В настоящее время сложно проводить дистилляцию дискретных диффузионных моделей. В отличие от этого, в литературе по непрерывной диффузии существует множество методов дистилляции, которые позволяют сократить количество шагов выборки до нескольких. Наш метод, Discrete Moment Matching Distillation (D-MMD), использует идеи, доказавшие свою высокую эффективность в непрерывной области. В то время как предыдущие методы дискретной дистилляции дают сбой, D-MMD сохраняет высокое качество и разнообразие (при достаточном количестве шагов выборки). Это продемонстрировано на наборах данных как для текста, так и для изображений. Более того, вновь полученные в результате дистилляции генераторы могут превосходить по характеристикам свои исходные модели-учителя.

Преодоление потолка возможностей посттренировочных больших языковых моделей за счёт возвращения марковских состояний
Breaking the Capability Ceiling of LLM Post-Training by Reintroducing Markov States

Mar 20

ByYurun Yuan, Tengyang Xie

Поведенческое обучение (ПО) стало стандартной парадигмой для пост-обучения и согласования больших языковых моделей (БЯМ), однако недавние данные свидетельствуют о существовании устойчивого «потолка возможностей»: в отличие от классических систем ПО, которые открывают новые стратегии, ПО для БЯМ часто выступает лишь в роли уточняющего инструмента для паттернов, уже заложенных в предварительно обученных весах. В данной работе мы выявляем фундаментальное структурное ограничение: в то время как классическое ПО опирается на компактные, информативные марковские состояния, современные подходы к пост-обучению БЯМ привязаны к постоянно расширяющейся истории действий. Мы возвращаемся к классическому принципу, долгое время бывшему центральным для ПО, но отсутствующему в пост-обучении БЯМ: явным марковским состояниям. Теоретически мы предоставляем строгие гарантии, демонстрирующие, что использование оцененных марковских состояний может значительно снизить сложность выборки. Экспериментально мы показываем, что введение марковских состояний последовательно преодолевает границы производительности стандартного ПО при пост-обучении на наборе сложных логических задач. Наши результаты позволяют предположить, что переход от моделирования «истории-как-состояния» к структурированным марковским представлениям необходим для раскрытия открытых discovery-процессов и подлинно новых рассуждений в генеративном искусственном интеллекте.

Технический отчет AgentDS: Бенчмаркинг будущего взаимодействия человека и ИИ в предметно-ориентированной науке о данных
AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

Mar 19

ByAn Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding

Наука о данных играет ключевую роль в преобразовании сложных данных в практические выводы в различных областях. Последние достижения в области больших языковых моделей (LLM) и агентов искусственного интеллекта (ИИ) значительно автоматизировали рабочий процесс в data science. Однако до сих пор неясно, в какой степени ИИ-агенты могут соответствовать производительности экспертов-людей в предметно-ориентированных задачах науки о данных и в каких аспектах человеческая экспертиза продолжает сохранять преимущества. Мы представляем AgentDS — эталонный тест и конкурс, предназначенные для оценки производительности как ИИ-агентов, так и коллаборации человека и ИИ в предметно-ориентированной data science. AgentDS включает 17 задач из шести отраслей: коммерция, производство продуктов питания, здравоохранение, страхование, производство и розничный банкинг. Мы провели открытый конкурс с участием 29 команд и 80 участников, что позволило провести систематическое сравнение подходов к совместной работе человека и ИИ с базовыми уровнями, использующими только ИИ. Наши результаты показывают, что современные ИИ-агенты испытывают трудности с предметно-ориентированными рассуждениями. Базовые уровни на основе только ИИ показывают результаты близкие к медианным или ниже результатов участников конкурса, в то время как наиболее сильные решения возникают в результате коллаборации человека и ИИ. Эти результаты оспаривают нарратив о полной автоматизации с помощью ИИ и подчеркивают непреходящую важность человеческой экспертизы в науке о данных, одновременно указывая направления для развития следующего поколения ИИ. Посетите сайт AgentDS здесь: https://agentds.org/ и наборы данных с открытым исходным кодом здесь: https://huggingface.co/datasets/lainmn/AgentDS.

Сотрудничество и эксплуатация при синтезе политик больших языковых моделей для последовательных социальных дилемм
Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

Mar 19

ByVíctor Gallego

Мы исследуем синтез стратегий с помощью больших языковых моделей (LLM): использование LLM для итеративной генерации программных стратегий агентов в многопользовательских средах. Вместо обучения нейросетевых стратегий с помощью обучения с подкреплением, наша система предлагает LLM генерировать Python-функции стратегий, оценивает их в режиме самообучения и уточняет их на основе обратной связи о производительности в ходе итераций. Мы исследуем инженерию обратной связи (дизайн информации об оценке, предоставляемой LLM на этапе уточнения), сравнивая разреженную обратную связь (только скалярное вознаграждение) с плотной обратной связью (вознаграждение плюс социальные метрики: эффективность, равенство, устойчивость, мир). В двух канонических последовательных социальных дилеммах (Gathering и Cleanup) и на двух передовых LLM (Claude Sonnet 4.6, Gemini 3.1 Pro) плотная обратная связь стабильно соответствует или превосходит разреженную по всем метрикам. Наибольшее преимущество наблюдается в игре с общественными благами Cleanup, где предоставление социальных метрик помогает LLM калибровать затратный компромисс между очисткой и сбором ресурсов. Вместо того чтобы провоцировать чрезмерную оптимизацию справедливости, социальные метрики служат сигналом координации, который направляет LLM к более эффективным кооперативным стратегиям, включая разделение территории, адаптивное распределение ролей и избегание бесполезной агрессии. Мы также провели состязательный эксперимент, чтобы определить, способны ли LLM взламывать систему вознаграждений в этих средах. Мы описываем пять классов атак и обсуждаем методы защиты, подчеркивая присущее синтезу стратегий с помощью LLM противоречие между выразительностью и безопасностью. Код доступен по адресу: https://github.com/vicgalle/llm-policies-social-dilemmas.

Обучение агента рисованию по одному элементу за раз
Teaching an Agent to Sketch One Part at a Time

Mar 19

ByXiaodan Du, Ruize Xu, David Yunis, Yael Vinker, Greg Shakhnarovich

Мы разрабатываем метод поэтапного создания векторных скетчей. Для этого мы обучаем мультимодального агента на основе языковой модели с использованием нового многошагового обучения с подкреплением по процессуальным вознаграждениям после контролируемого тонкого настроя. Наш подход стал возможным благодаря новому набору данных ControlSketch-Part, содержащему детальные аннотации на уровне частей скетчей, полученные с помощью универсального автоматизированного пайплайна аннотирования, который сегментирует векторные скетчи на семантические части и присваивает пути к частям посредством структурированного многоэтапного процесса разметки. Наши результаты показывают, что включение структурированных данных на уровне частей и предоставление агенту визуальной обратной связи в процессе работы обеспечивает интерпретируемое, контролируемое и локально редактируемое преобразование текста в векторный скетч.

Нужны ли визуально-языковым моделям трансформеры? Оценка моделей пространства состояний в качестве визуальных энкодеров
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Mar 19

ByShang-Jui Ray Kuo, Paola Cascante-Bonilla

Крупные визуально-языковые модели (VLM) часто используют замороженный визуальный модуль, чьи признаки изображения проецируются в большую языковую модель через легковесный коннектор. Хотя трансформерные энкодеры являются стандартным визуальным компонентом, мы исследуем, могут ли визуальные модули на основе моделей пространства состояний (SSM) стать достойной альтернативой. Мы систематически оцениваем SSM-визуальные модули для VLM в контролируемых условиях. При сопоставимой инициализации на ImageNet-1K SSM-модуль демонстрирует наилучшую общую производительность как в задачах VQA, так и в задачах локализации и привязки к объектам. Мы дополнительно адаптируем SSM- и ViT-модули с помощью обучения на задачах детекции и сегментации и обнаруживаем, что дообучение на плотных задачах в целом улучшает производительность для обоих семейств; после такой адаптации SSM-модуль сохраняет конкурентоспособность при существенно меньшем масштабе модели. Мы также наблюдаем, что (i) более высокая точность на ImageNet или бóльшие размеры модулей не гарантируют лучшую производительность VLM, и (ii) некоторые визуальные модули демонстрируют нестабильность в задачах локализации. На основе этих выводов мы предлагаем стратегии стабилизации, которые повышают надежность для обоих семейств модулей, и подчеркиваем SSM-модули как перспективную альтернативу трансформерным визуальным энкодерам в VLM.

DROID-SLAM в естественных условиях
DROID-SLAM in the Wild

Mar 19

ByMoyang Li, Zihan Zhu, Marc Pollefeys, Daniel Barath

Мы представляем надежную систему RGB SLAM в реальном времени, которая обрабатывает динамические среды с использованием дифференцируемого бандл-аджъстмента с учетом неопределенности. Традиционные методы SLAM обычно предполагают статичность сцены, что приводит к сбоям трекинга при наличии движения. Современные подходы к динамическому SLAM пытаются решить эту проблему, используя заранее заданные динамические априорные данные или картографирование с учетом неопределенности, но они остаются ограниченными при столкновении с неизвестными динамическими объектами или сильно загроможденными сценами, где геометрическое картографирование становится ненадежным. В отличие от них, наш метод оценивает неопределенность для каждого пикселя, используя противоречивость визуальных признаков в нескольких проекциях, что обеспечивает надежный трекинг и реконструкцию даже в реальных условиях. Предложенная система достигает передовых показателей точности оценки поз камеры и геометрии сцены в загроможденных динамических сценариях, работая в реальном времени со скоростью около 10 кадров в секунду. Код и наборы данных доступны по адресу https://github.com/MoyangLi00/DROID-W.git.

Язык по требованию, знание в основе: объединение больших языковых моделей с трансляционными моделями кодировщик-декодер для расширяемой многоязычности
Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

Mar 18

ByMengyu Bu, Yang Feng

Крупные языковые модели (LLM) демонстрируют мощный общий интеллект, однако их многоязычная производительность остается крайне несбалансированной. Хотя LLM кодируют обширные кросс-лингвистические знания в едином семантическом пространстве, они часто не могут надежно сопрягать эти знания с малоресурсными или ранее невстречавшимися языками. К счастью, предобученные энкодер-декодерные модели перевода уже обладают сбалансированной многоязычной способностью, что предполагает их естественное дополнение к LLM. В данной работе мы предлагаем XBridge — композиционную архитектуру энкодер-LLM-декодер, которая перекладывает задачи многоязычного понимания и генерации на внешние предобученные модели перевода, сохраняя за LLM роль англоцентричного ядра для обработки общих знаний. Для решения возникающей проблемы несоответствия репрезентаций между моделями мы вводим легковесные кросс-модельные слои сопоставления и цель выравнивания на основе оптимального транспорта, обеспечивая тонкую семантическую согласованность для многоязычной генерации. Эксперименты с четырьмя LLM в задачах многоязычного понимания, рассуждения, суммаризации и генерации показывают, что XBridge превосходит сильные базовые методы, особенно на малоресурсных и ранее невстречавшихся языках, без переобучения LLM.

Синергия человека и ИИ в агентном рецензировании кода
Human-AI Synergy in Agentic Code Review

Mar 16

BySuzhen Zhong, Shayan Noei, Ying Zou, Bram Adams

Анализ кода (code review) — это критически важная практика в разработке программного обеспечения, в рамках которой разработчики проверяют изменения кода перед их интеграцией для обеспечения качества, выявления дефектов и повышения сопровождаемости. В последние годы в процесс код-ревью все активнее интегрируются ИИ-агенты, способные понимать контекст кода, планировать действия по проверке и взаимодействовать со средами разработки. Однако существует ограниченное количество эмпирических данных, позволяющих сравнить эффективность ИИ-агентов и людей-рецензентов в совместных рабочих процессах. Чтобы восполнить этот пробел, мы провели масштабный эмпирический анализ 278 790 обсуждений код-ревью в 300 проектах с открытым исходным кодом на GitHub. В нашем исследовании мы стремимся сравнить различия в обратной связи, предоставляемой людьми-рецензентами и ИИ-агентами. Мы исследуем модели коллаборации между человеком и ИИ в обсуждениях ревью, чтобы понять, как взаимодействие влияет на результаты проверки. Кроме того, мы анализируем, насколько часто предложения по коду, сделанные людьми-рецензентами и ИИ-агентами, принимаются в кодобазу, и как принятые предложения влияют на качество кода. Мы выяснили, что люди-рецензенты предоставляют более развернутую обратную связь по сравнению с ИИ-агентами, включая вопросы понимания, тестирования и передачи знаний. При ревью кода, сгенерированного ИИ, люди-рецензенты обмениваются на 11,8% больше сообщений, чем при ревью кода, написанного человеком. Более того, предложения по коду, сделанные ИИ-агентами, принимаются в кодобазу значительно реже, чем предложения, выдвинутые людьми-рецензентами. Более половины непринятых предложений от ИИ-агентов либо некорректны, либо разработчики устраняют проблемы альтернативными способами. В случае принятия предложений от ИИ-агентов наблюдается значительно более сильное увеличение сложности кода и его объема по сравнению с предложениями от людей-рецензентов. Наши выводы свидетельствуют о том, что хотя ИИ-агенты могут масштабировать проверку на дефекты, человеческий контроль остается критически важным для обеспечения качества предложений и предоставления контекстной обратной связи, которой ИИ-агентам не хватает.

Адаптивное послойное возмущение: унификация внеполитических коррекций для RL больших языковых моделей
Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL

Mar 19

ByChenlu Ye, Xuanchang Zhang, Yifan Hao, Zhou Yu, Ziji Zhang, Abhinav Gullapalli, Hao Chen, Jing Huang, Tong Zhang

Проблемы, связанные с использованием политик, не соответствующих целевой (off-policy), такие как устаревание политики и несоответствие между обучением и выводом, стали основным препятствием для стабильности обучения и дальнейшего исследования в области RL для больших языковых моделей (LLM). Для повышения эффективности вывода разрыв между распределениями политики вывода и обновленной политики увеличивается, что приводит к тяжелым хвостам важностных весов. Тяжелые хвосты весов возникают, когда политика становится локально острой, что дополнительно усиливает резкие градиенты и может выталкивать обновления за пределы доверительной области. Для решения этой проблемы мы предлагаем метод адаптивного послойного возмущения (Adaptive Layerwise Perturbation, ALP), заключающийся во внесении небольших обучаемых возмущений во входные скрытые состояния каждого слоя в процессе обновления. Эти возмущения используются в числителе важностного веса в целевом функционале, в знаменателе которого остается неизменная политика вывода. Интуитивно, добавляя контролируемый шум в промежуточные представления, ALP предотвращает слишком резкое отклонение обновленной политики от политики вывода и расширяет семейство политик, чтобы охватить семейство политик вывода с учетом шума несоответствия. Таким образом, сглаженное распределение естественным образом сокращает разрыв между обновленной политикой и политикой вывода и уменьшает хвост важностных весов, поддерживая стабильность обучения. Это подтверждается эмпирически. Эксперименты на задачах одношагового математического и многошагового инструментального рассуждения показывают, что ALP не только улучшает итоговую производительность, но и предотвращает взрывной рост хвоста важностных весов и скачков KL-дивергенции в процессе итеративного обучения, одновременно способствуя усилению исследования. Абляционные исследования демонстрируют, что возмущения на уровне представлений во всех слоях являются наиболее эффективными, существенно превосходя варианты с частичным охватом слоев и возмущениями только на уровне логитов.

Исследование культурных сигналов в больших языковых моделях с помощью профилирования авторов
Probing Cultural Signals in Large Language Models through Author Profiling

Mar 17

ByValentin Lafargue, Ariel Guerra-Adames, Emmanuelle Claeys, Elouan Vuichard, Jean-Michel Loubes

Крупные языковые модели (LLMs) все чаще применяются в системах, оказывающих влияние на общество, что вызывает обеспокоенность по поводу кодируемых в них культурных предубеждений. Мы исследуем эти репрезентации, оценивая способность LLMs в условиях zero-shot выполнять профилирование авторов по текстам песен, определяя пол и этническую принадлежность исполнителей без специфической дообучки. На основе оценки нескольких открытых моделей на выборке более 10 000 текстов мы обнаружили, что LLMs демонстрируют нетривиальную эффективность в профилировании, но при этом выявляют систематическую культурную ориентацию: большинство моделей по умолчанию склоняются к североамериканской этнической принадлежности, тогда как DeepSeek-1.5B сильнее ассоциируется с азиатской этничностью. Этот вывод следует как из распределений предсказаний моделей, так и из анализа генерируемых ими обоснований. Для количественной оценки этих различий мы вводим две метрики справедливости — расхождение модальной точности (Modality Accuracy Divergence, MAD) и расхождение полноты (Recall Divergence, RD) — и показываем, что Ministral-8B демонстрирует наиболее сильное смещение по этническому признаку среди оцененных моделей, в то время как Gemma-12B проявляет наиболее сбалансированное поведение. Наш код доступен на GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).

s2n-bignum-bench: Практический бенчмарк для оценки способности больших языковых моделей к анализу низкоуровневого кода
s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

Mar 15

ByBalaji Rao, John Harrison, Soonho Kong, Juneyoung Lee, Carlo Lipizzi

Нейросимволические подходы, сочетающие большие языковые модели (LLM) с формальными методами, недавно продемонстрировали высокие результаты на ориентированных на математику бенчмарках доказательства теорем. Однако успех в соревновательной математике сам по себе не доказывает способность строить доказательства для реальных реализаций. Мы устраняем этот разрыв с помощью бенчмарка, основанного на промышленной криптографической библиотеке, ассемблерные процедуры которой уже верифицированы в HOL Light. s2n-bignum — это библиотека, используемая в AWS для предоставления быстрых ассемблерных процедур для криптографии, и её корректность установлена посредством формальной верификации. Задача формальной верификации этой библиотеки стала значительным достижением для Группы автоматизированного рассуждения. Она включала две задачи: (1) точное специфицирование корректного поведения программы в виде математического утверждения и (2) доказательство корректности этого утверждения. В случае s2n-bignum обе задачи выполнялись экспертами-людьми. В s2n-bignum-bench мы предоставляем формальную спецификацию и просим LLM сгенерировать скрипт доказательства, который принимается HOL Light в течение фиксированного таймаута на проверку. Насколько нам известно, s2n-bignum-bench является первым публичным бенчмарком, ориентированным на синтез машинно-проверяемых доказательств для промышленных низкоуровневых криптографических ассемблерных процедур в HOL Light. Этот бенчмарк предоставляет сложную и практически значимую тестовую среду для оценки основанного на LLM доказательства теорем за пределами соревновательной математики. Код для настройки и использования бенчмарка доступен здесь: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.

ReLi3D: Переосвещаемая многовидовая 3D-реконструкция с разделенным освещением
ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Mar 20

ByJan-Niklas Dihlmann, Mark Boss, Simon Donne, Andreas Engelhardt, Hendrik P. A. Lensch, Varun Jampani

Восстановление 3D-ассетов из изображений долгое время требовало раздельных конвейеров для реконструкции геометрии, оценки материалов и восстановления освещения, каждый из которых имел свои ограничения и вычислительные затраты. Мы представляем ReLi3D — первый единый сквозной конвейер, который одновременно реконструирует полную 3D-геометрию, пространственно-вариативные физически корректные материалы и окружающее освещение по разреженным многовидовым изображениям менее чем за одну секунду. Наше ключевое наблюдение заключается в том, что многовидовые ограничения могут кардинально улучшить разделение материалов и освещения — задача, которая остается принципиально некорректной для методов, работающих с одним изображением. Ключевым элементом нашего подхода является объединение многовидового входного сигнала с помощью трансформерной архитектуры кросс-кондиционирования, за которым следует новая единая стратегия предсказания по двум направлениям. Первое направление предсказывает структуру и внешний вид объекта, а второе — окружающее освещение на основе фона изображения или отражений от объекта. Это в сочетании с дифференцируемым рендерером на основе метода Монте-Карло с множественным взвешиванием создает оптимальный конвейер обучения для разделения освещения. Кроме того, с помощью нашего протокола обучения в смешанной области, который объединяет синтетические PBR-наборы данных с реальными RGB-захватами, мы достигаем обобщаемых результатов в точности геометрии, материалов и качестве освещения. Объединяя ранее раздельные задачи реконструкции в один прямой проход, мы обеспечиваем практически мгновенное создание полных, перезасвечиваемых 3D-ассетов. Страница проекта: https://reli3d.jdihlmann.com/

CurveStream: Повышение эффективности понимания потокового видео в MLLM за счет иерархического управления визуальной памятью с учетом кривизны
CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Mar 20

ByChao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen

Мультимодальные большие языковые модели достигли значительных успехов в области анализа записанных видео, однако их применение к потоковому видео серьезно ограничено линейным ростом количества визуальных токенов, что часто приводит к ошибкам переполнения памяти (Out-of-Memory, OOM) или катастрофическому забыванию. Существующие методы удержания визуальной информации и управления памятью обычно основаны на равномерной выборке, низкоуровневых физических метриках или пассивном вытеснении кэша. Однако эти стратегии часто лишены внутренней семантической осведомленности, что может нарушать контекстную связность и размывать быстрые, но критически важные семантические переходы. Для преодоления этих ограничений мы предлагаем CurveStream — беспараметрическую иерархическую систему управления визуальной памятью, учитывающую кривизну. Наш подход мотивирован ключевым наблюдением: области с высокой кривизной вдоль непрерывных траекторий признаков тесно связаны с критическими глобальными семантическими переходами. Основываясь на этом геометрическом принципе, CurveStream оценивает семантическую интенсивность в реальном времени с помощью показателя кривизны (Curvature Score) и интегрирует онлайн-динамический порог K-Sigma для адаптивной маршрутизации кадров в состояния четкой и размытой памяти в условиях строгого лимита токенов. Оценки на различных временных масштабах подтверждают, что этот легковесный фреймворк, CurveStream, стабильно обеспечивает абсолютный прирост производительности более чем на 10% (например, 10.69% на StreamingBench и 13.58% на OVOBench) по сравнению с соответствующими базовыми методами, устанавливая новые наилучшие результаты для восприятия потокового видео. Код будет доступен по адресу https://github.com/streamingvideos/CurveStream.

Автоматическое обнаружение текстов, созданных генеративным ИИ: сравнительный анализ нейросетевых моделей
Automatic detection of Gen-AI texts: A comparative framework of neural models

Mar 19

ByCristian Buttaro, Irene Amerini

Быстрое распространение крупных языковых моделей значительно усложнило различение текстов, написанных человеком и сгенерированных искусственным интеллектом, что породило серьезные проблемы в академической, редакторской и социальной сферах. В данной статье исследуется проблема обнаружения текстов, созданных ИИ, путем проектирования, реализации и сравнительного анализа нескольких детекторов на основе машинного обучения. Разработаны и проанализированы четыре нейросетевые архитектуры: многослойный перцептрон, одномерная сверточная нейронная сеть, CNN на основе MobileNet и модель трансформера. Предложенные модели сравниваются с широко используемыми онлайн-детекторами, включая ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase и Writer. Эксперименты проводятся на мультиязычном наборе данных COLING в английской и итальянской конфигурациях, а также на оригинальном тематическом наборе данных, сфокусированном на теме искусства и психического здоровья. Результаты показывают, что обученные с учителем детекторы демонстрируют более стабильную и надежную работу по сравнению с коммерческими инструментами в различных языках и доменах, выявляя ключевые преимущества и ограничения современных стратегий обнаружения.

Многомасштабный переключатель для полуавтоматического и контрастного обучения при сегментации медицинских ультразвуковых изображений
Multiscale Switch for Semi-Supervised and Contrastive Learning in Medical Ultrasound Image Segmentation

Mar 19

ByJingguo Qu, Xinyang Han, Yao Pu, Man-Lik Chui, Simon Takadiyi Gunda, Ziman Chen, Jing Qin, Ann Dorothy King, Winnie Chiu-Wing Chu, Jing Cai, Michael Tin-Cheung Ying

Сегментация медицинских ультразвуковых изображений сталкивается со значительными трудностями из-за ограниченного количества размеченных данных и характерных артефактов визуализации, включая спекл-шум и низкоконтрастные границы. Хотя для решения проблемы нехватки данных появились подходы полуконтролируемого обучения (semi-supervised learning, SSL), существующие методы страдают от неоптимального использования немаркированных данных и не имеют надежных механизмов представления признаков. В данной статье мы предлагаем Switch — новую SSL-структуру с двумя ключевыми инновациями: (1) стратегия Multiscale Switch (MSS), использующая иерархическое смешивание патчей для достижения равномерного пространственного охвата; (2) Frequency Domain Switch (FDS) с контрастным обучением, выполняющий переключение амплитуд в фурье-пространстве для получения устойчивых представлений признаков. Наша структура интегрирует эти компоненты в архитектуру «учитель-ученик» для эффективного использования как размеченных, так и немаркированных данных. Комплексная оценка на шести разнородных ультразвуковых наборах данных (лимфатические узлы, поражения молочной железы, узлы щитовидной железы и простата) демонстрирует последовательное превосходство над современными методами. При доле размеченных данных 5% Switch достигает значительного улучшения: 80,04% Dice на LN-INT, 85,52% Dice на DDTI и 83,48% Dice на наборе данных по простате, при этом наш полуконтролируемый подход даже превосходит полностью контролируемые базовые методы. Метод сохраняет параметрическую эффективность (1,8 млн параметров), обеспечивая при этом превосходную производительность, что подтверждает его эффективность для медицинских задач визуализации с ограниченными ресурсами. Исходный код общедоступен по адресу https://github.com/jinggqu/Switch.

TAPESTRY: От геометрии к внешнему виду через согласованные видео на поворотном столе
TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

Mar 18

ByYan Zeng, Haoran Jiang, Kaixin Yao, Qixuan Zhang, Longwen Zhang, Lan Xu, Jingyi Yu

Автоматическое создание фотореалистичных и самосогласованных текстур для нетекстурированных 3D-моделей является ключевой задачей в производстве цифрового контента. Развитие моделей генерации видео в больших масштабах предлагает естественный подход: прямое синтезирование 360-градусных видео вращения объекта (turntable videos, TTV), которые могут служить не только в качестве высококачественных динамических превью, но и как промежуточное представление для управления синтезом текстур и нейронным рендерингом. Однако существующие универсальные диффузионные модели видео испытывают трудности с поддержанием строгой геометрической согласованности и стабильности внешнего вида на всех углах обзора, что делает их выходные данные непригодными для высококачественной 3D-реконструкции. В связи с этим мы представляем TAPESTRY — фреймворк для генерации TTV высокой точности, управляемой явной 3D-геометрией. Мы переосмысливаем задачу генерации 3D-внешнего вида как проблему диффузии видео с условием на геометрию: для заданного 3D-меша мы сначала рендерим и кодируем мультимодальные геометрические признаки, чтобы ограничить процесс генерации видео с точностью на уровне пикселей, что позволяет создавать высококачественные и согласованные TTV. На основе этого мы также разрабатываем метод для последующих задач реконструкции из TTV, включающий многоэтапный конвейер с 3D-осознанным инпейнтингом. Путем вращения модели и выполнения контекстно-зависимой вторичной генерации этот конвейер эффективно заполняет самоокклюзированные области для достижения полного покрытия поверхности. Видео, сгенерированные TAPESTRY, являются не только высококачественными динамическими превью, но и служат надежным, 3D-осознанным промежуточным представлением, которое может быть бесшовно обратно спроецировано в UV-текстуры или использовано для обучения методов нейронного рендеринга, таких как 3DGS. Это позволяет автоматизировать создание готовых к использованию полных 3D-ассетов из нетекстурированных мешей. Результаты экспериментов демонстрируют, что наш метод превосходит существующие подходы как по согласованности видео, так и по итоговому качеству реконструкции.

От масок к пикселям и смыслу: новая таксономия, эталонный набор данных и метрики для выявления подделки изображений с помощью визуально-языковых моделей
From Masks to Pixels and Meaning: A New Taxonomy, Benchmark, and Metrics for VLM Image Tampering

Mar 20

ByXinyi Shang, Yi Tang, Jiacheng Cui, Ahmed Elhagry, Salwa K. Al Khatib, Sondos Mahmoud Bsharat, Jiacheng Liu, Xiaohan Zhao, Jing-Hao Xue, Hao Li, Salman Khan, Zhiqiang Shen

Существующие эталоны для обнаружения фальсификаций в значительной степени опираются на маски объектов, что серьезно расходится с реальными сигналами редактирования: множество пикселей внутри маски остаются нетронутыми или изменены незначительно, в то время как тонкие, но важные правки за пределами маски рассматриваются как естественные. Мы переосмысливаем задачу обнаружения фальсификаций в изображениях с помощью VLM, переходя от грубых меток областей к пиксельно-ориентированной, семантически и языково-обусловленной задаче. Во-первых, мы вводим таксономию, охватывающую примитивы редактирования (замена/удаление/вставка/восстановление/атрибуция/колоризация и т.д.) и семантический класс измененного объекта, связывая низкоуровневые изменения с высокоуровневым пониманием. Во-вторых, мы представляем новый эталон с попиксельными картами фальсификаций и парными категориальными метками для оценки обнаружения и классификации в рамках единого протокола. В-третьих, мы предлагаем framework для обучения и метрики оценки, которые количественно определяют корректность на уровне пикселей с локализацией для оценки уверенности или предсказания истинной интенсивности правки, а также дополнительно измеряют понимание смысла фальсификации через семантически-осознанную классификацию и естественно-языковые описания для предсказанных областей. Мы также переоцениваем существующие сильные базовые методы сегментации/локализации на современных мощных детекторах фальсификаций и выявляем существенные завышения и занижения оценок при использовании метрик, основанных только на масках, а также демонстрируем случаи ошибок на микро-правках и изменениях вне масок. Наш framework продвигает область от масок к пикселям, смыслам и языковым описаниям, устанавливая строгий стандарт для локализации фальсификаций, семантической классификации и описания. Код и данные эталона доступны по адресу https://github.com/VILA-Lab/PIXAR.

ReLMXEL: Адаптивный контроллер памяти на основе обучения с подкреплением с объяснимой оптимизацией энергопотребления и задержек
ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

Mar 18

ByPanuganti Chirag Sai, Gandholi Sarat, R. Raghunatha Sarma, Venkata Kalyan Tavva, Naveen M

Снижение задержки и энергопотребления является критически важным для повышения эффективности систем памяти в современных вычислительных устройствах. В данной работе представлен ReLMXEL (Обучение с подкреплением для контроллера памяти с объяснимой оптимизацией энергопотребления и задержек) — объяснимый многоагентный фреймворк онлайн-обучения с подкреплением, который динамически оптимизирует параметры контроллера памяти с использованием декомпозиции вознаграждения. ReLMXEL функционирует внутри контроллера памяти, используя детальные метрики поведения памяти для принятия решений. Экспериментальные оценки на различных рабочих нагрузках демонстрируют стабильное улучшение производительности по сравнению с базовыми конфигурациями, причем оптимизация обусловлена специфичным для нагрузки поведением при доступе к памяти. Благодаря включению объяснимости в процесс обучения, ReLMXEL не только повышает производительность, но и увеличивает прозрачность управляющих решений, открывая путь к созданию более ответственных и адаптивных проектов систем памяти.