HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

39 papers found

Свет нормалей: унифицированное представление признаков для универсального фотометрического стерео
Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Jun 23

ByHong Li, Houyuan Chen, Chongjie Ye, Zhaoxi Chen, Bohan Li, Shaocong Xu, Xianda Guo, Xuhui Liu, Yikai Wang, Baochang Zhang, Satoshi Ikehata, Boxin Shi, Anyi Rao, Hao Zhao

Универсальный метод фотометрического стерео (PS) направлен на восстановление высококачественных нормалей поверхности объектов при произвольных условиях освещения без использования специфических моделей освещения. Несмотря на недавние достижения, такие как SDM-UniPS и Uni MS-PS, остаются две фундаментальные проблемы: 1) глубокая связь между изменяющимся освещением и характеристиками нормалей поверхности, где неоднозначность наблюдаемой интенсивности затрудняет определение того, вызваны ли изменения яркости изменениями освещения или ориентации поверхности; и 2) сохранение высокочастотных геометрических деталей на сложных поверхностях, где замысловатые геометрии создают самозатенение, взаимные отражения и тонкие вариации нормалей, которые традиционные операции обработки признаков с трудом могут точно уловить.

OmniGen2: Исследование в области продвинутой мультимодальной генерации
OmniGen2: Exploration to Advanced Multimodal Generation

Jun 23

ByChenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu

В данной работе мы представляем OmniGen2 — универсальную генеративную модель с открытым исходным кодом, предназначенную для решения разнообразных задач генерации, включая преобразование текста в изображение, редактирование изображений и генерацию в контексте. В отличие от OmniGen v1, OmniGen2 оснащена двумя отдельными декодирующими путями для текстовой и визуальной модальностей, использующими независимые параметры и разделенный токенизатор изображений. Такая конструкция позволяет OmniGen2 развивать существующие модели мультимодального понимания без необходимости повторной адаптации входных данных VAE, сохраняя при этом исходные возможности генерации текста. Для облегчения обучения OmniGen2 мы разработали комплексные конвейеры подготовки данных, охватывающие данные для редактирования изображений и генерации в контексте. Кроме того, мы внедрили механизм рефлексии, адаптированный для задач генерации изображений, и создали специализированный набор данных для рефлексии на основе OmniGen2. Несмотря на относительно небольшой размер параметров, OmniGen2 демонстрирует конкурентоспособные результаты на множестве тестовых задач, включая преобразование текста в изображение и редактирование изображений. Для дальнейшей оценки генерации в контексте, также называемой задачами, управляемыми субъектом, мы вводим новый бенчмарк под названием OmniContext. OmniGen2 достигает наилучших результатов среди моделей с открытым исходным кодом с точки зрения согласованности. Мы опубликуем наши модели, обучающий код, наборы данных и конвейер подготовки данных для поддержки будущих исследований в этой области. Страница проекта: https://vectorspacelab.github.io/OmniGen2; Ссылка на GitHub: https://github.com/VectorSpaceLab/OmniGen2.

LongWriter-Zero: Освоение генерации сверхдлинных текстов с помощью обучения с подкреплением
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Jun 23

ByYuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Создание сверхдлинных текстов с использованием больших языковых моделей (LLM) является широко востребованным сценарием, однако оно остается серьезной проблемой из-за ограничений на максимальную длину генерации и общего ухудшения качества по мере увеличения длины последовательности. Предыдущие подходы, такие как LongWriter, обычно полагаются на "обучение", которое включает в себя контролируемую тонкую настройку (SFT) на синтетических длинных текстах. Однако эта стратегия сильно зависит от синтетических данных для SFT, которые сложно и дорого создавать, часто лишены связности и последовательности, а также склонны быть чрезмерно искусственными и структурно однообразными. В данной работе мы предлагаем подход, основанный на стимулировании, который, начиная с нуля и не полагаясь на аннотированные или синтетические данные, использует обучение с подкреплением (RL) для развития способностей LLM к генерации сверхдлинных и качественных текстов. Мы проводим RL-обучение, начиная с базовой модели, аналогичной R1-Zero, направляя ее на рассуждения, которые способствуют планированию и улучшению в процессе написания. Для поддержки этого мы используем специализированные модели вознаграждения, которые направляют LLM на улучшение контроля длины, качества написания и структурного форматирования. Экспериментальные оценки показывают, что наша модель LongWriter-Zero, обученная на основе Qwen2.5-32B, стабильно превосходит традиционные методы SFT в задачах создания длинных текстов, достигая наилучших результатов по всем метрикам на WritingBench и Arena-Write, и даже превосходя модели с более чем 100 миллиардами параметров, такие как DeepSeek R1 и Qwen3-235B. Мы открываем исходные данные и контрольные точки модели по адресу https://huggingface.co/THU-KEG/LongWriter-Zero-32B.

OAgents: Эмпирическое исследование создания эффективных агентов
OAgents: An Empirical Study of Building Effective Agents

Jun 17

ByHe Zhu, Tianrui Qin, King Zhu, Heyuan Huang, Yeyi Guan, Jinxiang Xia, Yi Yao, Hanhao Li, Ningning Wang, Pai Liu, Tianhao Peng, Xin Gui, Xiaowan Li, Yuhui Liu, Yuchen Eleanor Jiang, Jun Wang, Changwang Zhang, Xiangru Tang, Ge Zhang, Jian Yang, Minghao Liu, Xitong Gao, Jiaheng Liu, Wangchunshu Zhou

В последнее время агентный искусственный интеллект стал всё более популярной областью исследований. Однако мы утверждаем, что текущие практики исследования агентов лишены стандартизации и научной строгости, что затрудняет проведение справедливых сравнений между методами. В результате до сих пор неясно, как различные проектные решения в рамках агентных систем влияют на их эффективность, а измерение их прогресса остаётся сложной задачей. В данной работе мы проводим систематическое эмпирическое исследование на базе бенчмарка GAIA и BrowseComp, чтобы изучить влияние популярных проектных решений в ключевых компонентах агентов в справедливой и строгой манере. Мы обнаруживаем, что отсутствие стандартного протокола оценки делает предыдущие работы, даже с открытым исходным кодом, невоспроизводимыми, с существенным разбросом между случайными запусками. Поэтому мы вводим более надёжный протокол оценки для стабилизации сравнений. Наше исследование выявляет, какие компоненты и решения являются критически важными для эффективных агентов, а какие избыточны, несмотря на их кажущуюся логичность. На основе наших выводов мы создаём и открываем исходный код OAgents — новой базовой агентной системы, которая демонстрирует наилучшие результаты среди проектов с открытым исходным кодом. OAgents предлагает модульную структуру для различных компонентов агентов, способствуя дальнейшим исследованиям в области агентного искусственного интеллекта.

Зрение как диалект: унификация визуального понимания и генерации через текстово-согласованные представления
Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

Jun 23

ByJiaming Han, Hao Chen, Yang Zhao, Hanyu Wang, Qi Zhao, Ziyan Yang, Hao He, Xiangyu Yue, Lu Jiang

В данной статье представлена мультимодальная структура, которая стремится объединить визуальное понимание и генерацию в рамках общего дискретного семантического представления. Основой этой структуры является Text-Aligned Tokenizer (TA-Tok), преобразующий изображения в дискретные токены с использованием текстово-выровненного кодового словаря, спроецированного из словаря крупной языковой модели (LLM). Благодаря интеграции зрения и текста в единое пространство с расширенным словарным запасом, наша мультимодальная LLM, Tar, позволяет осуществлять кросс-модальный ввод и вывод через общий интерфейс без необходимости в модально-специфичных решениях. Дополнительно мы предлагаем масштабно-адаптивное кодирование и декодирование для баланса между эффективностью и визуальной детализацией, а также генеративный де-токенизатор для создания высококачественных визуальных выходов. Для удовлетворения разнообразных потребностей декодирования мы используем два взаимодополняющих де-токенизатора: быструю авторегрессионную модель и модель на основе диффузии. Для улучшения слияния модальностей мы исследуем передовые задачи предварительного обучения, демонстрируя улучшения как в визуальном понимании, так и в генерации. Эксперименты на различных тестовых наборах показывают, что Tar соответствует или превосходит существующие методы мультимодальных LLM, достигая более быстрой сходимости и большей эффективности обучения. Код, модели и данные доступны по адресу https://tar.csuhan.com.

RLPR: Экстраполяция RLVR на общие области без использования верификаторов
RLPR: Extrapolating RLVR to General Domains without Verifiers

Jun 23

ByTianyu Yu, Bo Ji, Shouli Wang, Shu Yao, Zefan Wang, Ganqu Cui, Lifan Yuan, Ning Ding, Yuan Yao, Zhiyuan Liu, Maosong Sun, Tat-Seng Chua

Обучение с подкреплением с верифицируемыми наградами (RLVR) демонстрирует многообещающий потенциал в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Однако его успех пока в основном ограничивается математическими и программными областями. Основное ограничение связано с сильной зависимостью от доменно-специфических верификаторов, что приводит к чрезмерной сложности и ограниченной масштабируемости. Чтобы решить эту проблему, мы обращаем внимание на то, что внутренняя вероятность LLM сгенерировать правильный свободный ответ напрямую указывает на её собственную оценку награды за рассуждение (т.е., насколько хорошо процесс рассуждения приводит к правильному ответу). На основе этого наблюдения мы предлагаем RLPR, простую верификатор-независимую структуру, которая расширяет RLVR на более широкие общие области. RLPR использует собственные вероятности токенов LLM для эталонных ответов в качестве сигнала награды и максимизирует ожидаемую награду в процессе обучения. Мы обнаруживаем, что устранение высокой дисперсии этой зашумлённой вероятностной награды имеет решающее значение для её эффективности, и предлагаем методы преобразования вероятностей в награду и стабилизации для обеспечения точной и стабильной награды на основе внутренних вероятностей LLM. Комплексные эксперименты на четырёх общих и трёх математических бенчмарках показывают, что RLPR последовательно улучшает способности к рассуждению в обеих областях для моделей на основе Gemma, Llama и Qwen. Примечательно, что RLPR превосходит конкурентный метод VeriFree на 7,6 балла на TheoremQA и на 7,5 балла на Minerva, а также опережает сильные подходы, зависящие от верификаторных моделей, такие как General-Reasoner, в среднем на 1,6 балла на семи бенчмарках.

Phantom-Data: К созданию универсального набора данных для генерации видео с сохранением субъектной согласованности
Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset

Jun 23

ByZhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu

Генерация видео на основе объектов достигла значительного прогресса в последние годы. Однако существующие модели по-прежнему сталкиваются с серьезными трудностями в точном следовании текстовым инструкциям. Это ограничение, известное как проблема копирования-вставки, возникает из-за широко используемой парадигмы обучения на парных данных. Такой подход неизбежно связывает идентичность объекта с фоном и контекстными атрибутами, выбирая эталонные изображения из той же сцены, что и целевое видео. Для решения этой проблемы мы представляем Phantom-Data — первый универсальный набор данных для обеспечения согласованности объектов в видео в условиях кросс-парного обучения, содержащий около миллиона пар с сохранением идентичности в различных категориях. Наш набор данных создан с использованием трехэтапного процесса: (1) универсальный модуль обнаружения объектов, согласованный с входными данными, (2) масштабный поиск объектов в различных контекстах из более чем 53 миллионов видео и 3 миллиардов изображений, и (3) проверка идентичности с использованием априорных данных для обеспечения визуальной согласованности при изменении контекста. Комплексные эксперименты показывают, что обучение на Phantom-Data значительно улучшает соответствие текстовым инструкциям и визуальное качество, сохраняя при этом согласованность идентичности на уровне базовых подходов с парным обучением.

ViDAR: Видео-диффузионно-осознанная 4D-реконструкция по моноскопическим данным
ViDAR: Video Diffusion-Aware 4D Reconstruction From Monocular Inputs

Jun 23

ByMichal Nazarczuk, Sibi Catley-Chandar, Thomas Tanay, Zhensong Zhang, Gregory Slabaugh, Eduardo Pérez-Pellitero

Синтез динамических новых видов ставит своей целью создание фотореалистичных изображений движущихся объектов с произвольных точек зрения. Эта задача особенно сложна при использовании монохромного видео, где разделение структуры и движения является некорректно поставленной задачей, а доступные данные для обучения ограничены. Мы представляем Video Diffusion-Aware Reconstruction (ViDAR) — инновационную 4D-реконструкционную платформу, которая использует персонализированные диффузионные модели для синтеза псевдо-многовидового сигнала обучения, применяемого для тренировки представления на основе гауссовых сплайнов. Учитывая особенности конкретной сцены, ViDAR восстанавливает детализированные характеристики внешнего вида, одновременно минимизируя артефакты, вызванные неоднозначностью монохромного изображения. Для решения проблемы пространственно-временной несогласованности, связанной с диффузионным обучением, мы предлагаем диффузионно-осознанную функцию потерь и стратегию оптимизации положения камеры, которая согласует синтетические виды с базовой геометрией сцены. Эксперименты на DyCheck, сложном бенчмарке с экстремальными вариациями точек зрения, показывают, что ViDAR превосходит все современные базовые методы по визуальному качеству и геометрической согласованности. Мы также демонстрируем значительное улучшение ViDAR по сравнению с базовыми методами на динамических участках и предоставляем новый бенчмарк для сравнения производительности в реконструкции частей сцены с интенсивным движением. Страница проекта: https://vidar-4d.github.io

ReasonFlux-PRM: Траекторно-ориентированные PRM для длинных цепочек рассуждений в крупных языковых моделях
ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs

Jun 23

ByJiaru Zou, Ling Yang, Jingwen Gu, Jiahao Qiu, Ke Shen, Jingrui He, Mengdi Wang

Модели вознаграждения процессов (Process Reward Models, PRMs) недавно появились как мощный фреймворк для контроля промежуточных шагов рассуждений в больших языковых моделях (LLMs). Предыдущие PRM в основном обучались на финальных выходных данных моделей и испытывали трудности с надежной оценкой промежуточных траекторий мышления, особенно в контексте траекторно-ответных выходных данных, генерируемых передовыми моделями рассуждений, такими как Deepseek-R1. В данной работе мы представляем ReasonFlux-PRM — новую траекторно-ориентированную PRM, специально разработанную для оценки траекторно-ответного типа следов рассуждений. ReasonFlux-PRM включает как пошаговый, так и траекторный контроль, позволяя точное назначение вознаграждений, согласованное с структурированными данными цепочки рассуждений. Мы адаптировали ReasonFlux-PRM для поддержки контроля вознаграждений как в оффлайн, так и в онлайн режимах, включая (i) выбор высококачественных данных для дистилляции моделей для последующего контролируемого тонкого обучения меньших моделей, (ii) предоставление плотных вознаграждений на уровне процесса для оптимизации политик в ходе обучения с подкреплением и (iii) включение вознаграждений для масштабирования Best-of-N на этапе тестирования. Эмпирические результаты на сложных тестовых наборах, таких как AIME, MATH500 и GPQA-Diamond, демонстрируют, что ReasonFlux-PRM-7B выбирает данные более высокого качества, чем сильные PRM (например, Qwen2.5-Math-PRM-72B) и базовые линии, составленные вручную. Кроме того, наша модель ReasonFlux-PRM-7B обеспечивает стабильное улучшение производительности, достигая среднего прироста в 12,1% при контролируемом тонком обучении, 4,5% при обучении с подкреплением и 6,3% при масштабировании на этапе тестирования. Мы также выпускаем нашу эффективную модель ReasonFlux-PRM-1.5B для ресурсо-ограниченных приложений и развертывания на периферийных устройствах. Проекты: https://github.com/Gen-Verse/ReasonFlux

VMem: Согласованная интерактивная генерация видеосцен с использованием памяти представлений на основе сфероидов
VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory

Jun 23

ByRunjia Li, Philip Torr, Andrea Vedaldi, Tomas Jakab

Мы предлагаем новый механизм памяти для создания генераторов видео, способных интерактивно исследовать окружения. Подобные результаты ранее достигались путем дорисовки 2D-видов сцены с постепенным восстановлением её 3D-геометрии, что быстро приводит к накоплению ошибок, или с использованием генераторов видео с коротким контекстным окном, которые испытывают трудности с поддержанием согласованности сцены на длительных временных интервалах. Для устранения этих ограничений мы представляем механизм Surfel-Indexed View Memory (VMem), который запоминает прошлые виды, индексируя их геометрически на основе наблюдаемых 3D-поверхностных элементов (surfels). VMem позволяет эффективно извлекать наиболее релевантные прошлые виды при генерации новых. Фокусируясь только на этих релевантных видах, наш метод обеспечивает согласованное исследование воображаемых окружений при значительно меньших вычислительных затратах по сравнению с использованием всех прошлых видов в качестве контекста. Мы оцениваем наш подход на сложных бенчмарках синтеза сцен на длительных временных интервалах и демонстрируем превосходную производительность по сравнению с существующими методами в поддержании согласованности сцены и управлении камерой.

DIP: Необученное плотное пост-обучение визуальных представлений в контексте
DIP: Unsupervised Dense In-Context Post-training of Visual Representations

Jun 23

BySophia Sirko-Galouchenko, Spyros Gidaris, Antonin Vobecky, Andrei Bursuc, Nicolas Thome

Мы представляем DIP — новый метод посттренировки без учителя, предназначенный для улучшения плотных представлений изображений в крупномасштабных предобученных визуальных энкодерах для контекстного понимания сцен. В отличие от предыдущих подходов, которые полагаются на сложные архитектуры самодистилляции, наш метод обучает визуальный энкодер с использованием псевдозадач, которые явно моделируют сценарии контекстного понимания, вдохновленные принципами метаобучения. Для обеспечения посттренировки на немаркированных данных мы предлагаем автоматический механизм генерации контекстных задач, который сочетает предобученную диффузионную модель и сам визуальный энкодер. DIP прост, не требует учителя и вычислительно эффективен, занимая менее 9 часов на одном GPU A100. Обучаясь плотным представлениям через псевдоконтекстные задачи, метод демонстрирует высокую производительность в широком спектре реальных задач контекстного понимания сцен. Он превосходит как исходный визуальный энкодер, так и предыдущие методы, предлагая практичное и эффективное решение для улучшения плотных представлений. Код доступен по ссылке: https://github.com/sirkosophia/DIP.

SlimMoE: Структурированное сжатие крупных моделей с использованием смеси экспертов через оптимизацию и дистилляцию экспертов
SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation

Jun 23

ByZichong Li, Chen Liang, Zixuan Zhang, Ilgee Hong, Young Jin Kim, Weizhu Chen, Tuo Zhao

Архитектура Mixture of Experts (MoE) стала мощной парадигмой для масштабирования больших языковых моделей (LLM) при сохранении эффективности вывода. Однако их огромные требования к памяти делают их чрезмерно дорогими для тонкой настройки или развертывания в условиях ограниченных ресурсов. Для решения этой проблемы мы представляем SlimMoE — многоэтапную структуру сжатия, которая преобразует большие модели MoE в значительно более компактные и эффективные варианты без необходимости дорогостоящего обучения с нуля. Наш метод систематически сокращает количество параметров за счет уменьшения числа экспертов и передачи знаний через промежуточные этапы, эффективно смягчая снижение производительности, характерное для одноэтапных подходов к обрезке. Используя эту структуру, мы сжимаем модель Phi 3.5-MoE (41,9 млрд общих/6,6 млрд активных параметров) до Phi-mini-MoE (7,6 млрд общих/2,4 млрд активных параметров) и Phi-tiny-MoE (3,8 млрд общих/1,1 млрд активных параметров), используя всего 400 млрд токенов — менее 10% данных обучения оригинальной модели. Эти сжатые модели могут быть тонко настроены на одном GPU (A100 для Phi-mini-MoE, A6000 для Phi-tiny-MoE), что делает их идеально подходящими для академических и ресурсоограниченных сред. Наши эксперименты показывают, что эти сжатые модели превосходят другие модели аналогичного размера и остаются конкурентоспособными с более крупными моделями. Например, Phi-mini-MoE демонстрирует схожую или лучшую производительность по сравнению с Phi-3-mini, используя лишь 2/3 активных параметров, и показывает сопоставимые результаты MMLU с Llama 3.1 8B, несмотря на значительно меньшую задержку. Наши результаты демонстрируют, что структурированная обрезка в сочетании с поэтапной дистилляцией предлагает эффективный путь к созданию высококачественных компактных моделей MoE, открывая путь для более широкого внедрения архитектур MoE. Мы делаем наши модели общедоступными по адресам https://huggingface.co/microsoft/Phi-mini-MoE-instruct и https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.

3D Arena: Открытая платформа для генеративной оценки 3D-моделей
3D Arena: An Open Platform for Generative 3D Evaluation

Jun 23

ByDylan Ebert

Оценка генеративных 3D-моделей остается сложной задачей из-за несоответствия между автоматическими метриками и восприятием качества человеком. Современные бенчмарки полагаются на метрики, основанные на изображениях, которые игнорируют 3D-структуру, или на геометрические меры, которые не учитывают визуальную привлекательность и практическую полезность. Чтобы устранить этот пробел, мы представляем 3D Arena — открытую платформу для оценки моделей генерации изображений в 3D через сбор предпочтений пользователей в масштабе с использованием парных сравнений. С момента запуска в июне 2024 года платформа собрала 123 243 голоса от 8 096 пользователей для 19 современных моделей, что делает ее крупнейшей оценкой человеческих предпочтений для генеративных 3D-моделей. Мы представляем набор данных iso3d, содержащий 100 оценочных запросов, и демонстрируем контроль качества, достигающий 99,75% подлинности пользователей благодаря статистическому обнаружению мошенничества. Наша система ранжирования на основе ELO обеспечивает надежную оценку моделей, делая платформу устоявшимся ресурсом для оценки. Анализируя данные о предпочтениях, мы выявляем закономерности в выборе пользователей. Наши результаты показывают предпочтения в визуальных характеристиках: выходные данные с использованием гауссовых сплатов имеют преимущество в 16,6 баллов ELO по сравнению с сетками, а текстурированные модели получают преимущество в 144,1 балла ELO по сравнению с моделями без текстур. Мы предлагаем рекомендации по улучшению методов оценки, включая многокритериальную оценку, ориентированную на задачи оценку и сравнение с учетом формата. Вовлечение сообщества делает 3D Arena эталоном в области, способствуя углублению понимания человеко-ориентированной оценки в генеративных 3D-моделях.

4Real-Video-V2: Объединенное внимание по видам и времени и реконструкция с прямой связью для генерации 4D-сцен
4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation

Jun 18

ByChaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka

Мы предлагаем первую архитектуру, способную вычислять 4D пространственно-временную сетку видеокадров и 3D частицы Гаусса для каждого временного шага с использованием прямого распространения. Наша архитектура состоит из двух основных компонентов: модели 4D видео и модели 4D реконструкции. В первой части мы анализируем современные архитектуры 4D видео с диффузией, которые выполняют пространственное и временное внимание либо последовательно, либо параллельно в рамках двухпоточного дизайна. Мы выделяем ограничения существующих подходов и представляем новую объединенную архитектуру, которая выполняет пространственное и временное внимание в рамках одного слоя. Ключевым элементом нашего метода является разреженный паттерн внимания, где токены взаимодействуют с другими в том же кадре, в тот же момент времени или с той же точки зрения. Во второй части мы расширяем существующие алгоритмы 3D реконструкции, вводя голову Гаусса, алгоритм замены токенов камеры, а также дополнительные динамические слои и обучение. В целом, мы устанавливаем новый уровень качества для 4D генерации, улучшая как визуальное качество, так и возможности реконструкции.

LettinGo: Исследование генерации пользовательских профилей для системы рекомендаций
LettinGo: Explore User Profile Generation for Recommendation System

Jun 23

ByLu Wang, Di Zhang, Fangkai Yang, Pu Zhao, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Qingwei Lin, Weiwei Deng, Dongmei Zhang, Feng Sun, Qi Zhang

Профилирование пользователей играет ключевую роль в рекомендательных системах, так как преобразует необработанные данные о взаимодействиях пользователей в компактные и структурированные представления, которые лежат в основе персонализированных рекомендаций. В то время как традиционные профили на основе эмбеддингов страдают от недостатка интерпретируемости и адаптивности, последние достижения в области больших языковых моделей (LLM) позволяют создавать текстовые профили, которые обладают более богатой семантикой и прозрачностью. Однако существующие методы часто придерживаются фиксированных форматов, что ограничивает их способность охватывать всё разнообразие пользовательских поведений. В данной статье мы представляем LettinGo — новый фреймворк для генерации разнообразных и адаптивных пользовательских профилей. Используя выразительные возможности LLM и включая прямую обратную связь от задач рекомендательных систем, наш подход избегает жёстких ограничений, накладываемых обучением с учителем (SFT). Вместо этого мы применяем оптимизацию на основе прямых предпочтений (DPO) для согласования генератора профилей с производительностью, специфичной для задачи, что обеспечивает адаптивность и эффективность профилей. LettinGo работает в три этапа: (1) исследование разнообразных пользовательских профилей с помощью нескольких LLM, (2) оценка качества профилей на основе их влияния на рекомендательные системы и (3) согласование генерации профилей с использованием парных данных о предпочтениях, полученных из результатов выполнения задачи. Экспериментальные результаты показывают, что наш фреймворк значительно повышает точность, гибкость и контекстную осведомлённость рекомендаций. Эта работа поднимает генерацию профилей на новый уровень, представляя её как ключевое направление для рекомендательных систем следующего поколения.

Улучшение пошагового и проверяемого медицинского рассуждения в мультимодальных языковых моделях (MLLMs)
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs

Jun 20

ByHaoran Sun, Yankai Jiang, Wenjie Lou, Yujie Zhang, Wenjie Li, Lilong Wang, Mianxin Liu, Lei Liu, Xiaosong Wang

Мультимодальные большие языковые модели (MLLMs) начали демонстрировать устойчивые способности к рассуждению в общих задачах, однако их применение в медицинской области всё ещё находится на ранних этапах. Создание данных для обучения с использованием цепочки рассуждений (CoT) является ключевым для усиления способностей медицинских MLLM к рассуждению. Однако существующие подходы не предлагают всеобъемлющей структуры для поиска и оценки эффективных путей рассуждения, ведущих к критически важным диагнозам. Для решения этой задачи мы предлагаем Mentor-Intern Collaborative Search (MICS) — новую схему поиска путей рассуждения для генерации строгих и эффективных медицинских данных CoT. MICS сначала использует модели-наставники для инициализации рассуждений шаг за шагом, затем предлагает каждой модели-стажёру продолжить мышление по этим начатым путям и, наконец, выбирает оптимальный путь рассуждения на основе общей производительности нескольких моделей-стажёров. Производительность рассуждений определяется с помощью MICS-Score, который оценивает качество сгенерированных путей рассуждения. В итоге мы создаём MMRP — многозадачный медицинский набор данных для рассуждений с ранжированной сложностью, и Chiron-o1 — новую медицинскую MLLM, разработанную с использованием стратегии обучения по учебному плану, обладающую устойчивыми способностями к визуальному ответу на вопросы и обобщаемым рассуждениям. Многочисленные эксперименты показывают, что Chiron-o1, обученная на нашем наборе данных CoT, созданном с использованием MICS, достигает наилучших результатов в ряде медицинских тестов на визуальное ответы на вопросы и рассуждения. Код доступен на GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.

От виртуальных игр к реальным развлечениям
From Virtual Games to Real-World Play

Jun 23

ByWenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu

Мы представляем RealPlay, нейросетевой игровой движок для реального мира, который позволяет генерировать интерактивное видео на основе управляющих сигналов пользователя. В отличие от предыдущих работ, ориентированных на игровую графику, RealPlay стремится создавать фотореалистичные и временно согласованные видеопоследовательности, напоминающие реальные съемки. Он работает в интерактивном цикле: пользователь наблюдает сгенерированную сцену, отправляет управляющую команду и получает короткий видеосегмент в ответ. Для обеспечения такой реалистичной и отзывчивой генерации мы решаем ключевые задачи, включая итеративное предсказание по сегментам для низкой задержки, временную согласованность между итерациями и точное реагирование на управление. RealPlay обучается на комбинации размеченных игровых данных и немаркированных видеозаписей из реального мира, не требуя аннотаций действий в реальном мире. Примечательно, что мы наблюдаем две формы обобщения: (1) перенос управления — RealPlay эффективно преобразует управляющие сигналы из виртуальных сценариев в реальные; и (2) перенос сущностей — несмотря на то, что метки обучения получены исключительно из игры с автогонками, RealPlay обобщает управление на разнообразные сущности реального мира, включая велосипеды и пешеходов, помимо транспортных средств. Страница проекта доступна по ссылке: https://wenqsun.github.io/RealPlay/

TC-Light: Временная согласованность переосвещения для длинных динамических видео
TC-Light: Temporally Consistent Relighting for Dynamic Long Videos

Jun 23

ByYang Liu, Chuanchen Luo, Zimo Tang, Yingyan Li, Yuran Yang, Yuanyong Ning, Lue Fan, Junran Peng, Zhaoxiang Zhang

Редактирование освещения в длинных видео со сложной динамикой имеет значительную ценность для различных прикладных задач, включая создание и манипуляцию визуальным контентом, а также масштабирование данных для воплощённого ИИ через трансфер sim2real и real2real. Тем не менее, существующие методы переосвещения видео в основном ограничиваются портретными видео или сталкиваются с проблемами временной согласованности и вычислительной эффективности. В данной статье мы предлагаем TC-Light, новую парадигму, характеризующуюся предложенным двухэтапным механизмом пост-оптимизации. Начиная с видео, предварительно переосвещённого расширенной моделью переосвещения видео, на первом этапе оптимизируется встраивание внешнего вида для согласования глобального освещения. Затем на втором этапе оптимизируется предложенное каноническое представление видео, а именно Уникальный Видео Тензор (UVT), для согласования детализированной текстуры и освещения. Для всесторонней оценки производительности мы также создали эталонный набор данных для длинных и высокодинамичных видео. Многочисленные эксперименты показывают, что наш метод обеспечивает физически правдоподобные результаты переосвещения с превосходной временной согласованностью и низкими вычислительными затратами. Код и демонстрационные видео доступны по адресу https://dekuliutesla.github.io/tclight/.

Надежное моделирование вознаграждений с использованием причинных критериев
Robust Reward Modeling via Causal Rubrics

Jun 19

ByPragya Srivastava, Harman Singh, Rahul Madhavan, Gandharv Patil, Sravanti Addepalli, Arun Suggala, Rengarajan Aravamudhan, Soumya Sharma, Anirban Laha, Aravindan Raghuveer, Karthikeyan Shanmugam, Doina Precup

Модели вознаграждения (RMs) играют ключевую роль в согласовании крупных языковых моделей (LLMs) с помощью обратной связи от человека, однако они часто страдают от проблемы "взлома вознаграждения". Такие модели склонны фиксироваться на поверхностных или ложных атрибутах, таких как длина ответа или его форматирование, ошибочно принимая эти признаки, выученные из корреляций в обучающих данных, за истинные причинные факторы качества (например, фактическая точность, релевантность). Это происходит потому, что стандартные цели обучения не способны разделить эти факторы, что приводит к хрупким моделям вознаграждения и несогласованным политикам. Мы представляем Crome (Causally Robust Reward Modeling) — новую структуру, основанную на явной причинной модели, предназначенную для смягчения проблемы взлома вознаграждения. Crome использует следующие синтетические целевые расширения в процессе обучения: (1) Причинные расширения — пары, различающиеся по конкретным причинным атрибутам, чтобы обеспечить чувствительность к каждому причинному атрибуту в отдельности, и (2) Нейтральные расширения — пары с одинаковыми метками, варьирующиеся в основном по ложным атрибутам, чтобы обеспечить инвариантность к ложным атрибутам. Примечательно, что наши расширения создаются без какого-либо знания о ложных факторах, только через вмешательства в ответы вдоль причинных критериев, которые определяются путем запросов к оракулу LLM. Эмпирически Crome значительно превосходит стандартные базовые модели на RewardBench, улучшая среднюю точность до 5,4% и достигая прироста до 13,2% и 7,2% в отдельных категориях. Робастность Crome дополнительно подтверждается стабильными улучшениями в настройке Best-of-N при увеличении N на различных тестах, включая популярный RewardBench (охватывающий задачи чата, сложного чата, безопасности и рассуждений), ориентированный на безопасность WildGuardTest и специализированный на рассуждениях GSM8k.

Авторегрессивная генерация согласованных изображений с нескольких точек зрения
Auto-Regressively Generating Multi-View Consistent Images

Jun 23

ByJiaKui Hu, Yuxiao Yang, Jialun Liu, Jinbo Wu, Chen Zhao, Yanye Lu

Генерация многовидовых изображений на основе инструкций человека имеет ключевое значение для создания 3D-контента. Основные сложности заключаются в обеспечении согласованности между несколькими видами и эффективном синтезе форм и текстур в различных условиях. В данной работе мы предлагаем метод Multi-View Auto-Regressive (MV-AR), который использует авторегрессионную модель для постепенной генерации согласованных многовидовых изображений из произвольных запросов. Во-первых, способность модели AR предсказывать следующий токен значительно повышает её эффективность в прогрессивном синтезе многовидовых изображений. При генерации сильно разнесённых видов MV-AR может использовать все предыдущие виды для извлечения полезной справочной информации. Затем мы предлагаем унифицированную модель, которая адаптируется к различным запросам за счёт проектирования архитектуры и стратегий обучения. Для работы с множественными условиями мы вводим модули инъекции условий для текста, позы камеры, изображения и формы. Для одновременного управления многомодальными условиями применяется прогрессивная стратегия обучения. Эта стратегия сначала использует модель text-to-multi-view (t2mv) в качестве базовой для улучшения разработки всеобъемлющей модели X-to-multi-view (X2mv) путём случайного исключения и комбинирования условий. Наконец, для смягчения проблемы переобучения, вызванной ограниченным количеством высококачественных данных, мы предлагаем технику аугментации данных "Shuffle View", что значительно расширяет объём обучающих данных в несколько раз. Эксперименты демонстрируют производительность и универсальность нашей модели MV-AR, которая стабильно генерирует согласованные многовидовые изображения в различных условиях и показывает результаты, сопоставимые с ведущими моделями генерации многовидовых изображений на основе диффузии. Код и модели будут доступны по адресу https://github.com/MILab-PKU/MVAR.

FinCoT: Обоснование цепочки рассуждений в экспертных финансовых моделях
FinCoT: Grounding Chain-of-Thought in Expert Financial Reasoning

Jun 19

ByNatapong Nitarach, Warit Sirichotedumrong, Panop Pitchayarthorn, Pittawat Taveekitworachai, Potsawee Manakul, Kunat Pipatanakul

В данной статье представлен FinCoT — структурированный подход к цепочке рассуждений (CoT), который включает в себя знания экспертов в области финансов для управления процессом рассуждений крупных языковых моделей. Мы выделяем три основных стиля подсказок в FinNLP: (1) стандартные подсказки — zero-shot prompting; (2) неструктурированные CoT — подсказки CoT без явной структуры рассуждений, например, без использования тегов; и (3) структурированные CoT — подсказки CoT с явными инструкциями или примерами, определяющими структурированные шаги рассуждений. Ранее FinNLP в основном сосредотачивался на инженерии подсказок с использованием стандартных или неструктурированных CoT. Однако структурированные CoT получили ограниченное внимание в предыдущих работах. Более того, проектирование структур рассуждений в структурированных CoT часто основывалось на эвристиках, предложенных неэкспертами в данной области. В данном исследовании мы анализируем каждый из подходов к подсказкам в FinNLP. Мы оцениваем три основных стиля подсказок и FinCoT на вопросах в стиле CFA, охватывающих десять финансовых областей. Мы наблюдаем, что FinCoT улучшает производительность с 63,2% до 80,5% для одной модели и с 69,7% до 74,2% для модели Qwen-2.5-7B-Instruct, одновременно сокращая количество генерируемых токенов в восемь раз по сравнению со структурированными CoT. Наши результаты показывают, что структурированные подсказки, согласованные с предметной областью, не только повышают производительность и снижают затраты на вывод, но и обеспечивают более интерпретируемые и согласованные с экспертами цепочки рассуждений.

FaithfulSAE: к извлечению достоверных признаков с помощью разреженных автокодировщиков без зависимостей от внешних наборов данных
FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies

Jun 21

BySeonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed

Разреженные автоэнкодеры (SAE) стали перспективным решением для декомпозиции представлений крупных языковых моделей на интерпретируемые признаки. Однако Пауло и Белроуз (2025) отметили нестабильность при различных начальных значениях (инициализационных сидах), а Хип и др. (2025) указали, что SAE могут не захватывать внутренние признаки модели. Эти проблемы, вероятно, возникают из-за обучения SAE на внешних наборах данных — собранных из интернета или сгенерированных другой моделью, — которые могут содержать данные, выходящие за пределы обобщающих способностей модели (out-of-distribution, OOD). Это может приводить к появлению "фальшивых признаков" (Fake Features), которые искажают внутренние активации модели. Для решения этих проблем мы предлагаем FaithfulSAE — метод, который обучает SAE на синтетических данных самой модели. Используя FaithfulSAE, мы демонстрируем, что обучение SAE на менее OOD наборах инструкций делает SAE более стабильными при различных сидах. Примечательно, что FaithfulSAE превосходят SAE, обученные на интернет-данных, в задаче зондирования SAE и демонстрируют более низкий коэффициент "фальшивых признаков" в 5 из 7 моделей. В целом наш подход устраняет зависимость от внешних наборов данных, улучшая интерпретируемость за счет более точного захвата внутренних признаков модели и подчеркивая часто упускаемую важность наборов данных для обучения SAE.

ConsumerBench: Тестирование генеративных приложений ИИ на пользовательских устройствах
ConsumerBench: Benchmarking Generative AI Applications on End-User Devices

Jun 21

ByYile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci

Недавний переход приложений генеративного ИИ (GenAI) из исключительно облачных сред на устройства конечных пользователей влечет за собой новые вызовы в управлении ресурсами, эффективности систем и пользовательском опыте. В данной статье представлен ConsumerBench — комплексный фреймворк для бенчмаркинга, предназначенный для оценки системной эффективности и времени отклика моделей GenAI, работающих на устройствах конечных пользователей. В отличие от существующих бенчмарков, которые предполагают эксклюзивный доступ к моделям на выделенных GPU, ConsumerBench моделирует реалистичные сценарии с одновременным выполнением нескольких приложений на ограниченном аппаратном обеспечении. Кроме того, ConsumerBench поддерживает настраиваемые рабочие процессы, имитирующие сложные задачи, требующие координации между несколькими приложениями. ConsumerBench фиксирует как метрики на уровне приложений, включая задержку и достижение целевых показателей уровня обслуживания (SLO), так и системные метрики, такие как использование CPU/GPU и пропускная способность памяти. В ходе обширных экспериментов ConsumerBench выявляет неэффективность распределения ресурсов, несправедливое планирование при жадном распределении и проблемы производительности статических конфигураций серверов моделей. В статье также представлены практические рекомендации для разработчиков моделей и проектировщиков систем, подчеркивающие преимущества специализированных ядер, оптимизированных для архитектур GPU потребительского уровня, и ценность реализации стратегий планирования, учитывающих целевые показатели уровня обслуживания (SLO).

ReDit: Дитеринг вознаграждений для улучшения оптимизации политик языковых моделей
ReDit: Reward Dithering for Improved LLM Policy Optimization

Jun 23

ByChenxing Wei, Jiarui Yu, Ying Tiffany He, Hande Dong, Yao Shu, Fei Yu

DeepSeek-R1 успешно улучшил способности к рассуждению в крупных языковых моделях (LLM) благодаря своей системе вознаграждений, основанной на правилах. Хотя это «идеальная» система вознаграждений, которая эффективно предотвращает манипуляции с вознаграждениями, такие функции вознаграждения часто являются дискретными. Наши экспериментальные наблюдения показывают, что дискретные вознаграждения могут приводить к аномалиям градиента, нестабильной оптимизации и медленной сходимости. Для решения этой проблемы мы предлагаем метод ReDit (Reward Dithering), который добавляет простой случайный шум к дискретному сигналу вознаграждения. С таким изменённым вознаграждением исследовательские градиенты непрерывно предоставляются на протяжении всего процесса обучения, что позволяет осуществлять более плавные обновления градиента и ускорять сходимость. Введённый шум также добавляет стохастичность в плоские области вознаграждения, побуждая модель исследовать новые стратегии и избегать локальных оптимумов. Эксперименты на различных задачах демонстрируют эффективность и производительность ReDit. В среднем ReDit достигает результатов, сопоставимых с базовым GRPO, используя лишь около 10% шагов обучения, и при этом демонстрирует улучшение производительности на 4% по сравнению с базовым GRPO при обучении в течение аналогичного времени. Визуализации подтверждают значительное смягчение проблем с градиентом при использовании ReDit. Кроме того, предоставлены теоретические анализы, которые дополнительно подтверждают эти преимущества.

Управление концептуальным смещением через активацию латентного подпространства трансформера
Steering Conceptual Bias via Transformer Latent-Subspace Activation

Jun 23

ByVansh Sharma, Venkat Raman

В данной работе исследуется, может ли активация скрытых подпространств в языковых моделях (LLM) направлять генерацию научного кода в сторону конкретного языка программирования. Сначала пять каузальных LLM были протестированы на научных кодовых запросах, чтобы количественно оценить их базовую предвзятость среди четырех языков программирования. Статический метод атрибуции нейронов, заключающийся в возмущении наиболее активированного веса MLP для токена C++ или CPP, оказался ненадежным и показал ограниченную обобщаемость для различных стилей запросов и масштабов моделей. Для устранения этих ограничений был разработан градиентно-уточненный адаптивный фреймворк активационного управления (G-ACT): различия в активации для каждого запроса кластеризуются в небольшой набор направлений управления, а легковесные зонды на уровне слоев обучаются и уточняются в режиме реального времени для выбора подходящего вектора управления. В модели LLaMA-3.2 3B этот подход надежно смещает генерацию в сторону языка CPP, увеличивая среднюю точность классификации зондов на 15%, а для ранних слоев (0-6) точность классификации зондов улучшается на 61,5% по сравнению со стандартным фреймворком ACT. Для модели LLaMA-3.3 70B, где сигналы голов внимания становятся более рассеянными, целевые инъекции в ключевые слои все же улучшают выбор языка. Хотя зондирование на уровне слоев вносит умеренные накладные расходы на вывод, оно остается практичным, управляя только подмножеством слоев, и обеспечивает воспроизводимое поведение модели. Эти результаты демонстрируют масштабируемый, интерпретируемый и эффективный механизм управления на уровне концепций для практических агентных систем.

Как согласование сужает генеративный горизонт
How Alignment Shrinks the Generative Horizon

Jun 22

ByChenghao Yang, Ari Holtzman

Несмотря на их впечатляющие возможности, согласованные большие языковые модели (LLM) часто генерируют выходные данные, которым не хватает разнообразия. Что вызывает эту стабильность в генерации? Мы исследуем это явление через призму концентрации вероятностей в распределении выходных данных модели. Чтобы количественно оценить эту концентрацию, мы вводим понятие коэффициента ветвления (Branching Factor, BF) — инвариантной к токенам меры эффективного числа правдоподобных следующих шагов во время генерации. Наш эмпирический анализ выявил два ключевых результата: (1) BF часто уменьшается по мере прогрессирования генерации, что указывает на то, что LLM становятся более предсказуемыми в процессе генерации. (2) настройка согласованности существенно заостряет распределение выходных данных модели с самого начала, уменьшая BF почти на порядок (например, с 12 до 1,2) по сравнению с базовыми моделями. Это резкое снижение помогает объяснить, почему согласованные модели часто кажутся менее чувствительными к стратегиям декодирования. Опираясь на это понимание, мы обнаруживаем, что эта стабильность имеет удивительные последствия для сложных рассуждений. Согласованные модели с цепочкой рассуждений (Chain-of-Thought, CoT), например, модели, полученные методом дистилляции DeepSeek, используют этот эффект; генерируя более длинные цепочки рассуждений, они переводят генерацию на более поздние, более детерминированные (с меньшим BF) этапы, что приводит к более стабильным выходным данным. Мы предполагаем, что настройка согласованности не меняет фундаментально поведение модели, а направляет её на стилистические токены (например, "Конечно"), которые открывают низкоэнтропийные траектории, уже присутствующие в базовой модели. Эта точка зрения подтверждается экспериментами с подталкиванием, которые показывают, что подсказка базовым моделям таких токенов может аналогично снизить BF. В совокупности наши результаты устанавливают BF как мощный диагностический инструмент для понимания и контроля выходных данных LLM — проясняя, как согласованность снижает изменчивость, как CoT способствует стабильной генерации и как базовые модели могут быть направлены в сторону уменьшения разнообразия.

4D-LRM: Масштабная модель реконструкции пространства-времени для любого ракурса в любой момент времени
4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

Jun 23

ByZiqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan

Можем ли мы масштабировать 4D-предобучение для изучения общих пространственно-временных представлений, которые восстанавливают объект по нескольким видам в определённые моменты времени до любого вида в любое время? Мы даём утвердительный ответ с помощью 4D-LRM — первой крупномасштабной модели 4D-реконструкции, которая принимает входные данные из произвольных видов и временных меток и визуализирует произвольные комбинации новых видов и времени. В отличие от предыдущих 4D-подходов, таких как оптимизационные, геометрические или генеративные, которые сталкиваются с проблемами эффективности, обобщения или точности, 4D-LRM изучает унифицированное пространственно-временное представление и напрямую предсказывает 4D-гауссовы примитивы на уровне пикселей из размеченных изображений во времени, что позволяет быстро и качественно визуализировать данные с, в принципе, бесконечной частотой кадров. Наши результаты демонстрируют, что масштабирование пространственно-временного предобучения обеспечивает точную и эффективную 4D-реконструкцию. Мы показываем, что 4D-LRM обобщается на новые объекты, интерполирует по времени и справляется с разнообразными настройками камер. Модель восстанавливает 24-кадровые последовательности за один прямой проход менее чем за 1,5 секунды на одном GPU A100.

CommVQ: Коммутативное векторное квантование для сжатия кэша ключей и значений
CommVQ: Commutative Vector Quantization for KV Cache Compression

Jun 23

ByJunyan Li, Yang Zhang, Muhammad Yusuf Hassan, Talha Chafekar, Tianle Cai, Zhile Ren, Pengsheng Guo, Foroozan Karimzadeh, Colorado Reed, Chong Wang, Chuang Gan

Крупные языковые модели (LLM) всё чаще применяются в задачах, требующих работы с длинными контекстами, однако кэш ключей и значений (KV) часто становится узким местом в памяти GPU при увеличении длины контекста. Для решения этой проблемы мы предлагаем метод коммутативного векторного квантования (CommVQ), который значительно сокращает использование памяти при выводе LLM с длинными контекстами. Сначала мы вводим аддитивное квантование с использованием легковесного кодера и кодовой книги для сжатия KV-кэша, который может быть декодирован с помощью простого матричного умножения. Чтобы дополнительно снизить вычислительные затраты при декодировании, мы проектируем кодовую книгу так, чтобы она была коммутативна с ротационным позиционным кодированием (RoPE), и обучаем её с использованием алгоритма максимизации ожиданий (EM). Это позволяет эффективно интегрировать декодирование в механизм самовнимания. Наш подход обеспечивает высокую точность благодаря аддитивному квантованию и низкие накладные расходы за счёт RoPE-коммутативной кодовой книги. Эксперименты на бенчмарках с длинными контекстами и GSM8K показывают, что наш метод сокращает размер FP16 KV-кэша на 87,5% при 2-битном квантовании, превосходя современные методы квантования KV-кэша. Примечательно, что он позволяет использовать 1-битное квантование KV-кэша с минимальной потерей точности, что позволяет модели LLaMA-3.1 8B работать с длиной контекста 128K на одном GPU RTX 4090. Исходный код доступен по адресу: https://github.com/UMass-Embodied-AGI/CommVQ.

Я знаю, какой LLM написал ваш код прошлым летом: стилометрия для установления авторства кода, сгенерированного языковыми моделями
I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution

Jun 18

ByTamas Bisztray, Bilel Cherif, Richard A. Dubniczky, Nils Gruschka, Bertalan Borsos, Mohamed Amine Ferrag, Attila Kovacs, Vasileios Mavroeidis, Norbert Tihanyi

Обнаружение сгенерированного ИИ кода, дипфейков и другого синтетического контента представляет собой новую исследовательскую задачу. По мере того как код, созданный крупными языковыми моделями (LLM), становится все более распространенным, определение конкретной модели, стоящей за каждым образцом, приобретает все большую важность. В данной статье представлено первое систематическое исследование атрибуции авторства LLM для программ на языке C. Мы представили CodeT5-Authorship — новую модель, которая использует только слои энкодера из оригинальной архитектуры CodeT5 с энкодером и декодером, отбрасывая декодер для фокусировки на классификации. Выход энкодера модели (первый токен) передается через двухслойный классификационный блок с активацией GELU и dropout, что позволяет получить распределение вероятностей по возможным авторам. Для оценки нашего подхода мы представили LLM-AuthorBench — бенчмарк, содержащий 32 000 компилируемых программ на C, сгенерированных восемью передовыми LLM для различных задач. Мы сравнили нашу модель с семью традиционными классификаторами машинного обучения и восемью тонко настроенными трансформерными моделями, включая BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer и LoRA-настроенную Qwen2-1.5B. В бинарной классификации наша модель достигает точности 97,56% в различении программ на C, сгенерированных близкими моделями, такими как GPT-4.1 и GPT-4o, и 95,40% точности для многоклассовой атрибуции среди пяти ведущих LLM (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 и DeepSeek-V3). В поддержку открытой науки мы публикуем архитектуру CodeT5-Authorship, бенчмарк LLM-AuthorBench и все соответствующие скрипты Google Colab на GitHub: https://github.com/LLMauthorbench/.

TPTT: Преобразование предобученных трансформеров в титанов
TPTT: Transforming Pretrained Transformer into Titans

Jun 21

ByFabien Furfaro

Последние достижения в области больших языковых моделей (LLM) привели к значительному прогрессу в обработке естественного языка, однако их вычислительные и ресурсные требования остаются серьезной проблемой, особенно для задач с длинным контекстом. Мы представляем TPTT (Transforming Pretrained Transformer into Titans) — новый фреймворк для улучшения предобученных моделей Transformer с использованием эффективных механизмов линеаризованного внимания и продвинутого управления памятью. TPTT использует такие методы, как Memory as Gate (MaG) и смешанное линеаризованное внимание (LiZA). Он полностью совместим с библиотекой Hugging Face Transformers, что позволяет легко адаптировать любую каузальную LLM с помощью параметрически эффективной тонкой настройки (LoRA) без необходимости полного переобучения. Мы демонстрируем эффективность TPTT на бенчмарке MMLU с моделями, содержащими около 1 миллиарда параметров, наблюдая значительные улучшения как в эффективности, так и в точности. Например, Titans-Llama-3.2-1B достигает увеличения точности Exact Match (EM) на 20% по сравнению с базовой моделью. Статистический анализ и сравнение с современными методами подтверждают практическую масштабируемость и надежность TPTT. Код доступен по адресу https://github.com/fabienfrfr/tptt. Python-пакет можно найти на https://pypi.org/project/tptt/.

Количественная оценка справедливости в языковых моделях за пределами токенов: семантический и статистический подход
Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective

Jun 23

ByWeijie Xu, Yiwen Wang, Chi Xue, Xiangkun Hu, Xi Fang, Guimin Dong, Chandan K. Reddy

Крупные языковые модели (LLM) часто генерируют ответы с присущими им предубеждениями, что снижает их надежность в реальных приложениях. Существующие методы оценки часто упускают из виду предубеждения в длинных ответах и внутреннюю изменчивость выходных данных LLM. Для решения этих проблем мы предлагаем FiSCo (Fine-grained Semantic Computation) — новый статистический фреймворк для оценки групповой справедливости в LLM путем обнаружения тонких семантических различий в длинных ответах для различных демографических групп. В отличие от предыдущих работ, сосредоточенных на анализе тональности или сравнении на уровне токенов, FiSCo выходит за рамки поверхностного анализа, работая на уровне утверждений и используя проверку логической связанности для оценки согласованности смысла в ответах. Мы разбиваем выходные данные модели на семантически независимые утверждения и применяем статистическую проверку гипотез для сравнения межгруппового и внутригруппового сходства, что позволяет надежно обнаруживать тонкие предубеждения. Мы формализуем новое определение групповой контрфактической справедливости и проверяем FiSCo на синтетических и аннотированных человеком наборах данных, охватывающих гендер, расу и возраст. Эксперименты показывают, что FiSCo более надежно выявляет нюансированные предубеждения, снижая влияние стохастической изменчивости LLM, и превосходит различные метрики оценки.

Разгадка парадокса визуального качества в мультимодальных больших языковых моделях
Demystifying the Visual Quality Paradox in Multimodal Large Language Models

Jun 18

ByShuo Xing, Lanqing Guo, Hongyuan Hua, Seoyoung Lee, Peiran Li, Yufei Wang, Zhangyang Wang, Zhengzhong Tu

Современные мультимодальные большие языковые модели (MLLM) демонстрируют выдающиеся результаты на эталонных задачах, связанных с обработкой визуальной и текстовой информации, однако до сих пор мало изучено, как качество входных визуальных данных влияет на их ответы. Означает ли более высокое перцептивное качество изображений лучшее понимание MLLM? Мы проводим первое систематическое исследование, охватывающее ведущие MLLM и набор эталонных задач для обработки визуально-текстовой информации, применяя контролируемые искажения и стилистические изменения к каждому изображению. Удивительно, но мы обнаруживаем парадокс визуального качества: производительность модели, задачи и даже отдельных экземпляров может улучшаться, когда изображения отклоняются от воспринимаемой человеком точности. Готовые решения для восстановления изображений не способны учесть эти идиосинкразические предпочтения. Чтобы устранить этот разрыв, мы представляем метод адаптации на этапе тестирования с учетом визуального качества (VQ-TTT) — легковесный модуль адаптации, который: (1) вставляет обучаемое низкоранговое ядро перед замороженным визуальным кодировщиком для модуляции частотного содержания; и (2) тонко настраивает только поверхностные слои визуального кодировщика с помощью LoRA. VQ-TTT динамически корректирует каждое входное изображение за один прямой проход, согласуя его с предпочтениями модели для конкретной задачи. На всех оцененных MLLM и наборах данных VQ-TTT значительно повышает среднюю точность, не требуя внешних моделей, кэшированных признаков или дополнительных обучающих данных. Эти результаты переопределяют понятие «лучших» визуальных входных данных для MLLM и подчеркивают необходимость адаптивных, а не универсально «чистых» изображений в новую эпоху, когда ИИ становится основным потребителем данных.

SoK: Оценка защитных механизмов от взлома в крупных языковых моделях
SoK: Evaluating Jailbreak Guardrails for Large Language Models

Jun 12

ByXunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang

Крупные языковые модели (LLM) достигли значительных успехов, однако их внедрение выявило серьёзные уязвимости, особенно к атакам типа "jailbreak", которые обходят механизмы безопасности. "Защитные барьеры" (guardrails) — внешние механизмы защиты, которые отслеживают и контролируют взаимодействие с LLM, — стали перспективным решением. Однако текущий ландшафт таких барьеров фрагментирован и лишён единой таксономии и всеобъемлющей системы оценки. В данной работе, систематизирующей знания (SoK), мы представляем первый целостный анализ защитных барьеров для LLM от атак jailbreak. Мы предлагаем новую многомерную таксономию, классифицирующую барьеры по шести ключевым измерениям, и вводим оценочную систему "Безопасность-Эффективность-Полезность" для оценки их практической эффективности. На основе обширного анализа и экспериментов мы выявляем сильные и слабые стороны существующих подходов, исследуем их универсальность для различных типов атак и предлагаем рекомендации по оптимизации комбинаций защитных механизмов. Наша работа создаёт структурированную основу для будущих исследований и разработок, направляя принципиальное развитие и внедрение надёжных защитных барьеров для LLM. Код доступен по адресу: https://github.com/xunguangwang/SoK4JailbreakGuardrails.

Spec2RTL-Agent: Автоматизированная генерация аппаратного кода из сложных спецификаций с использованием систем агентов на основе LLM
Spec2RTL-Agent: Automated Hardware Code Generation from Complex Specifications Using LLM Agent Systems

Jun 16

ByZhongzhi Yu, Mingjie Liu, Michael Zimmer, Yingyan Celine Lin, Yong Liu, Haoxing Ren

Несмотря на недавние успехи в генерации аппаратного кода на уровне регистровых передач (RTL) с использованием языковых моделей (LLM), существующие решения по-прежнему сталкиваются с существенным разрывом между практическими сценариями применения и требованиями реальной разработки RTL-кода. Предыдущие подходы либо сосредоточены на чрезмерно упрощенных описаниях аппаратного обеспечения, либо зависят от обширного человеческого руководства для обработки сложных спецификаций, что ограничивает их масштабируемость и потенциал автоматизации. В данной статье мы устраняем этот разрыв, предлагая систему агентов на основе LLM, названную Spec2RTL-Agent, которая предназначена для непосредственной обработки сложной документации спецификаций и генерации соответствующих реализаций RTL-кода, продвигая генерацию RTL-кода на основе LLM к более реалистичным условиям применения. Для достижения этой цели Spec2RTL-Agent представляет новую структуру многозадачного взаимодействия, которая интегрирует три ключевых компонента: (1) модуль рассуждения и понимания, который преобразует спецификации в структурированные пошаговые планы реализации; (2) модуль прогрессивного кодирования и оптимизации запросов, который итеративно улучшает код на нескольких уровнях представления для повышения корректности и синтезируемости при преобразовании в RTL; и (3) адаптивный модуль рефлексии, который выявляет и отслеживает источники ошибок в процессе генерации, обеспечивая более надежный процесс создания кода. Вместо прямой генерации RTL из естественного языка наша система стратегически генерирует синтезируемый код на C++, который затем оптимизируется для высокоуровневого синтеза (HLS). Такой подход, основанный на агентах, обеспечивает большую корректность и совместимость по сравнению с наивными методами прямой генерации RTL. Мы оцениваем Spec2RTL-Agent на трех документах спецификаций, демонстрируя, что она генерирует точный RTL-код с до 75% меньшим количеством человеческих вмешательств, чем существующие методы. Это подчеркивает ее роль как первой полностью автоматизированной многозадачной системы для генерации RTL из неструктурированных спецификаций, снижая зависимость от человеческих усилий в проектировании аппаратного обеспечения.

CultureMERT: Непрерывное предварительное обучение для кросс-культурного представления музыки
CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning

Jun 21

ByAngelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos

Последние достижения в области базовых моделей для музыки улучшили обучение представлениям аудио, однако их эффективность в различных музыкальных традициях остается ограниченной. Мы представляем CultureMERT-95M, многокультурно адаптированную базовую модель, разработанную для улучшения обучения и понимания кросс-культурных музыкальных представлений. Для достижения этой цели мы предлагаем двухэтапную стратегию непрерывного предварительного обучения, которая включает повторный разогрев и повторное затухание скорости обучения, что позволяет стабильно адаптироваться даже при ограниченных вычислительных ресурсах. Обучение на 650-часовом многокультурном наборе данных, включающем греческие, турецкие и индийские музыкальные традиции, приводит к среднему улучшению на 4,9% по показателям ROC-AUC и AP в различных задачах автоматической разметки не-западной музыки, превосходя предыдущие передовые результаты, с минимальным забыванием на западных бенчмарках. Мы также исследуем арифметику задач, альтернативный подход к многокультурной адаптации, который объединяет модели, адаптированные для отдельных культур, в пространстве весов. Арифметика задач показывает результаты, сопоставимые с нашей многокультурно обученной моделью в задачах автоматической разметки не-западной музыки, и не демонстрирует регрессии на западных наборах данных. Кросс-культурная оценка показывает, что модели, адаптированные для отдельных культур, переносятся с разной эффективностью на различные музыкальные традиции, тогда как многокультурно адаптированная модель достигает наилучших общих результатов. Для поддержки исследований в области обучения представлений мировой музыки мы публично выпускаем CultureMERT-95M и CultureMERT-TA-95M, способствуя разработке более культурно осознанных базовых моделей для музыки.

Аудит и исправление: Агентная структура для согласованной визуализации историй в диффузионных моделях преобразования текста в изображения
Audit & Repair: An Agentic Framework for Consistent Story Visualization in Text-to-Image Diffusion Models

Jun 23

ByKiymet Akdemir, Tahira Kazimi, Pinar Yanardag

Визуализация историй стала популярной задачей, в которой создаются визуальные сцены для отображения повествования через несколько панелей. Основная сложность в этом контексте заключается в поддержании визуальной согласованности, особенно в том, как персонажи и объекты сохраняются и развиваются на протяжении истории. Несмотря на недавние достижения в области диффузионных моделей, современные подходы часто не сохраняют ключевые атрибуты персонажей, что приводит к несогласованным повествованиям. В данной работе мы предлагаем совместную мультиагентную структуру, которая автономно выявляет, исправляет и уточняет несогласованности в много панельных визуализациях историй. Агенты работают в итеративном цикле, позволяя выполнять детализированные обновления на уровне панелей без необходимости повторной генерации всей последовательности. Наша структура является модельно-независимой и гибко интегрируется с различными диффузионными моделями, включая трансформеры с исправленным потоком, такие как Flux, и латентные диффузионные модели, такие как Stable Diffusion. Количественные и качественные эксперименты показывают, что наш метод превосходит предыдущие подходы с точки зрения согласованности много панельных визуализаций.

GEMeX-ThinkVG: К мышлению с визуальной привязкой в медицинских вопросах и ответах через обучение с подкреплением
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning

Jun 22

ByBo Liu, Xiangyu Zhao, Along He, Yidi Chen, Huazhu Fu, Xiao-Ming Wu

Медицинское визуальное ответы на вопросы направлено на поддержку принятия клинических решений, позволяя моделям отвечать на вопросы на естественном языке на основе медицинских изображений. Хотя последние достижения в области мультимодального обучения значительно улучшили производительность, текущие методы все еще страдают от ограниченной надежности ответов и низкой интерпретируемости, что затрудняет понимание и доверие клиницистов и пациентов к ответам, генерируемым моделями. Для решения этой проблемы в данной работе сначала предлагается набор данных "Thinking with Visual Grounding" (ThinkVG), в котором генерация ответа разбивается на промежуточные шаги рассуждения, явно привязывающие соответствующие визуальные области медицинского изображения, тем самым обеспечивая детальную объяснимость. Кроме того, мы представляем новый механизм проверяемого вознаграждения для обучения с подкреплением, который направляет пост-обучение, улучшая согласованность между процессом рассуждения модели и ее окончательным ответом. Примечательно, что наш метод демонстрирует сопоставимую производительность, используя только одну восьмую часть обучающих данных, что подчеркивает эффективность и результативность предложенного подхода. Набор данных доступен по адресу https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.

RePIC: Усиленное посттренировочное обучение для персонализации многомодальных языковых моделей
RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

Jun 23

ByYeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon

Современные многомодальные большие языковые модели (MLLMs) часто испытывают трудности с генерацией персонализированных описаний изображений, даже при обучении на высококачественных подписях. В данной работе мы отмечаем, что такие ограничения сохраняются в существующих методах персонализации MLLM, основанных на пост-обучении. В частности, несмотря на тонкую настройку с использованием масштабных данных подписей через контролируемое тонкое обучение (SFT), эти модели часто не способны создавать точные описания в реальных сценариях, таких как генерация подписей для изображений с несколькими концепциями. Однако получение масштабных, высококачественных подписей для таких сложных условий является дорогостоящим и трудным процессом. Чтобы решить проблему, связанную с ориентацией SFT на данные, мы предлагаем пост-обучающую структуру, основанную на обучении с подкреплением (RL). Насколько нам известно, это первый подход на основе RL для пост-обучения MLLM с целью персонализированной генерации подписей к изображениям. Наш метод значительно улучшает как способности визуального распознавания, так и персонализированной генерации MLLM и стабильно превосходит существующие базовые методы, основанные на SFT, особенно в сложной задаче генерации подписей для изображений с несколькими концепциями.

Подход с использованием глубокого обучения и машинного обучения для прогнозирования неонатальной смертности в контексте Сан-Паулу
A deep learning and machine learning approach to predict neonatal death in the context of São Paulo

Jun 20

ByMohon Raihan, Plabon Kumar Saha, Rajan Das Gupta, A Z M Tahmidul Kabir, Afia Anjum Tamanna, Md. Harun-Ur-Rashid, Adnan Bin Abdus Salam, Md Tanvir Anjum, A Z M Ahteshamul Kabir

Неонатальная смертность остается тревожной реальностью для развивающихся и даже некоторых развитых стран. Согласно данным Macro Trades, во всем мире из 1000 рожденных детей умирают 26,693 младенца. Для снижения этого показателя крайне важна ранняя прогностика младенцев, находящихся в группе риска. Такой прогноз позволяет обеспечить надлежащий уход за ребенком и матерью, что помогает предотвратить раннюю детскую смертность. В данном контексте для определения риска для новорожденного использовались методы машинного обучения. Для обучения прогностической модели были использованы исторические данные о 1,4 миллиона новорожденных. Методы машинного и глубокого обучения, такие как логистическая регрессия, метод k-ближайших соседей, классификатор случайного леса, экстремальное градиентное бустирование (XGBoost), сверточные нейронные сети и долгосрочная краткосрочная память (LSTM), были применены к этому набору данных для выявления наиболее точной модели прогнозирования неонатальной смертности. Среди алгоритмов машинного обучения XGBoost и классификатор случайного леса показали наилучшую точность — 94%, в то время как среди моделей глубокого обучения LSTM достигла наивысшей точности — 99%. Таким образом, использование LSTM представляется наиболее подходящим подходом для прогнозирования необходимости принятия профилактических мер для ребенка.