Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Простое масштабирование времени тестирования
s1: Simple test-time scaling

Jan 31

ByNiklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto

124

Масштабирование на этапе тестирования - это многообещающий новый подход к языковому моделированию, который использует дополнительные вычислительные ресурсы на этапе тестирования для улучшения производительности. Недавно модель o1 от OpenAI продемонстрировала эту возможность, но не раскрыла свою методологию публично, что привело к множеству попыток репликации. Мы ищем самый простой подход к достижению масштабирования на этапе тестирования и высокой производительности в рассуждениях. Во-первых, мы составляем небольшой набор данных s1K из 1 000 вопросов, сопоставленных с трассировками рассуждений, опираясь на три критерия, которые мы проверяем через абляции: сложность, разнообразие и качество. Во-вторых, мы разрабатываем принудительное ограничение бюджета для контроля вычислительных ресурсов на этапе тестирования путем принудительного завершения процесса мышления модели или увеличения его путем добавления "Wait" несколько раз к генерации модели, когда она пытается завершиться. Это может заставить модель перепроверить свой ответ, часто исправляя неправильные шаги рассуждений. После надзорного донастройки языковой модели Qwen2.5-32B-Instruct на наборе данных s1K и оборудования ее принудительным ограничением бюджета, наша модель s1 превосходит o1-preview на математических вопросах соревнования на 27% (MATH и AIME24). Кроме того, масштабирование s1 с принудительным ограничением бюджета позволяет экстраполировать его производительность без вмешательства на этапе тестирования: с 50% до 57% на AIME24. Наша модель, данные и код открыты для общего доступа на https://github.com/simplescaling/s1.

Наградоориентированное спекулятивное декодирование для эффективного рассуждения в модели с ограниченной памятью.
Reward-Guided Speculative Decoding for Efficient LLM Reasoning

Jan 31

ByBaohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong

Мы представляем Reward-Guided Speculative Decoding (RSD) - новую концепцию, направленную на улучшение эффективности вывода в больших языковых моделях (LLMs). RSD синергетически объединяет легковесную рабочую модель с более мощной целевой моделью, включая управляемое смещение для приоритизации высоко-вознаграждаемых результатов, в отличие от существующих методов спекулятивного декодирования, которые настаивают на строгой безпристрастности. RSD использует модель вознаграждения процесса для оценки промежуточных шагов декодирования и динамически принимает решение о вызове целевой модели, оптимизируя баланс между вычислительной стоимостью и качеством вывода. Мы теоретически демонстрируем, что стратегия смешивания на основе порога достигает оптимального баланса между использованием ресурсов и производительностью. Обширные оценки на сложных бенчмарках рассуждения, включая задачи уровня Олимпиады, показывают, что RSD обеспечивает значительное увеличение эффективности по сравнению с декодированием только с использованием целевой модели (до 4,4 раза меньше операций с плавающей запятой), при этом достигая значительно лучшей точности, чем параллельный метод декодирования в среднем (до +3,5). Эти результаты подчеркивают RSD как надежный и экономически эффективный подход для развертывания LLMs в ресурсоемких сценариях.

MatAnyone: Устойчивая видео-матирование с последовательным распространением памяти
MatAnyone: Stable Video Matting with Consistent Memory Propagation

Jan 24

ByPeiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy

Методы видео-выделения без вспомогательных данных, которые полагаются исключительно на входные кадры, часто испытывают трудности с комплексными или неоднозначными фонами. Для решения этой проблемы мы предлагаем MatAnyone, надежную структуру, специально разработанную для видео-выделения с назначением цели. Конкретно, опираясь на парадигму, основанную на памяти, мы представляем модуль последовательного распространения памяти через регион-адаптивное слияние памяти, который адаптивно интегрирует память из предыдущего кадра. Это обеспечивает семантическую стабильность в основных областях, сохраняя детали на границах объектов. Для надежного обучения мы представляем большой, высококачественный и разнообразный набор данных для видео-выделения. Кроме того, мы внедряем новую стратегию обучения, которая эффективно использует данные сегментации большого масштаба, повышая стабильность выделения. Благодаря этому новому дизайну сети, набору данных и стратегии обучения MatAnyone обеспечивает надежные и точные результаты видео-выделения в различных реальных сценариях, превосходя существующие методы.

Самообучаемое квантованное представление для плавного интегрирования графов знаний с большими языковыми моделями
Self-supervised Quantized Representation for Seamlessly Integrating Knowledge Graphs with Large Language Models

Jan 30

ByQika Lin, Tianzhe Zhao, Kai He, Zhen Peng, Fangzhi Xu, Ling Huang, Jingying Ma, Mengling Feng

В связи с наличием естественного разрыва между структурами Графа Знаний (Knowledge Graph, KG) и естественным языком, эффективная интеграция всесторонней структурной информации ГЗ с большими языковыми моделями (Large Language Models, LLMs) стала значительным вопросом. В этой связи мы предлагаем двухэтапную структуру для изучения и применения квантованных кодов для каждой сущности с целью безупречной интеграции ГЗ с LLMs. Во-первых, предлагается метод самообучения квантованного представления (Self-Supervised Quantized Representation, SSQR) для сжатия как структурных, так и семантических знаний ГЗ в дискретные коды (токены), соответствующие формату предложений на языке. Далее мы разрабатываем данные по следованию инструкциям ГЗ, рассматривая эти изученные коды как признаки для прямого ввода в LLMs, что позволяет достичь безупречной интеграции. Результаты экспериментов показывают, что SSQR превосходит существующие методы квантования без учителя, производя более различимые коды. Кроме того, донастройка моделей LLaMA2 и LLaMA3.1 также демонстрирует превосходное качество на задачах предсказания связей и классификации троек в ГЗ, используя всего 16 токенов на сущность вместо тысяч в традиционных методах подсказки.

Масштабируемый Softmax превосходит по вниманию.
Scalable-Softmax Is Superior for Attention

Jan 31

ByKen M. Nakanishi

Максимальный элемент вектора, выводимого функцией Softmax, приближается к нулю по мере увеличения размера входного вектора. Языковые модели на основе трансформера полагаются на Softmax для вычисления оценок внимания, что приводит к уплощению распределения внимания по мере увеличения размера контекста. Это снижает способность модели эффективно определять ключевую информацию и потенциально ограничивает ее обобщение на длинные тексты. Для решения этой проблемы мы предлагаем Scalable-Softmax (SSMax), который заменяет Softmax в ситуациях, когда размер входного вектора изменяется. SSMax может быть легко интегрирован в существующие архитектуры на основе трансформера. Экспериментальные результаты в языковом моделировании показывают, что модели, использующие SSMax, не только достигают более быстрого снижения потерь во время предварительного обучения, но также значительно улучшают производительность в длинных контекстах и поиске ключевой информации. Кроме того, анализ оценок внимания показывает, что SSMax позволяет модели сосредотачивать внимание на ключевой информации даже в длинных контекстах. Кроме того, хотя модели, использующие SSMax с самого начала предварительного обучения, демонстрируют лучшее обобщение на длинные тексты, те модели, которые уже начали предварительное обучение, могут приобрести некоторую способность к обобщению, заменив Softmax на SSMax в слоях внимания во время или после предварительного обучения.

Мир пикселей: к восприятию всего как пикселей
PixelWorld: Towards Perceiving Everything as Pixels

Jan 31

ByZhiheng Lyu, Xueguang Ma, Wenhu Chen

Существующие базовые модели обычно обрабатывают визуальный ввод как пиксели и текстовый ввод как токены, парадигма, противопоставленная восприятию человека, где обе модальности обрабатываются единым образом. С появлением инкорпорированных и агентных ИИ, где входные данные в основном поступают от пикселей камеры, становится все более очевидной необходимость в единой модели восприятия. В данной статье мы предлагаем объединить все модальности (текст, таблицы, код, диаграммы, изображения и т. д.) как входные данные в виде пикселей, т. е. "Воспринимать все как пиксели" (PEAP). Мы представляем PixelWorld, новый набор оценочных тестов, который объединяет все упомянутые модальности в пространстве пикселей для оценки производительности существующих моделей. Наши результаты показывают, что (1) PEAP превосходит базовую модель с входными данными на основе токенов в мультимодальных наборах данных, получая преимущество от единого ввода для лучшей дезамбигуации, (2) значительное снижение способностей к рассуждению и кодированию у всех моделей при обработке входных данных на основе пикселей, подчеркивая необходимость улучшения восприятия базовых моделей, (3) более крупные модели могут сохранять высокую производительность на задачах, не требующих рассуждений, в рамках PEAP, в то время как более маленькие модели, такие как Phi-3.5-V, страдают от значительного снижения производительности, (4) паттерн внимания PEAP тесно соотносится с входными данными в виде текстовых токенов, (5) PEAP может быть значительно ускорен за счет использования пространственной разреженности. Мы приходим к выводу, что существующие передовые модели компетентны в восприятии пикселей, однако еще есть место для улучшений. Наш код и набор данных будут опубликованы после принятия.

DINO-WM: Мировые модели на предварительно обученных визуальных признаках позволяют планирование с нулевым шагом.
DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

Nov 7

ByGaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto

Способность предсказывать будущие результаты при заданных управляющих действиях является фундаментальной для физического рассуждения. Однако такие предиктивные модели, часто называемые моделями мира, оказались сложными для обучения и обычно разрабатываются для задачно-специфических решений с обучением политики в реальном времени. Мы утверждаем, что истинный потенциал моделей мира заключается в их способности рассуждать и планировать по разнообразным проблемам, используя только пассивные данные. Конкретно, мы требуем, чтобы у моделей мира были следующие три свойства: 1) возможность обучения на оффлайн, заранее собранных траекториях, 2) поддержка оптимизации поведения на этапе тестирования и 3) облегчение задачно-агностического рассуждения. Для реализации этого мы представляем DINO World Model (DINO-WM), новый метод моделирования визуальной динамики без восстановления визуального мира. DINO-WM использует пространственные признаки патчей, предварительно обученные с помощью DINOv2, что позволяет ему учиться на оффлайн поведенческих траекториях путем предсказания будущих признаков патчей. Такой подход позволяет DINO-WM достигать наблюдательных целей через оптимизацию последовательности действий, облегчая планирование поведения без привязки к задаче путем рассмотрения желаемых признаков патчей в качестве целевых для предсказания. Мы оцениваем DINO-WM в различных областях, включая навигацию в лабиринте, толкание по столу и манипулирование частицами. Наши эксперименты показывают, что DINO-WM способен генерировать решения нулевого шага на этапе тестирования без использования экспертных демонстраций, моделирования вознаграждения или предварительно обученных обратных моделей. Особенно стоит отметить, что DINO-WM обладает сильными возможностями обобщения по сравнению с предыдущими передовыми работами, адаптируясь к различным семействам задач, таким как лабиринты произвольной конфигурации, толкание с различными формами объектов и сценарии с несколькими частицами.

Конституционные классификаторы: Защита от универсальных джейлбрейков на протяжении тысяч часов красного пентестинга.
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

Jan 31

ByMrinank Sharma, Meg Tong, Jesse Mu, Jerry Wei, Jorrit Kruthoff, Scott Goodfriend, Euan Ong, Alwin Peng, Raj Agarwal, Cem Anil, Amanda Askell, Nathan Bailey, Joe Benton, Emma Bluemke, Samuel R. Bowman, Eric Christiansen, Hoagy Cunningham, Andy Dau, Anjali Gopal, Rob Gilson, Logan Graham, Logan Howard, Nimit Kalra, Taesung Lee, Kevin Lin, Peter Lofgren, Francesco Mosconi, Clare O'Hara, Catherine Olsson, Linda Petrini, Samir Rajani, Nikhil Saxena, Alex Silverstein, Tanya Singh, Theodore Sumers, Leonard Tang, Kevin K. Troy, Constantin Weisser, Ruiqi Zhong, Giulio Zhou, Jan Leike, Jared Kaplan, Ethan Perez

Большие языковые модели (LLM) уязвимы для универсальных проникновений, которые систематически обходят защиты модели и позволяют пользователям выполнять вредные процессы, требующие множества взаимодействий с моделью, такие как производство незаконных веществ в масштабе. Для защиты от таких атак мы представляем Конституционные Классификаторы: защиты, обученные на синтетических данных, сгенерированных путем подачи LLM естественноязыковых правил (т. е. конституции), определяющих разрешенное и запрещенное содержание. В течение более чем 3 000 часов оценочных испытаний, ни один участник красной команды не обнаружил универсального проникновения, которое могло бы извлечь информацию из ранее защищенной классификатором LLM на сходном уровне детализации с незащищенной моделью для большинства целевых запросов. При автоматизированных оценках улучшенные классификаторы продемонстрировали надежную защиту от удерживаемых узкоспециализированных проникновений. Эти классификаторы также обеспечивают возможность развертывания, с абсолютным увеличением отказов в производственном трафике на 0,38% и дополнительной нагрузкой на вывод в размере 23,7%. Наша работа показывает, что защита от универсальных проникновений при сохранении практической возможности развертывания является выполнимой.

SAeUron: Интерпретируемое забывание концепций в моделях диффузии с разреженными автоэнкодерами
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

Jan 29

ByBartosz Cywiński, Kamil Deja

Модели диффузии, хотя и мощные, могут нежелательно генерировать вредный или нежелательный контент, вызывая значительные этические и безопасностные проблемы. Недавние подходы машинного разучивания предлагают потенциальные решения, но часто лишены прозрачности, что затрудняет понимание внесенных ими изменений в базовую модель. В данной работе мы представляем SAeUron, новый метод, использующий особенности, выученные разреженными автокодировщиками (SAE), для удаления нежелательных концепций в моделях диффузии текста в изображение. Сначала мы демонстрируем, что SAE, обученные без учителя на активациях из нескольких временных шагов денойзинга модели диффузии, захватывают разреженные и интерпретируемые особенности, соответствующие конкретным концепциям. Основываясь на этом, мы предлагаем метод выбора особенностей, который позволяет точные вмешательства в активации модели для блокирования целевого контента, сохраняя общую производительность. Оценка с использованием конкурентного бенчмарка UnlearnCanvas по разучиванию объектов и стилей выделяет передовую производительность SAeUron. Более того, мы показываем, что с помощью одного SAE мы можем одновременно удалять несколько концепций и что, в отличие от других методов, SAeUron смягчает возможность генерации нежелательного контента, даже под атакой злоумышленников. Код и контрольные точки доступны по ссылке: https://github.com/cywinski/SAeUron.

Удивительное согласие между теорией выпуклой оптимизации и расписанием скорости обучения для обучения больших моделей.
The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training

Jan 31

ByFabian Schaipp, Alexander Hägele, Adrien Taylor, Umut Simsekli, Francis Bach

Мы показываем, что графики скорости обучения для тренировки больших моделей ведут себя удивительно похожим образом на границу производительности из теории несглаживающей выпуклой оптимизации. Мы предоставляем границу для постоянного графика с линейным затуханием; в частности, практическая польза затухания отражается в границе из-за отсутствия логарифмических членов. Кроме того, мы показываем, что это удивительно близкое соответствие между теорией оптимизации и практикой может быть использовано для настройки скорости обучения: мы достигаем заметных улучшений при тренировке моделей типа Ллама на 124M и 210M, (i) расширяя график для продолжения обучения с оптимальной скоростью обучения, и (ii) передавая оптимальную скорость обучения между графиками.

Синтез нового ракурса и глубины без обучения на примерах с использованием многопроекционной геометрической диффузии
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

Jan 30

ByVitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus

Существующие методы реконструкции трёхмерных сцен из разреженных поставленных изображений используют промежуточные трёхмерные представления, такие как нейронные поля, воксельные сетки или трёхмерные гауссианы, для достижения согласованного многокамерного вида сцены и геометрии. В данной статье мы представляем MVGD, архитектуру на основе диффузии, способную к прямому пиксельному созданию изображений и карт глубины с новых точек зрения, учитывая произвольное количество входных видов. Наш метод использует условие raymap как для дополнения визуальных признаков пространственной информацией с различных точек зрения, так и для направления создания изображений и карт глубины с новых видов. Ключевым аспектом нашего подхода является многозадачное создание изображений и карт глубины, используя обучаемые вложения задач для направления процесса диффузии к конкретным модальностям. Мы обучаем эту модель на коллекции более 60 миллионов многокамерных образцов из общедоступных наборов данных и предлагаем техники для обеспечения эффективного и согласованного обучения в таких разнообразных условиях. Мы также предлагаем новую стратегию, которая позволяет эффективное обучение более крупных моделей путем поэтапного донастройки более мелких, с обещающим масштабированием. Через обширные эксперименты мы сообщаем о результатах, превосходящих существующие результаты, в нескольких бенчмарках синтеза новых видов, а также в многокамерной стереофотограмметрии и оценке глубины видео.

Торговля вычислительным временем вывода на прочность к атакам.
Trading Inference-Time Compute for Adversarial Robustness

Jan 31

ByWojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese

Мы проводим эксперименты по изучению влияния увеличения вычислительных ресурсов во время вывода в моделях рассуждений (конкретно в OpenAI o1-preview и o1-mini) на их устойчивость к атакам. Мы обнаружили, что при различных видах атак увеличение вычислительных ресурсов во время вывода приводит к улучшению устойчивости. Во многих случаях (с важными исключениями) доля образцов модели, на которых атака успешна, стремится к нулю по мере увеличения вычислительных ресурсов во время тестирования. Мы не проводим обучение соперничеству для изучаемых задач, а увеличиваем вычислительные ресурсы во время вывода, просто позволяя моделям тратить больше времени на рассуждения, независимо от формы атаки. Наши результаты указывают на потенциал увеличения вычислительных ресурсов во время вывода для улучшения устойчивости к атакам для Больших Языковых Моделей. Мы также исследуем новые атаки, направленные на модели рассуждений, а также ситуации, где увеличение вычислительных ресурсов во время вывода не улучшает надежность, и размышляем о причинах этого, а также способах их решения.

Раскрывая Возможности Языковых Моделей в Суммаризации Новостей
Unraveling the Capabilities of Language Models in News Summarization

Jan 30

ByAbdurrahman Odabaşı, Göksel Biricik

Учитывая недавнее появление нескольких языковых моделей и постоянный спрос на улучшение задач обработки естественного языка, особенно суммаризации, данная работа предоставляет всестороннюю оценку 20 недавних языковых моделей, сосредотачиваясь на более компактных для задачи суммаризации новостей. В данной работе мы систематически тестируем возможности и эффективность этих моделей в суммаризации текстов новостных статей, написанных в различных стилях и представленных в трех различных наборах данных. В частности, мы фокусируемся в данном исследовании на настройках нулевого и малого количества обучающих примеров и применяем надежную методологию оценки, объединяющую различные концепции оценки, включая автоматические метрики, оценку человеком и LLM-в-качестве-судьи. Интересно, что включение демонстрационных примеров в настройке обучения с малым количеством обучающих примеров не улучшило производительность моделей и, в некоторых случаях, даже привело к ухудшению качества сгенерированных резюме. Эта проблема в основном возникает из-за низкого качества золотых резюме, которые использовались в качестве эталонных резюме, что негативно сказывается на производительности моделей. Более того, результаты нашего исследования подчеркивают исключительную производительность GPT-3.5-Turbo и GPT-4, которые в целом доминируют благодаря своим передовым возможностям. Однако среди оцененных общедоступных моделей определенные модели, такие как Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B и Zephyr-7B-Beta, продемонстрировали многообещающие результаты. Эти модели показали значительный потенциал, позиционируя их как конкурентоспособные альтернативы крупным моделям для задачи суммаризации новостей.

Быстрое создание трехмерных моделей на основе видео с помощью обработки точечных треков.
Fast Encoder-Based 3D from Casual Videos via Point Track Processing

Apr 10

ByYoni Kasten, Wuyue Lu, Haggai Maron

Данный документ рассматривает давнюю проблему восстановления трехмерных структур из видео с динамическим содержанием. Существующие подходы к этой проблеме не были разработаны для работы с обычными видеозаписями, сделанными стандартными камерами, или требуют длительного времени оптимизации. С целью значительного улучшения эффективности предыдущих подходов мы представляем TracksTo4D - обучающий подход, который позволяет выводить трехмерную структуру и позиции камеры из динамического контента, полученного из обычных видеозаписей, с использованием единственного эффективного прямого прохода. Для достижения этой цели мы предлагаем работать напрямую с двумерными точечными треками в качестве входных данных и разрабатываем архитектуру, специально предназначенную для обработки двумерных точечных треков. Наша предложенная архитектура разработана с учетом двух ключевых принципов: (1) учитывать встроенные симметрии, присутствующие в данных точечных треков, и (2) предполагать, что шаблоны движения могут быть эффективно представлены с использованием низкорангового приближения. TracksTo4D обучается в ненадзорном режиме на наборе данных обычных видеозаписей, используя только двумерные точечные треки, извлеченные из видео, без какого-либо трехмерного надзора. Наши эксперименты показывают, что TracksTo4D может восстанавливать временное облако точек и позиции камеры базового видео с точностью, сравнимой с передовыми методами, с одновременным значительным снижением времени выполнения на до 95%. Мы также показываем, что TracksTo4D хорошо обобщается на невиденные видеозаписи невиденных семантических категорий на этапе вывода.

Интс: Майнинг отрицательных примеров для задачи-независимой сегментации с возможностью запроса.
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

Jan 30

ByJian Hu, Zixu Cheng, Shaogang Gong

Задача общей сегментации изображений с возможностью запроса направлена на достижение сегментации разнообразных образцов в рамках одного описания задачи с использованием только одного общего запроса. Существующие методы используют возможности обобщения моделей видео-языка (VLMs) для вывода индивидуальных запросов из этих общих запросов с целью направлять процесс сегментации. Однако, когда модели видео-языка испытывают трудности с обобщением на некоторые изображения, предсказание индивидуальных запросов становится недостаточным. Для решения этой проблемы мы представляем Индивидуальное Негативное Майнинг для Общей Сегментации с возможностью запроса (INT). Основная идея INT заключается в адаптивном снижении влияния несущественных (негативных) предварительных знаний, а также в увеличении использования наиболее правдоподобных предварительных знаний, выбранных с помощью негативного майнинга с более высоким контрастом, для оптимизации генерации индивидуальных запросов. Конкретно, INT состоит из двух компонентов: (1) генерация индивидуальных запросов, которая постепенно фильтрует неверную информацию при генерации запросов; (2) генерация семантической маски, которая гарантирует, что каждая сегментация изображения соответствует семантике индивидуальных запросов. INT проверяется на шести наборах данных, включая замаскированные объекты и медицинские изображения, демонстрируя его эффективность, устойчивость и масштабируемость.

ChunkKV: Сжатие кэша ключ-значение с сохранением семантики для эффективного вывода длинного контекста LLM.
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference

Feb 1

ByXiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu

Для снижения затрат памяти при выводе длинного контекста с использованием больших языковых моделей (LLM) многие недавние работы сосредотачиваются на сжатии ключевого-значения (KV) кэша различных токенов. Однако мы выявляем, что предыдущие методы сжатия KV кэша измеряют важность токена индивидуально, пренебрегая зависимостью между различными токенами в характеристиках реального языка. В свете этого мы представляем ChunkKV, группируя токены в кусок как базовую сжимающую единицу, и сохраняя наиболее информативные семантические куски, отбрасывая менее важные. Более того, замечая, что ChunkKV проявляет более высокую схожесть в сохраненных индексах по различным слоям, мы предлагаем многоразовое использование индексов по слоям для дальнейшего снижения вычислительной нагрузки. Мы оценили ChunkKV на передовых бенчмарках длинного контекста, включая LongBench и Needle-In-A-HayStack, а также на бенчмарках обучения в контексте GSM8K и JailbreakV. Наши эксперименты с настройкой инструкций и многоэтапным рассуждением (O1 и R1) LLM показывают улучшение производительности до 10\% при агрессивных коэффициентах сжатия по сравнению с существующими методами.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Простое масштабирование времени тестирования
s1: Simple test-time scaling

Jan 31

ByNiklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto

124

Наградоориентированное спекулятивное декодирование для эффективного рассуждения в модели с ограниченной памятью.
Reward-Guided Speculative Decoding for Efficient LLM Reasoning

Jan 31

ByBaohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong

MatAnyone: Устойчивая видео-матирование с последовательным распространением памяти
MatAnyone: Stable Video Matting with Consistent Memory Propagation

Jan 24

ByPeiqing Yang, Shangchen Zhou, Jixin Zhao, Qingyi Tao, Chen Change Loy

Самообучаемое квантованное представление для плавного интегрирования графов знаний с большими языковыми моделями
Self-supervised Quantized Representation for Seamlessly Integrating Knowledge Graphs with Large Language Models

Jan 30

ByQika Lin, Tianzhe Zhao, Kai He, Zhen Peng, Fangzhi Xu, Ling Huang, Jingying Ma, Mengling Feng

Масштабируемый Softmax превосходит по вниманию.
Scalable-Softmax Is Superior for Attention

Jan 31

ByKen M. Nakanishi

Мир пикселей: к восприятию всего как пикселей
PixelWorld: Towards Perceiving Everything as Pixels

Jan 31

ByZhiheng Lyu, Xueguang Ma, Wenhu Chen

DINO-WM: Мировые модели на предварительно обученных визуальных признаках позволяют планирование с нулевым шагом.
DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

Nov 7

ByGaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto

Конституционные классификаторы: Защита от универсальных джейлбрейков на протяжении тысяч часов красного пентестинга.
Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming

Jan 31

SAeUron: Интерпретируемое забывание концепций в моделях диффузии с разреженными автоэнкодерами
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

Jan 29

ByBartosz Cywiński, Kamil Deja

Удивительное согласие между теорией выпуклой оптимизации и расписанием скорости обучения для обучения больших моделей.
The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training

Jan 31

ByFabian Schaipp, Alexander Hägele, Adrien Taylor, Umut Simsekli, Francis Bach

Синтез нового ракурса и глубины без обучения на примерах с использованием многопроекционной геометрической диффузии
Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion

Jan 30

ByVitor Guizilini, Muhammad Zubair Irshad, Dian Chen, Greg Shakhnarovich, Rares Ambrus

Торговля вычислительным временем вывода на прочность к атакам.
Trading Inference-Time Compute for Adversarial Robustness

Jan 31

ByWojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, Amelia Glaese

Раскрывая Возможности Языковых Моделей в Суммаризации Новостей
Unraveling the Capabilities of Language Models in News Summarization

Jan 30

ByAbdurrahman Odabaşı, Göksel Biricik

Быстрое создание трехмерных моделей на основе видео с помощью обработки точечных треков.
Fast Encoder-Based 3D from Casual Videos via Point Track Processing

Apr 10

ByYoni Kasten, Wuyue Lu, Haggai Maron

Интс: Майнинг отрицательных примеров для задачи-независимой сегментации с возможностью запроса.
INT: Instance-Specific Negative Mining for Task-Generic Promptable Segmentation

Jan 30

ByJian Hu, Zixu Cheng, Shaogang Gong

ChunkKV: Сжатие кэша ключ-значение с сохранением семантики для эффективного вывода длинного контекста LLM.
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference

Feb 1

ByXiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu