Ежедневно отобранные исследовательские статьи по ИИ с переводами
Поскольку большие языковые модели становятся все более распространенными в финансовом секторе, существует настоятельная необходимость в стандартизированном методе для всесторонней оценки их производительности. Однако существующие финансовые бенчмарки часто страдают от ограниченного охвата языка и задач, а также от вызовов, таких как низкокачественные наборы данных и недостаточная приспособленность для оценки LLM. Для преодоления этих ограничений мы предлагаем "Golden Touchstone" - первый всесторонний двуязычный бенчмарк для финансовых LLM, который включает представительные наборы данных как на китайском, так и на английском языках по восьми основным финансовым задачам NLP. Разработанный на основе обширной коллекции открытых данных и требований отрасли, этот бенчмарк включает разнообразные финансовые задачи, направленные на тщательную оценку понимания и генерации языка моделями. Через сравнительный анализ основных моделей на бенчмарке, таких как GPT-4o Llama3, FinGPT и FinMA, мы раскрываем их сильные стороны и ограничения в обработке сложной финансовой информации. Кроме того, мы опубликовали Touchstone-GPT, финансовую LLM, обученную через непрерывное предварительное обучение и настройку финансовых инструкций, которая демонстрирует высокую производительность на двуязычном бенчмарке, но все еще имеет ограничения в конкретных задачах. Это исследование не только предоставляет крупным финансовым языковым моделям практический инструмент оценки, но также направляет развитие и оптимизацию будущих исследований. Исходный код для Golden Touchstone и веса модели Touchstone-GPT были опубликованы на https://github.com/IDEA-FinAI/Golden-Touchstone, способствуя непрерывному развитию FinLLM и стимулируя дальнейшие исследования в этой важной области.
Добавление объекта на изображения на основе текстовых инструкций является сложной задачей в семантическом редактировании изображений, требующей баланса между сохранением исходной сцены и плавным интегрированием нового объекта в подходящее место. Несмотря на значительные усилия, существующие модели часто сталкиваются с этим балансом, особенно с поиском естественного местоположения для добавления объекта в сложных сценах. Мы представляем Add-it, подход без обучения, который расширяет механизмы внимания моделей диффузии для интеграции информации из трех ключевых источников: изображения сцены, текстовой подсказки и сгенерированного изображения. Наш взвешенный механизм расширенного внимания поддерживает структурную согласованность и мелкие детали, обеспечивая естественное размещение объекта. Без специфической настройки под задачу, Add-it достигает лучших результатов как на реальных, так и на сгенерированных бенчмарках по вставке изображений, включая наш новый "Бенчмарк по возможностям добавления" для оценки правдоподобности размещения объекта, превосходя надзорные методы. Оценки людей показывают, что Add-it предпочтителен в более чем 80% случаев, и также демонстрирует улучшения в различных автоматизированных метриках.
Методы редактирования изображений под управлением инструкций продемонстрировали значительный потенциал, обучая модели диффузии на автоматически синтезированных или ручно аннотированных парах редактирования изображений. Однако эти методы остаются далекими от практических применений в реальной жизни. Мы выделяем три основных проблемы, способствующие этому разрыву. Во-первых, существующие модели имеют ограниченные навыки редактирования из-за предвзятого процесса синтеза. Во-вторых, эти методы обучаются на наборах данных с высоким уровнем шума и артефактов. Это связано с применением простых методов фильтрации, таких как CLIP-score. В-третьих, все эти наборы данных ограничены одним низким разрешением и фиксированным соотношением сторон, что ограничивает универсальность для решения задач реального мира. В данной статье мы представляем \omniedit, который является всемогущим редактором для выполнения семи различных задач по редактированию изображений с любым соотношением сторон без проблем. Наш вклад состоит из четырех аспектов: (1) \omniedit обучается с использованием надзора семи различных специализированных моделей для обеспечения охвата задач. (2) мы используем важность выборки на основе оценок, предоставленных крупными мультимодальными моделями (например, GPT-4o), вместо CLIP-score для улучшения качества данных. (3) мы предлагаем новую архитектуру редактирования под названием EditNet для значительного повышения успешности редактирования, (4) мы предоставляем изображения с различными соотношениями сторон, чтобы гарантировать, что наша модель сможет обрабатывать любое изображение на практике. Мы подготовили тестовый набор, содержащий изображения с различными соотношениями сторон, сопровождаемые разнообразными инструкциями для выполнения различных задач. Как автоматическое, так и человеческое оценивание показывают, что \omniedit может значительно превзойти все существующие модели. Наш код, набор данных и модель будут доступны по адресу https://tiger-ai-lab.github.io/OmniEdit/
Способность понимать и отвечать на вопросы по документам может быть полезной во многих бизнес- и практических приложениях. Однако документы часто содержат обширное и разнообразное мультимодальное содержимое, такое как тексты, рисунки и таблицы, что требует много времени для полного прочтения людьми. Поэтому существует настоятельная необходимость разработки эффективных и автоматизированных методов для помощи людям в этой задаче. В данной работе мы представляем M-LongDoc, набор данных из 851 образца, и автоматизированную структуру для оценки производительности крупных мультимодальных моделей. Мы также предлагаем метод настройки, основанный на поиске, для эффективного и эффективного чтения мультимодальных документов. По сравнению с существующими работами, наш набор данных состоит из более новых и обширных документов с сотнями страниц, требующих не только извлекаемых ответов, но и открытых решений. На наш взгляд, наша обучающая структура является первой, которая непосредственно обращается к настройке поиска для мультимодальных длинных документов. Для настройки моделей с открытым исходным кодом мы создаем корпус обучающих данных полностью автоматическим образом для задачи вопросно-ответной системы по таким документам. Эксперименты показывают, что наш метод настройки достигает относительного улучшения на 4,6% для правильности ответов модели по сравнению с базовыми моделями с открытым исходным кодом. Наши данные, код и модели доступны на https://multimodal-documents.github.io.
Новые показатели оценки LLM важны для соответствия быстрому развитию крупных языковых моделей (LLM). В данной работе мы представляем Chinese SimpleQA, первый всесторонний китайский бенчмарк для оценки способности языковых моделей отвечать на короткие вопросы на основе фактических данных, и Chinese SimpleQA в основном имеет пять характеристик (т.е. китайский, разнообразный, высококачественный, статический, легкий для оценки). Конкретно, в первую очередь мы сосредотачиваемся на китайском языке по 6 основным темам с 99 разнообразными подтемами. Во-вторых, мы проводим комплексный процесс контроля качества для достижения высококачественных вопросов и ответов, где референсные ответы статичны и не могут быть изменены со временем. В-третьих, в соответствии с SimpleQA, вопросы и ответы очень краткие, и процесс оценки легко осуществим на основе API OpenAI. Основываясь на Chinese SimpleQA, мы проводим всестороннюю оценку способностей к фактическому ответу существующих LLM. Наконец, мы надеемся, что Chinese SimpleQA сможет помочь разработчикам лучше понять китайские способности к фактическому ответу и способствовать развитию фундаментальных моделей.
Мы представляем Edify Image, семейство моделей диффузии, способных генерировать фотореалистичный контент изображений с пиксельной точностью. Edify Image использует каскадные модели диффузии в пространстве пикселей, обученные с использованием нового процесса лапласовской диффузии, в котором сигналы изображения на различных частотных полосах ослабляются с разной скоростью. Edify Image поддерживает широкий спектр приложений, включая синтез текста в изображение, увеличение разрешения до 4K, ControlNets, генерацию 360 HDR-панорам и настройку для индивидуальной настройки изображения.
Методы водяных знаков изображений не предназначены для работы с маленькими водяными знаками. Это ограничивает применение в реальных сценариях, где части изображения могут быть из разных источников или быть отредактированными. Мы представляем модель глубокого обучения для локализованного водяного знака на изображении, названную Модель Любого Водяного Знака (WAM). Встраиватель WAM незаметно модифицирует входное изображение, в то время как извлекатель сегментирует полученное изображение на водяные и неводяные области и извлекает одно или несколько скрытых сообщений из областей, обнаруженных как водяные знаки. Модели совместно обучаются на низком разрешении и без ограничений восприятия, затем проходят пост-обучение для незаметности и нескольких водяных знаков. Эксперименты показывают, что WAM конкурентоспособна с передовыми методами по незаметности и устойчивости, особенно против заполнения и сплайсинга, даже на изображениях высокого разрешения. Более того, она предлагает новые возможности: WAM может определять области с водяными знаками на сплайсированных изображениях и извлекать различные 32-битные сообщения с менее чем 1 битом ошибки из нескольких маленьких областей - не превышающих 10% поверхности изображения - даже для маленьких изображений размером 256х256 пикселей.
Быстрое развитие библиотек программного обеспечения представляет существенное вызов для моделей генерации кода, которые должны адаптироваться к частым обновлениям версий, сохраняя при этом совместимость с предыдущими версиями. Существующие бенчмарки автодополнения кода часто не учитывают этот динамический аспект, и тот, который это учитывает, полагается на задачи статического предсказания кода без оценки на основе выполнения, что предлагает ограниченную перспективу на практическую применимость модели. Для заполнения этого пробела мы представляем \GitChameleon{}, новый, вручную составленный набор данных, включающий 116 задач автодополнения кода на Python, каждая из которых зависит от конкретных версий библиотек и сопровождается исполнимыми модульными тестами. \GitChameleon{} разработан для тщательной оценки способности современных больших моделей языка (LLM) генерировать версионно-специфичный код, который не только синтаксически правилен, но также функционально точен при выполнении. Наши всесторонние оценки показывают, что передовые LLM-модели борются с этой задачей; например, GPT-4o достигает pass@10 всего 39,9\% (43,7\% при предоставлении обратной связи об ошибке), подчеркивая сложность проблемы и ограничения текущих моделей. Предоставляя исполнимый бенчмарк, который акцентирует динамическую природу библиотек кода, \GitChameleon{} служит критическим инструментом для продвижения разработки более адаптивных и надежных моделей генерации кода. Для облегчения дальнейшего исследования генерации кода, зависящего от версии, мы делаем наш репозиторий кода общедоступным по адресу https://github.com/NizarIslah/GitChameleon.
В области больших языковых моделей (LLM) способность моделей точно следовать инструкциям имеет первостепенное значение, поскольку все больше агентов и приложений используют LLM для построения, где сложность инструкций быстро возрастает. Однако, с одной стороны, имеется лишь определенное количество данных для оценки сложных инструкций; с другой стороны, отсутствуют специализированные алгоритмы для улучшения способности следовать сложным инструкциям. В этой работе представляется TRACE, бенчмарк для улучшения и оценки способности следовать сложным инструкциям, который состоит из 120 тыс. обучающих данных и 1 тыс. данных для оценки. Кроме того, мы предлагаем метод выравнивания IOPO (Оптимизация предпочтений ввода-вывода), который учитывает как пары предпочтений ввода, так и вывода, где LLM не только быстро выравнивается с предпочтениями ответа, но и тщательно исследует предпочтения инструкций. Обширные эксперименты как на внутриобластных, так и на внебластных наборах данных подтверждают эффективность IOPO, показывая улучшения на 8,15% и 2,18% на внутриобластных данных и на 6,29% и 3,13% на внебластных данных по сравнению с SFT и DPO соответственно.
Авторегрессионное моделирование оказалось огромным успехом в области обработки естественного языка (NLP). Недавно авторегрессионные модели стали значительной областью внимания в компьютерном зрении, где они отличаются в создании высококачественного визуального контента. Авторегрессионные модели в NLP обычно работают с субтокенами. Однако стратегия представления в компьютерном зрении может варьироваться на разных уровнях, таких как уровень пикселей, уровень токенов или уровень масштаба, отражая разнообразную и иерархическую природу визуальных данных по сравнению с последовательной структурой языка. В данном обзоре подробно рассматривается литература по авторегрессионным моделям, применяемым к зрению. Для улучшения читаемости для исследователей из различных областей исследований мы начинаем с предварительного представления последовательности и моделирования в зрении. Затем мы разделяем основные структуры визуальных авторегрессионных моделей на три общие подкатегории, включая модели на основе пикселей, модели на основе токенов и модели на основе масштаба в зависимости от стратегии представления. Затем мы исследуем взаимосвязи между авторегрессионными моделями и другими генеративными моделями. Кроме того, мы представляем многоаспектную категоризацию авторегрессионных моделей в компьютерном зрении, включая генерацию изображений, генерацию видео, генерацию 3D и мультимодальную генерацию. Мы также подробно описываем их применение в различных областях, включая новые области, такие как воплощенный ИИ и медицинский ИИ в 3D, с примерно 250 связанными ссылками. Наконец, мы выделяем текущие вызовы для авторегрессионных моделей в зрении с предложениями о потенциальных направлениях исследований. Мы также создали репозиторий на Github для организации статей, включенных в этот обзор по адресу: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.
Данная статья исследует рациональность крупных языковых моделей (LLM) в контекстах стратегического принятия решений, конкретно в рамках теории игр. Мы оцениваем несколько передовых LLM на спектре игр с полной и неполной информацией. Наши результаты показывают, что LLM часто отклоняются от рациональных стратегий, особенно по мере увеличения сложности игры с увеличением матриц выигрышей или глубины последовательных деревьев. Для преодоления этих ограничений мы разрабатываем несколько игровых рабочих процессов, которые направляют процессы рассуждения и принятия решений LLM. Эти рабочие процессы направлены на улучшение способности моделей вычислять равновесия по Нэшу и делать рациональные выборы, даже в условиях неопределенности и неполной информации. Экспериментальные результаты показывают, что применение этих рабочих процессов значительно улучшает рациональность и устойчивость LLM в игровых задачах. В частности, с помощью рабочего процесса LLM проявляют заметные улучшения в выявлении оптимальных стратегий, достижении почти оптимальных выделений в сценариях переговоров и снижении уязвимости к эксплуатации во время переговоров. Кроме того, мы исследуем мета-стратегические соображения о том, рационально ли агентам принимать такие рабочие процессы, осознавая, что решение использовать или отказаться от рабочего процесса само по себе является игровой проблемой. Наше исследование способствует более глубокому пониманию способностей LLM в принятии решений в стратегических контекстах и предоставляет идеи для улучшения их рациональности через структурированные рабочие процессы. Полученные результаты имеют значение для разработки более надежных и стратегически обоснованных искусственных интеллектуальных агентов, способных навигировать в сложных интерактивных средах. Код и данные, поддерживающие это исследование, доступны по ссылке https://github.com/Wenyueh/game_theory.
Понимание и управление механизмами причинно-следственной генерации в языковых моделях является важным для контроля их поведения. В предыдущих работах в основном использовались техники, такие как хирургия представлений - например, абляции модели или манипуляции линейными подпространствами, связанными с конкретными концепциями - для вмешательства в эти модели. Для точного понимания влияния вмешательств полезно изучать контрфактические ситуации - например, как бы выглядело данное предложение, если бы оно было сгенерировано моделью после определенного вмешательства. Мы подчеркиваем, что контрфактическое мышление концептуально отличается от вмешательств, как это сформулировано в иерархии причин Перла. Исходя из этого наблюдения, мы предлагаем рамочную модель для генерации истинных контрфактических строк путем переформулирования языковых моделей как Обобщенных Структурно-уравненческих Моделей с использованием трюка Gumbel-max. Это позволяет нам моделировать совместное распределение над исходными строками и их контрфактическими версиями, возникающими из того же самого инстанцирования шума выборки. Мы разрабатываем алгоритм на основе обратного выбора Gumbel, который позволяет нам выводить скрытые переменные шума и генерировать контрфактические версии наблюдаемых строк. Наши эксперименты демонстрируют, что данному подходу удается производить содержательные контрфакты, показывая при этом, что широко используемые техники вмешательства имеют значительные нежелательные побочные эффекты.
Генерация движения человека - передовая область исследований в области генеративного компьютерного зрения, обладающая многообещающими применениями в создании видео, разработке игр и робототехнике. Недавняя архитектура Mamba показывает многообещающие результаты в эффективном моделировании длинных и сложных последовательностей, однако остаются две значительные проблемы: Во-первых, прямое применение Mamba к генерации продолжительного движения неэффективно из-за ограниченной емкости неявной памяти, что приводит к затуханию памяти. Во-вторых, Mamba испытывает трудности с мультимодальным слиянием по сравнению с Трансформерами и не имеет выравнивания с текстовыми запросами, часто путая направления (лево или право) или пропуская части более длинных текстовых запросов. Для решения этих проблем наша статья представляет три ключевых вклада: Во-первых, мы представляем KMM, новую архитектуру с функцией моделирования маскировки ключевых кадров, разработанную для улучшения фокуса Mamba на ключевые действия в сегментах движения. Этот подход решает проблему затухания памяти и представляет собой передовой метод в настройке стратегической маскировки кадров на уровне SSMs. Кроме того, мы разработали парадигму контрастного обучения для решения проблемы мультимодального слияния в Mamba и улучшения выравнивания движения и текста. Наконец, мы провели обширные эксперименты на основном наборе данных BABEL, достигнув передового уровня производительности с уменьшением более чем на 57% в FID и на 70% параметров по сравнению с предыдущими передовыми методами. См. веб-сайт проекта: https://steve-zeyu-zhang.github.io/KMM
Алгоритмы настройки безопасности часто используются для настройки языковых моделей с целью снижения вредных результатов, однако точные внутренние механизмы, с помощью которых эти модели достигают этого, остаются неясными. Изучая прямую оптимизацию предпочтений (DPO) для снижения токсичности, текущие объяснения утверждают, что DPO работает путем подавления наиболее токсичных нейронов MLP для изучения сдвига с целью избежания токсичных областей в остаточном потоке. Однако, путем абляции наиболее токсичных нейронов и применения патчей активации, мы обнаружили, что это объяснение неполное. Проецируя изменения активации нейронов на зонд токсичности, мы обнаружили, что лишь 31,8\% снижения токсичности происходит за счет подавленных токсичных нейронов. Вместо этого DPO снижает токсичность, накапливая эффекты по всем группам нейронов, как снижая написание в токсичном направлении, так и поощряя антитоксичность в остаточном потоке. Более того, DPO предоставляет шумные корректировки активации нейронов, при этом многие нейроны фактически увеличивают токсичность. Это указывает на то, что DPO является процессом балансировки между противоположными эффектами нейронов для достижения снижения токсичности.
Большие языковые модели (LLM) продемонстрировали значительный успех в обработке естественного языка (NLP) и показали многообещающие результаты в других областях, таких как генерация последовательностей белков. Однако существуют существенные различия между LLM, используемыми для NLP, которые эффективно обрабатывают несколько задач и доступны в небольших размерах, и языковыми моделями белков, которые часто специализируются на конкретных задачах и существуют только в больших размерах. В данной работе мы представляем две небольшие языковые модели белков, основанные на Llama-3-8B и Phi-3-mini, способные к как неконтролируемой, так и контролируемой генерации белков. Для задачи неконтролируемой генерации наша лучшая модель достигает среднего показателя pLDDT в 69.75, демонстрируя надежную производительность в создании жизнеспособных структур белков. Для задачи контролируемой генерации, при которой модель создает белки в соответствии с указанными свойствами в запросе, мы достигаем выдающегося среднего показателя TM-Score в 0.84, указывающего на высокую структурную схожесть с целевыми белками. Мы выбрали 10 свойств, включая шесть классов ферментов, для расширения возможностей предыдущих языковых моделей белков. Наш подход использует технику Low-Rank Adaptor (LoRA), снижая количество обучаемых параметров до всего лишь 4% от исходного размера модели, снижая вычислительные требования. Используя подмножество набора данных UniRef50 и небольшие модели, мы сократили общее время обучения на 70% без ущерба производительности. Заметно, что Phi-3-mini сократил количество обучаемых параметров на 60%, снизив стоимость обучения на 30% по сравнению с Llama 3. Следовательно, Phi-3 достиг сопоставимого показателя TM-Score в 0.81, демонстрируя, что более маленькие модели могут соответствовать производительности более крупных, таких как Llama 3. Мы также демонстрируем развертывание наших моделей на энергоэффективном чипе ET-SoC-1, значительно улучшая TPS/W в 3 раза.
Построение универсального корректора ошибок после распознавания представляет собой ключевой вопрос: как мы можем наиболее эффективно обучить модель на большом наборе данных различных областей? Ответ заключается в изучении специфических для набора данных особенностей и усвоении их знаний в одной модели. Предыдущие методы достигают этого путем использования отдельных языковых моделей коррекции, что приводит к значительному увеличению параметров. В данной работе мы представляем Модель Микса Экспертов в качестве решения, подчеркивая, что ММЭ являются не просто инструментом масштабируемости. Мы предлагаем Мультизадачную Модель ММЭ, где мы обучаем экспертов стать "экспертами" по наборам данных речи-текст, языка-текст и видео-текст, обучаясь направлять токены каждого набора данных к соответствующему эксперту. Эксперименты на доске лидеров Open ASR показывают, что мы исследуем новое современное состояние производительности, достигая среднего относительного снижения WER на 5,0% и существенных улучшений в оценках BLEU для задач речи и перевода. При оценке без обучения NeKo превосходит GPT-3.5 и Claude-Opus с относительным снижением WER на 15,5% до 27,6% в бенчмарке Hyporadise. NeKo конкурентоспособно проявляет себя в задачах грамматики и коррекции после ОРП как мультизадачная модель.