HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

16 papers found

Add-it: 사전 훈련된 확산 모델을 사용한 이미지 내 물체 삽입 방법
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

Nov 11

ByYoad Tewel, Rinon Gal, Dvir Samuel Yuval Atzmon, Lior Wolf, Gal Chechik

텍스트 지침에 따라 이미지에 객체를 추가하는 것은 시맨틱 이미지 편집에서의 어려운 과제로, 원본 장면을 보존하고 새로운 객체를 적절한 위치에 매끄럽게 통합하는 균형을 요구합니다. 기존 모델은 이 균형을 달성하는 데 어려움을 겪는데, 특히 복잡한 장면에 객체를 추가하는 자연스러운 위치를 찾는 데 어려움을 겪습니다. 저희는 Add-it이라는 훈련 불필요한 방법을 소개합니다. 이 방법은 확산 모델의 주의 메커니즘을 확장하여 장면 이미지, 텍스트 프롬프트, 생성된 이미지 자체의 정보를 통합합니다. 가중치가 부여된 확장된 주의 메커니즘은 구조적 일관성과 세부 사항을 유지하면서 자연스러운 객체 배치를 보장합니다. 과제별 세부 조정 없이 Add-it은 실제 및 생성된 이미지 삽입 벤치마크에서 최첨단 결과를 달성하며, 객체 배치 타당성을 평가하기 위해 새롭게 구성된 "Additing Affordance Benchmark"를 포함하여 지도 방법을 능가합니다. 인간 평가 결과, Add-it이 80% 이상의 경우 선호되며, 다양한 자동화된 측정 항목에서도 개선을 보입니다.

OmniEdit: 전문가 감독을 통해 이미지 편집 종합 모델 구축
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

Nov 11

ByCong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen

지시에 따른 이미지 편집 방법은 자동으로 합성하거나 수동으로 주석을 달아 이미지 편집 쌍을 만들어 확산 모델을 훈련시킴으로써 상당한 잠재력을 보여주었습니다. 그러나 이러한 방법들은 실용적인 실제 응용에서는 아직 멀리 떨어져 있습니다. 우리는 이 차이에 기여하는 세 가지 주요 도전 과제를 확인합니다. 첫째, 기존 모델들은 편향된 합성 과정으로 인해 편집 기술이 제한되어 있습니다. 둘째, 이러한 방법들은 높은 수준의 잡음과 아티팩트가 포함된 데이터셋으로 훈련되어 있습니다. 이는 CLIP-score와 같은 간단한 필터링 방법의 적용으로 인한 것입니다. 셋째, 이러한 데이터셋은 모두 단일 낮은 해상도와 고정된 종횡비로 제한되어 있어 실제 사용 사례를 처리하는 다재다능성이 제한됩니다. 본 논문에서 우리는 어떤 종횡비에도 매끄럽게 7가지 다른 이미지 편집 작업을 처리하는 만능 편집기인 \omniedit을 제시합니다. 우리의 기여는 네 가지로 나뉩니다: (1) \omniedit은 작업 범위를 보장하기 위해 7가지 다른 전문가 모델로부터 감독을 활용하여 훈련됩니다. (2) 우리는 데이터 품질을 향상시키기 위해 CLIP-score 대신 GPT-4o와 같은 대규모 다중 모달 모델이 제공하는 점수에 기반한 중요도 샘플링을 활용합니다. (3) 우리는 편집 성공률을 크게 향상시키기 위해 EditNet이라는 새로운 편집 아키텍처를 제안합니다. (4) 우리는 우리의 모델이 야생의 어떤 이미지든 처리할 수 있도록 다양한 종횡비의 이미지를 제공합니다. 우리는 다양한 작업을 수행하기 위해 다양한 지침이 포함된 다양한 종횡비의 이미지를 포함하는 테스트 세트를 선별했습니다. 자동 평가와 인간 평가 모두 \omniedit이 모든 기존 모델들을 크게 능가할 수 있다는 것을 입증합니다. 우리의 코드, 데이터셋 및 모델은 https://tiger-ai-lab.github.io/OmniEdit/에서 제공될 예정입니다.

M-Longdoc: 다중 모달 슈퍼-롱 문서 이해를 위한 벤치마크 및 검색 인식 튜닝 프레임워크
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework

Nov 9

ByYew Ken Chia, Liying Cheng, Hou Pong Chan, Chaoqun Liu, Maojia Song, Sharifah Mahani Aljunied, Soujanya Poria, Lidong Bing

문서를 이해하고 질문에 답하는 능력은 많은 비즈니스 및 실용적인 응용 분야에서 유용할 수 있습니다. 그러나 문서에는 텍스트, 그림 및 표와 같은 다양한 다중 모달 콘텐츠가 포함되어 있어 인간이 완전히 읽는 데 매우 시간이 소요됩니다. 따라서 이 작업을 돕기 위한 효과적이고 자동화된 방법을 개발하는 긴급한 필요성이 있습니다. 본 연구에서는 851개의 샘플로 구성된 벤치마크인 M-LongDoc을 소개하고 대규모 다중 모달 모델의 성능을 평가하는 자동화된 프레임워크를 제시합니다. 또한 효율적이고 효과적인 다중 모달 문서 읽기를 위한 검색 인식 튜닝 접근 방식을 제안합니다. 기존 작업과 비교하면, 저희의 벤치마크는 최근 및 긴 문서로 이루어져 있으며 수백 페이지에 이르며 추출적인 답변뿐만 아니라 개방형 해결책을 요구합니다. 저희의 훈련 프레임워크는 다중 모달 긴 문서의 검색 설정을 직접 다루는 첫 번째 것으로 알려져 있습니다. 오픈 소스 모델을 튜닝하기 위해 우리는 이러한 문서에 대한 질문 응답 작업을 위해 완전 자동화된 방식으로 훈련 말뭉치를 구축합니다. 실험 결과, 저희의 튜닝 접근 방식은 기준 오픈 소스 모델에 비해 모델 응답의 정확성에 대해 상대적인 4.6%의 향상을 달성합니다. 저희의 데이터, 코드 및 모델은 https://multimodal-documents.github.io에서 제공됩니다.

중국어 SimpleQA: 대규모 언어 모델을 위한 중국어 사실성 평가
Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models

Nov 11

ByYancheng He, Shilong Li, Jiaheng Liu, Yingshui Tan, Hui Huang, Weixun Wang, Xingyuan Bu, Hangyu Guo, Chengwei Hu, Boren Zheng, Xuepeng Liu, Dekai Sun, Wenbo Su, Bo Zheng

대규모 언어 모델(LLM)의 신속한 발전에 부합하는 새로운 LLM 평가 기준은 중요합니다. 본 연구에서는 짧은 질문에 대답하는 언어 모델의 사실성 능력을 평가하기 위한 첫 번째 포괄적인 중국어 벤치마크인 '중국어 SimpleQA'를 제시합니다. 중국어 SimpleQA는 주로 다섯 가지 특성(중국어, 다양성, 고품질, 정적, 쉬운 평가)을 갖추고 있습니다. 구체적으로, 우리는 먼저 6개의 주요 주제와 99가지 다양한 하위 주제에 걸쳐 중국어에 초점을 맞춥니다. 둘째, 고품질의 질문과 답변을 얻기 위해 포괄적인 품질 관리 과정을 거치며, 참고 답변은 정적이며 시간이 지나도 변경되지 않습니다. 셋째, SimpleQA를 따라 질문과 답변이 매우 짧으며, OpenAI API를 기반으로 한 쉬운 평가 과정이 이루어집니다. 중국어 SimpleQA를 기반으로 기존 LLM의 사실성 능력에 대한 포괄적인 평가를 수행합니다. 마지막으로, 중국어 SimpleQA가 개발자들이 모델의 중국어 사실성 능력을 더 잘 이해하고 기초 모델의 성장을 촉진할 수 있기를 희망합니다.

이디파이 이미지: 픽셀 공간 라플라시안 확산 모델을 사용한 고품질 이미지 생성
Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models

Nov 11

ByNVIDIA, Yuval Atzmon, Maciej Bala, Yogesh Balaji, Tiffany Cai, Yin Cui, Jiaojiao Fan, Yunhao Ge, Siddharth Gururani, Jacob Huffman, Ronald Isaac, Pooya Jannaty, Tero Karras, Grace Lam, J. P. Lewis, Aaron Licata, Yen-Chen Lin, Ming-Yu Liu, Qianli Ma, Arun Mallya, Ashlee Martino-Tarr, Doug Mendez, Seungjun Nah, Chris Pruett, Fitsum Reda, Jiaming Song, Ting-Chun Wang, Fangyin Wei, Xiaohui Zeng, Yu Zeng, Qinsheng Zhang

우리는 픽셀 단위 정확도로 사실적인 이미지 콘텐츠를 생성할 수 있는 확산 모델 패밀리인 Edify Image를 소개합니다. Edify Image는 새로운 라플라시안 확산 과정을 사용하여 훈련된 연속된 픽셀 공간 확산 모델을 활용하며, 이 과정에서 다른 주파수 대역의 이미지 신호가 다양한 속도로 감쇠됩니다. Edify Image는 텍스트에서 이미지 합성, 4K 업샘플링, ControlNets, 360 HDR 파노라마 생성 및 이미지 맞춤화를 위한 세밀한 조정을 포함한 다양한 응용 프로그램을 지원합니다.

IOPO: 입력-출력 선호도 최적화를 통해 복잡한 명령 따르기를 강화하는 LLMs
IOPO: Empowering LLMs with Complex Instruction Following via Input-Output Preference Optimization

Nov 9

ByXinghua Zhang, Haiyang Yu, Cheng Fu, Fei Huang, Yongbin Li

대형 언어 모델(LLM) 분야에서, 모델이 정확하게 지침을 따르는 능력은 점점 더 복잡한 지침이 빠르게 증가하는 상황에서 LLM을 활용하는 더 많은 에이전트와 응용 프로그램에서 중요합니다. 그러나 한편으로는 복잡한 지침 평가 데이터가 일정량만 존재하고, 다른 한편으로는 복잡한 지침을 따르는 능력을 향상시키기 위한 전용 알고리즘이 없습니다. 이에 본 논문에서는 복잡한 지침을 따르는 능력을 향상하고 평가하기 위한 TRACE라는 벤치마크를 소개합니다. 이 벤치마크는 120,000개의 훈련 데이터와 1,000개의 평가 데이터로 구성되어 있습니다. 더불어, 입력-출력 선호 최적화(IOPO) 정렬 방법을 제안합니다. 이 방법은 입력과 출력 선호 쌍을 모두 고려하여, LLM이 응답 선호와 빠르게 일치하면서도 지침 선호를 세심하게 탐구할 수 있도록 합니다. 도메인 내 및 도메인 외 데이터셋에 대한 포괄적인 실험을 통해 IOPO의 효과를 확인하였고, 이 결과 SFT 및 DPO에 비해 도메인 내 데이터에서 각각 8.15%, 2.18%의 향상, 도메인 외 데이터에서는 각각 6.29%, 3.13%의 향상을 보여주었습니다.

GitChameleon: 코드 생성 모델의 버전 전환 능력 노출
GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models

Nov 5

ByNizar Islah, Justine Gehring, Diganta Misra, Eilif Muller, Irina Rish, Terry Yue Zhuo, Massimo Caccia

소프트웨어 라이브러리의 신속한 진화는 코드 생성 모델에 상당한 도전을 제시합니다. 이 모델들은 이전 버전과의 호환성을 유지하면서 빈번한 버전 업데이트에 적응해야 합니다. 기존의 코드 완성 벤치마크는 종종 이러한 동적 측면을 간과하며, 이를 고려하는 하나의 벤치마크는 실행 기반 평가 없이 정적 코드 예측 작업에 의존하여 모델의 실용성에 대한 제한된 시각을 제공합니다. 이 간극을 해결하기 위해 우리는 \GitChameleon{}을 소개합니다. 이는 새롭고 수동으로 선별된 데이터셋으로, 각각이 특정 라이브러리 버전에 의존하고 실행 가능한 단위 테스트가 함께 제공되는 116가지 Python 코드 완성 문제로 구성되어 있습니다. 이는 현대 대규모 언어 모델(LLMs)이 버전별로 구체적이면서 문법적으로 올바르며 실행 시 기능적으로 정확한 코드를 생성하는 능력을 엄격하게 평가하기 위해 설계되었습니다. 우리의 포괄적인 평가 결과는 최첨단 LLMs가 이 작업에 어려움을 겪는다는 것을 보여줍니다. 예를 들어, GPT-4o는 pass@10이 39.9\%(오류 피드백을 제공할 경우 43.7\%)에 불과하며, 이는 문제의 복잡성과 현재 모델의 한계를 강조합니다. 코드 라이브러리의 동적 성격을 강조하는 실행 기반 벤치마크를 제공함으로써, 이는 더 적응 가능하고 신뢰할 수 있는 코드 생성 모델의 발전을 위한 중요한 도구 역할을 합니다. 버전 조건부 코드 생성의 추가 탐구를 위해, 우리의 코드 저장소는 https://github.com/NizarIslah/GitChameleon에서 공개적으로 접근 가능합니다.

로컬 메시지로 모든 것에 워터마크 삽입하기
Watermark Anything with Localized Messages

Nov 11

ByTom Sander, Pierre Fernandez, Alain Durmus, Teddy Furon, Matthijs Douze

이미지 워터마킹 방법은 작은 워터마크 영역을 처리하는 데 적합하지 않습니다. 이는 이미지의 일부가 다른 소스에서 가져온 것이거나 편집된 경우 실제 시나리오에서의 응용을 제한합니다. 우리는 지역화된 이미지 워터마킹을 위한 딥러닝 모델인 'Watermark Anything Model (WAM)'을 소개합니다. WAM 임베더는 입력 이미지를 감지할 수 없이 수정하고, 추출기는 수신된 이미지를 워터마크된 영역과 비워터마크된 영역으로 분할하고 찾아낸 워터마크된 영역에서 하나 이상의 숨겨진 메시지를 복구합니다. 모델은 저해상도에서 지각 제약 없이 공동으로 훈련을 받은 후 감지할 수 없음과 다중 워터마크를 위해 사후 훈련을 받습니다. 실험 결과, WAM은 인식할 수 없음과 견고성 측면에서 최첨단 방법과 경쟁력이 있으며, 특히 인페인팅 및 스플라이싱에 대해 뛰어난 성능을 보입니다. 더불어, WAM은 스플라이스된 이미지에서 워터마크된 영역을 찾아내고, 256x256 크기의 작은 이미지에서도 이미지 표면의 10%보다 작은 여러 작은 영역에서 1비트 오류 미만으로 구별된 32비트 메시지를 추출할 수 있는 새로운 기능을 제공합니다.

시각에서의 자기회귀 모델: 조사
Autoregressive Models in Vision: A Survey

Nov 8

ByJing Xiong, Gongye Liu, Lun Huang, Chengyue Wu, Taiqiang Wu, Yao Mu, Yuan Yao, Hui Shen, Zhongwei Wan, Jinfa Huang, Chaofan Tao, Shen Yan, Huaxiu Yao, Lingpeng Kong, Hongxia Yang, Mi Zhang, Guillermo Sapiro, Jiebo Luo, Ping Luo, Ngai Wong

자기회귀 모델링은 자연어 처리(NLP) 분야에서 큰 성공을 거두었습니다. 최근에는 자기회귀 모델이 컴퓨터 비전 분야에서 중요한 관심사로 떠오르며 고품질 시각적 콘텐츠를 생성하는 데 뛰어난 성과를 보이고 있습니다. NLP에서의 자기회귀 모델은 일반적으로 서브워드 토큰에서 작동합니다. 그러나 컴퓨터 비전에서의 표현 전략은 픽셀 수준, 토큰 수준 또는 스케일 수준과 같이 다양한 수준에서 다를 수 있으며, 이는 언어의 순차적 구조와 비교하여 시각 데이터의 다양하고 계층적인 특성을 반영합니다. 본 설문은 시각에 적용된 자기회귀 모델에 대한 문헌을 철저히 조사합니다. 다양한 연구 배경을 가진 연구자들을 위해 가독성을 향상시키기 위해 우리는 시각에서의 초기 시퀀스 표현과 모델링부터 시작합니다. 그 다음, 시각 자기회귀 모델의 기본적인 프레임워크를 픽셀 기반, 토큰 기반 및 스케일 기반 모델로 나누어 표현 전략에 기반하여 세 가지 일반 하위 범주로 구분합니다. 그런 다음 자기회귀 모델과 다른 생성 모델 간의 상호 연결을 탐구합니다. 더 나아가 이미지 생성, 비디오 생성, 3D 생성 및 다중 모달 생성을 포함한 컴퓨터 비전에서의 자기회귀 모델의 다양한 면을 제시합니다. 또한, 신체화된 AI 및 3D 의료 AI와 같은 신흥 분야를 포함한 다양한 영역에서의 응용에 대해 상세히 다루며, 관련 참고 자료 약 250편을 제시합니다. 마지막으로, 시각에서의 자기회귀 모델에 대한 현재의 과제를 강조하고 잠재적인 연구 방향에 대한 제안을 제시합니다. 본 설문에 포함된 논문들을 정리하기 위해 Github 저장소를 설정했습니다: https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey.

게임 이론적 LLM: 협상 게임을 위한 에이전트 워크플로우
Game-theoretic LLM: Agent Workflow for Negotiation Games

Nov 8

ByWenyue Hua, Ollie Liu, Lingyao Li, Alfonso Amayuelas, Julie Chen, Lucas Jiang, Mingyu Jin, Lizhou Fan, Fei Sun, William Wang, Xintong Wang, Yongfeng Zhang

본 논문은 대규모 언어 모델(Large Language Models, LLMs)의 합리성을 전략적 의사결정 맥락에서 게임 이론의 프레임워크 내에서 조사합니다. 우리는 여러 최첨단 LLMs를 완전정보 및 불완전정보 게임 스펙트럼을 통해 평가합니다. 우리의 연구 결과는 LLMs가 주로 합리적인 전략에서 벗어나는 것을 보여주며, 특히 게임의 복잡성이 더 큰 페이오프 매트릭스나 더 깊은 순차적 트리로 증가할수록 그 경향이 뚜렷해집니다. 이러한 한계를 해결하기 위해, 우리는 LLMs의 추론과 의사결정 과정을 안내하는 여러 게임 이론적 워크플로우를 설계합니다. 이러한 워크플로우는 모델이 나쉬 균형을 계산하고 합리적인 선택을 할 수 있는 능력을 향상시키기 위해 목표로 하며, 불확실성과 불완전 정보의 조건에서도 작동합니다. 실험 결과는 이러한 워크플로우의 채택이 게임 이론적 작업에서 LLMs의 합리성과 견고성을 크게 향상시킨다는 것을 보여줍니다. 구체적으로 워크플로우를 통해 LLMs는 최적 전략을 식별하는 데 큰 향상을 보이며, 협상 시나리오에서 거의 최적의 할당을 달성하고, 협상 중의 악용 가능성을 줄입니다. 더 나아가, 우리는 에이전트가 이러한 워크플로우를 채택하는 것이 합리적인지에 대한 메타 전략적 고려를 탐구하며, 워크플로우를 사용하거나 포기하는 결정 자체가 게임 이론적 문제임을 인식합니다. 우리의 연구는 전략적 맥락에서 LLMs의 의사결정 능력에 대한 깊은 이해를 제공하며, 구조화된 워크플로우를 통해 그들의 합리성을 향상시키는 통찰을 제공합니다. 이 연구 결과는 복잡한 상호작용 환경을 탐색할 수 있는 더 견고하고 전략적으로 탄탄한 AI 에이전트의 개발에 영향을 미칩니다. 이 연구를 지원하는 코드와 데이터는 https://github.com/Wenyueh/game_theory에서 사용 가능합니다.

언어 모델로부터의 대조적 생성
Counterfactual Generation from Language Models

Nov 11

ByShauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell

언어 모델에서 인과 생성 메커니즘을 이해하고 조작하는 것은 그들의 행동을 통제하는 데 중요합니다. 이전 연구는 주로 표현 수술과 같은 기술에 의존해왔습니다. 예를 들어, 모델 제거 또는 특정 개념에 연결된 선형 부분 공간을 조작하는 것과 같은 방법을 사용하여 이러한 모델에 개입했습니다. 개입의 영향을 정확히 이해하기 위해 특정 개입을 따르는 모델에 의해 생성되었을 것으로 예상되는 주어진 문장이 어떻게 나타났을지를 살펴보는 대조사론을 살펴보는 것이 유용합니다. 우리는 대조사고 추론이 펄의 인과적 계층에서 명시된 것처럼 개입과 개념적으로 구별된다는 점을 강조합니다. 이 관찰을 바탕으로 우리는 언어 모델을 일반화된 구조 방정식 모델로 재구성하여 Gumbel-max 트릭을 사용하여 진정한 문자열 대조사고를 생성하기 위한 프레임워크를 제안합니다. 이를 통해 우리는 샘플링 노이즈의 동일한 즉시화로부터 원래 문자열과 그들의 대조사고에 대한 결합 분포를 모델링할 수 있습니다. 우리는 후견 Gumbel 샘플링에 기반한 알고리즘을 개발하여 잠재적인 노이즈 변수를 추론하고 관찰된 문자열의 대조사고를 생성할 수 있습니다. 우리의 실험은 이 방법이 의미 있는 대조사고를 생성하는 반면, 일반적으로 사용되는 개입 기술이 상당한 원치 않는 부작용을 보여준다는 것을 보여줍니다.

소성제는 DPO를 에뮬레이트하는 데 충분하지 않습니다: 신경 원자 역학이 독성 감소를 이끕니다.
Ablation is Not Enough to Emulate DPO: How Neuron Dynamics Drive Toxicity Reduction

Nov 10

ByYushi Yang, Filip Sondej, Harry Mayne, Adam Mahdi

안전 세부 조정 알고리즘은 유해한 출력을 줄이기 위해 언어 모델을 세밀하게 조정하는 데 일반적으로 사용되지만, 이러한 모델이 이를 어떻게 달성하는지의 정확한 내부 메커니즘은 여전히 불분명합니다. 유해성 감소를 위한 직접 선호도 최적화(DPO)를 연구하는 과정에서, 현재의 설명은 DPO가 가장 유해한 MLP 뉴런을 억제하여 잔류 스트림에서 유해 지역을 피하기 위한 오프셋을 학습한다고 주장합니다. 그러나 가장 유해한 뉴런을 제거하고 활성화 패치를 적용함으로써, 우리는 이 설명이 불완전하다는 것을 발견했습니다. 뉴런 활성화 변화를 유해성 프로브에 투사함으로써, 유해성 감소의 31.8%만이 억제된 유해 뉴런에서 온다는 것을 발견했습니다. 대신, DPO는 여러 뉴런 그룹을 횡단하여 효과를 축적함으로써 유해 방향으로의 작성을 줄이고 잔류 스트림에서 안티-유해성을 촉진하여 유해성을 감소시킵니다. 게다가, DPO는 뉴런 활성화에 대해 잡음이 있는 조정을 제공하며, 많은 뉴런이 실제로 유해성을 증가시킵니다. 이는 DPO가 유해성 감소를 달성하기 위해 상반되는 뉴런 효과 사이의 균형 과정임을 나타냅니다.

KMM: 확장된 동작 생성을 위한 키프레임 마스크 맘바
KMM: Key Frame Mask Mamba for Extended Motion Generation

Nov 10

ByZeyu Zhang, Hang Gao, Akide Liu, Qi Chen, Feng Chen, Yiran Wang, Danning Li, Hao Tang

인간 동작 생성은 생성적 컴퓨터 비전 연구의 최첨단 분야로, 비디오 제작, 게임 개발 및 로봇 조작 등에서 유망한 응용이 있습니다. 최근의 Mamba 아키텍처는 긴 및 복잡한 시퀀스를 효율적으로 모델링하는 데 유망한 결과를 보여주지만, 두 가지 중요한 도전 과제가 남아 있습니다. 첫째, Mamba를 확장된 동작 생성에 직접 적용하는 것은 효과적이지 않습니다. 암시적 메모리의 제한된 용량으로 인해 메모리 감쇠가 발생합니다. 둘째, Mamba는 Transformers와 비교하여 다중 모달 퓨전에 어려움을 겪으며 텍스트 쿼리와의 정렬이 부족하여 종종 방향(왼쪽 또는 오른쪽)을 혼동하거나 더 긴 텍스트 쿼리의 일부를 생략합니다. 이러한 도전 과제를 해결하기 위해 본 논문은 세 가지 주요 기여를 제시합니다. 첫째, 우리는 Key frame Masking Modeling을 특징으로 하는 새로운 아키텍처인 KMM을 소개합니다. 이는 동작 세그먼트에서 주요 동작에 초점을 맞춘 Mamba의 성능을 향상시키기 위해 설계되었습니다. 이 접근 방식은 메모리 감쇠 문제를 해결하고 SSMs에서 전략적인 프레임 수준 마스킹을 사용하는 선도적인 방법을 나타냅니다. 게다가, Mamba에서 다중 모달 퓨전 문제를 해결하고 동작-텍스트 정렬을 개선하기 위해 대조적 학습 패러다임을 설계했습니다. 마지막으로, 우리는 BABEL이라는 대표적인 데이터셋에서 광범위한 실험을 수행하여 FID에서 57% 이상, 매개 변수에서 70% 이상의 감소를 달성하며 이전 최첨단 방법과 비교하여 최고 수준의 성능을 달성했습니다. 프로젝트 웹사이트를 참조하십시오: https://steve-zeyu-zhang.github.io/KMM

NeKo: 과제 지향 전문가를 활용한 후처리 생성 보정 대규모 언어 모델에 대한 연구
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts

Nov 8

ByYen-Ting Lin, Chao-Han Huck Yang, Zhehuai Chen, Piotr Zelasko, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Szu-Wei Fu, Ke Hu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang

일반적인 후처리 오류 교정기의 구축은 중요한 질문을 제기합니다: 어떻게 대규모 도메인 데이터셋 혼합물에 가장 효과적으로 모델을 훈련시킬 수 있을까? 답은 데이터셋별 특징을 학습하고 그 지식을 단일 모델에 소화하는 데에 있을 것입니다. 이전 방법은 별도의 교정 언어 모델을 가지고 이를 달성했으며, 이는 매개변수의 상당한 증가를 초래했습니다. 본 연구에서는 MoEs(Mixture-of-Experts)를 해결책으로 제시하며, MoEs가 확장성 도구 이상의 역할을 한다는 점을 강조합니다. 우리는 Multi-Task Correction MoE를 제안하여, 전문가들을 음성-텍스트, 언어-텍스트 및 시각-텍스트 데이터셋의 "전문가"로 훈련시켜 각 데이터셋의 토큰을 해당 매핑된 전문가로 라우팅하는 방식으로 학습합니다. Open ASR Leaderboard에서의 실험 결과는, 평균 상대적 5.0% WER 감소 및 음성 및 번역 작업의 BLEU 점수에 상당한 향상을 달성함으로써 새로운 최고 성능을 탐구했음을 보여줍니다. 제로샷 평가에서, NeKo는 Hyporadise 벤치마크에서 GPT-3.5 및 Claude-Opus를 상회하여 상대적으로 15.5%에서 27.6%의 WER 감소를 달성했습니다. NeKo는 다중 작업 모델로서 문법 및 후-OCR 교정에서 경쟁력 있는 성과를 보여줍니다.

에너지 효율적인 단백질 언어 모델: LoRA를 활용한 조절 가능한 단백질 생성을 위한 소규모 언어 모델
Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation

Nov 8

ByAayush Shah, Shankar Jayaratnam

대형 언어 모델(LLMs)은 자연어 처리(NLP) 작업에서 상당한 성공을 거두었으며 단백질 서열 생성과 같은 다른 영역에서 유망한 결과를 보여주었습니다. 그러나 NLP에 사용되는 LLM과 종종 여러 작업을 효과적으로 처리하고 작은 크기로 사용 가능한 모델과 달리 종종 특정 작업에 특화된 대형 크기의 단백질 언어 모델 사이에는 현저한 차이가 남아 있습니다. 본 연구에서는 Llama-3-8B와 Phi-3-mini를 기반으로 하는 두 개의 소형 단백질 언어 모델을 소개합니다. 이 모델들은 조절 가능 및 비조절 가능한 단백질 생성이 가능합니다. 비조절 생성 작업에서 최고의 모델은 평균 pLDDT 점수인 69.75를 달성하여 실용적인 단백질 구조 생성에서 견고한 성능을 보여주었습니다. 조절 가능한 생성 작업에서는 모델이 프롬프트에서 지정된 속성에 따라 단백질을 생성하는 작업으로, 우리는 높은 구조적 유사성을 나타내는 평균 TM-Score가 0.84인 놀라운 성과를 달성했습니다. 우리는 6가지 효소 클래스를 포함한 10가지 속성을 선택하여 이전 단백질 언어 모델의 기능을 확장했습니다. 우리의 접근 방식은 Low-Rank Adaptor (LoRA) 기술을 활용하여 훈련 가능한 매개변수를 원래 모델 크기의 4%로 줄여 연산 요구 사항을 낮추었습니다. UniRef50 데이터셋의 하위 집합과 소형 모델을 사용함으로써 전반적인 훈련 시간을 70% 줄이면서 성능을 희생하지 않았습니다. 특히, Phi-3-mini는 훈련 가능한 매개변수를 60% 줄여 Llama 3에 비해 훈련 비용을 30% 절감했습니다. 결과적으로 Phi-3은 Llama 3와 같은 대형 모델의 성능을 맞출 수 있는 0.81의 TM-Score를 달성했습니다. 또한 우리의 모델을 에너지 효율적인 ET-SoC-1 칩에 배포하여 TPS/W를 3배 향상시켰습니다.

황금 타우치스톤: 금융 대형 언어 모델을 평가하기 위한 포괄적인 이중 언어 벤치마크
Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models

Nov 9

ByXiaojun Wu, Junxi Liu, Huanyi Su, Zhouchi Lin, Yiyan Qi, Chengjin Xu, Jiajun Su, Jiajie Zhong, Fuwei Wang, Saizhuo Wang, Fengrui Hua, Jia Li, Jian Guo

대규모 언어 모델이 금융 분야에서 점차 보편화되면서, 이러한 성능을 철저히 평가할 수 있는 표준화된 방법이 절실하게 필요합니다. 그러나 기존의 금융 벤치마크는 종종 언어와 작업 범위가 제한되어 있고, 저품질 데이터셋과 LLM 평가를 위한 부적응성과 같은 도전에 직면하고 있습니다. 이러한 한계를 극복하기 위해, 우리는 금융 LLM을 위한 첫 번째 포괄적인 이중 언어 벤치마크인 "Golden Touchstone"을 제안합니다. 이 벤치마크는 중국어와 영어의 대표적인 데이터셋을 포함한 여덟 가지 핵심 금융 자연어 처리 작업을 아우릅니다. 광범위한 오픈 소스 데이터 수집과 산업 특화 요구사항에서 개발된 이 벤치마크는 모델의 언어 이해 및 생성 능력을 철저히 평가하기 위한 다양한 금융 작업을 포함하고 있습니다. GPT-4o Llama3, FinGPT 및 FinMA와 같은 주요 모델들을 비교 분석하여, 이러한 모델들이 복잡한 금융 정보를 처리하는 데 갖는 장단점을 밝히고 있습니다. 또한, 지속적인 사전 훈련과 금융 지침 튜닝을 통해 훈련된 금융 LLM인 Touchstone-GPT의 소스 코드를 공개하였으며, 이 모델은 이중 언어 벤치마크에서 강력한 성능을 보여주지만 특정 작업에서는 여전히 한계가 있습니다. 이 연구는 금융 대규모 언어 모델에 실용적인 평가 도구를 제공할 뿐만 아니라, 향후 연구의 개발과 최적화를 이끌어내는 역할을 합니다. Golden Touchstone의 소스 코드와 Touchstone-GPT의 모델 가중치는 https://github.com/IDEA-FinAI/Golden-Touchstone에서 공개되어 있으며, FinLLM의 지속적인 진화에 기여하고 이 중요한 영역에서의 추가 연구를 촉진하고 있습니다.

OmniEdit: 전문가 감독을 통해 이미지 편집 종합 모델 구축
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

Nov 11

ByCong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen