AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

가이드-앤-리스케일: 효과적인 튜닝 없는 실시간 이미지 편집을 위한 자기 가이드 메커니즘
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

Sep 2

ByVadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov

대규모 텍스트-이미지 생성 모델의 최근 발전에도 불구하고, 이러한 모델을 사용하여 실제 이미지를 조작하는 것은 여전히 어려운 문제로 남아 있습니다. 기존 편집 방법의 주요 한계는 다양한 이미지 편집에서 일관된 품질을 유지하지 못하거나, 입력 이미지의 특정 외관을 보존하기 위해 확산 모델의 시간 소모적인 하이퍼파라미터 조정 또는 미세 조정이 필요하다는 점입니다. 우리는 이러한 문제를 해결하기 위해 수정된 확산 샘플링 과정을 기반으로 한 새로운 접근 방식을 제안합니다. 이 연구에서는 입력 이미지의 전반적인 구조와 편집되지 않아야 할 지역적 외관을 보존하기 위해 자기-가이던스 기술을 탐구합니다. 특히, 원본 이미지의 지역적 및 전역적 구조를 보존하기 위한 레이아웃 보존 에너지 함수를 명시적으로 도입합니다. 또한, 생성 과정에서 분류자 없는 가이던스와 우리가 제안한 가이더의 규범을 균형 있게 조정하여 노이즈 분포를 보존할 수 있는 노이즈 재조정 메커니즘을 제안합니다. 이러한 가이던스 접근 방식은 확산 모델의 미세 조정과 정확한 역변환 과정을 필요로 하지 않습니다. 결과적으로, 제안된 방법은 빠르고 고품질의 편집 메커니즘을 제공합니다. 우리의 실험에서는 인간 평가와 정량적 분석을 통해 제안된 방법이 인간이 선호하는 편집을 생성할 수 있으며, 편집 품질과 원본 이미지 보존 사이에서 더 나은 균형을 달성함을 보여줍니다. 우리의 코드는 https://github.com/FusionBrainLab/Guide-and-Rescale에서 확인할 수 있습니다.

대규모 언어 모델의 어텐션 헤드: 연구 동향 분석
Attention Heads of Large Language Models: A Survey

Sep 5

ByZifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li

ChatGPT의 등장 이후 대규모 언어 모델(LLM)은 다양한 과제에서 뛰어난 성능을 보였으나, 여전히 대부분 블랙박스 시스템으로 남아 있습니다. 이로 인해 LLM 개발은 데이터 중심 접근법에 크게 의존하고 있어, 내부 아키텍처 및 추론 경로 변경을 통한 성능 향상이 제한되고 있습니다. 그 결과, 많은 연구자들이 LLM의 잠재적인 내부 메커니즘을 탐구하기 시작했으며, 그들의 추론 병목 현상의 본질을 규명하려는 노력의 대부분은 어텐션 헤드에 집중되고 있습니다. 본 설문 연구는 어텐션 헤드의 해석 가능성과 내재된 메커니즘에 초점을 맞춰 LLM의 내부 추론 과정을 조명하는 것을 목표로 합니다. 우리는 먼저 인간의 사고 과정을 '지식 회상', '문맥 내 식별', '잠재적 추론', '표현 준비'라는 네 단계 프레임워크로 정제합니다. 이 프레임워크를 활용하여 기존 연구를 체계적으로 검토하고 특정 어텐션 헤드의 기능을 식별 및 분류합니다. 더 나아가, 이러한 특수 헤드를 발견하는 데 사용된 실험 방법론을 '모델링 불필요' 방법과 '모델링 필요' 방법 두 가지 범주로 나누어 정리합니다. 또한 관련 평가 방법과 벤치마크를 개괄합니다. 마지막으로 현재 연구의 한계를 논의하고 향후 몇 가지 잠재적인 방향성을 제안합니다. 본 논문의 참고문헌 목록은 https://github.com/IAAR-Shanghai/Awesome-Attention-Heads 에서 공개하고 있습니다.

FuzzCoder: 대규모 언어 모델 기반 바이트 단위 퍼징 테스트
FuzzCoder: Byte-level Fuzzing Test via Large Language Model

Sep 3

ByLiqun Yang, Jian Yang, Chaoren Wei, Guanglin Niu, Ge Zhang, Yunli Wang, Linzheng ChaI, Wanxu Xia, Hongcheng Guo, Shun Zhang, Jiaheng Liu, Yuwei Yin, Junran Peng, Jiaxin Ma, Liang Sun, Zhoujun Li

퍼징은 복잡한 소프트웨어의 취약점을 발견하기 위해 설계된 중요한 동적 프로그램 분석 기법입니다. 퍼징은 타겟 프로그램에 악성 입력을 인가하여 크래시, 버퍼 오버플로우, 메모리 오류, 예외 등을 유발하는 것을 포함합니다. 효율적인 방식으로 악성 입력을 생성하는 것은 해결되지 않은 어려운 문제이며, 가장 효과적인 접근법은 대개 기존의 유효한 입력에 균일한 무작위 변이를 적용하는 것입니다. 본 연구에서는 성공적인 공격 사례에서 입력 파일의 패턴을 학습하여 향후 퍼징 탐색을 안내하도록 미세 조정된 대규모 언어 모델(FuzzCoder)을 도입하고자 합니다. 구체적으로, 코드 LLM을 활용하여 퍼징 과정에서 입력의 변이 과정을 안내하는 프레임워크를 개발합니다. 변이 과정은 시퀀스-투-시퀀스 모델링으로 공식화되며, 여기서 LLM은 바이트 시퀀스를 입력받아 변이된 바이트 시퀀스를 출력합니다. FuzzCoder는 휴리스틱 퍼징 도구에서 수집된 성공적인 퍼징 기록으로 구성된 명령어 데이터셋(Fuzz-Instruct)으로 미세 조정됩니다. FuzzCoder는 프로그램의 비정상적인 동작을 유발하기 위해 입력 파일에서 변이 위치와 전략 위치를 예측할 수 있습니다. 실험 결과, AFL(American Fuzzy Lop) 기반 FuzzCoder는 ELF, JPG, MP3, XML 등 다양한 입력 형식에 대해 효과적 변이 비율(EPM)과 크래시 수(NC) 측면에서 상당한 향상을 보였습니다.

MOOC에서 MAIC로: LLM 기반 에이전트가 주도하는 온라인 교수학습의 재구성
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents

Sep 5

ByJifan Yu, Zheyuan Zhang, Daniel Zhang-li, Shangqing Tu, Zhanxin Hao, Rui Miao Li, Haoxuan Li, Yuanchun Wang, Hanming Li, Linlu Gong, Jie Cao, Jiayin Lin, Jinchang Zhou, Fei Qin, Haohua Wang, Jianxiao Jiang, Lijun Deng, Yisi Zhan, Chaojun Xiao, Xusheng Dai, Xuan Yan, Nianyi Lin, Nan Zhang, Ruixin Ni, Yang Dang, Lei Hou, Yu Zhang, Xu Han, Manli Li, Juanzi Li, Zhiyuan Liu, Huiqin Liu, Maosong Sun

온라인 교육의 첫 사례, 즉 강좌가 접근 가능한 공유 온라인 플랫폼에 업로드된 이래로, 인간 지식의 보급을 확장하여 더 넓은 관객에 도달하는 이 형태는 광범위한 논의와 폭넓은 채택을 불러일으켰습니다. 개인화된 학습이 여전히 상당한 개선 잠재력을 지니고 있음을 인식하며, 새로운 AI 기술이 이 학습 형태에 지속적으로 통합되어 교육 추천 및 지능형 튜터링과 같은 다양한 교육 AI 애플리케이션이 등장했습니다. 대규모 언어 모델(LLM)에서 지능이 등장함에 따라 이러한 교육적 향상이 통합된 기초 모델 위에 구축될 수 있게 되어 더 깊은 통합이 가능해졌습니다. 이러한 맥락에서 우리는 LLM 기반 다중 에이전트 시스템을 활용하여 확장성과 적응성을 균형 있게 갖춘 AI 증강 교실을 구축하는 새로운 형태의 온라인 교육인 MAIC(Massive AI-empowered Course)를 제안합니다. 개념적 프레임워크와 기술적 혁신을 탐구하는 것을 넘어 중국 최고의 대학 중 하나인 칭화대학교에서 예비 실험을 진행합니다. 500명 이상의 학생들로부터 수집된 10만 개 이상의 학습 기록을 바탕으로 일련의 가치 있는 관찰 결과와 초기 분석을 얻었습니다. 이 프로젝트는 지속적으로 발전하여 궁극적으로 대형 모델 AI 시대의 온라인 교육 가능성을 탐구하는 연구, 기술 및 응용을 지원하고 통합하는 포괄적인 오픈 플랫폼을 구축하는 것을 목표로 합니다. 우리는 이 플랫폼이 교육자, 연구자 및 혁신가들이 함께 모여 AI 주도 온라인 교육의 미지를 공동으로 탐구하는 협력의 허브가 될 것으로 기대합니다.

기하학적 이미지 확산: 이미지 기반 표면 표현을 통한 빠르고 데이터 효율적인 텍스트-3D 변환
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

Sep 5

BySlava Elizarov, Ciara Rowles, Simon Donné

텍스트 설명으로부터 고품질의 3D 객체를 생성하는 것은 계산 비용, 3D 데이터의 부족, 그리고 복잡한 3D 표현으로 인해 여전히 어려운 문제로 남아 있다. 본 연구에서는 2D 이미지를 사용하여 3D 형태를 효율적으로 표현함으로써 복잡한 3D 인식 아키텍처의 필요성을 피하는 새로운 Text-to-3D 모델인 Geometry Image Diffusion(GIMDiffusion)을 소개한다. 협업 제어(Collaborative Control) 메커니즘을 통합함으로써, Stable Diffusion과 같은 기존 Text-to-Image 모델의 풍부한 2D 사전 지식을 활용한다. 이를 통해 제한된 3D 학습 데이터(고품질 학습 데이터만 사용 가능)에서도 강력한 일반화가 가능하며, IPAdapter와 같은 가이던스 기술과의 호환성도 유지된다. 요약하면, GIMDiffusion은 현재의 Text-to-Image 모델과 비슷한 속도로 3D 자산을 생성할 수 있게 한다. 생성된 객체는 의미론적으로 의미 있는 분리된 부분들로 구성되며 내부 구조를 포함하여 사용성과 다양성을 모두 향상시킨다.

mPLUG-DocOwl2: OCR 없이 고해상도 압축을 통한 다중 페이지 문서 이해
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

Sep 5

ByAnwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou

멀티모달 대규모 언어 모델(MLLMs)은 문서 이미지의 지원 해상도를 높여 OCR 없이도 유망한 문서 이해 성능을 달성했습니다. 그러나 이는 단일 문서 이미지에 대해 수천 개의 시각적 토큰을 생성해야 하는 비용을 수반하며, 특히 다중 페이지 문서 이해에서 과도한 GPU 메모리 사용과 느린 추론 속도를 초래합니다. 본 연구에서는 이러한 문제를 해결하기 위해 저해상도 전역 시각적 특징을 안내자로 활용하여 고해상도 문서 이미지를 324개 토큰으로 압축하는 고해상도 문서 압축기 모듈을 제안합니다. 이 압축 모듈을 바탕으로 다중 페이지 문서 이해 능력을 강화하고 토큰 효율성과 질의응답 성능을 균형 있게 조화시키기 위해 단일 이미지 사전 학습, 다중 이미지 계속 사전 학습, 다중 작업 미세 조정의 3단계 학습 프레임워크 하에 DocOwl2를 개발했습니다. DocOwl2는 다중 페이지 문서 이해 벤치마크에서 새로운 최첨단 성능을 기록하고 첫 토큰 지연 시간을 50% 이상 단축하여 다중 페이지 질의응답, 증거 페이지를 통한 설명, 페이지 간 구조 이해에서 뛰어난 능력을 입증했습니다. 또한 유사한 데이터로 학습된 단일 이미지 MLLM과 비교 시, 우리의 DocOwl2는 시각적 토큰 수를 20% 미만으로 사용하면서도 비슷한 수준의 단일 페이지 이해 성능을 달성했습니다. 우리의 코드, 모델 및 데이터는 https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2에서 공개되어 있습니다.

WildVis: 야생 환경에서 수집된 대규모 채팅 로그를 위한 오픈 소스 시각화 도구
WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild

Sep 5

ByYuntian Deng, Wenting Zhao, Jack Hessel, Xiang Ren, Claire Cardie, Yejin Choi

실제 대화 데이터의 증가는 연구자들에게 사용자-챗봇 상호작용을 연구할 수 있는 흥미로운 기회를 제공합니다. 그러나 방대한 데이터 양으로 인해 개별 대화를 수동으로 검토하는 것은 실용적이지 않습니다. 이러한 문제를 해결하기 위해 우리는 빠르고 다양하며 대규모 대화 분석을 가능하게 하는 상호작용형 도구인 WildVis를 소개합니다. WildVis는 텍스트 공간과 임베딩 공간에서 다양한 기준에 기반한 검색 및 시각화 기능을 제공합니다. 수백만 규모의 데이터셋을 관리하기 위해 검색 인덱스 구축, 임베딩 사전 계산 및 압축, 캐싱 등의 최적화를 구현하여 몇 초 내에 반응하는 사용자 상호작용을 보장합니다. 우리는 WildVis의 유용성을 세 가지 사례 연구를 통해 입증합니다: 챗봇 오용 연구 지원, 데이터셋 간 토픽 분포 시각화 및 비교, 사용자별 대화 패턴 특성 분석. WildVis는 오픈소스이며 확장 가능하게 설계되어 추가 데이터셋과 맞춤형 검색 및 시각화 기능을 지원합니다.

CDM: 공정하고 정확한 수식 인식 평가를 위한 신뢰할 수 있는 지표
CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation

Sep 5

ByBin Wang, Fan Wu, Linke Ouyang, Zhuangcheng Gu, Rui Zhang, Renqiu Xia, Bo Zhang, Conghui He

수식 인식은 수학 표현식의 복잡한 구조와 다양한 표기법으로 인해 상당한 어려움을 제시합니다. 수식 인식 모델의 지속적인 발전에도 불구하고, 이러한 모델들이 사용하는 BLEU 및 Edit Distance와 같은 평가 지표는 여전히 뚜렷한 한계를 보입니다. 기존 지표들은 동일한 수식이 다양한 표현을 가질 수 있다는 사실과 훈련 데이터 분포에 매우 민감하다는 점을 간과하여 수식 인식 평가의 불공정성을 초래합니다. 이를 위해 본 논문에서는 이미지 수준의 평가 점수를 설계하여 평가의 객관성을 보장하는 문자 검출 매칭(CDM) 지표를 제안합니다. 구체적으로, CDM은 모델이 예측한 LaTeX과 실제 정답 LaTeX 수식을 모두 이미지 형식의 수식으로 변환한 후, 시각적 특징 추출 및 위치 파악 기술을 활용하여 공간 위치 정보를 포함한 정밀한 문자 수준 매칭을 수행합니다. 이러한 공간 인식 및 문자 매칭 방식은 텍스트 기반 문자 매칭에만 의존하는 기존의 BLEU 및 Edit Distance 지표보다 더 정확하고 공정한 평가를 제공합니다. 실험적으로 CDM, BLEU, ExpRate 지표를 사용하여 다양한 수식 인식 모델을 평가한 결과, CDM이 인간의 평가 기준과 더 밀접하게 일치하며 다양한 수식 표현으로 인한 차이를 제거하여 서로 다른 모델 간에 더 공정한 비교를 제공함을 입증하였습니다.

다중 턴 반복적 선호 학습을 통한 수학 에이전트 구축
Building Math Agents with Multi-Turn Iterative Preference Learning

Sep 4

ByWei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin, Daniele Calandriello, Misha Khalman, Rishabh Joshi, Bilal Piot, Mohammad Saleh, Chi Jin, Tong Zhang, Tianqi Liu

최근 연구에 따르면 코드 해석기와 같은 외부 도구를 통합하고 다중 턴 사고 연쇄(CoT) 추론을 적용하면 대규모 언어 모델(LLM)의 수학 문제 해결 능력을 향상시킬 수 있다. 현재의 방법론이 합성 데이터 생성과 지도 미세 조정(SFT)에 초점을 맞추고 있는 가운데, 본 논문은 모델 성능을 더욱 개선하기 위한 보완적 접근법으로 직접 선호도 학습을 연구한다. 그러나 기존의 직접 선호도 학습 알고리즘은 단일 턴 채팅 작업을 위해 설계되어, 도구 통합 수학 추론 과제에 필요한 다중 턴 추론과 외부 도구 통합의 복잡성을 완전히 해결하지 못한다. 이러한 격차를 메우기 위해, 우리는 코드 해석기의 피드백을 활용하고 궤적 수준 선호도를 최적화하는, 이 맥락에 맞게 설계된 다중 턴 직접 선호도 학습 프레임워크를 소개한다. 이 프레임워크는 다중 턴 DPO와 다중 턴 KTO를 구체적인 구현 방식으로 포함한다. 우리 프레임워크의 효과는 GSM8K 및 MATH 데이터셋의 확장된 프롬프트 세트를 사용하여 다양한 언어 모델을 학습시킴으로써 검증되었다. 그 결과, 지도 미세 조정된 Gemma-1.1-it-7B 모델의 성능은 GSM8K에서 77.5%에서 83.9%로, MATH에서 46.1%에서 51.2%로 크게 향상되었다. 유사하게, Gemma-2-it-9B 모델은 GSM8K에서 84.1%에서 86.3%로, MATH에서 51.0%에서 54.5%로 개선되었다.

성적표: 자연어 요약을 활용한 언어 모델의 질적 평가
Report Cards: Qualitative Evaluation of Language Models Using Natural Language Summaries

Sep 1

ByBlair Yang, Fuyang Cui, Keiran Paster, Jimmy Ba, Pashootan Vaezipoor, Silviu Pitis, Michael R. Zhang

대규모 언어 모델(LLM)의 급속한 발전과 역동적인 특성으로 인해 기존의 정량적 벤치마크만으로는 이들의 능력을 정확히 평가하기 어렵다. 본 연구에서는 특정 기술이나 주제에 대한 모델 행동을 인간이 이해 가능한 자연어로 요약한 '리포트 카드'를 제안한다. 우리는 리포트 카드를 세 가지 기준(특이성: 모델 간 구분 능력, 정확성: 모델 능력의 정확한 표현, 해석 가능성: 인간에게 명확하고 관련성 높은 정도)에 따라 평가하는 프레임워크를 개발했다. 또한 인간의 감수 없이 리포트 카드를 생성하기 위한 반복 알고리즘을 제안하고 다양한 설계 선택을 배제함으로써 그 효용성을 탐구한다. 인기 있는 LLM을 대상으로 한 실험을 통해 리포트 카드가 기존 벤치마크를 넘어선 통찰력을 제공하며, LLM에 대한 보다 해석 가능하고 종합적인 평가 필요성을 해결하는 데 도움이 될 수 있음을 입증한다.

FrozenSeg: 개방형 어휘 분할을 위한 고정된 파운데이션 모델 조화
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Sep 5

ByXi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao

오픈-보컬러리 분할은 제약이 없는 환경에서 열린 범주의 객체들을 분할하고 인식해야 하므로 상당한 어려움을 제기합니다. CLIP과 같은 강력한 비전-언어 기반 모델의 성공에 기반하여, 최근 연구에서는 이러한 모델의 제로샷 능력을 활용하여 보지 못한 범주를 인식하려는 시도가 이루어졌습니다. 주목할 만한 성능 향상에도 불구하고, 이러한 모델들은 여전히 보지 못한 범주와 시나리오에 대해 정밀한 마스크 제안을 생성하는 중요한 문제에 직면하여, 결국 열악한 분할 성능을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 공간 인식 기반 모델(예: SAM)의 공간 지식과 비전-언어 모델(예: CLIP)에서 추출된 의미론적 지식을 시너지 프레임워크 내에서 통합하도록 설계된 새로운 접근법인 FrozenSeg를 소개합니다. 비전-언어 모델의 시각 인코더를 특징 백본으로 사용하여, 우리는 공간 인식 특징을 학습 가능한 쿼리와 트랜스포머 디코더 내의 CLIP 특징에 주입합니다. 추가적으로, 재현율과 마스크 품질을 더욱 향상시키기 위한 마스크 제안 앙상블 전략을 고안합니다. 사전 학습된 지식을 최대한 활용하면서 학습 오버헤드를 최소화하기 위해, 우리는 두 기반 모델을 동결하고 성능 병목 현상인 마스크 제안 생성을 위한 경량 트랜스포머 디코더에만 최적화 노력을 집중합니다. 폭넓은 실험을 통해 FrozenSeg가 COCO 패노픽 데이터만으로 배우고 제로샷 방식으로 테스트되었음에도 다양한 분할 벤치마크에서 최첨단 결과를 달성함을 입증합니다. 코드는 https://github.com/chenxi52/FrozenSeg에서 이용할 수 있습니다.

유형화된 홀을 통한 대규모 언어 모델의 정적 문맥화
Statically Contextualizing Large Language Models with Typed Holes

Sep 2

ByAndrew Blinn, Xiang Li, June Hyung Kim, Cyrus Omar

대규모 언어 모델(LLM)은 프로그램 합성의 지형도를 재편해왔습니다. 그러나 현대의 LLM 기반 코드 완성 시스템은 종종 적절한 컨텍스트, 특히 훈련 데이터에 없거나 커서 근처에 없는 정의를 다룰 때 부족하여 손상된 코드를 환각(생성)하는 경우가 많습니다. 본 논문은 언어 서버가 노출하는 언어의 타입 및 바인딩 구조와의 긴밀한 통합이 이러한 컨텍스트화 문제를 토큰 효율적인 방식으로 해결할 수 있음을 보여줍니다. 간단히 말해, 우리는 AI에게도 IDE가 필요하다고 주장합니다! 특히, 우리는 LLM 코드 생성을 Hazel 라이브 프로그램 스케치 환경에 통합합니다. Hazel 언어 서버는 오류가 있는 상황에서도 채워져야 할 홀(hole)의 타입과 타이핑 컨텍스트를 식별하여 의미 있는 프로그램 스케치가 항상 사용 가능하도록 보장합니다. 이를 통해 커서의 어휘적 근처에 있지 않거나 반드시 동일한 파일에 있지 않더라도 개발자의 목표에 의미론적으로 가까울 가능성이 있는 코드베이스 전반의 컨텍스트 정보로 프롬프팅할 수 있습니다. LLM에 의해 합성된 완성물은 이후 언어 서버와의 추가 대화를 통해 반복적으로 정제됩니다. 이러한 기법들을 평가하기 위해 우리는 모델-뷰-업데이트(MVU) 웹 애플리케이션 데이터셋인 MVUBench를 소개합니다. 이러한 애플리케이션들은 애플리케이션 특화 데이터 구조에 의존하기 때문에 도전 과제로 작용합니다. 우리는 타입 정의를 활용한 컨텍스트화가 특히 영향력이 크다는 사실을 발견했습니다. Hazel 컨텍스트에서 우리의 아이디어를 소개한 후, 이러한 기법들의 적용 가능성을 검증하기 위해 동일 기법을 복제하고 MVUBench를 TypeScript로 포팅하여 더 많은 리소스를 가진 언어에도 적용합니다. 마지막으로, 언어 서버가 구현할 수 있으며 다양한 설계의 AI 코드 완성 시스템이 LLM용 프롬프트 생성 시 정적 컨텍스트를 통합하는 데 사용할 수 있는 기능을 노출하기 위한 언어 서버 프로토콜(LSP)의 보수적 확장인 ChatLSP에 대해 간략히 설명합니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

가이드-앤-리스케일: 효과적인 튜닝 없는 실시간 이미지 편집을 위한 자기 가이드 메커니즘
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

Sep 2

ByVadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov

대규모 언어 모델의 어텐션 헤드: 연구 동향 분석
Attention Heads of Large Language Models: A Survey

Sep 5

ByZifan Zheng, Yezhaohui Wang, Yuxin Huang, Shichao Song, Bo Tang, Feiyu Xiong, Zhiyu Li

FuzzCoder: 대규모 언어 모델 기반 바이트 단위 퍼징 테스트
FuzzCoder: Byte-level Fuzzing Test via Large Language Model

Sep 3

ByLiqun Yang, Jian Yang, Chaoren Wei, Guanglin Niu, Ge Zhang, Yunli Wang, Linzheng ChaI, Wanxu Xia, Hongcheng Guo, Shun Zhang, Jiaheng Liu, Yuwei Yin, Junran Peng, Jiaxin Ma, Liang Sun, Zhoujun Li

MOOC에서 MAIC로: LLM 기반 에이전트가 주도하는 온라인 교수학습의 재구성
From MOOC to MAIC: Reshaping Online Teaching and Learning through LLM-driven Agents

Sep 5

기하학적 이미지 확산: 이미지 기반 표면 표현을 통한 빠르고 데이터 효율적인 텍스트-3D 변환
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

Sep 5

BySlava Elizarov, Ciara Rowles, Simon Donné

mPLUG-DocOwl2: OCR 없이 고해상도 압축을 통한 다중 페이지 문서 이해
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

Sep 5

ByAnwen Hu, Haiyang Xu, Liang Zhang, Jiabo Ye, Ming Yan, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou

FrozenSeg: 개방형 어휘 분할을 위한 고정된 파운데이션 모델 조화
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Sep 5

ByXi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao

유형화된 홀을 통한 대규모 언어 모델의 정적 문맥화
Statically Contextualizing Large Language Models with Typed Holes

Sep 2

ByAndrew Blinn, Xiang Li, June Hyung Kim, Cyrus Omar