AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OS-ATLAS: 일반 GUI 에이전트를 위한 기초 행동 모델
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

기존 GUI 에이전트 구축 노력은 GPT-4o 및 GeminiProVision과 같은 견고한 상용 Vision-Language Models (VLMs)의 이용에 크게 의존한다. 실무자들은 GUI grounding 및 Out-Of-Distribution (OOD) 시나리오에서의 성능 차이로 인해 오픈 소스 VLMs를 사용하기 꺼려한다. 이 분야의 미래 연구를 촉진하기 위해, 우리는 GUI grounding 및 OOD 에이전트 작업에서 우수한 기반 GUI action model인 OS-Atlas을 개발했다. 데이터와 모델링의 혁신을 통해 GUI grounding 데이터를 다양한 플랫폼(Windows, Linux, MacOS, Android 및 웹)에서 합성하는 오픈 소스 툴킷을 개발하는 데 상당한 엔지니어링 노력을 투자했다. 이 툴킷을 활용하여, 우리는 오늘까지 가장 큰 오픈 소스 크로스 플랫폼 GUI grounding 말뭉치를 공개하고 있으며, 이는 1300만 개 이상의 GUI 요소를 포함하고 있다. 이 데이터셋은 모델 훈련의 혁신과 결합하여, OS-Atlas가 GUI 스크린샷을 이해하고 보이지 않는 인터페이스에 일반화하는 데 견고한 기반을 제공한다. 모바일, 데스크탑 및 웹을 포괄하는 여섯 가지 벤치마크를 통해 광범위한 평가를 거쳐, OS-Atlas은 이전 최첨단 모델에 비해 상당한 성능 향상을 보여준다. 우리의 평가는 오픈 소스 VLMs의 에이전트 능력을 지속적으로 향상시키고 확장하는 데 유용한 통찰력을 제공한다.

대규모 언어 모델의 개인화: 조사
Personalization of Large Language Models: A Survey

Oct 29

ByZhehao Zhang, Ryan A. Rossi, Branislav Kveton, Yijia Shao, Diyi Yang, Hamed Zamani, Franck Dernoncourt, Joe Barrow, Tong Yu, Sungchul Kim, Ruiyi Zhang, Jiuxiang Gu, Tyler Derr, Hongjie Chen, Junda Wu, Xiang Chen, Zichao Wang, Subrata Mitra, Nedim Lipka, Nesreen Ahmed, Yu Wang

최근 대형 언어 모델 (LLM)의 개인화가 다양한 응용 분야에서 점점 더 중요해지고 있습니다. 중요성과 최근 진전에도 불구하고, 기존의 개인화된 LLM에 대한 대부분의 작업은 (a) 개인화된 텍스트 생성에 완전히 초점을 맞추거나 (b) 추천 시스템과 같은 개인화 관련 하위 응용 프로그램을 위해 LLM을 활용하는 데 중점을 두었습니다. 본 연구에서는 이 두 가지 별도의 주요 방향 사이의 간극을 메워, 개인화된 LLM 사용에 대한 분류법을 소개하고 주요 차이점과 도전 과제를 요약합니다. 우리는 LLM의 개인화의 기초를 형식화하여 정의하고 논의하며, 개인화, 사용 및 개인화된 LLM의 특징, 사용 및 바람직한 점을 확장하고 통합합니다. 그런 다음, 우리는 개인화의 세분화, 개인화 기술, 데이터셋, 평가 방법 및 개인화된 LLM의 응용에 대한 체계적인 분류법을 제안함으로써 이러한 다양한 분야와 사용 시나리오를 통합합니다. 마지막으로, 해결해야 할 중요한 문제와 도전 과제를 강조합니다. 제안된 분류법을 사용하여 최근 연구를 통합하고 조사함으로써, LLM의 개인화의 다양한 측면과 기존 문헌에 대한 명확한 안내서를 제공하고, 연구자와 실무자들에게 힘을 실어주고자 합니다.

일정 가속도 흐름
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

교정된 흐름과 재흐름 절차는 보통의 미분 방정식(ODE) 흐름을 점진적으로 평탄화하여 빠른 생성을 혁신적으로 발전시켰다. 이들은 이미지와 노이즈 쌍인 커플링이 일정 속도로 직선 궤적으로 근사될 수 있다는 가정 하에 작동한다. 그러나 우리는 일정 속도로 모델링하고 재흐름 절차를 사용하는 것이 쌍 간의 직선 궤적을 정확하게 학습하는 데 제한이 있어 몇 단계 생성에서 최적의 성능을 얻지 못하는 것을 관찰했다. 이러한 제한을 해결하기 위해 우리는 단순한 일정 가속도 방정식에 기반한 혁신적인 프레임워크인 Constant Acceleration Flow (CAF)를 소개한다. CAF는 가속도를 추가적인 학습 가능한 변수로 도입하여 ODE 흐름의 보다 표현력이 풍부하고 정확한 추정을 가능하게 한다. 게다가 우리는 가속도 모델을 위한 초기 속도 조건화와 초기 속도에 대한 재흐름 프로세스 두 가지 기술을 제안한다. 장난감 데이터셋, CIFAR-10 및 ImageNet 64x64에 대한 포괄적인 연구 결과 CAF가 한 단계 생성에서 최첨단 기준을 능가함을 보여준다. 또한 CAF가 Rectified flow보다 몇 단계 커플링 보존 및 역전에 혁신적으로 개선됨을 보여준다. 코드는 https://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}에서 제공된다.

토마토: 다중 모달 기반 모델에서 시각적 시간적 추론 능력 평가
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

기존의 벤치마크는 최첨단 다중모달 기반 모델(MFMs)이 비디오 이해를 위해 시간적 맥락을 활용하여 달성한 놀라운 성과를 강조합니다. 그러나 모델이 시각적 시간적 추론을 얼마나 잘 수행하는지에 대한 의문이 남아 있습니다. 우리의 기존 벤치마크 연구는 MFMs의 이 능력이 과대평가될 가능성이 있음을 보여줍니다. 왜냐하면 많은 질문들이 단일, 몇 개 또는 순서가 뒤바뀐 프레임을 사용하여 해결될 수 있기 때문입니다. 현재의 시각적 시간적 추론 작업을 체계적으로 검토하기 위해 우리는 세 가지 원칙과 해당 메트릭을 제안합니다: (1) 다중 프레임 이득, (2) 프레임 순서 민감도, (3) 프레임 정보 격차. 이러한 원칙을 따라 우리는 TOMATO, 비디오 이해에서 MFMs의 시간적 추론 능력을 엄격하게 평가하기 위해 만들어진 새로운 벤치마크를 소개합니다. TOMATO는 1,484개의 신중하게 선별된 인간 주석이 달린 질문들로 이루어진 여섯 가지 작업(동작 횟수, 방향, 회전, 모양 및 추세, 속도 및 주파수, 시각적 단서)을 포함하며, 인간 중심, 실제 세계, 시뮬레이션 시나리오를 포괄하는 1,417개의 비디오에 적용됩니다. 이 중에는 805개의 자체 녹화 및 생성된 비디오도 포함됩니다. 우리의 포괄적인 평가 결과, 최고 성능 모델과의 인간-모델 성능 차이가 57.3%임을 밝혀냅니다. 더욱이, 우리의 심층 분석은 현재 MFMs의 이러한 차이 이상의 보다 근본적인 한계를 발견합니다. 이들은 고립된 프레임에서 사건을 정확하게 인식할 수 있지만, 이러한 프레임을 연속적인 시퀀스로 해석하는 데 실패합니다. 우리는 TOMATO가 차세대 MFMs를 평가하는 중요한 시험대 역할을 할 것으로 믿으며, 인간 세계의 동적을 비디오 방식을 통해 이해할 수 있는 AI 시스템을 개발하기 위한 커뮤니티에 대한 호소라고 생각합니다.

랜덤화된 자기회귀적 시각 생성
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

본 논문은 시각 생성을 위한 Randomized AutoRegressive 모델링 (RAR)을 제안하며, 이미지 생성 작업에서 새로운 최고 수준의 성능을 달성하면서 언어 모델링 프레임워크와 완전히 호환성을 유지합니다. 제안된 RAR은 간단합니다: 일반적인 자기 회귀적 훈련 과정에서 다음 토큰 예측 목표와 함께, 입력 시퀀스는 일반적으로 래스터 형식으로 정렬되며, 확률 r로 서로 다른 인수 분해 순서로 무작위로 순열됩니다. 여기서 r은 1에서 시작하여 훈련 과정 중에 선형적으로 0으로 감소합니다. 이 어닐링 훈련 전략을 통해 모델은 모든 인수 분해 순서에 대한 기대 우도를 최대화하는 학습을 하여 양방향 컨텍스트를 효과적으로 모델링할 수 있게 됩니다. 중요한 점은, RAR은 자기 회귀적 모델링 프레임워크의 무결성을 유지하면서 이미지 생성에서 성능을 크게 향상시킵니다. ImageNet-256 벤치마크에서 RAR은 1.48의 FID 점수를 달성하며, 이전 최고 수준의 자기 회귀적 이미지 생성기를 뛰어넘을 뿐만 아니라 선도적인 확산 기반 및 가리개 트랜스포머 기반 방법들을 능가합니다. 코드 및 모델은 https://github.com/bytedance/1d-tokenizer에서 제공될 예정입니다.

DynaMath: 시각 언어 모델의 수학 추론 강인성을 평가하기 위한 동적 시각 벤치마크
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

시각-언어 모델(Vision-Language Models, VLMs)의 신속한 발전은 시각적 맥락을 포함하는 수학적 추론 작업에 대한 큰 잠재력을 보여주었습니다. 비슷한 문제에 해결 단계를 신뢰할 수 있는 방법으로 적용할 수 있는 인간과는 달리, GPT-4o와 같은 최신 VLMs는 이러한 시나리오에서 일관되게 실패할 수 있다는 것을 발견했습니다. 이는 그들의 수학적 추론 능력에 제한이 있다는 것을 드러냅니다. 본 논문에서는 VLMs의 수학적 추론 강인성을 조사하고, 동일한 질문의 다양한 변형(시각적 수치 값 또는 함수 그래프의 변경)에 대한 이러한 모델의 성능을 평가합니다. 시각 기반 수학 벤치마크는 VLMs의 문제 해결 능력을 평가하기 위해 개발되었지만, 이러한 벤치마크는 정적 문제 세트만 포함하고 있어 수학적 추론 강인성을 쉽게 평가할 수 없습니다. 이러한 공백을 메우기 위해 우리는 VLMs의 심층적 평가를 위해 설계된 동적 시각 수학 벤치마크인 DynaMath를 소개합니다. DynaMath에는 파이썬 프로그램으로 표현된 501개의 고품질 다중 주제 시드 질문이 포함되어 있습니다. 이러한 프로그램은 다양한 시각적 및 텍스트 변형을 포함한 많은 다른 유형의 구체적인 질문 집합을 자동으로 생성할 수 있도록 신중하게 설계되고 주석이 달려 있습니다. DynaMath를 사용하면 시드 질문의 입력 조건이 다양한 경우에 모델의 일반화 능력을 평가할 수 있습니다. 우리는 5,010개의 생성된 구체적인 질문과 함께 14개의 최신 VLMs를 평가했습니다. 결과는 최악의 경우 모델 정확도, 즉 모든 10가지 변형에서 올바르게 답변된 시드 질문의 백분율로 정의된 것이 평균 경우 정확도보다 현저히 낮다는 것을 보여줍니다. 분석 결과는 VLMs의 추론 능력의 강인성을 연구해야 한다는 필요성을 강조하며, DynaMath는 수학적 추론을 위한 더 신뢰할 수 있는 모델 개발을 지원하는 소중한 통찰을 제공합니다.

다음 토큰 예측에서의 물리학
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

우리는 Next-token Prediction (NTP)에서의 기본 물리학을 발견했습니다. NTP 내에서 정보 보존의 법칙을 확인하고 정보용량 제1 법칙 (IC-1)을 제안하여 자기 회귀 모델에서 지능 발생의 본질이 본질적으로 정보 전달 과정임을 입증했습니다. 또한 Landauer의 원리를 NTP에 도입하여 정보용량 제2 법칙 (IC-2)을 공식화했는데, 이는 자기 회귀 모델 훈련과 에너지 소비 간의 관계를 확립했습니다. 게다가 우리는 실무에 실질적인 중요성을 지닌 여러 부차정리를 제시했습니다. 마지막으로, 우리의 발견이 기존 이론들과 어떻게 호환되고 보완되는지를 검증했습니다.

GPT 또는 BERT: 왜 둘 다 선택하지 않을까요?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

마스크된 언어 모델링과 인과적 언어 모델링을 병합하는 간단한 방법을 제시합니다. 이러한 하이브리드 훈련 목표는 단일 트랜스포머 스택 내에서 두 모델링 패러다임의 장점을 결합한 모델을 얻게 됩니다: GPT-BERT는 표준 인과적 또는 마스크된 언어 모델과 마찬가지로 투명하게 사용할 수 있습니다. 우리는 이 유연한 행동을 가능케 하는 사전 훈련 과정을 BabyLM Challenge 2024에서 테스트했습니다. 결과는 하이브리드 사전 훈련이 오직 마스크만 사용한 모델이나 오직 인과적인 모델을 능가한다는 것을 보여줍니다. 우리는 모델, 훈련 말뭉치, 그리고 코드를 공개적으로 배포합니다.

생성적 AI 응용 프로그램에서 사용자 인터페이스 디자인 및 상호 작용 기술 조사
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka

생성형 AI의 응용 분야는 매우 인상적이며 사용자와 AI 간의 상호 작용 또한 그렇습니다. 현재의 인간-인공지능 상호작용 문헌은 인간이 생성형 AI와 상호 작용하는 방식을 넓게 살펴보고 있지만, 이러한 응용프로그램을 만들기 위해 사용된 사용자 인터페이스 디자인과 패턴에 대한 구체성이 부족합니다. 따라서 우리는 인간이 AI와 상호 작용하는 방식과 다양한 관련 사용 사례의 요구를 충족시키기 위해 디자인된 사용자 상호작용 패턴의 분류를 체계적으로 제시하는 설문 조사를 제시합니다. 우리는 주로 사용자가 시작하는 상호작용에 초점을 맞추며, 사용자가 내재적 신호를 포함하지 않는 상호작용을 조사합니다. 이 조사를 통해 디자이너와 개발자 모두에게 참고 자료로 활용할 수 있는 다양한 사용자 상호작용 패턴의 요약서를 작성하고자 합니다. 이를 통해 생성형 AI 응용프로그램의 디자인에 대해 더 알고자 하는 사람들의 진입 장벽을 낮추고자 노력하고 있습니다.

패션-VDM: 가상 착용을 위한 비디오 확산 모델
Fashion-VDM: Video Diffusion Model for Virtual Try-On

Oct 31

ByJohanna Karras, Yingwei Li, Nan Liu, Luyang Zhu, Innfarn Yoo, Andreas Lugmayr, Chris Lee, Ira Kemelmacher-Shlizerman

저희는 가상 시착 비디오를 생성하기 위한 비디오 확산 모델 (VDM)인 Fashion-VDM을 제안합니다. 입력 의류 이미지와 사람 비디오가 주어졌을 때, 저희 방법은 주어진 의류를 입은 사람의 고품질 시착 비디오를 생성하면서 사람의 정체성과 움직임을 보존합니다. 이미지 기반 가상 시착은 인상적인 결과를 보여주었지만, 기존의 비디오 가상 시착 (VVT) 방법은 여전히 의류 세부 사항과 시간적 일관성이 부족합니다. 이러한 문제를 해결하기 위해 저희는 비디오 가상 시착을 위한 확산 기반 아키텍처, 분할된 분류기 없는 가이드로 인해 조건 입력에 대한 제어를 높이고, 단일 패스 64프레임, 512픽셀 비디오 생성을 위한 점진적 시간적 훈련 전략을 제안합니다. 또한 비디오 데이터가 제한적일 때 특히 비디오 시착을 위한 이미지-비디오 합동 훈련의 효과를 입증합니다. 저희의 질적 및 양적 실험 결과는 저희의 접근 방식이 비디오 가상 시착의 새로운 최고 수준을 설정한다는 것을 보여줍니다. 추가 결과는 저희 프로젝트 페이지를 방문해주십시오: https://johannakarras.github.io/Fashion-VDM.

확산 트랜스포머를 위한 인-컨텍스트 로라
In-Context LoRA for Diffusion Transformers

Oct 31

ByLianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou

최근의 연구 arXiv:2410.15027에서는 확산 트랜스포머(Diffusion Transformers, DiTs)를 사용하여 간단히 이미지 간 어텐션 토큰을 연결함으로써 과제에 중립적인 이미지 생성을 탐구했습니다. 그러나 상당한 계산 자원에도 불구하고 생성된 이미지의 충실도는 최적이 아닙니다. 본 연구에서는 텍스트-이미지 DiTs가 본질적으로 맥락 내 생성 능력을 갖추고 있어, 활성화를 위해 최소한의 조정만 필요하다는 가설을 통해 이 프레임워크를 재평가하고 최적화했습니다. 다양한 과제 실험을 통해 기존의 텍스트-이미지 DiTs가 어떠한 조정 없이도 효과적으로 맥락 내 생성을 수행할 수 있음을 질적으로 증명했습니다. 이 통찰을 기반으로, DiTs의 맥락 내 능력을 활용하기 위한 매우 간단한 파이프라인을 제안합니다: (1) 토큰 대신 이미지를 연결, (2) 여러 이미지의 공동 캡션 작성, (3) 대규모 데이터셋을 사용한 전체 매개변수 조정 대신 소규모 데이터셋(예: 20~100개 샘플)을 사용하여 과제별 LoRA 조정을 수행합니다. 우리는 이러한 모델을 In-Context LoRA (IC-LoRA)라고 명명했습니다. 이 접근 방식은 원래 DiT 모델을 수정하지 않고 훈련 데이터만 변경하면 됩니다. 놀랍게도, 우리의 파이프라인은 프롬프트에 더 잘 부합하는 고품질 이미지 세트를 생성합니다. 튜닝 데이터에 대해서는 과제별이지만, 우리의 프레임워크는 아키텍처와 파이프라인에서 과제에 중립적이며, 커뮤니티에 강력한 도구를 제공하고 제품 수준의 과제에 중립적인 생성 시스템에 대한 추가 연구에 유용한 통찰을 제공합니다. 우리는 코드, 데이터 및 모델을 https://github.com/ali-vilab/In-Context-LoRA에서 공개합니다.

얼굴 익명화 간단히 처리하기
Face Anonymization Made Simple

Nov 1

ByHan-Wei Kung, Tuomas Varanka, Sanjay Saha, Terence Sim, Nicu Sebe

현재의 얼굴 익명화 기술은 종종 얼굴 인식 모델에 의해 계산된 신원 손실에 의존하는데, 이는 부정확하고 신뢰할 수 없을 수 있습니다. 게다가 많은 방법들이 합성 과정을 안내하기 위해 얼굴 랜드마크나 마스크와 같은 보조 데이터를 필요로 합니다. 대조적으로, 우리의 접근 방식은 오직 재구성 손실만을 사용하는 확산 모델을 사용하여 얼굴 랜드마크나 마스크의 필요성을 제거하면서도 복잡하고 세밀한 세부 사항을 갖춘 이미지를 생성합니다. 우리는 우리의 결과를 양적 및 질적 평가를 통해 두 개의 공개 벤치마크에서 검증했습니다. 우리의 모델은 신원 익명화, 얼굴 속성 보존 및 이미지 품질이라는 세 가지 주요 영역에서 최첨단 성능을 달성합니다. 익명화의 주요 기능을 넘어서, 우리의 모델은 입력으로 추가적인 얼굴 이미지를 통합함으로써 얼굴 교체 작업도 수행할 수 있으며, 다양한 응용 분야에 대한 유연성과 잠재력을 보여줍니다. 우리의 코드와 모델은 https://github.com/hanweikung/face_anon_simple 에서 사용할 수 있습니다.

CityGaussianV2: 대규모 장면을 위한 효율적이고 기하학적으로 정확한 재구성
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes

Nov 1

ByYang Liu, Chuanchen Luo, Zhongkai Mao, Junran Peng, Zhaoxiang Zhang

최근에는 3D 가우시안 스플래팅(3DGS)이 광도 필드 재구성을 혁신적으로 바꾸어 새로운 시점 합성을 효율적이고 고품질로 구현하고 있습니다. 그러나 특히 대규모 및 복잡한 시나리오에서 표면을 정확하게 표현하는 것은 3DGS의 비구조적 특성으로 인해 여전히 중요한 도전 과제입니다. 본 논문에서는 기하학적 정확도와 효율성과 관련된 중요한 과제에 대응하는 대규모 장면 재구성을 위한 새로운 접근 방식인 CityGaussianV2를 제안합니다. 2D 가우시안 스플래팅(2DGS)의 유리한 일반화 능력을 기반으로 하여 수렴 및 확장성 문제를 다루고 있습니다. 구체적으로, 흐릿한 아티팩트를 제거하고 수렴을 가속화하기 위해 분해된 기울기 기반의 밀집화 및 깊이 회귀 기술을 구현합니다. 규모를 확장하기 위해 2DGS의 퇴화로 인한 가우시안 카운트 폭발을 완화하는 연장 필터를 도입합니다. 더불어, 병렬 훈련을 위해 CityGaussian 파이프라인을 최적화하여 최대 10배의 압축, 훈련 시간에서 최소 25%의 절약, 그리고 메모리 사용량에서 50%의 감소를 달성합니다. 또한 대규모 장면에서 표준 기하학 벤치마크를 수립했습니다. 실험 결과는 우리의 방법이 시각적 품질, 기하학적 정확도, 저장 및 훈련 비용 사이에 유망한 균형을 이룬다는 것을 보여줍니다. 프로젝트 페이지는 https://dekuliutesla.github.io/CityGaussianV2/에서 확인할 수 있습니다.

학습 중 적응: 지능적인 도구 사용 적응을 통해 과학 문제에 대한 LLMs의 기초 설정
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Nov 1

ByBohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu

대형 언어 모델 (LLM)은 간단한 과학 문제를 해결하는 데 유망한 능력을 보여주지만 복잡한 문제에 대해서는 종종 환각을 유발합니다. LLM을 도구와 통합하는 것은 신뢰성을 높일 수 있지만, 이러한 접근 방식은 일반적으로 도구에 지나치게 의존하게 만들어 단순한 추론을 통해 문제를 해결하는 모델의 능력을 약화시킵니다. 이에 반해 인간 전문가는 적절한 해결 방법을 선택하기 전에 도메인 지식을 활용하여 문제 복잡성을 먼저 평가합니다. 이 인간의 문제 해결 과정에서 영감을 받아, 우리는 새로운 두 구성 요소의 세밀 조정 방법을 제안합니다. 첫 번째 구성 요소인 세계 지식 증류 (WKD)에서 LLM은 도구 정보를 활용하여 생성된 해결책으로부터 직접 도메인 지식을 내재화합니다. 두 번째 구성 요소인 도구 사용 적응 (TUA)에서는 모델의 직접적인 답변 정확도를 기반으로 문제를 쉬운 문제와 어려운 문제로 분류합니다. WKD에서와 같이 쉬운 문제에 대한 정렬 목표를 유지하면서, 더 어려운 문제에 대해서는 지능적으로 도구 사용으로 전환하도록 모델을 훈련시킵니다. 우리는 수학, 기후 과학 및 역학을 포함한 여섯 가지 과학적 벤치마크 데이터셋에서 우리의 방법을 검증합니다. 모든 데이터셋에서 우리 모델은 평균 28.18%의 정답 정확도 향상과 도구 사용 정밀도 13.89% 증가를 보여주며, GPT-4o 및 Claude-3.5를 포함한 최첨단 모델을 능가합니다.

지프 분포 백색화
Zipfian Whitening

Nov 1

BySho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira

신경 모델의 단어 임베딩 공간은 편향되어 있으며, 이를 보정함으로써 작업 성능을 향상시킬 수 있습니다. 우리는 임베딩 공간의 대칭성을 모델링하고 보정하며 측정하는 대부분의 방법이 단어 빈도가 균일하다고 가정하는 것을 지적합니다. 실제로 단어 빈도는 Zipf의 법칙이라고 알려진 매우 비균일한 분포를 따릅니다. 놀랍게도, Zipf의 법칙을 따르는 경험적인 단어 빈도에 의해 가중 PCA 화이트닝을 수행하는 것만으로도 작업 성능이 크게 향상되어 기존의 벤치마크를 능가합니다. 이론적인 관점에서 우리의 접근 방식과 기존 방법은 명확하게 분류될 수 있습니다. 단어 표현은 균일하거나 Zipf 법칙을 따르는 기저 측도를 갖는 지수 패밀리에 분포됩니다. 후자의 방법을 채택함으로써 낮은 빈도의 정보가 풍부한 단어를 벡터 노름을 통해 강조할 수 있으며, 정보 기하학적 관점과 불균형 분류를 위한 손실 함수에서 명확해집니다. 게다가, 우리의 이론은 skip-gram 부정 샘플링, WhiteningBERT 및 머리 없는 언어 모델과 같은 인기 있는 자연어 처리 방법이 잘 작동하는 이유는 그들의 단어 임베딩이 기저 확률 모델에 경험적인 단어 빈도를 인코딩하기 때문임을 입증합니다.

안녕하세요: 확산 모델에 고수준 및 충실한 조건을 포함하기 위해 공간적 니팅 주의를 통합하기
HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models

Oct 30

ByShengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao

텍스트-이미지 기반 모델에 어댑터를 삽입하는 효과적인 방법을 제안합니다. 이를 통해 복잡한 하류 작업을 수행하면서 기본 모델의 일반화 능력을 유지할 수 있습니다. 이 방법의 핵심 아이디어는 2D 특성 맵과 관련된 주의 메커니즘을 최적화하여 어댑터의 성능을 향상시키는 것입니다. 이 접근 방식은 미미 비디오 생성 작업에서 검증되었으며 상당한 결과를 달성했습니다. 이 연구가 대규모 텍스트-이미지 모델의 사후 훈련 작업에 대한 통찰을 제공할 수 있기를 희망합니다. 또한, 이 방법이 SD1.5 파생 모델과 호환성이 좋다는 것을 보여줌으로써 오픈 소스 커뮤니티에 일정한 가치를 제공합니다. 따라서 관련 코드를 공개할 것입니다 (https://songkey.github.io/hellomeme).

LIBMoE: 대형 언어 모델에서 Mixture of Experts를 포괄적으로 평가하기 위한 라이브러리
LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Nov 1

ByNam V. Nguyen, Thong T. Doan, Luong Tran, Van Nguyen, Quang Pham

전문가들은 전문가들의 혼합물(MoEs)이 더 효율적이고 효과적인 대형 언어 모델(LLMs)의 개발에 중요한 역할을 한다고 말합니다. 엄청난 자원 요구 사항으로 인해 대규모 MoE 알고리즘의 연구는 많은 연구자들에게 접근하기 어려운 상태입니다. 본 연구는 LibMoE를 개발하여 MoE 알고리즘의 연구, 훈련 및 평가를 간소화하는 포괄적이고 모듈식 프레임워크를 제시합니다. 모듈식 설계, 효율적인 훈련, 포괄적인 평가라는 세 가지 핵심 원칙을 기반으로 한 LibMoE는 훈련 및 평가 파이프라인을 표준화함으로써 다양한 연구자들에게 MoE를 LLMs에 더 쉽게 접근할 수 있도록 합니다. LibMoE를 사용하여, 우리는 세 가지 다른 LLMs와 11개의 데이터셋에서 제로샷 설정 하에 다섯 가지 최첨단 MoE 알고리즘을 철저히 벤치마킹했습니다. 결과는 독특한 특성에도 불구하고, 모든 MoE 알고리즘은 다양한 작업을 평균화했을 때 대체로 유사하게 수행됨을 보여줍니다. 모듈식 설계와 철저한 평가를 통해, 우리는 LibMoE가 연구자들이 의미 있는 진전을 이루기 위해 다음 세대 MoE와 LLMs로 나아가는 데 귀중한 도구가 될 것이라고 믿습니다. 프로젝트 페이지: https://fsoft-aic.github.io/fsoft-LibMoE.github.io.

SambaMixer: Mamba를 사용한 리튬이온 배터리의 건강 상태 예측을 위한 State Space 모델들
SambaMixer: State of Health Prediction of Li-ion Batteries using Mamba State Space Models

Oct 31

ByJosé Ignacio Olalde-Verano, Sascha Kirch, Clara Pérez-Molina, Sergio Martin

리튬이온 배터리의 건강 상태(SOH)는 배터리의 잔여 용량과 잔여 수명을 결정하는 중요한 매개 변수입니다. 본 논문에서는 리튬이온 배터리의 건강 상태를 예측하기 위한 혁신적인 구조화된 상태 공간 모델(SSM)인 SambaMixer를 제안합니다. 제안된 SSM은 다변량 시간 신호를 처리하기 위해 설계된 MambaMixer 아키텍처에 기반을 두고 있습니다. NASA 배터리 방전 데이터셋을 사용하여 모델을 평가하고, 해당 데이터셋에서 우수한 성능을 보이는 것을 보여줍니다. 또한, 시간 신호가 예상 길이를 갖도록 보장하면서 증강 기법으로도 작용하는 혁신적인 앵커 기반 리샘플링 방법을 소개합니다. 마지막으로, 위치 인코딩을 사용하여 샘플 시간과 주기 시간 차이에 대한 조건부 예측을 통해 모델의 성능을 향상시키고 회복 효과를 학습합니다. 결과적으로, 우리의 모델이 리튬이온 배터리의 SOH를 높은 정확도와 견고성으로 예측할 수 있다는 것을 입증합니다.

GRS-QA -- 그래프 추론 구조화 질문 응답 데이터셋
GRS-QA -- Graph Reasoning-Structured Question Answering Dataset

Nov 1

ByAnish Pahilajani, Devasha Trivedi, Jincen Shuai, Khin S. Yone, Samyak Rajesh Jain, Namyong Park, Ryan A. Rossi, Nesreen K. Ahmed, Franck Dernoncourt, Yu Wang

대형 언어 모델(Large Language Models, LLMs)은 고급 추론 능력으로 인해 다중 점프 질문 응답(Multi-hop Question-Answering, M-QA)에서 뛰어난 성과를 거두었습니다. 그러나 내재된 추론 구조가 LLM M-QA 성능에 미치는 영향은 QA 데이터셋에서 세밀한 추론 구조를 제공하지 않아 명확하지 않습니다. 이 간극을 해소하기 위해 우리는 그래프 추론 구조화 질문 응답 데이터셋(Graph Reasoning-Structured Question Answering Dataset, GRS-QA)을 소개합니다. 이 데이터셋은 QA 쌍을 위한 의미론적 맥락과 추론 구조를 모두 포함합니다. 기존 M-QA 데이터셋과 달리, 여러 추론 구조가 얽혀 있는 것과는 달리 GRS-QA는 추론 그래프를 구성하여 복잡한 추론 경로를 명시적으로 포착합니다. 여기서 노드는 텍스트 맥락을 나타내고 엣지는 논리적 흐름을 나타냅니다. 이러한 다양한 구조의 추론 그래프는 다양한 추론 구조를 통해 LLM 추론 능력을 세밀하게 평가할 수 있게 합니다. 우리의 경험적 분석 결과, LLM은 다양한 추론 구조를 다룰 때 서로 다른 성능을 보입니다. 이 결과는 의미론과 비교하여 텍스트 구조의 탐색을 용이하게 합니다.

M2rc-Eval: 대규모 다국어 저장소 수준의 코드 완성 평가
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

Oct 28

ByJiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng

소스 코드 저장소 수준의 코드 완성은 소프트웨어 엔지니어링에서 큰 관심을 끌었으며, 여러 벤치마크 데이터셋이 소개되었습니다. 그러나 기존의 소스 코드 저장소 수준의 코드 완성 벤치마크는 일반적인 코드 지능 능력을 다양한 언어 간에 평가할 수 없는 제한된 언어(<5)에 주로 초점을 맞추고 있습니다. 또한 기존의 벤치마크는 일반적으로 다른 언어의 전반적인 평균 점수를 보고하며, 다양한 완성 시나리오에서의 세부적인 능력은 무시됩니다. 따라서 다국어 환경에서 코드 대형 언어 모델(LLMs)의 연구를 용이하게 하기 위해, 18가지 프로그래밍 언어를 포함하는 대규모 다국어 소스 코드 저장소 수준의 코드 완성 벤치마크(M2RC-EVAL)를 제안하며, 다양한 완성 시나리오에 대한 버킷 수준 및 의미 수준의 두 가지 세부적인 주석(즉, 버킷 수준 및 의미 수준)을 제공합니다. 이러한 주석은 파싱된 추상 구문 트리를 기반으로 얻었습니다. 게다가, 우리는 기존 코드 LLMs의 소스 코드 저장소 수준의 코드 완성 능력을 향상시키기 위해 대규모 다국어 지시어 말뭉치 M2RC-INSTRUCT 데이터셋을 정리했습니다. 포괄적인 실험 결과는 우리의 M2RC-EVAL 및 M2RC-INSTRUCT의 효과를 입증합니다.

WikiNER-fr-gold: 골드 표준 NER 말뭉치
WikiNER-fr-gold: A Gold-Standard NER Corpus

Oct 29

ByDanrun Cao, Nicolas Béchet, Pierre-François Marteau

본 논문에서는 다국어 Named Entity Recognition 말뭉치인 WikiNER 말뭉치의 품질을 다루며, 이를 통합된 버전으로 제공합니다. WikiNER의 주석은 반자동 방식으로 생성되었으며, 사후 수동 확인 작업은 수행되지 않았습니다. 이러한 말뭉치는 은색 표준이라고 합니다. 본 논문에서는 WikiNER의 프랑스어 부분의 수정된 버전인 WikiNER-fr-gold를 제안합니다. 저희 말뭉치는 원래의 프랑스어 하위 말뭉치(26,818 문장, 700k 토큰)의 무작위 샘플링된 20%로 구성되어 있습니다. 우리는 각 범주에 포함된 개체 유형을 요약하여 주석 가이드라인을 정의한 후 말뭉치를 수정하는 작업을 시작합니다. 마지막으로, WikiNER-fr 말뭉치에서 관찰된 오류와 불일치에 대한 분석을 제시하고, 잠재적인 향후 작업 방향에 대해 논의합니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OS-ATLAS: 일반 GUI 에이전트를 위한 기초 행동 모델
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents

Oct 30

ByZhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, Yu Qiao

대규모 언어 모델의 개인화: 조사
Personalization of Large Language Models: A Survey

Oct 29

일정 가속도 흐름
Constant Acceleration Flow

Nov 1

ByDogyun Park, Sojin Lee, Sihyeon Kim, Taehoon Lee, Youngjoon Hong, Hyunwoo J. Kim

토마토: 다중 모달 기반 모델에서 시각적 시간적 추론 능력 평가
TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

Oct 30

ByZiyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

랜덤화된 자기회귀적 시각 생성
Randomized Autoregressive Visual Generation

Nov 1

ByQihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

DynaMath: 시각 언어 모델의 수학 추론 강인성을 평가하기 위한 동적 시각 벤치마크
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

Oct 29

ByChengke Zou, Xingang Guo, Rui Yang, Junyu Zhang, Bin Hu, Huan Zhang

다음 토큰 예측에서의 물리학
Physics in Next-token Prediction

Nov 1

ByHongjun An, Yiliang Song, Xuelong Li

GPT 또는 BERT: 왜 둘 다 선택하지 않을까요?
GPT or BERT: why not both?

Oct 31

ByLucas Georges Gabriel Charpentier, David Samuel

생성적 AI 응용 프로그램에서 사용자 인터페이스 디자인 및 상호 작용 기술 조사
Survey of User Interface Design and Interaction Techniques in Generative AI Applications

Oct 28

ByReuben Luera, Ryan A. Rossi, Alexa Siu, Franck Dernoncourt, Tong Yu, Sungchul Kim, Ruiyi Zhang, Xiang Chen, Hanieh Salehy, Jian Zhao, Samyadeep Basu, Puneet Mathur, Nedim Lipka