ChatPaper.aiChatPaper.ai
홈

arXiv

HuggingFace

요금제계정작업공간

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

1

OpenCoder: 최상위 코드 대형 언어 모델을 위한 오픈 쿡북
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Nov 7
BySiming Huang, Tianhao Cheng, Jason Klein Liu, Jiaran Hao, Liuyihan Song, Yang Xu, J. Yang, J. H. Liu, Chenchen Zhang, Linzheng Chai, Ruifeng Yuan, Zhaoxiang Zhang, Jie Fu, Qian Liu, Ge Zhang, Zili Wang, Yuan Qi, Yinghui Xu, Wei Chu
128
6

코드를 위한 대형 언어 모델(LLMs)은 코드 생성, 추론 작업, 에이전트 시스템 등 다양한 분야에서 필수적인 도구로 자리 잡았습니다. 오픈 액세스 코드 LLMs는 점차 독점 모델의 성능 수준에 근접하고 있지만, 엄격한 과학적 연구에 적합한 고품질 코드 LLMs, 특히 재현 가능한 데이터 처리 파이프라인과 투명한 훈련 프로토콜을 갖춘 모델은 여전히 제한적입니다. 이러한 부족은 자원 제약, 윤리적 고려사항, 그리고 모델의 선진성을 유지하려는 경쟁적 이점 등 다양한 도전 과제에 기인합니다. 이러한 격차를 해소하기 위해, 우리는 OpenCoder를 소개합니다. 이는 선도적인 모델과 견줄 만한 성능을 달성할 뿐만 아니라 연구 커뮤니티를 위한 "오픈 쿡북" 역할을 하는 최상위 코드 LLM입니다. 대부분의 기존 노력과 달리, 우리는 모델 가중치와 추론 코드뿐만 아니라 재현 가능한 훈련 데이터, 완전한 데이터 처리 파이프라인, 엄격한 실험적 절제 결과, 그리고 공개 과학 연구를 위한 상세한 훈련 프로토콜을 공개합니다. 이 포괄적인 공개를 통해, 우리는 최상위 코드 LLM을 구축하기 위한 핵심 요소를 확인했습니다: (1) 코드 최적화 휴리스틱 규칙과 데이터 중복 제거 방법, (2) 코드와 관련된 텍스트 코퍼스의 회상, 그리고 (3) 어닐링 및 지도 미세 조정 단계에서의 고품질 합성 데이터. 이러한 수준의 개방성을 제공함으로써, 우리는 OpenCoder가 강력한 모델이자 연구를 가속화하고 코드 AI 분야에서 재현 가능한 진보를 가능하게 하는 개방된 기반으로서, 최상위 코드 LLM의 모든 측면에 대한 접근성을 확대하고자 합니다.

2

BitNet a4.8: 1비트 대형 언어 모델을 위한 4비트 활성화
BitNet a4.8: 4-bit Activations for 1-bit LLMs

Nov 7
ByHongyu Wang, Shuming Ma, Furu Wei
69
6

최근 BitNet b1.58과 같은 1비트 대형 언어 모델(LLM)에 대한 연구는 LLM의 추론 비용을 줄이면서도 성능을 유지할 수 있는 유망한 방향을 제시하고 있다. 본 연구에서는 1비트 LLM에 4비트 활성화를 가능하게 하는 BitNet a4.8을 소개한다. BitNet a4.8은 하이브리드 양자화 및 희소화 전략을 사용하여 이상치 채널로 인해 발생하는 양자화 오류를 완화한다. 구체적으로, 어텐션 및 피드포워드 네트워크 계층에 대한 입력에는 4비트 활성화를 사용하고, 중간 상태는 희소화한 후 8비트 양자화를 적용한다. 광범위한 실험을 통해 BitNet a4.8은 동일한 학습 비용으로 BitNet b1.58과 비슷한 성능을 달성하면서도 4비트(INT4/FP4) 커널을 활성화하여 더 빠른 추론 속도를 보여준다. 또한, BitNet a4.8은 매개변수의 55%만 활성화하고 3비트 KV 캐시를 지원함으로써 대규모 LLM 배포 및 추론의 효율성을 더욱 향상시킨다.

3

DimensionX: 단일 이미지로부터 제어 가능한 비디오 확산을 통한 3D 및 4D 장면 생성
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Nov 7
ByWenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang
57
4

본 논문에서는 단일 이미지와 비디오 확산을 통해 사실적인 3D 및 4D 장면을 생성하도록 설계된 프레임워크인 DimensionX를 소개한다. 우리의 접근 방식은 3D 장면의 공간적 구조와 4D 장면의 시간적 변화 모두가 비디오 프레임 시퀀스를 통해 효과적으로 표현될 수 있다는 통찰에서 시작된다. 최근 비디오 확산 모델들은 생생한 시각적 결과물을 생성하는 데 있어 뛰어난 성과를 보여주었지만, 생성 과정에서 공간적 및 시간적 제어 가능성이 제한적이기 때문에 3D/4D 장면을 직접 복원하는 데 한계가 있다. 이를 극복하기 위해, 우리는 차원 변이 데이터로부터 차원 인식 LoRA를 학습함으로써 비디오 확산에서 공간적 및 시간적 요소를 분리하는 ST-Director를 제안한다. 이 제어 가능한 비디오 확산 접근법은 공간적 구조와 시간적 역학을 정밀하게 조작할 수 있게 하여, 공간적 및 시간적 차원의 조합을 통해 순차적 프레임으로부터 3D 및 4D 표현을 재구성할 수 있도록 한다. 또한, 생성된 비디오와 실제 장면 간의 격차를 줄이기 위해, 3D 생성을 위한 궤적 인식 메커니즘과 4D 생성을 위한 정체성 보존 잡음 제거 전략을 도입하였다. 다양한 실제 및 합성 데이터셋에 대한 광범위한 실험을 통해 DimensionX가 기존 방법들에 비해 제어 가능한 비디오 생성 및 3D 및 4D 장면 생성에서 우수한 결과를 달성함을 입증하였다.

4

혼합형 트랜스포머: 다중 모달 기반 모델을 위한 희소 및 확장 가능한 아키텍처
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Nov 7
ByWeixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-tau Yih, Luke Zettlemoyer, Xi Victoria Lin
51
2

대규모 언어 모델(LLM)의 발전은 텍스트, 이미지, 음성을 통합된 프레임워크 내에서 처리할 수 있는 다중 모달 시스템으로 확장되었습니다. 이러한 모델을 학습시키기 위해서는 텍스트 전용 LLM에 비해 훨씬 더 큰 데이터셋과 계산 자원이 필요합니다. 이러한 확장 문제를 해결하기 위해, 우리는 사전 학습 계산 비용을 크게 줄이는 희소 다중 모달 트랜스포머 아키텍처인 Mixture-of-Transformers(MoT)를 소개합니다. MoT는 피드포워드 네트워크, 어텐션 행렬, 레이어 정규화를 포함한 모델의 비임베딩 파라미터를 모달리티별로 분리하여, 전체 입력 시퀀스에 대한 전역적 자기 어텐션을 통해 모달리티별 처리를 가능하게 합니다. 우리는 MoT를 다양한 설정과 모델 규모에서 평가했습니다. Chameleon 7B 설정(자기회귀적 텍스트 및 이미지 생성)에서 MoT는 FLOPs의 55.8%만 사용하여 밀집 기준 모델의 성능과 동등한 성능을 보였습니다. 음성을 포함하도록 확장했을 때, MoT는 FLOPs의 37.2%만으로 밀집 기준 모델과 비슷한 음성 성능을 달성했습니다. 텍스트와 이미지가 서로 다른 목표로 학습되는 Transfusion 설정에서, 7B MoT 모델은 FLOPs의 1/3만으로 밀집 기준 모델의 이미지 모달리티 성능과 동등한 성능을 보였으며, 760M MoT 모델은 주요 이미지 생성 지표에서 1.4B 밀집 기준 모델을 능가했습니다. 시스템 프로파일링은 MoT의 실질적인 이점을 더욱 강조하며, 밀집 기준 모델의 이미지 품질을 47.2%의 벽시계 시간으로, 텍스트 품질을 75.6%의 벽시계 시간으로 달성했습니다(AWS p4de.24xlarge 인스턴스와 NVIDIA A100 GPU에서 측정).

5

M3DocRAG: 다중 페이지 및 다중 문서 이해를 위한 다중 모달 검색의 필요성
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding

Nov 7
ByJaemin Cho, Debanjan Mahata, Ozan Irsoy, Yujie He, Mohit Bansal
30
4

문서 시각 질의응답(DocVQA) 파이프라인은 문서에서 질문에 답변하는 다양한 응용 분야를 가지고 있다. 기존 방법들은 다중 모달 언어 모델(MLM)을 사용하여 단일 페이지 문서를 처리하거나, 광학 문자 인식(OCR)과 같은 텍스트 추출 도구를 사용하는 텍스트 기반 검색 증강 생성(RAG)에 의존한다. 그러나 이러한 방법들은 실제 시나리오에서 적용하기 어려운 점이 있다: (a) 질문은 종종 여러 페이지나 문서에 걸친 정보를 요구하는데, MLM은 많은 긴 문서를 처리할 수 없다; (b) 문서는 그림과 같은 시각적 요소에 중요한 정보가 포함되어 있지만, 텍스트 추출 도구는 이를 무시한다. 우리는 다양한 문서 컨텍스트(폐쇄 도메인 및 개방 도메인), 질문 홉(단일 홉 및 다중 홉), 그리고 증거 모달리티(텍스트, 차트, 그림 등)를 유연하게 수용하는 새로운 다중 모달 RAG 프레임워크인 M3DocRAG를 소개한다. M3DocRAG는 다중 모달 검색기와 MLM을 사용하여 관련 문서를 찾고 질문에 답변함으로써, 시각적 정보를 보존하면서 단일 또는 여러 문서를 효율적으로 처리할 수 있다. 기존의 DocVQA 데이터셋은 특정 문서의 컨텍스트에서 질문을 하기 때문에, 우리는 3,000개 이상의 PDF 문서와 40,000개 이상의 페이지를 대상으로 개방 도메인 DocVQA를 평가하기 위한 새로운 벤치마크인 M3DocVQA도 제시한다. 세 가지 벤치마크(M3DocVQA/MMLongBench-Doc/MP-DocVQA)에서의 실험 결과는 ColPali와 Qwen2-VL 7B를 사용한 M3DocRAG가 많은 강력한 베이스라인을 능가하며, 특히 MP-DocVQA에서 최첨단 성능을 달성함을 보여준다. 우리는 다양한 인덱싱, MLM, 그리고 검색 모델에 대한 포괄적인 분석을 제공한다. 마지막으로, M3DocRAG가 여러 페이지에 걸친 관련 정보가 존재하거나 답변 증거가 이미지에만 존재하는 다양한 시나리오를 성공적으로 처리할 수 있음을 정성적으로 보여준다.

6

VideoGLaMM: 비디오 내 픽셀 수준 시각적 그라운딩을 위한 대규모 멀티모달 모델
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Nov 7
ByShehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan
24
3

비디오와 텍스트 간의 세밀한 정렬은 비디오 내 복잡한 공간적 및 시간적 역학으로 인해 어려운 과제입니다. 기존의 비디오 기반 대형 다중모달 모델(LMM)은 기본적인 대화를 처리할 수 있지만, 비디오 내 정확한 픽셀 수준의 접지에는 어려움을 겪습니다. 이를 해결하기 위해, 우리는 사용자 제공 텍스트 입력을 기반으로 비디오 내 세밀한 픽셀 수준의 접지를 위해 설계된 LMM인 VideoGLaMM을 소개합니다. 우리의 설계는 세 가지 주요 구성 요소를 원활하게 연결합니다: 대형 언어 모델, 공간적 및 시간적 세부 사항을 강조하는 이중 비전 인코더, 그리고 정확한 마스크 생성을 위한 시공간 디코더입니다. 이 연결은 Vision-Language(VL) 정렬을 가능하게 하는 조정 가능한 V-L 및 L-V 어댑터를 통해 이루어집니다. 이 아키텍처는 비디오 콘텐츠의 공간적 및 시간적 요소를 텍스트 지시와 동기화하도록 훈련됩니다. 세밀한 접지를 가능하게 하기 위해, 우리는 반자동 주석 파이프라인을 사용하여 시각적으로 접지된 상세한 대화를 포함한 다중모달 데이터셋을 구축하였으며, 이는 38k개의 비디오-QA 트리플렛과 83k개의 객체, 그리고 671k개의 마스크로 구성된 다양한 데이터셋을 결과로 얻었습니다. 우리는 VideoGLaMM을 세 가지 도전적인 작업에서 평가합니다: 접지된 대화 생성, 시각적 접지, 그리고 참조 비디오 분할. 실험 결과는 우리의 모델이 이 세 가지 작업 모두에서 기존 접근법을 일관되게 능가함을 보여줍니다.

7

시각적 토큰의 언어 분석
Analyzing The Language of Visual Tokens

Nov 7
ByDavid M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell
24
2

비전 및 언어 작업을 위한 트랜스포머 기반 모델인 LLaVA와 Chameleon의 도입으로, 이미지의 이산 토큰화된 표현에 대한 새로운 관심이 촉발되었다. 이러한 모델들은 종종 이미지 패치를 자연어의 단어와 유사한 이산 토큰으로 취급하며, 시각 언어와 인간 언어 간의 공동 정렬을 학습한다. 그러나 이러한 시각 언어의 통계적 행동에 대해서는 알려진 바가 거의 없다. 즉, 이들이 자연어와 유사한 빈도 분포, 문법 구조 또는 토폴로지를 따르는지 여부는 불분명하다. 본 논문에서는 이산 시각 언어를 분석하기 위해 자연어 중심 접근법을 취하며, 놀라운 유사성과 근본적인 차이점을 밝힌다. 우리는 시각 언어가 지프 분포를 따르지만, 더 높은 토큰 혁신이 더 큰 엔트로피와 더 낮은 압축을 유도하며, 토큰이 주로 객체의 부분을 나타내어 중간 수준의 세분성을 보인다는 것을 입증한다. 또한, 시각 언어는 응집력 있는 문법 구조가 부족하여 자연어에 비해 더 높은 복잡성과 더 약한 계층적 조직을 보인다는 것을 보여준다. 마지막으로, 비전 모델이 다른 모델들보다 자연어와 더 밀접하게 정렬되지만, 이러한 정렬은 자연어 내에서 발견되는 응집력에 비해 상당히 약하다는 것을 입증한다. 이러한 실험을 통해, 이산 시각 언어의 통계적 특성을 이해하는 것이 더 효과적인 컴퓨터 비전 모델 설계에 어떻게 기여할 수 있는지를 보여준다.

8

타노스: 스킬 오브 마인드가 융합된 대규모 언어 모델로 대화형 에이전트 강화하기
Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

Nov 7
ByYoung-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi
23
3

대화 상대와의 사회적 유대감을 높이기 위해 인간은 주어진 상황에서 어떤 대화 기술이 응답에 가장 적합한지를 고려하여 적절히 반응하는 능력을 자연스럽게 습득합니다. 이러한 과정을 우리는 '마음의 기술(skill-of-mind)'이라고 부릅니다. 대형 언어 모델(LLM) 기반 대화 에이전트의 경우, 인간과 같이 적절한 대화 기술을 계획하는 것은 사회적 대화의 복잡성, 특히 상호작용 시나리오에서 어려운 과제입니다. 이를 해결하기 위해, 우리는 다양한 상호작용 시나리오(예: 장기적, 상담, 작업 지향적)와 다양한 사회적 맥락(예: 인구통계학적 특성, 페르소나, 경험적 규칙)에 기반한 다면적 대화 기술을 포함한 '다면적 마음의 기술(Multifaceted Skill-of-mind)'이라는 주석이 달린 대화 데이터셋을 제안합니다. 이 데이터셋은 약 10만 건의 대화로 구성되어 있습니다. 이 데이터셋을 활용하여, 우리는 1B, 3B, 8B 매개변수 크기의 '타노스(Thanos)'라는 새로운 마음의 기술이 반영된 LLM 모델군을 소개합니다. 광범위한 실험을 통해, 이 모델들은 마음의 기술 과정을 성공적으로 보여주며 다양한 도메인에서 다면적 기술을 추론하는 데 있어 강력한 일반화 능력을 보여줍니다. 또한, 타노스는 LLM 기반 대화 에이전트가 생성하는 응답의 질을 크게 향상시키고, 인간 평가에서 친사회적 행동을 촉진하는 것으로 나타났습니다.

9

SVDQunat: 4비트 확산 모델에서 저랭크 성분을 통한 이상치 흡수
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

Nov 7
ByMuyang Li, Yujun Lin, Zhekai Zhang, Tianle Cai, Xiuyu Li, Junxian Guo, Enze Xie, Chenlin Meng, Jun-Yan Zhu, Song Han
22
3

디퓨전 모델은 고품질 이미지 생성에 매우 효과적인 것으로 입증되었습니다. 그러나 이러한 모델의 규모가 커짐에 따라 더 많은 메모리를 필요로 하고 높은 지연 시간을 겪게 되어 배포에 상당한 어려움을 초래합니다. 본 연구에서는 디퓨전 모델의 가중치와 활성화를 4비트로 양자화하여 가속화하는 것을 목표로 합니다. 이처럼 공격적인 수준에서 가중치와 활성화는 모두 매우 민감하며, 대형 언어 모델에 대한 기존의 훈련 후 양자화 방법(예: 평활화)은 불충분합니다. 이러한 한계를 극복하기 위해 우리는 SVDQuant라는 새로운 4비트 양자화 패러다임을 제안합니다. 가중치와 활성화 사이의 이상치를 재분배하는 평활화와 달리, 우리의 접근 방식은 저랭크 분기를 사용하여 이러한 이상치를 흡수합니다. 먼저 활성화에서 가중치로 이상치를 이동시켜 통합한 다음, 특이값 분해(SVD)를 통해 고정밀 저랭크 분기가 가중치 이상치를 처리하도록 합니다. 이 과정은 양쪽의 양자화를 용이하게 합니다. 그러나 저랭크 분기를 독립적으로 실행하면 활성화의 추가 데이터 이동으로 인해 상당한 오버헤드가 발생하여 양자화의 속도 향상 효과를 상쇄시킵니다. 이를 해결하기 위해 우리는 저랭크 분기의 커널을 저비트 분기의 커널에 융합하여 불필요한 메모리 접근을 차단하는 추론 엔진 Nunchaku를 공동 설계했습니다. 또한 이 엔진은 재양자화 없이도 기존의 저랭크 어댑터(LoRA)를 원활하게 지원할 수 있습니다. SDXL, PixArt-Sigma, FLUX.1에 대한 광범위한 실험을 통해 SVDQuant가 이미지 품질을 유지하는 데 효과적임을 검증했습니다. 우리는 12B FLUX.1 모델의 메모리 사용량을 3.5배 줄이고, 16GB 노트북 4090 GPU에서 4비트 가중치 전용 양자화 기준선 대비 3.0배의 속도 향상을 달성하여 PC에서 더 상호작용적인 애플리케이션을 위한 길을 열었습니다. 우리의 양자화 라이브러리와 추론 엔진은 오픈소스로 공개되었습니다.

10

바늘에 실 꿰기: LLM이 거의 백만 규모의 건초더미 속 실을 따라갈 수 있는가?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

Nov 7
ByJonathan Roberts, Kai Han, Samuel Albanie
22
3

대형 언어 모델(LLMs)의 컨텍스트 한계가 증가함에 따라, 가능한 응용 프로그램 및 하위 기능의 범위도 확장되고 있다. 많은 실제 작업에서, 결정은 주로 관련 없는 정보를 포함하는 종종 이질적인 문서 모음에 흩어져 있는 세부 사항에 의존한다. 장문 컨텍스트 LLMs는 전통적으로 비용이 많이 들고 시간이 소요되는 이러한 형태의 복잡한 정보 검색 및 추론에 적합해 보인다. 그러나 최근 몇 년 동안 더 긴 컨텍스트 모델의 개발이 급속히 진행되었음에도 불구하고, LLMs가 컨텍스트를 얼마나 효과적으로 사용하는지에 대한 이해는 그 속도를 따라잡지 못하고 있다. 이를 해결하기 위해, 우리는 17개의 주요 LLMs의 능력을 평가하기 위해 설계된 일련의 검색 실험을 수행한다. 예를 들어, 컨텍스트 창을 통해 정보의 흐름을 따라가는 능력 등을 평가한다. 놀랍게도, 많은 모델이 여러 흐름을 동시에 따라가면서도 성능의 유의미한 손실 없이 이를 수행할 수 있는 것으로 나타났다. 그러나 많은 모델의 경우, 지원되는 컨텍스트 길이보다 실제 컨텍스트 한계가 상당히 짧으며, 컨텍스트 창이 커질수록 정확도가 감소하는 것으로 나타났다. 또한, 우리의 연구는 서로 다른 토크나이저의 토큰 수를 직접 비교해서는 안 된다는 중요한 점을 강조한다. 이들은 종종 상당히 다른 수의 문자에 해당한다. 우리는 코드와 장문 컨텍스트 실험 데이터를 공개한다.

11

DynaMem: 개방형 세계 모바일 조작을 위한 온라인 동적 시공간-의미론적 메모리
DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

Nov 7
ByPeiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
18
2

개방형 어휘 모바일 조작 분야에서는 로봇이 자연어 설명을 바탕으로 어떤 환경에서도 작업을 수행할 수 있도록 하는 것을 목표로 상당한 진전이 이루어졌다. 그러나 현재 대부분의 시스템은 정적 환경을 가정하고 있어, 인간의 개입이나 로봇의 자체 행동으로 인해 환경이 자주 변화하는 실제 시나리오에서의 적용 가능성이 제한된다. 본 연구에서는 로봇의 환경을 표현하기 위해 동적 공간-의미적 메모리를 사용하는 개방형 세계 모바일 조작을 위한 새로운 접근법인 DynaMem을 제안한다. DynaMem은 동적 포인트 클라우드 메모리를 유지하기 위해 3D 데이터 구조를 구축하고, 최첨단 비전-언어 모델에서 생성된 다중모달 LLM 또는 개방형 어휘 특징을 사용하여 개방형 어휘 객체 위치 지정 쿼리에 응답한다. DynaMem을 통해 우리의 로봇은 새로운 환경을 탐색하고, 메모리에 없는 객체를 검색하며, 장면에서 객체가 이동하거나 나타나거나 사라질 때 메모리를 지속적으로 업데이트할 수 있다. 우리는 Stretch SE3 로봇을 사용하여 세 개의 실제 장면과 아홉 개의 오프라인 장면에서 광범위한 실험을 수행했으며, 비정적 객체에 대한 평균 픽앤드랍 성공률이 70%로, 최첨단 정적 시스템 대비 2배 이상의 성능 향상을 달성했다. 우리의 코드와 실험 및 배포 비디오는 오픈소스로 제공되며 프로젝트 웹사이트(https://dynamem.github.io/)에서 확인할 수 있다.

12

RetrieveGPT: 코드 혼합 정보 검색 향상을 위한 프롬프트와 수학적 모델의 융합
RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval

Nov 7
ByAniket Deroy, Subhankar Maity
17
3

코드 혼합(code-mixing)은 단일 문장 내에서 여러 언어의 어휘 및 문법적 요소를 통합하는 것으로, 특히 다중언어 사회에서 널리 관찰되는 언어적 현상이다. 인도에서는 소셜 미디어 사용자들이 로마자 표기를 사용하여 코드 혼합 대화를 빈번히 나누며, 특히 이주민 커뮤니티가 관련 지역 정보를 공유하기 위해 온라인 그룹을 형성하는 경우가 많다. 본 논문은 로마자로 음역된 벵골어와 영어가 혼합된 코드 혼합 대화에서 관련 정보를 추출하는 데 따른 어려움에 초점을 맞춘다. 이 연구는 코드 혼합 대화에서 가장 관련성 높은 답변을 자동으로 식별하기 위한 메커니즘을 개발하여 이러한 문제를 해결하는 새로운 접근 방식을 제시한다. 페이스북에서 수집한 질문과 문서 데이터셋 및 질문 관련성 파일(QRels)을 활용하여 실험을 진행하였으며, 그 결과 복잡한 코드 혼합 디지털 대화에서 적절한 정보를 추출하는 데 있어 본 접근 방식의 효과성을 입증하였다. 이는 다중언어 및 비형식적 텍스트 환경에서의 자연어 처리 분야에 기여한다. 우리는 GPT-3.5 Turbo를 프롬프팅 방식으로 활용하고, 관련 문서의 순차적 특성을 활용하여 질문에 해당하는 관련 문서를 탐지하는 데 도움을 주는 수학적 모델을 구축하였다.

13

M3SciQA: 기초 모델 평가를 위한 다중 모달 다중 문서 과학 QA 벤치마크
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models

Nov 6
ByChuhan Li, Ziyao Shangguan, Yilun Zhao, Deyuan Li, Yixin Liu, Arman Cohan
17
2

기존의 파운데이션 모델 평가를 위한 벤치마크는 주로 단일 문서, 텍스트 전용 작업에 초점을 맞추고 있다. 그러나 이러한 벤치마크는 일반적으로 비텍스트 데이터를 해석하고 여러 문서에 걸쳐 정보를 수집하는 연구 워크플로의 복잡성을 충분히 반영하지 못하는 경우가 많다. 이러한 격차를 해결하기 위해, 우리는 파운데이션 모델의 보다 포괄적인 평가를 위해 설계된 다중 모달, 다중 문서 과학 질의응답 벤치마크인 M3SciQA를 소개한다. M3SciQA는 70개의 자연어 처리 논문 클러스터에 걸쳐 전문가가 주석을 단 1,452개의 질문으로 구성되어 있으며, 각 클러스터는 주요 논문과 그 논문이 인용한 모든 문서를 포함하여, 다중 모달 및 다중 문서 데이터를 요구함으로써 단일 논문을 이해하는 워크플로를 반영한다. M3SciQA를 통해 우리는 18개의 파운데이션 모델에 대한 포괄적인 평가를 수행하였다. 우리의 결과는 현재의 파운데이션 모델들이 다중 모달 정보 검색 및 여러 과학 문서 간의 추론에서 인간 전문가에 비해 여전히 크게 뒤처지는 것을 보여준다. 또한, 우리는 이러한 발견이 다중 모달 과학 문헌 분석에서 파운데이션 모델 적용의 미래 발전에 미치는 함의를 탐구한다.

14

GazeGen: 시각 콘텐츠 생성을 위한 시선 기반 사용자 상호작용
GazeGen: Gaze-Driven User Interaction for Visual Content Generation

Nov 7
ByHe-Yen Hsieh, Ziyun Li, Sai Qian Zhang, Wei-Te Mark Ting, Kao-Den Chang, Barbara De Salvo, Chiao Liu, H. T. Kung
15
2

우리는 사용자의 시선이 가리키는 위치에 대한 시각적 콘텐츠(이미지 및 비디오)를 생성하는 사용자 상호작용 시스템인 GazeGen을 소개한다. GazeGen은 시선을 통해 관심 영역을 타겟팅함으로써 직관적인 시각적 콘텐츠 조작을 가능하게 한다. 객체 탐지 및 생성형 AI 기술을 활용하여, GazeGen은 시선으로 제어되는 이미지 추가/삭제, 재배치, 이미지 객체의 표면 재질 변경, 그리고 정적 이미지를 동영상으로 변환하는 작업을 수행한다. GazeGen의 핵심은 DFT Gaze(Distilled and Fine-Tuned Gaze) 에이전트로, 단 281K 파라미터를 가진 초경량 모델로서, 소형 엣지 디바이스에서 개별 사용자의 눈에 맞춰 정확한 실시간 시선 예측을 수행한다. GazeGen은 실시간 시선 추정과 시각적 콘텐츠 생성을 결합한 최초의 시스템으로, 이는 DFT Gaze에 의해 독점적으로 가능해졌다. 이 실시간 시선 추정은 사용자의 시선으로 제어되는 다양한 시각적 콘텐츠 생성 작업을 가능하게 한다. DFT Gaze의 입력은 사용자의 눈 이미지이며, 시각적 콘텐츠 생성을 위한 입력은 사용자의 시야와 DFT Gaze에서 예측된 시선 지점이다. 효율적인 시선 예측을 달성하기 위해, 우리는 대형 모델(10배 더 큰)로부터 소형 모델을 도출하기 위해 새로운 지식 증류 및 개인 맞춤 기술을 적용했다. 우리는 지식 증류를 마스크된 오토인코더와 통합하여, 컴팩트하면서도 강력한 시선 추정 모델을 개발했다. 이 모델은 Adapters를 통해 추가로 미세 조정되어, 최소한의 사용자 입력으로도 높은 정확도와 개인화된 시선 예측을 가능하게 한다. DFT Gaze는 낮은 지연 시간과 정밀한 시선 추적을 보장하며, 다양한 시선 기반 작업을 지원한다. 우리는 DFT Gaze의 성능을 AEA 및 OpenEDS2020 벤치마크에서 검증하여, 엣지 디바이스(Raspberry Pi 4)에서 낮은 각도 시선 오류와 낮은 지연 시간을 입증했다. 또한, GazeGen의 다양한 활용 시나리오에서의 다용도성과 효과를 설명한다.

15

SG-I2V: 이미지-비디오 생성에서의 자기 주도적 궤적 제어
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

Nov 7
ByKoichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski, David B. Lindell
15
4

이미지-투-비디오 생성 방법은 인상적인 포토리얼리스틱 품질을 달성해 왔습니다. 그러나 생성된 비디오에서 객체의 움직임이나 카메라 이동과 같은 특정 요소를 조정하는 것은 종종 시행착오를 거치는 지루한 과정입니다. 예를 들어, 서로 다른 랜덤 시드를 사용하여 비디오를 다시 생성하는 것이 포함될 수 있습니다. 최근 기술은 바운딩 박스나 점 궤적과 같은 조건 신호를 따르도록 사전 훈련된 모델을 미세 조정하여 이 문제를 해결합니다. 그러나 이러한 미세 조정 절차는 계산 비용이 많이 들며, 주석이 달린 객체 움직임 데이터셋이 필요할 수 있어 이를 확보하기 어려울 수 있습니다. 본 연구에서는 사전 훈련된 이미지-투-비디오 확산 모델에 내재된 지식만을 활용하여 미세 조정이나 외부 지식 없이도 제로샷 제어를 제공하는 자기 주도형 프레임워크인 SG-I2V를 소개합니다. 우리의 제로샷 방법은 비지도 학습 기준선을 능가하면서 시각적 품질과 움직임 충실도 측면에서 지도 학습 모델과 경쟁력을 보입니다.

16

Diff-2-in-1: 생성과 조밀 인식을 연결하는 확산 모델
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Nov 7
ByShuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
13
2

고품질 이미지 합성을 넘어 최근 확산 모델은 조밀 시각 인식 작업에서도 유망한 결과를 보여주고 있습니다. 그러나 대부분의 기존 연구는 확산 모델을 인식 작업을 위한 독립적인 구성 요소로 취급하며, 오프더셰lf 데이터 증강에만 활용하거나 단순한 특징 추출기로만 사용하고 있습니다. 이러한 단편적이고 따라서 차선책인 접근과 달리, 우리는 확산-제거 과정을 독창적으로 활용하여 다중 모달 데이터 생성과 조밀 시각 인식을 동시에 처리할 수 있는 통합적이고 다목적의 확산 기반 프레임워크인 Diff-2-in-1을 소개합니다. 이 프레임워크 내에서 우리는 제거 네트워크를 활용하여 원본 훈련 세트의 분포를 반영하는 다중 모달 데이터를 생성함으로써 판별적 시각 인식을 다중 모달 생성 통해 더욱 향상시킵니다. 중요한 것은, Diff-2-in-1이 새로운 자기 개선 학습 메커니즘을 활용하여 생성된 다양하고 정확한 데이터의 활용을 최적화한다는 점입니다. 포괄적인 실험 평가를 통해 우리 프레임워크의 효과성이 입증되었으며, 다양한 판별적 백본에서 일관된 성능 향상과 현실성과 유용성을 모두 갖춘 고품질 다중 모달 데이터 생성이 확인되었습니다.

Nov 7
Nov 8
Nov 11