HuggingFace Daily Papers

일간 논문

번역이 포함된 일일 선별된 AI 연구 논문

날짜 선택

21 papers found

바벨: 전 세계 화자의 90% 이상을 지원하는 오픈 소스 다국적 대형 언어 모델
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Mar 2

ByYiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang

대형 언어 모델(LLMs)은 자연어 처리(NLP) 분야에 혁명을 일으켰지만, 오픈소스 다국어 LLMs는 여전히 부족한 상황이며, 기존 모델들은 언어 커버리지 측면에서 제한적입니다. 이러한 모델들은 일반적으로 자원이 풍부한 언어를 우선시하는 반면, 널리 사용되지만 자원이 부족한 언어들은 종종 간과됩니다. 이러한 격차를 해결하기 위해, 우리는 Babel을 소개합니다. Babel은 화자 수 기준 상위 25개 언어를 커버하며, 전 세계 인구의 90% 이상을 지원하고, 다른 오픈소스 다국어 LLMs에서 소외된 많은 언어들을 포함합니다. 기존의 지속적 사전 학습 접근법과 달리, Babel은 레이어 확장 기법을 통해 매개변수 수를 늘려 성능 상한선을 높였습니다. 우리는 두 가지 변형을 소개합니다: 효율적인 추론과 미세 조정을 위해 설계된 Babel-9B와, 오픈소스 다국어 LLMs의 새로운 기준을 세운 Babel-83B입니다. 다국어 작업에 대한 광범위한 평가를 통해, Babel은 동일한 규모의 오픈소스 LLMs에 비해 우수한 성능을 보여줍니다. 또한, 오픈소스 지도 학습 미세 조정 데이터셋을 사용하여 Babel은 놀라운 성능을 달성했으며, Babel-9B-Chat은 10B 규모의 LLMs 중에서 선두를 달리고, Babel-83B-Chat은 다국어 작업에서 새로운 기준을 세워 상용 모델과 동등한 수준에 도달했습니다.

HoT: 입력에서 지원 사실을 참조하기 위한 강조된 사고 연쇄
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

Mar 3

ByTin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

대형 언어 모델(LLMs)의 치명적인 약점은 비사실적 진술을 생성하는 경향입니다. 사실과 비사실적 진술이 혼합된 응답은 인간이 이를 검증하고 정확한 결정을 내리는 데 어려움을 줍니다. 이 문제를 해결하기 위해, 우리는 Highlighted Chain-of-Thought Prompting(HoT) 기법을 제안합니다. 이는 LLM이 쿼리에 제공된 사실을 기반으로 XML 태그가 포함된 응답을 생성하도록 유도하는 기술입니다. 즉, 입력 질문이 주어지면 LLM은 먼저 주요 사실을 강조하는 XML 태그를 추가하여 질문을 재구성한 후, 입력에서 참조된 사실을 강조한 응답을 생성합니다. 흥미롭게도, 소수 샷(few-shot) 설정에서 HoT는 산술, 독해, 논리적 추론 등 17가지 다양한 작업에서 기본적인 사고 연쇄(CoT) 프롬프팅을 능가합니다. 인간이 LLM의 응답을 검증할 때, 강조 표시는 시간이 제한된 참가자들이 LLM이 정확한 경우를 더 정확하고 효율적으로 인식하도록 돕습니다. 그러나 놀랍게도, LLM이 틀렸을 때 HoT는 사용자들이 답이 정확하다고 믿게 만드는 경향이 있습니다.

프로세스 기반 자기 보상 언어 모델
Process-based Self-Rewarding Language Models

Mar 5

ByShimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong

대형 언어 모델(LLM)은 다양한 다운스트림 작업에서 뛰어난 성능을 보여주며 여러 시나리오에 널리 적용되고 있습니다. 인간이 주석을 단 선호도 데이터는 LLM의 성능을 더욱 향상시키기 위해 훈련에 사용되지만, 이는 인간 성능의 상한선에 의해 제약을 받습니다. 따라서 LLM이 자신의 출력에 대해 보상을 생성함으로써 훈련 데이터를 만들어내는 자기 보상(Self-Rewarding) 방법이 제안되었습니다. 그러나 기존의 자기 보상 패러다임은 수학적 추론 시나리오에서 효과적이지 않으며 오히려 성능 저하를 초래할 수 있습니다. 본 연구에서는 언어 모델을 위한 프로세스 기반 자기 보상 파이프라인을 제안합니다. 이는 자기 보상 패러다임 내에서 장기간 사고 추론, 단계별 LLM-as-a-Judge, 그리고 단계별 선호도 최적화를 도입합니다. 우리의 새로운 패러다임은 반복적인 프로세스 기반 자기 보상을 통해 여러 수학적 추론 벤치마크에서 LLM의 성능을 성공적으로 향상시켰으며, 자기 보상이 인간 능력을 초월할 수 있는 LLM 추론을 달성할 수 있는 엄청난 잠재력을 입증했습니다.

KodCode: 다양하고 도전적이며 검증 가능한 코딩용 합성 데이터셋
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Mar 4

ByZhangchen Xu, Yang Liu, Yueqin Yin, Mingyuan Zhou, Radha Poovendran

우리는 코딩을 위한 대규모 언어 모델(Large Language Models)을 훈련시키기 위해 다양한 난이도와 도메인에 걸쳐 고품질의 검증 가능한 훈련 데이터를 확보하는 지속적인 과제를 해결하기 위해 KodCode라는 합성 데이터셋을 소개합니다. 기존의 코드 중심 리소스는 일반적으로 커버리지의 폭(예: 간단한 코딩 작업부터 고급 알고리즘 문제까지)이나 검증 가능한 정확성(예: 단위 테스트) 중 하나를 보장하지 못합니다. 반면, KodCode는 체계적인 자체 검증 절차를 통해 검증된 질문-해결책-테스트 삼중항으로 구성됩니다. 우리의 파이프라인은 먼저 다양한 코딩 질문을 합성한 다음, 해결책과 테스트 케이스를 생성하며, 특히 어려운 문제에는 추가적인 시도를 할당합니다. 마지막으로, 사후 훈련 데이터 합성은 질문을 다양한 형식으로 재작성하고, 추론 모델(DeepSeek R1)에서 테스트 기반 거부 샘플링 절차를 통해 응답을 생성함으로써 수행됩니다. 이 파이프라인은 대규모의 견고하고 다양한 코딩 데이터셋을 산출합니다. KodCode는 지도 학습 미세 조정에 적합하며, 짝을 이루는 단위 테스트는 강화 학습(RL) 튜닝에도 큰 잠재력을 제공합니다. 코딩 벤치마크(HumanEval(+), MBPP(+), BigCodeBench, LiveCodeBench)에서의 미세 조정 실험은 KodCode로 튜닝된 모델이 Qwen2.5-Coder-32B-Instruct 및 DeepSeek-R1-Distill-Llama-70B와 같은 모델을 능가하는 최첨단 성능을 달성함을 보여줍니다.

GEN3C: 정밀한 카메라 제어를 통한 3D 정보 기반 세계 일관성 비디오 생성
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Mar 5

ByXuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-David, Thomas Müller, Alexander Keller, Sanja Fidler, Jun Gao

정확한 카메라 제어와 시간적 3D 일관성을 갖춘 생성적 비디오 모델인 GEN3C를 소개합니다. 기존의 비디오 모델들은 이미 사실적인 비디오를 생성하지만, 3D 정보를 거의 활용하지 않아 물체가 갑자기 나타나거나 사라지는 등의 불일치가 발생하는 경향이 있습니다. 카메라 제어가 구현된 경우에도, 카메라 매개변수가 단순히 신경망의 입력으로 제공되기 때문에 비디오가 카메라에 어떻게 의존하는지를 추론해야 하므로 정확도가 떨어집니다. 반면, GEN3C는 3D 캐시에 의해 안내됩니다: 이 캐시는 시드 이미지나 이전에 생성된 프레임의 픽셀 단위 깊이를 예측하여 얻은 포인트 클라우드로 구성됩니다. 다음 프레임을 생성할 때, GEN3C는 사용자가 제공한 새로운 카메라 궤적에 따라 3D 캐시의 2D 렌더링에 조건부로 작동합니다. 이는 GEN3C가 이전에 생성한 내용을 기억할 필요도 없고, 카메라 포즈에서 이미지 구조를 추론할 필요도 없음을 의미합니다. 대신, 모델은 이전에 관찰되지 않은 영역과 다음 프레임으로 장면 상태를 진행하는 데 모든 생성 능력을 집중할 수 있습니다. 우리의 결과는 기존 연구보다 더 정확한 카메라 제어를 보여주며, 드라이빙 장면이나 단안 동적 비디오와 같은 도전적인 설정에서도 희소 시점 신시점 합성에서 최첨단 성능을 달성합니다. 결과는 비디오로 보는 것이 가장 좋습니다. 우리의 웹페이지를 확인해 보세요! https://research.nvidia.com/labs/toronto-ai/GEN3C/

ABC: 시각적 언어 모델을 활용한 멀티모달 임베딩 제어 개선
ABC: Achieving Better Control of Multimodal Embeddings using VLMs

Mar 1

ByBenjamin Schneider, Florian Kerschbaum, Wenhu Chen

시각 임베딩 모델은 시각 검색 및 분류와 같은 제로샷 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델은 모호성을 포함하거나 사용자 지시가 필요한 작업에는 사용할 수 없습니다. 이러한 작업에는 시각적 입력과 자연어 입력을 결합한 임베딩을 출력하는 멀티모달 임베딩 모델이 필요합니다. 기존의 CLIP 기반 접근법은 이미지와 텍스트를 독립적으로 임베딩한 후 결과를 융합합니다. 우리는 이러한 방식이 모달리티 간의 약한 상호작용과 표현에 대한 사용자 제어의 부족을 초래한다는 것을 발견했습니다. 우리는 ABC라는 오픈소스 멀티모달 임베딩 모델을 소개합니다. 이 모델은 시각-언어 모델 백본을 사용하여 이미지 특징과 자연어 지시를 깊이 통합합니다. ABC는 MSCOCO 이미지-텍스트 검색에서 크기 대비 최고 성능을 달성했으며, Massive Multimodal Embedding Benchmark에서 분류 및 VQA 작업에서 최고 성능을 보이는 모델입니다. 강력하게 통합된 시각-언어 표현을 통해 ABC는 자연어를 사용하여 미묘하고 잠재적으로 모호한 시각 검색 문제를 해결할 수 있습니다. 이 능력을 평가하기 위해, 우리는 CtrlBench라는 벤치마크를 설계했습니다. 이 벤치마크는 올바른 검색을 위해 텍스트 지시와 이미지 내용을 교차적으로 사용해야 합니다. ABC는 고품질의 표현과 유연한 자연어 제어를 제공함으로써 멀티모달 임베딩의 최신 기술을 발전시킵니다. 우리의 모델과 데이터셋은 프로젝트 페이지에서 확인할 수 있습니다.

지식 설명을 활용한 비전 언어 모델의 이상 현상 근거 강화
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

Mar 5

ByJun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel

시각 언어 모델(VLMs)은 시각적 기반 작업에서 인상적인 성능을 보여주고 있습니다. 그러나 의료 영역, 특히 의료 영상 내 이상 징후 탐지 및 위치 파악 작업에서의 효과는 아직 충분히 탐구되지 않았습니다. 주요 도전 과제는 의학 용어의 복잡하고 추상적인 특성으로 인해 병리학적 이상 징후 용어를 해당 시각적 특징과 직접적으로 연관시키기 어렵다는 점입니다. 본 연구에서는 분해된 의학 지식을 활용하여 의료 이상 징후 탐지 및 위치 파악 작업에서 VLM의 성능을 향상시키는 새로운 접근 방식을 소개합니다. 특정 이상 징후를 직접 인식하도록 모델을 프롬프팅하는 대신, 의학 개념을 기본 속성과 공통 시각 패턴으로 분해하는 데 초점을 맞춥니다. 이 전략은 텍스트 설명과 시각적 특징 간의 강력한 정렬을 촉진하여 의료 영상 내 이상 징후의 인식 및 위치 파악 성능을 개선합니다. 우리는 0.23B 규모의 Florence-2 기본 모델에서 이 방법을 평가하고, 훨씬 더 큰 7B LLaVA 기반 의료 VLMs에 사용된 데이터의 단 1.5%만으로 학습했음에도 불구하고 이상 징후 기반 작업에서 비슷한 성능을 달성함을 입증했습니다. 실험 결과는 또한 우리의 접근 방식이 알려진 이상 징후와 이전에 보지 못한 이상 징후 모두에서 효과적임을 보여주며, 강력한 일반화 능력을 시사합니다.

CrowdSelect: 다중 LLM 지혜를 활용한 합성 명령어 데이터 선택
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

Mar 3

ByYisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen

고급 대형 언어 모델(LLM)의 명령 수행 능력을 더 작은 모델로 전이하기 위해 선택된 데이터 하위 집합을 사용하는 것은 모델 학습에서 주류 접근 방식이 되었습니다. 기존의 합성 명령 데이터 선택 전략은 주로 단일 차원 신호(예: 보상 점수, 모델 혼란도)에 의존하고 있어 다양한 분야에서의 명령 수행 복잡성을 포착하지 못합니다. 따라서 우리는 더 다양한 신호를 조사하여 포괄적인 명령-응답 쌍 특성을 파악하고, (1) 다양한 LLM 응답과 (2) 보상 모델 평가를 기반으로 한 다중 LLM 지혜를 활용한 세 가지 기본 메트릭을 제안합니다. 이러한 기본 메트릭을 바탕으로, 응답 다양성을 유지하기 위한 클러스터링 기반 접근법을 통합한 CrowdSelect라는 통합 메트릭을 제안합니다. 우리의 포괄적인 실험은 우리의 기본 메트릭이 MT-bench와 Arena-Hard에서 4개의 기본 모델에 걸쳐 일관되게 성능을 향상시킨다는 것을 보여줍니다. 모든 메트릭을 효율적으로 통합한 CrowdSelect는 Full 및 LoRA 미세 조정 모두에서 최신 기술 수준의 성능을 달성하며, Llama-3.2-3b-instruct 모델을 사용한 Arena-Hard에서 4.81%, MT-bench에서 11.1%의 성능 향상을 보여줍니다. 우리의 연구 결과가 이 방향의 미래 연구에 유용한 통찰을 제공하기를 바랍니다. 코드는 https://github.com/listentm/crowdselect에서 확인할 수 있습니다.

도메인 특화 AI를 위한 소규모 언어 모델 미세 조정: 엣지 AI 관점
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Mar 3

ByRakshit Aralimatti, Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

대규모 언어 모델을 에지 디바이스에 배포하는 것은 높은 계산 요구량, 에너지 소비, 그리고 잠재적인 데이터 프라이버시 위험과 같은 본질적인 문제에 직면합니다. 본 논문은 이러한 제약 조건을 직접적으로 해결하기 위해 Shakti 소형 언어 모델(SLMs)인 Shakti-100M, Shakti-250M, 그리고 Shakti-500M을 소개합니다. 효율적인 아키텍처, 양자화 기술, 그리고 책임 있는 AI 원칙을 결합함으로써, Shakti 시리즈는 스마트폰, 스마트 가전, IoT 시스템 등에서의 온디바이스 인텔리전스를 가능하게 합니다. 우리는 이들의 설계 철학, 학습 파이프라인, 그리고 일반적인 작업(예: MMLU, Hellaswag)과 특화된 도메인(헬스케어, 금융, 법률)에서의 벤치마크 성능에 대한 포괄적인 통찰을 제공합니다. 우리의 연구 결과는, 신중하게 설계되고 미세 조정된 컴팩트 모델이 실제 에지-AI 시나리오에서 기대를 충족하고 종종 이를 뛰어넘을 수 있음을 보여줍니다.

추론 시간 스케일링을 통한 이산 확산 모델의 재마스킹
Remasking Discrete Diffusion Models with Inference-Time Scaling

Mar 1

ByGuanghan Wang, Yair Schiff, Subham Sekhar Sahoo, Volodymyr Kuleshov

확산 모델의 성공 요인 중 하나는 생성 과정에서 반복적으로 출력을 수정하는 능력, 즉 반복적 정제를 수행할 수 있는 데 있습니다. 그러나 현대의 마스킹된 이산 확산 모델은 이러한 능력이 부족합니다: 토큰이 생성되면, 오류가 발생하더라도 이를 다시 업데이트할 수 없습니다. 본 연구에서는 이러한 한계를 해결하기 위해 리마스킹 확산 모델(ReMDM) 샘플러를 소개합니다. 이 방법은 사전 학습된 마스킹 확산 모델에 원칙적으로 적용할 수 있으며, 사용자 정의 리마스킹 역과정을 가진 이산 확산 모델에서 유도되었습니다. 특히 흥미로운 점은, ReMDM이 이산 확산 모델에 추론 시 계산 규모 조정 기능을 부여한다는 것입니다. 샘플링 단계 수를 증가시킴으로써 ReMDM은 자기회귀 모델의 품질에 근접하는 자연어 출력을 생성할 수 있으며, 계산 예산이 제한된 경우에도 품질을 더 잘 유지합니다. ReMDM은 또한 이산화된 이미지에 대한 마스킹 확산 모델의 샘플 품질을 개선하고, 분자 설계와 같은 과학적 영역에서 확산 가이던스를 용이하게 하며, 기존의 마스킹 및 균일 잡음 확산에 비해 제어 가능성의 파레토 프론티어를 확장합니다. 프로젝트 페이지(https://remdm.github.io)에서 코드와 블로그 포스트를 제공합니다.

텍스트 중심 그래프 지식 베이스에 대한 구조적 및 텍스트 기반 검색의 혼합
Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases

Feb 27

ByYongjia Lei, Haoyu Han, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka, Mahantesh M Halappanavar, Jiliang Tang, Yu Wang

텍스트 중심 그래프 지식 베이스(Text-rich Graph Knowledge Bases, TG-KBs)는 텍스트와 구조적 지식을 제공함으로써 질의에 답변하는 데 점점 더 중요한 역할을 하고 있습니다. 그러나 현재의 검색 방법들은 이 두 가지 유형의 지식을 상호 강화를 고려하지 않고 따로 검색하는 경우가 많으며, 일부 하이브리드 방법들은 이웃 집계 이후 구조적 검색을 완전히 생략하기도 합니다. 이러한 격차를 메우기 위해, 우리는 구조적 및 텍스트 검색의 혼합(Mixture of Structural-and-Textual Retrieval, MoR)을 제안하여 이 두 유형의 지식을 계획-추론-조직화 프레임워크를 통해 검색합니다. 계획 단계에서 MoR은 질의에 답변하기 위한 논리를 설명하는 텍스트 계획 그래프를 생성합니다. 계획 그래프에 따라, 추론 단계에서 MoR은 구조적 탐색과 텍스트 매칭을 결합하여 TG-KBs에서 후보를 얻습니다. 조직화 단계에서 MoR은 검색된 후보들을 그들의 구조적 궤적을 기반으로 재정렬합니다. 광범위한 실험을 통해 MoR이 구조적 및 텍스트 검색을 조화롭게 통합하는 데 있어 우수성을 입증하였으며, 이는 다양한 질의 논리에서의 불균일한 검색 성능과 후보 재정렬을 위한 구조적 궤적 통합의 이점을 포함합니다. 우리의 코드는 https://github.com/Yoega/MoR에서 확인할 수 있습니다.

QE4PE: 인간 후편집을 위한 단어 수준 품질 추정
QE4PE: Word-level Quality Estimation for Human Post-Editing

Mar 4

ByGabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza

단어 수준 품질 평가(QE)는 기계 번역에서 오류가 있는 부분을 탐지하여 인간의 사후 편집을 안내하고 촉진할 수 있습니다. 단어 수준 QE 시스템의 정확도는 광범위하게 평가되었지만, 이러한 시스템의 사용성과 인간 사후 편집의 속도, 품질 및 편집 선택에 미치는 영향은 아직 충분히 연구되지 않았습니다. 우리의 QE4PE 연구는 두 가지 번역 방향에서 42명의 전문 사후 편집자가 참여한 현실적인 환경에서 단어 수준 QE가 기계 번역(MT) 사후 편집에 미치는 영향을 조사합니다. 우리는 최첨단 신경망 MT 모델의 출력에서 잠재적 오류를 식별하기 위해 지도 학습 및 불확실성 기반 단어 수준 QE 방법을 포함한 네 가지 오류 범위 강조 방식을 비교합니다. 사후 편집 노력과 생산성은 행동 로그를 통해 추정되며, 품질 개선은 단어 및 세그먼트 수준의 인간 주석을 통해 평가됩니다. 우리는 도메인, 언어 및 편집자의 속도가 강조의 효과를 결정하는 데 중요한 요소임을 발견했으며, 인간이 만든 QE 강조와 자동화된 QE 강조 사이의 미미한 차이는 전문 워크플로우에서 정확도와 사용성 간의 격차를 강조합니다.

다양한 대화 작업을 위한 재작성 접근법 탐구
Exploring Rewriting Approaches for Different Conversational Tasks

Feb 26

ByMd Mehrab Tanjim, Ryan A. Rossi, Mike Rimer, Xiang Chen, Sungchul Kim, Vaishnavi Muppala, Tong Yu, Zhengmian Hu, Ritwik Sinha, Wei Zhang, Iftikhar Ahamath Burhanuddin, Franck Dernoncourt

대화형 어시스턴트는 종종 사용자의 질문이나 요청에 대해 더 의미 있고 정확한 답변을 제공하기 위해 과거 상호작용의 일부를 활용하는 질문 재작성 알고리즘이 필요합니다. 그러나 정확한 재작성 접근 방식은 대화형 어시스턴트가 지원하는 사용 사례 및 애플리케이션별 작업을 비롯한 다양한 제약 조건에 따라 달라질 수 있습니다. 본 논문에서는 텍스트-텍스트 생성 작업과 사용자의 질문에 대한 시각화 또는 데이터 테이블을 생성하는 다중모드 생성 작업이라는 근본적으로 다른 두 가지 생성 작업에 대해 재작성과 융합이라는 두 가지 접근 방식을 체계적으로 조사합니다. 우리의 결과는 특정 재작성 또는 융합 접근 방식이 기본 사용 사례와 생성 작업에 크게 의존함을 보여줍니다. 특히, 대화형 질문-답변 어시스턴트의 경우 질문 재작성 접근 방식이 가장 효과적인 반면, 사용자와의 대화를 기반으로 시각화 및 데이터 테이블을 생성하는 데이터 분석 어시스턴트의 경우 융합 접근 방식이 가장 효과적임을 발견했습니다. 주목할 만한 점은, 우리는 데이터 분석 어시스턴트 사용 사례에 대해 짧은 대화와 긴 대화를 위한 두 가지 데이터셋을 탐색했으며, 질문 융합이 항상 더 나은 성능을 보이는 반면, 대화형 텍스트 기반 질문-답변의 경우 질문 재작성 접근 방식이 가장 효과적임을 발견했습니다.

FLAME: 로봇 조작을 위한 연합 학습 벤치마크
FLAME: A Federated Learning Benchmark for Robotic Manipulation

Mar 3

BySantiago Bou Betran, Alberta Longhini, Miguel Vasco, Yuchong Zhang, Danica Kragic

최근 로봇 조작 분야의 발전은 다양한 환경에서 수집된 대규모 데이터셋에 힘입어 이루어졌습니다. 전통적으로 이러한 데이터셋에서 로봇 조작 정책을 훈련하는 것은 중앙 집중식으로 수행되어 확장성, 적응성, 데이터 프라이버시에 대한 우려를 불러일으켰습니다. 연합 학습(Federated Learning)은 분산적이고 프라이버시를 보존하는 훈련을 가능하게 하지만, 로봇 조작에의 적용은 아직까지 크게 탐구되지 않았습니다. 우리는 로봇 조작을 위한 연합 학습의 첫 번째 벤치마크인 FLAME(Federated Learning Across Manipulation Environments)을 소개합니다. FLAME은 다음과 같은 요소로 구성됩니다: (i) 다양한 시뮬레이션 환경에서 수집된 다중 조작 작업에 대한 160,000개 이상의 전문가 시연 데이터셋, (ii) 연합 환경에서의 로봇 정책 학습을 위한 훈련 및 평가 프레임워크. 우리는 FLAME에서 표준 연합 학습 알고리즘을 평가하여 분산 정책 학습의 잠재력을 보여주고 주요 과제를 강조합니다. 이 벤치마크는 확장 가능하고 적응적이며 프라이버시를 고려한 로봇 학습의 기반을 마련합니다.

CognitiveDrone: 실시간 인지 작업 해결 및 추론을 위한 VLA 모델 및 UAV 평가 벤치마크
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs

Mar 3

ByArtem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou

본 논문은 고급 인지 능력이 요구되는 복잡한 무인항공기(UAV) 작업을 위해 특화된 새로운 Vision-Language-Action(VLA) 모델인 CognitiveDrone을 소개한다. 이 모델은 인간 인식(Human Recognition), 기호 이해(Symbol Understanding), 추론(Reasoning)이라는 세 가지 주요 범주에 걸쳐 8,000개 이상의 시뮬레이션 비행 궤적 데이터셋으로 학습되었으며, 1인칭 시각 입력과 텍스트 지침을 기반으로 실시간 4D 동작 명령을 생성한다. 복잡한 시나리오에서의 성능을 더욱 향상시키기 위해, 고주파 제어 전에 작업 지시를 단순화하는 추가적인 Vision-Language Model(VLM) 추론 모듈을 통합한 CognitiveDrone-R1을 제안한다. 오픈소스 벤치마크인 CognitiveDroneBench를 사용한 실험 평가 결과, 레이싱 중심 모델(RaceVLA)은 31.3%의 전반적 성공률을 달성한 반면, 기본 CognitiveDrone 모델은 59.6%, CognitiveDrone-R1은 77.2%의 성공률을 기록했다. 이러한 결과는 UAV 제어 시스템에 고급 추론 능력을 통합함으로써 주요 인지 작업에서 최대 30%의 성능 향상을 보여준다. 본 연구의 기여는 UAV 제어를 위한 최첨단 VLA 모델 개발과 드론 작업에서의 인지 작업 평가를 위한 첫 전용 벤치마크 도입을 포함한다. 전체 저장소는 cognitivedrone.github.io에서 확인할 수 있다.

다국어 소프트웨어 취약점 탐지를 위한 대규모 언어 모델 벤치마킹
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo

최근 생성형 AI의 발전으로 소프트웨어 공학 분야에서 대규모 언어 모델(LLMs)의 광범위한 채택이 이루어지며, 오랫동안 해결되지 못한 수많은 문제들이 해결되고 있습니다. 그러나 소프트웨어 보안의 중요한 측면인 소프트웨어 취약점 탐지(SVD)에서 LLMs의 능력을 종합적으로 연구한 연구는 현재 부족한 상황입니다. 기존 연구는 주로 C/C++ 데이터셋을 사용하여 LLMs를 평가하는 데 초점을 맞추고 있으며, 오픈소스 LLMs에 대해 프롬프트 엔지니어링, 인스트럭션 튜닝, 시퀀스 분류 미세 조정 중 하나 또는 두 가지 전략만을 탐구하는 경우가 대부분입니다. 이로 인해 다양한 프로그래밍 언어에서 취약점을 탐지하는 데 있어 다양한 LLMs의 효과에 대한 상당한 지식 격차가 존재합니다. 이러한 지식 격차를 해결하기 위해, 우리는 SVD 작업에서 LLMs의 성능을 평가하는 종합적인 실증 연구를 제시합니다. 우리는 Python에서 8,260개, Java에서 7,505개, JavaScript에서 28,983개의 취약한 함수를 포함한 종합적인 데이터셋을 구축했습니다. 우리는 프롬프트 엔지니어링, 인스트럭션 튜닝, 시퀀스 분류 미세 조정을 포함한 여러 접근 방식을 사용하여 다섯 가지 오픈소스 LLMs를 평가합니다. 이러한 LLMs는 다섯 가지 미세 조정된 소규모 언어 모델과 두 가지 오픈소스 정적 애플리케이션 보안 테스트 도구와 비교됩니다. 또한, 우리는 SVD에서 LLMs의 성능을 향상시키기 위한 두 가지 방안을 탐구합니다: a) 데이터 관점: 다운샘플링된 균형 잡힌 데이터셋을 사용하여 모델을 재학습. b) 모델 관점: 여러 LLMs의 예측을 결합하는 앙상블 학습 방법 탐구. 우리의 종합적인 실험은 SVD가 LLMs에게 여전히 도전적인 작업임을 보여줍니다. 이 연구는 SVD에서 LLMs의 역할에 대한 철저한 이해를 제공하며, 소프트웨어 보안 관행을 강화하기 위해 생성형 AI를 활용하는 미래의 발전을 위한 실용적인 통찰을 제공합니다.

검색 모델은 도구 활용에 능숙하지 않음: 대규모 언어 모델을 위한 도구 검색 벤치마킹
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

Mar 3

ByZhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren

도구 학습은 대형 언어 모델(LLM)에 다양한 도구를 통합하여 실용적인 과제 해결을 위한 에이전트로 기능하도록 확장하는 것을 목표로 합니다. 도구 사용 LLM의 제한된 컨텍스트 길이로 인해, 대규모 도구 세트에서 유용한 도구를 선택하기 위해 정보 검색(IR) 모델을 채택하는 것은 중요한 초기 단계입니다. 그러나 도구 검색 작업에서 IR 모델의 성능은 아직 충분히 탐구되지 않았으며 명확하지 않습니다. 대부분의 도구 사용 벤치마크는 각 작업에 대해 소수의 관련 도구를 수동으로 사전 주석 처리하여 이 단계를 단순화하는데, 이는 실제 시나리오와는 거리가 있습니다. 본 논문에서는 기존 데이터셋에서 수집된 43k개의 도구와 7.6k개의 다양한 검색 작업으로 구성된 이종 도구 검색 벤치마크인 ToolRet를 제안합니다. ToolRet에서 6가지 유형의 모델을 벤치마킹한 결과, 기존 IR 벤치마크에서 강력한 성능을 보인 모델들조차 ToolRet에서는 낮은 성능을 보였습니다. 이러한 낮은 검색 품질은 도구 사용 LLM의 작업 통과율을 저하시킵니다. 추가적으로, 200k개 이상의 인스턴스로 구성된 대규모 훈련 데이터셋을 제공하여 IR 모델의 도구 검색 능력을 크게 최적화했습니다.

SwiLTra-Bench: 스위스 법률 번역 벤치마크
SwiLTra-Bench: The Swiss Legal Translation Benchmark

Mar 3

ByJoel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen

스위스에서 법률 번역은 국가의 네 가지 공식 언어와 다국어 법률 문서 작성 요구 사항으로 인해 특히 중요합니다. 그러나 이 과정은 전통적으로 법률 전문가이자 숙련된 번역가여야 하는 전문가에 의존함으로써 병목 현상을 일으키고 사법 접근의 효율성에 영향을 미칩니다. 이러한 문제를 해결하기 위해, 우리는 모든 스위스 언어와 영어로 작성된 법률, 요약문, 보도 자료를 포함한 18만 개 이상의 정렬된 스위스 법률 번역 쌍으로 구성된 포괄적인 다국어 벤치마크인 SwiLTra-Bench를 소개합니다. 이 벤치마크는 LLM 기반 번역 시스템을 평가하기 위해 설계되었습니다. 우리의 체계적인 평가 결과, 최첨단 모델은 모든 문서 유형에서 우수한 번역 성능을 보이는 반면, 특화된 번역 시스템은 법률에서는 뛰어나지만 요약문에서는 성능이 떨어지는 것으로 나타났습니다. 엄격한 테스트와 인간 전문가 검증을 통해, 오픈 SLM을 미세 조정하면 번역 품질이 크게 개선되지만, 여전히 Claude-3.5-Sonnet과 같은 최고의 제로샷 프롬프트 최첨단 모델에 뒤처지는 것을 확인했습니다. 또한, 인간 전문가 평가와 가장 잘 일치하는 특화된 LLM 평가 시스템인 SwiLTra-Judge를 제시합니다.

신호 시간 논리(Signal Temporal Logic)를 활용한 다변화 가능한 제어 확산 정책
Diverse Controllable Diffusion Policy with Signal Temporal Logic

Mar 4

ByYue Meng, Chuchu fan

자율 시스템 응용 분야, 예를 들어 자율 주행 및 인간-로봇 상호작용에서 현실적인 시뮬레이션을 생성하는 것은 매우 중요합니다. 그러나 현재의 주행 시뮬레이터는 도로 참여자들을 위한 제어 가능하고 다양하며 규칙을 준수하는 행동을 생성하는 데 어려움을 겪고 있습니다: 규칙 기반 모델은 다양한 행동을 생성하지 못하며 세심한 조정이 필요하고, 학습 기반 방법은 데이터에서 정책을 모방하지만 명시적으로 규칙을 따르도록 설계되지 않았습니다. 또한, 실제 세계의 데이터셋은 본질적으로 "단일 결과"를 가지기 때문에 학습 방법이 다양한 행동을 생성하기 어렵습니다. 본 논문에서는 Signal Temporal Logic (STL)과 Diffusion Models를 활용하여 제어 가능하고 다양하며 규칙을 인지하는 정책을 학습합니다. 먼저 실제 데이터에 대해 STL을 보정하고, 궤적 최적화를 사용하여 다양한 합성 데이터를 생성한 후, 증강된 데이터셋에서 수정된 확산 정책을 학습합니다. NuScenes 데이터셋에서 테스트한 결과, 우리의 접근 방식은 다른 베이스라인과 비교하여 가장 다양한 규칙 준수 궤적을 달성할 수 있었으며, 두 번째로 우수한 접근 방식 대비 1/17배의 실행 시간을 보였습니다. 폐루프 테스트에서 우리의 접근 방식은 가장 높은 다양성, 규칙 준수율, 그리고 가장 낮은 충돌율을 달성했습니다. 우리의 방법은 테스트에서 다양한 STL 매개변수에 조건부로 다양한 특성을 생성할 수 있습니다. 인간-로봇 조우 시나리오에 대한 사례 연구는 우리의 접근 방식이 다양하고 오라클에 가까운 궤적을 생성할 수 있음을 보여줍니다. 주석 도구, 증강된 데이터셋, 그리고 코드는 https://github.com/mengyuest/pSTL-diffusion-policy에서 이용 가능합니다.

신뢰할 수 있고 효율적인 다중 에이전트 조정을 위한 그래프 신경망 변분 오토인코더
Reliable and Efficient Multi-Agent Coordination via Graph Neural Network Variational Autoencoders

Mar 4

ByYue Meng, Nathalie Majcherczyk, Wenliang Liu, Scott Kiesel, Chuchu Fan, Federico Pecora

다중 에이전트 조정은 자동화된 창고와 같은 공유 공간에서 신뢰할 수 있는 다중 로봇 내비게이션에 있어 핵심적인 요소입니다. 로봇 교통이 밀집된 지역에서는 지역적 조정 방법이 교착 상태 없는 해결책을 찾지 못할 수 있습니다. 이러한 시나리오에서는 중앙 장치가 로봇들의 통과 순서를 결정하는 전역 일정을 생성하는 것이 적절합니다. 그러나 이러한 중앙 집중식 조정 방법의 실행 시간은 문제 규모가 커짐에 따라 크게 증가합니다. 본 논문에서는 그래프 신경망 변이형 오토인코더(GNN-VAE)를 활용하여 중앙 집중식 최적화보다 빠르게 대규모 다중 에이전트 조정 문제를 해결하는 방법을 제안합니다. 우리는 조정 문제를 그래프 문제로 공식화하고 혼합 정수 선형 계획법(MILP) 솔버를 사용하여 실측 데이터를 수집합니다. 학습 과정에서 우리의 학습 프레임워크는 그래프 문제의 고품질 해결책을 잠재 공간으로 인코딩합니다. 추론 시에는 샘플링된 잠재 변수에서 해결책 샘플을 디코딩하고, 가장 낮은 비용의 샘플을 조정을 위해 선택합니다. 마지막으로, 가장 높은 성능 지수를 가진 실행 가능한 제안이 배포를 위해 선택됩니다. 우리의 GNN-VAE 프레임워크는 고려된 조정 문제의 제약 조건을 항상 준수하는 해결책을 반환하도록 구성되었습니다. 수치적 결과는 소규모 문제에 대해 훈련된 우리의 접근 방식이 250대의 로봇을 포함한 대규모 문제에 대해서도 고품질의 해결책을 달성할 수 있으며, 다른 기준선보다 훨씬 빠르다는 것을 보여줍니다. 프로젝트 페이지: https://mengyuest.github.io/gnn-vae-coord

상호작용, 지시, 개선: 자율주행차 상호작용 강화를 위한 LLM 기반 병렬 행위자-추론자 프레임워크
Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

Mar 1

ByShiyu Fang, Jiaqi Liu, Chengkai Xu, Chen Lv, Peng Hang, Jian Sun

자율주행차량(AVs)은 상용화 단계에 진입했지만, 여전히 인간 운전 차량(HVs)과의 상호작용 및 의도 표현 능력의 한계로 인해 과제가 남아 있습니다. 최근 대형 언어 모델(LLMs)의 발전으로 양방향 인간-기계 커뮤니케이션이 가능해졌지만, 느린 추론 속도와 실시간 의사결정 필요성 간의 충돌로 인해 실제 배포에는 어려움이 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 다중 시나리오에서 명시적인 양방향 AV-HV 상호작용을 가능하게 하는 병렬 Actor-Reasoner 프레임워크를 소개합니다. 먼저, 훈련 과정에서 LLM 기반 Reasoner와 다양한 시뮬레이션 HVs 간의 상호작용을 촉진함으로써 Actor라고 불리는 상호작용 메모리 데이터베이스를 구축합니다. 그런 다음, 메모리 분할 모듈과 이중 계층 메모리 검색 모듈을 도입하여 Actor의 다양한 HVs 처리 능력을 크게 향상시킵니다. 다른 의사결정 방법과의 비교 및 제거 연구를 통해 제안된 Actor-Reasoner 프레임워크가 안전성과 효율성을 크게 개선함을 입증합니다. 마지막으로, Reasoner의 추론에서 도출된 외부 인간-기계 인터페이스(eHMI) 정보와 Actor에서 검색된 실행 가능한 행동 솔루션을 결합하여, 다중 시나리오 현장 상호작용에서 제안된 Actor-Reasoner의 효과를 확인합니다. 우리의 코드는 https://github.com/FanGShiYuu/Actor-Reasoner에서 확인할 수 있습니다.

다국어 소프트웨어 취약점 탐지를 위한 대규모 언어 모델 벤치마킹
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo