번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델 (LLM)은 놀랍도록 강력한 능력을 보여줍니다. 성공을 거두기 위한 중요한 요소 중 하나는 LLM의 출력을 인간의 선호에 맞추는 것입니다. 이러한 조정 과정은 종종 소량의 데이터만 필요로 하여 효율적으로 LLM의 성능을 향상시킬 수 있습니다. 효과적이지만, 이 분야의 연구는 여러 영역에 걸쳐 이루어지며, 관련된 방법들은 비교적 이해하기 어려운 복잡성을 가지고 있습니다. 서로 다른 방법들 간의 관계는 충분히 탐구되지 않아 선호 조정의 발전을 제한하고 있습니다. 이에 우리는 기존의 인기 있는 조정 전략들을 다양한 구성 요소로 분해하고 현재의 조정 전략들을 연구하기 위한 통합된 프레임워크를 제시하여 그들 간의 연결을 확립합니다. 이 설문 조사에서 우리는 모든 선호 학습 전략을 네 가지 구성 요소인 모델, 데이터, 피드백 및 알고리즘으로 분해합니다. 이 통합된 관점은 기존의 조정 알고리즘에 대한 깊은 이해를 제공하며 서로 다른 전략들의 강점을 시너지적으로 결합할 수 있는 가능성을 엽니다. 또한 널리 사용되는 기존 알고리즘의 상세한 작동 예제를 제시하여 독자들에게 포괄적인 이해를 돕습니다. 마지막으로, 우리의 통합된 관점을 기반으로 대규모 언어 모델을 인간의 선호에 맞추기 위한 도전과 미래 연구 방향을 탐색합니다.
다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 개발은 상당한 발전을 이루었습니다. 그러나, 다중 모달 지시 데이터의 양과 품질은 그들의 발전에 중대한 병목 현상으로 나타났습니다. 다중 모달 지시 데이터를 수동으로 생성하는 것은 시간이 많이 소요되며 비효율적이며, 높은 복잡성의 지시를 생성하는 데 어려움을 겪습니다. 게다가, 블랙박스 상업용 모델(예: GPT-4o, GPT-4V)로부터 지시 데이터를 추출하는 것은 종종 단순화된 지시 데이터를 결과로 낳아, 성능을 이러한 모델의 수준으로 제약합니다. 다양하고 복잡한 지시 데이터를 선별하는 과제는 여전히 상당합니다. 저희는 MMEvol이라는 새로운 다중 모달 지시 데이터 진화 프레임워크를 제안합니다. 이 프레임워크는 세밀한 지각 진화, 인지 추론 진화, 상호 작용 진화를 결합합니다. 이 반복적인 방법은 데이터 품질 병목 현상을 극복하여 복잡하고 다양한 이미지-텍스트 지시 데이터셋을 생성함으로써 MLLMs에 향상된 능력을 부여합니다. SEED-163K라는 초기 지시 세트를 시작으로, 우리는 MMEvol을 활용하여 체계적으로 지시 유형의 다양성을 확대하고, 인지 능력을 향상시키기 위해 추론 단계를 통합하며, 이미지로부터 세부 정보를 추출하여 시각적 이해력과 견고성을 향상시킵니다. 우리의 데이터의 효과를 포괄적으로 평가하기 위해 진화된 데이터를 사용하여 LLaVA-NeXT를 훈련시키고, 13가지 비전-언어 작업에 걸쳐 실험을 수행합니다. 초기 데이터로 훈련된 기준선과 비교했을 때, 우리의 방법은 평균 정확도 향상률이 3.1 포인트이며, 이러한 작업 중 9개에서 최신 기술(SOTA) 수준의 성능을 달성합니다.
최근 대형 언어 모델 (LLM)의 발전에도 불구하고, 다양한 자연어 처리 (NLP) 작업에 대한 생성 능력을 크게 향상시켰지만, LLM은 여전히 직접 검색 작업을 처리하는 데 제한을 겪고 있습니다. 그러나 많은 실용적인 응용 프로그램에서는 검색과 생성을 원활하게 통합해야 하는 요구가 있습니다. 본 논문은 새로운 효율적인 One-pass Generation and retrieval 프레임워크 (OneGen)를 소개하며, 이는 생성과 검색이 모두 필요한 작업에서 LLM의 성능을 향상시키기 위해 설계되었습니다. 제안된 프레임워크는 검색 토큰을 자기회귀적으로 생성하여 생성과 검색을 위한 기존에는 분리되어 있던 훈련 접근 방식을 연결합니다. 이를 통해 단일 LLM이 통합된 순방향 전달에서 두 작업을 동시에 처리할 수 있게 됩니다. 우리는 RAG와 Entity Linking 두 가지 다른 유형의 복합 작업에 대한 실험을 수행하여 OneGen의 훈련 및 추론에서의 연결성, 효과성 및 효율성을 검증합니다. 더 나아가, 결과는 생성과 검색을 동일한 맥락에서 통합하는 것이 LLM의 생성 능력을 보존하면서 검색 성능을 향상시킨다는 것을 보여줍니다. 우리의 최고 지식으로, OneGen은 LLM이 생성 중에 벡터 검색을 수행할 수 있도록 하는 첫 번째 방법입니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 데이터베이스에 액세스하기 위해 검색 도구를 활용하여 대규모 언어 모델(Large Language Models, LLMs)의 생성 품질을 최적의 맥락을 통해 향상시킵니다. 그러나 기존의 검색 방법은 본질적으로 제약이 있습니다. 명시적으로 명시된 쿼리와 잘 구성된 지식 간의 관련성 일치를 수행할 뿐, 모호한 정보 요구나 구조화되지 않은 지식을 다룰 수 없습니다. 따라서 기존의 RAG 시스템은 주로 간단한 질문-답변 작업에 효과적입니다. 본 연구에서는 장기 기억을 활용한 혁신적인 검색 증강 생성 패러다임인 MemoRAG를 제안합니다. MemoRAG는 이중 시스템 아키텍처를 채택합니다. 한편으로는 가벼우면서도 장거리 LLM을 사용하여 데이터베이스의 전역 메모리를 형성합니다. 작업이 제시되면 초안 답변을 생성하여 검색 도구가 데이터베이스 내 유용한 정보를 찾도록 안내합니다. 다른 한편으로는 고가이면서 표현력이 풍부한 LLM을 활용하여 검색된 정보를 기반으로 궁극적인 답변을 생성합니다. 이 일반적인 프레임워크를 기반으로 MemoRAG의 성능을 더욱 최적화하기 위해 안내 메커니즘과 기억 용량을 강화합니다. 실험 결과, MemoRAG는 기존 RAG가 실패하는 복잡한 작업과 RAG가 일반적으로 적용되는 간단한 작업을 포함한 다양한 평가 작업에서 우수한 성능을 달성합니다.
과학 연구가 증가함에 따라 연구자들은 방대한 양의 문헌을 탐색하고 읽는 어려운 과제에 직면하게 됩니다. 기존의 솔루션인 문헌 질의응답(Document QA)과 같은 것들은 개인화되고 최신 정보를 효율적으로 제공하지 못합니다. 본 논문에서는 연구자들을 지원하기 위해 고안된 자기 진화형 효율적 LLM 시스템인 Paper Copilot을 제안합니다. 이 시스템은 사고 검색, 사용자 프로필 및 고성능 최적화에 기반을 두고 있습니다. 구체적으로 Paper Copilot은 실시간 업데이트된 데이터베이스를 유지하면서 개인화된 연구 서비스를 제공할 수 있습니다. 양적 평가 결과, Paper Copilot은 효율적인 배포 후 시간을 69.92% 절약한다는 것을 입증하였습니다. 본 논문은 Paper Copilot의 설계와 구현에 대한 세부 내용을 다루며, 이 시스템이 개인화된 학술 지원에 기여하고 연구과정을 간소화하는 잠재력을 강조합니다.
최근 몇 년간 비전-언어 모델은 상당한 발전을 이루어, 광학 문자 인식 및 기하학적 문제 해결과 같은 작업에서 뛰어난 성과를 거두었습니다. 그러나 몇 가지 중요한 문제가 남아 있습니다: 1) 소유 모델은 종종 아키텍처에 대한 투명성이 부족하지만 오픈 소스 모델은 보다 자세한 훈련 전략의 제거가 필요합니다. 2) 오픈 소스 작업의 사전 훈련 데이터는 미개척되어 있으며, 데이터셋이 경험적으로 추가되어 번거로운 과정을 만듭니다. 3) 세밀한 조정은 종종 데이터셋 추가에 집중하여 수익이 감소하게 됩니다. 이러한 문제를 해결하기 위해 다음과 같은 기여를 제안합니다: 1) 최신 비전-언어 모델의 최신 개선 사항을 활용하여 견고한 기준 모델을 훈련시키고, 효과적인 개선 사항을 도입하며 각 기술에 대해 철저한 제거 및 검증을 실시했습니다. 2) 최근 대형 언어 모델에 영감을 받아 우리는 헷갈리는 정도를 사용하여 사전 훈련 데이터를 필터링하고, 훈련용으로 가장 낮은 헷갈리는 데이터를 선택했습니다. 이 접근법을 통해 정리된 1백만 데이터셋에서 훈련하여 경쟁력 있는 성과를 달성했습니다. 3) 시각적 지시 조정 중에, 더 많은 데이터셋을 추가해도 한계적인 개선만 얻어지는 경우 다른 데이터셋에서 모델 수프를 사용했습니다. 이러한 혁신들은 최첨단 모델과 경쟁력 있는 성능을 발휘하는 90억 파라미터 모델로 이어졌습니다. 우리의 전략은 효율적이고 가벼워서 커뮤니티에서 쉽게 채택할 수 있습니다.
로봇 모델들, 특히 대량의 데이터로 훈련된 모델들은 최근 다양한 실제 세계 조작 및 탐색 능력을 보여주고 있다. 여러 독립적인 노력들이 환경에서 충분한 훈련 데이터가 주어지면 로봇 정책이 해당 환경의 변화에 대해 일반화할 수 있음을 보여주었다. 그러나 새로운 환경에 대해 로봇 모델을 세밀하게 조정해야 하는 것은 언어나 비전 모델과는 대조적이며, 오픈 월드 문제에 대해 제로샷으로 배포될 수 있는 모델들과는 대조적이다. 본 연구에서는 새로운 환경에 대해 세부 조정 없이 일반화할 수 있는 제로샷 로봇 정책을 훈련하고 배포하는 RUMs(Robot Utility Models)라는 프레임워크를 제시한다. RUMs를 효율적으로 생성하기 위해 우리는 이동 조작 작업을 위한 데이터를 신속하게 수집하고, 다중 모달 모방 학습을 통해 해당 데이터를 정책에 통합하며, 저렴한 상용 로봇인 Hello Robot Stretch에서 정책을 장치에 배포하고 다시 시도하기 위해 외부 mLLM 확인기를 사용한다. 우리는 캐비닛 문을 열기, 서랍을 열기, 냅킨 집기, 종이 봉지 집기 및 넘어진 물체 재배치를 위한 다섯 가지 유틸리티 모델을 훈련시켰다. 우리의 시스템은 평균적으로 보이지 않는 새로운 환경에서 보이지 않는 물체와 상호 작용하여 90%의 성공률을 달성한다. 더불어 유틸리티 모델들은 추가 데이터, 훈련 또는 세부 조정 없이 다른 로봇 및 카메라 설정에서도 성공할 수 있다. 우리의 교훈 중 주요한 것은 훈련 알고리즘과 정책 클래스보다 훈련 데이터의 중요성, 데이터 스케일링에 대한 안내, 다양하면서도 고품질의 데모가 필요하다는 점, 그리고 개별 환경에서 성능을 향상시키기 위한 로봇 내부 조사 및 재시도를 위한 요령이다. 우리의 코드, 데이터, 모델, 하드웨어 디자인, 실험 및 배포 비디오는 모두 오픈 소스로 제공되며 프로젝트 웹사이트에서 확인할 수 있다: https://robotutilitymodels.com
대형 언어 모델(LLMs)은 현저한 생성 능력을 보이지만, 환각 형태의 결함이 없는 것은 아니다. 특히 특정 언어와 분야에 LLMs를 적용할 때 이 문제가 더욱 두드러진다. 예를 들어, 중국 고전 시, 속담 또는 관용구를 처리할 때 LLMs가 특정 지식 부족으로 허황된 정보를 생성할 수 있다. 이에 본 논문은 지식 편집을 통해 LLMs의 중국 지식을 교정하기 위한 벤치마크를 제시한다. 구체적으로, 우리는 중국어 데이터셋인 CKnowEdit을 소개한다. 이를 위해 고전 텍스트, 관용구, 그리고 Baidu Tieba Ruozhiba의 콘텐츠 등 다양한 출처로부터 일곱 가지 유형의 지식을 수집하여 중국어의 고유한 다중성, 대립, 그리고 논리 구조를 고려한다. 이 데이터셋을 분석함으로써, 우리는 현재 LLMs가 중국어를 마스터하는 데 직면한 어려움을 발견한다. 더 나아가, 본 데이터셋에서 최첨단 지식 편집 기술을 평가함으로써 중국 지식 교정 분야에서 큰 발전 가능성을 드러낸다. 코드와 데이터셋은 https://github.com/zjunlp/EasyEdit에서 이용할 수 있다.
이 연구는 카라칼파크어에 대한 여러 기여를 제시합니다: 카라칼파크어로 번역된 FLORES+ 개발 테스트 데이터셋, 우즈벡어-카라칼파크어, 러시아어-카라칼파크어, 영어-카라칼파크어 각각 100,000쌍의 병렬 말뭉치 및 이러한 언어 간 번역을 위한 오픈소스로 공개된 파인튜닉된 신경망 모델입니다. 우리의 실험은 다양한 모델 변형과 훈련 접근 방식을 비교하여 기존 기준선을 향상시키는 것을 보여줍니다. 이 작업은 Open Language Data Initiative (OLDI) 공유 작업의 일환으로 진행되었으며, 카라칼파크어의 기계 번역 능력을 향상시키고 자연어 처리 기술에서 언어 다양성을 확대하는 데 기여하기 위한 목적을 가지고 있습니다.
우리는 인간 관찰자와 시각 모델 간의 3D 형상 추론 작업에서 정렬을 직접 평가하는 벤치마크를 소개합니다. 우리는 인지과학에서의 실험적 설계를 활용하여, 객체 형상에 대한 제로샷 시각 추론을 요구합니다: 이미지 세트가 주어지면 참가자들은 상당한 시각 관점 변화에도 불구하고 동일한/다른 객체를 포함하는 이미지를 식별합니다. 우리는 의자와 같은 일반적인 객체뿐만 아니라 절차적으로 생성된 '무의미한' 객체인 추상 형상을 포함하는 다양한 이미지를 활용합니다. 2000개 이상의 고유한 이미지 세트를 구성한 후, 이러한 작업을 인간 참가자들에게 시행하여 500명 이상의 참가자로부터 35,000회의 행동 데이터를 수집합니다. 이는 명시적 선택 행동뿐만 아니라 반응 시간 및 시선 데이터와 같은 중간 측정값을 포함합니다. 그런 다음 일반적인 시각 모델(DINOv2, MAE, CLIP 등)의 성능을 평가합니다. 우리는 인간이 모든 모델을 큰 폭으로 능가한다는 결과를 발견했습니다. 다중 규모 평가 방법을 사용하여 모델과 인간 사이의 근본적인 유사점과 차이점을 식별합니다: 인간-모델 성능은 상관관계가 있지만, 인간은 어려운 시행에 더 많은 시간/처리를 할당합니다. 모든 이미지, 데이터 및 코드는 우리의 프로젝트 페이지를 통해 액세스할 수 있습니다.
로봇 공학 및 증강 현실에서 스마트 솔루션에 대한 고객 수요의 증가로 3D 객체 감지에 대한 주목이 집중되고 있습니다. 그러나 현재의 실내 데이터셋은 개별적으로 취급될 때 너무 작고 다양성이 부족하여 강력하고 일반적인 3D 객체 감지 모델을 훈련시키기에는 부족합니다. 한편, 기초 모델을 활용한 보다 일반적인 접근 방식은 여전히 특정 작업에 대한 지도 학습에 기반한 방법보다 품질이 떨어집니다. 본 연구에서는 실내 데이터셋의 혼합으로 훈련된 간단하면서 효과적인 3D 객체 감지 모델을 제안합니다. 이 모델은 다양한 실내 환경에서 작동할 수 있습니다. 서로 다른 레이블 공간을 통합함으로써, 다중 데이터셋에 걸쳐 강력한 표현을 학습할 수 있도록 하는 지도 합동 훈련 체계를 통해 강화됩니다. 제안된 네트워크 아키텍처는 바닐라 트랜스포머 인코더를 기반으로 구축되어 있어 실행, 사용자 정의 및 실용적인 사용을 위한 예측 파이프라인을 확장하기 쉽습니다. 광범위한 실험 결과, 기존의 3D 객체 감지 방법에 비해 상당한 향상을 보여주며 6개의 실내 벤치마크에서 우수한 성과를 달성했습니다: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50), 그리고 ScanNet++ (+2.7 mAP50). 코드는 https://github.com/filapro/unidet3d 에서 확인할 수 있습니다.
본 논문은 웹 응용프로그램 코드 생성 능력을 평가하기 위해 설계된 WebApp1K 벤치마크에서 16개의 최첨단 대형 언어 모델(Large Language Models, LLMs)을 평가한 결과를 제시합니다. 결과는 모든 모델이 유사한 기본 지식을 갖고 있지만, 그들의 성능은 실수 빈도에 따라 차이가 있다는 것을 보여줍니다. 코드 라인(LOC) 및 실패 분포를 분석함으로써, 올바른 코드를 작성하는 것이 잘못된 코드를 생성하는 것보다 더 복잡함을 발견했습니다. 더불어, 프롬프트 엔지니어링은 특정 경우를 제외하고는 오류를 줄이는 데 제한된 효과를 보입니다. 이러한 결과는 코딩 LLM의 더 나은 발전은 모델 신뢰성과 실수 최소화에 중점을 두어야 함을 시사합니다.