번역이 포함된 일일 선별된 AI 연구 논문
기계 언러닝(Machine Unlearning, MU)은 특히 대규모 다중모달 언어 모델(Multimodal Language Models, MLLMs)에서 특정 개인 정보나 위험 정보를 제거하여 개인 정보 보호와 보안을 향상시키는 데 중요합니다. 텍스트 및 시각 모달에서 MU가 상당한 진전을 이루었지만, 다중모달 언러닝(Multimodal Unlearning, MMU)은 여전히 적절한 오픈 소스 벤치마크의 부재로 인해 크게 탐구되지 않았습니다. 이를 해결하기 위해 MMU 방법을 평가하기 위해 설계된 새로운 벤치마크인 CLEAR를 소개합니다. CLEAR에는 200명의 가상 인물과 해당 질문-답변 쌍과 연결된 3,700개의 이미지가 포함되어 다중 모달 간 철저한 평가가 가능합니다. 우리는 10가지 MU 방법을 MMU에 맞게 적용하고, 다중모달 잊기에 특화된 새로운 도전 과제를 강조합니다. 또한 LoRA 가중치에 대한 간단한 ell_1 정규화가 잊기의 치명적인 영향을 상당히 완화시키고 유지된 데이터에 대한 모델 성능을 보존하는 것을 시연합니다. 데이터셋은 https://huggingface.co/datasets/therem/CLEAR에서 이용 가능합니다.
타블러 데이터를 포함하는 데이터 과학 작업은 복잡한 도전을 제기하여 정교한 문제 해결 방법이 필요합니다. 저희는 데이터 과학자들이 일상적인 데이터 파이프라인을 완성하는 데 도움을 주는 강력하고 사용자 중심의 AutoKaggle 프레임워크를 제안합니다. AutoKaggle은 협력적인 다중 에이전트 시스템을 통해 코드 실행, 디버깅 및 포괄적인 단위 테스트를 결합하여 코드의 정확성과 논리 일관성을 보장하는 반복적인 개발 프로세스를 구현합니다. 이 프레임워크는 매우 사용자 정의 가능한 워크플로우를 제공하여 사용자가 각 단계에서 개입할 수 있도록 하여 자동화된 지능과 인간 전문 지식을 통합합니다. 데이터 클리닝, 피처 엔지니어링 및 모델링을 위한 확인된 함수로 구성된 저희의 범용 데이터 과학 툴킷은 이 솔루션의 기반을 형성하며 일반적인 작업을 간소화하여 생산성을 향상시킵니다. 우리는 8개의 캐글 경연을 선택하여 실제 응용 시나리오에서 데이터 처리 워크플로우를 시뮬레이션했습니다. 평가 결과는 AutoKaggle이 전형적인 데이터 과학 파이프라인에서 0.85의 검증 제출률과 0.82의 포괄적인 점수를 달성함을 보여주며 복잡한 데이터 과학 작업을 처리하는 데 있어 효과적이고 실용적임을 완전히 입증합니다.
사회 관계 추론은 이미지에서 친구, 배우자 및 동료와 같은 관계 범주를 식별하는 것을 목표로 합니다. 현재 방법들은 레이블이 지정된 이미지 데이터를 사용하여 전용 네트워크를 최종 단계로 교육하는 패러다임을 채택하고 있지만, 일반화 및 해석 가능성 측면에서 제한되어 있습니다. 이러한 문제를 해결하기 위해 먼저 Vision Foundation Models (VFMs)의 지각 능력과 Large Language Models (LLMs)의 추론 능력을 모듈식 프레임워크 내에서 결합하는 간단하면서도 신중하게 설계된 {\name} 프레임워크를 제안합니다. 이는 사회 관계 인식을 위한 강력한 기준을 제공합니다. 구체적으로, VFMs에게 이미지 콘텐츠를 텍스트 기반 사회 이야기로 번역하도록 지시하고, 그런 다음 LLMs를 통해 텍스트 기반 추론을 활용합니다. {\name}은 VFMs와 LLMs를 각각 조정하고 그 사이의 간극을 메우기 위한 체계적인 설계 원칙을 소개합니다. 추가 모델 교육 없이 두 데이터베이스에서 경쟁력 있는 제로샷 결과를 달성하면서, LLMs가 결정에 대한 언어 기반 설명을 생성할 수 있기 때문에 해석 가능한 답변을 제공합니다. 추론 단계에서 LLMs를 위한 수동 프롬프트 설계 과정은 지루하며 자동 프롬프트 최적화 방법이 필요합니다. 우리는 기본적으로 시각적 분류 작업을 LLMs의 생성 작업으로 변환하기 때문에 자동 프롬프트 최적화는 독특한 장문 프롬프트 최적화 문제에 직면합니다. 이 문제를 해결하기 위해 우리는 Greedy Segment Prompt Optimization (GSPO)을 제안합니다. 이는 세그먼트 수준에서 그레디언트 정보를 활용하여 탐욕스러운 탐색을 수행합니다. 실험 결과는 GSPO가 성능을 크게 향상시키며, 우리의 방법이 다양한 이미지 스타일로 일반화됨을 보여줍니다. 코드는 https://github.com/Mengzibin/SocialGPT에서 사용할 수 있습니다.
수학적 추론은 대규모 언어 모델(LLMs)에 대한 중요한 능력이지만, 자세하고 정확한 추론 트레이스를 생성하는 것은 여전히 중요한 과제입니다. 본 논문은 온라인 학습 플로우를 사용하여 LLM 세부 조정을 위한 고품질 추론 트레이스를 생성하는 새로운 접근 방식을 소개합니다. 우리의 방법은 구성 LLM이 반복적인 통신을 통해 협력하여 솔루션을 구축하는 증분 출력 생성 플로우를 사용합니다. 우리는 롤아웃을 사용한 온라인 직접 선호도 최적화(DPO) 학습을 통해 플로우를 훈련시키고, 각 훈련 예제에 대해 DPO 쌍을 생성하고 모델을 실시간으로 업데이트합니다. 우리의 방법으로 생성된 추론 트레이스의 품질을 직접 모델 추론을 통해 생성된 것과 비교하여, 수학적 추론 작업에서 LLM 성능을 향상시키는 우리의 접근 방식의 효과를 입증합니다.
대규모 언어 및 다중 모달 모델의 신속한 발전은 GPT-4o와 같은 전용 모델을 활용하여 웹 탐색과 같은 현실 세계 시나리오를 처리할 수 있는 자율 에이전트를 개발하는 데 상당한 관심을 불러일으켰다. 최근의 오픈 소스 노력은 환경 탐색 능력을 갖춘 에이전트를 지속적으로 향상시키려고 노력해왔지만, 이들은 보상 신호가 명확히 정의된 합성 환경에서 텍스트 전용 에이전트를 구축하고 있다. 이러한 에이전트들은 다중 모달 지각 능력이 필요한 현실적인 환경으로의 일반화에 어려움을 겪으며, 지면 신호가 부족하다. 본 논문에서는 자율적으로 현실 세계 탐사를 수행하고 스스로를 향상시킬 수 있는 다중 모달 웹 에이전트의 개발을 용이하게 하는 오픈 소스 프레임워크를 소개한다. 우리는 먼저 기본 능력을 습득하기 위해 모방 학습으로 기본 모델을 훈련시킨다. 그런 다음, 에이전트에게 오픈 웹을 탐색하고 궤적에 대한 피드백을 수집하게 한다. 그 후, 다른 일반 목적 모델에 의해 평가된 성능이 우수한 궤적으로부터 학습하여 정책을 더 개선한다. 이 탐사-피드백-최적화 주기는 여러 번 반복될 수 있다. 실험 결과는 우리의 웹 에이전트가 각 반복 후에 스스로를 성공적으로 향상시키며, 여러 테스트 세트에서 강력한 성능을 보여준다.
대형 언어 모델(LLMs)은 HumanEval 및 MBPP에서 Python 코딩 문제를 해결하는 데 90% 이상의 pass@1을 보여주며 코드 생성에서 놀라운 능력을 보였다. 이러한 높은 정확도는 LLMs가 인간 프로그래머를 대체할 수 있는지에 대한 의문을 불러일으킨다. 기존의 수동으로 제작된 간단하거나 한 줄짜리 코드 생성 벤치마크는 실제 소프트웨어 개발과의 간극으로 인해 이 질문에 대답할 수 없다. 이 질문에 대답하기 위해 우리는 REPOCOD를 제안한다. 이는 11개의 인기 있는 실제 프로젝트에서 수집한 980개의 문제로 구성된 코드 생성 벤치마크로, 이 중 58% 이상이 파일 수준 또는 저장소 수준의 컨텍스트 정보가 필요하다. 또한 REPOCOD는 기존 벤치마크와 비교했을 때 가장 긴 평균 규범적 솔루션 길이(331.6 토큰)와 가장 높은 평균 순환 복잡성(9.00)을 가지고 있다. 우리가 10개의 LLMs에 대해 실시한 평가에서는, 어떤 모델도 REPOCOD에서 30% 이상의 pass@1을 달성할 수 없었으며, 이는 실제 소프트웨어 개발에서 개발자들을 돕는 더 강력한 LLMs를 구축해야 한다는 필요성을 드러낸다.
강화 학습 (RL)은 복잡한 로봇 조작 기술의 자율적 습득을 가능하게 하는 데 큰 잠재력을 가지고 있지만, 실제 세계 환경에서 이 잠재력을 실현하는 것은 어려웠습니다. 우리는 다이내믹 조작, 정밀 조립, 이중 팔 조정을 포함한 다양한 민첩한 조작 작업에 대해 인상적인 성능을 보여주는 인간-인-루프 비전 기반 강화 학습 시스템을 제시합니다. 우리의 접근 방식은 데모 및 인간의 수정, 효율적인 강화 학습 알고리즘, 그리고 다른 시스템 수준의 설계 선택을 통합하여, 단 1에서 2.5시간의 훈련으로 거의 완벽한 성공률과 빠른 주기 시간을 달성하는 정책을 학습합니다. 우리의 방법이 모방 학습 기준선 및 이전 강화 학습 접근 방식을 현저히 능가함을 보여주며, 성공률에서 평균 2배 향상과 실행 속도에서 1.8배 빠른 것을 입증합니다. 광범위한 실험과 분석을 통해, 우리의 방법이 반응 및 예측 제어 전략에 대해 견고하고 적응적인 정책을 학습하는 방법에 대한 효과를 제시하고 있습니다. 우리의 결과는 강화 학습이 실제 세계에서 실용적인 훈련 시간 내에 직접 다양한 복잡한 비전 기반 조작 정책을 학습할 수 있다는 것을 시사합니다. 이 연구가 산업 응용 및 연구 발전에 이바지하는 새로운 세대의 학습된 로봇 조작 기술을 영감을 주기를 희망합니다. 비디오 및 코드는 저희 프로젝트 웹사이트 https://hil-serl.github.io/에서 확인할 수 있습니다.
사고 연쇄 (Chain-of-thought, CoT) 프롬프팅은 대형 언어 및 다중 모달 모델과 작업하는 데 널리 사용되는 전략이 되었습니다. CoT는 다양한 작업에서 성능을 향상시키는 것으로 입증되었지만, 그 효과적인 설정을 결정하는 것은 계속되는 노력이 필요합니다. 특히, CoT가 모델 성능을 체계적으로 저하시키는 설정에 대해 여전히 열린 질문입니다. 본 논문에서는 CoT가 성능을 저하시키는 작업의 특성을 식별하기 위해 인지 심리학에서 영감을 얻어 (i) 언어적 사고나 숙고가 인간의 성능을 해치는 경우, 그리고 (ii) 인간의 성능을 규제하는 제약이 언어 모델에 일반화되는 경우를 살펴봅니다. 암시적 통계 학습, 시각 인식, 그리고 예외를 포함하는 패턴을 분류하는 세 가지 경우가 있습니다. 세 가지 설정에서 수행된 방대한 실험에서 최첨단 모델의 다양한 모음이 추론 시간 추론을 사용할 때 성능이 상당히 저하되는 것을 발견했습니다 (예: OpenAI o1-preview의 절대 정확도가 GPT-4o와 비교하여 최대 36.3% 감소). 또한 (i) 조건을 충족하지만 (ii) 조건을 충족하지 않는 세 가지 작업을 식별하고, 이러한 작업에서 언어적 사고가 인간의 성능을 저하시키는 반면, CoT는 모델 성능을 유지하거나 향상시킨다는 것을 발견했습니다. 전반적으로, 모델의 인지 과정과 인간의 인지 과정 간에 정확한 병렬이 없음을 보여주는 결과이지만, 사고가 인간의 성능에 부정적인 영향을 미치는 경우를 식별함으로써 모델에 부정적인 영향을 미치는 설정을 식별하는 데 도움이 되는 것을 보여줍니다. 인간의 숙고에 대한 문헌과 CoT의 평가를 연결함으로써, 프롬프트 선택과 추론 시간 추론의 영향을 이해하는 데 사용할 수 있는 새로운 도구를 제공합니다.
우리는 시각-언어 모델(VLMs)의 내부 표현과 그들이 작업 표현을 부호화하는 방식을 조사합니다. 우리는 예시나 지시를 통해 명시된 작업을 고려하며, 텍스트나 이미지 입력을 사용합니다. 놀랍게도, 개념적으로 유사한 작업들이 어떻게 명시되었는지에 관계없이 유사한 작업 벡터 표현으로 매핑된다는 것을 발견했습니다. 우리의 연구 결과는 VLMs의 토큰들이 답변을 출력하기 위해 세 가지 구별된 단계(입력, 작업, 답변)를 거치는 것을 시사하며, 이 과정은 다른 모달리티와 명시 방식에 걸쳐 일관성을 보입니다. 우리가 VLMs에서 식별한 작업 벡터는 충분히 일반적이어서 한 모달리티(예: 텍스트)에서 유도되어 다른 모달리티(예: 이미지)로 전이될 수 있습니다. 게다가, 예시와 지시를 기반으로 한 작업 벡터를 앙상블링하면 더 나은 작업 표현을 얻을 수 있음을 발견했습니다. 이러한 통찰력을 종합하면, 이러한 연구 결과는 VLMs의 기저 메커니즘에 빛을 발하며, 특히 다른 모달리티와 작업 명시 방식에 걸쳐 작업을 공유 방식으로 표현하는 능력에 대해 집중하고 있습니다. 프로젝트 페이지: https://task-vectors-are-cross-modal.github.io.
긴 문맥의 대형 언어 모델 (LLM)이 널리 배포되면서 고처리량 추론을 효율적으로 지원하는 수요가 증가하고 있습니다. 그러나 키-값 (KV) 캐시가 시퀀스 길이와 함께 확장됨에 따라 증가하는 메모리 풋프린트와 각 토큰 생성 시에 액세스해야 하는 필요성은 긴 문맥의 LLM을 제공할 때 저 처리량으로 이어집니다. 다양한 동적 희소 어텐션 방법이 제안되었지만, 이들은 GPU 메모리 소비를 충분히 줄이지 못하거나 KV 캐시를 CPU로 오프로드하여 디코딩 지연을 도입하는 문제가 있습니다. 저희는 ShadowKV를 제시합니다. 이는 저 메모리 풋프린트를 줄이기 위해 저랭크 키 캐시를 저장하고 값 캐시를 오프로드하는 고처리량의 긴 문맥 LLM 추론 시스템입니다. 디코딩 지연을 최소화하기 위해 ShadowKV는 정확한 KV 선택 전략을 채택하여 필요한 최소한의 희소 KV 쌍을 실시간으로 재구성합니다. RULER, LongBench, Needle In A Haystack를 비롯한 다양한 벤치마크 및 Llama-3.1-8B, Llama-3-8B-1M, GLM-4-9B-1M, Yi-9B-200K, Phi-3-Mini-128K, Qwen2-7B-128K와 같은 모델에서 ShadowKV를 평가함으로써, 무한한 GPU 메모리를 전제로 한 무한한 배치 크기에서 가능한 성능을 능가하면서도 정확도를 희생하지 않고 A100 GPU에서 최대 6배 큰 배치 크기를 지원하고 처리량을 최대 3.04배 향상시킬 수 있음을 입증합니다. 코드는 https://github.com/bytedance/ShadowKV에서 확인하실 수 있습니다.
시각 표현의 사전 훈련은 로봇 학습의 효율성을 향상시켰습니다. 대규모 도메인 내 로봇 데이터셋의 부족으로 인해, 이전 연구들은 야외에서 촬영된 인간 영상을 사용하여 로봇 시각 표현을 사전 훈련시켰습니다. 유망한 결과에도 불구하고, 인간 영상에서 얻은 표현은 불가피하게 분포 변화에 영향을 받으며 작업 완료에 중요한 동적 정보가 부족합니다. 먼저 다양한 사전 훈련된 표현을 평가하여 하류 로봇 조작 작업과의 상관 관계(즉, 조작 중심성)를 확인했습니다. 흥미로운 점은 "조작 중심성"이 하류 작업에 적용될 때 성공률의 강력한 지표임을 발견했습니다. 이러한 결과를 바탕으로 시각 특징과 조작 작업의 동적 정보(예: 동작 및 자세 정보)를 포착하는 기반 표현 학습 프레임워크인 조작 중심 표현(MCR)을 제안합니다. 구체적으로, DROID 로봇 데이터셋에서 시각 인코더를 사전 훈련하고 로봇 자세 상태 및 동작과 같은 동작 관련 데이터를 활용합니다. 시각 관측을 로봇의 자세 상태-동작 동적과 일치시키는 새로운 대조 손실을 소개하고, 사전 훈련 중 동작을 예측하기 위한 행동 복제(BC) 유사 액터 손실과 시간 대조 손실을 결합합니다. 20가지 작업이 있는 4가지 시뮬레이션 도메인에서의 실험 결과는 MCR이 가장 강력한 기준 방법을 14.8% 능가한다는 것을 확인했습니다. 게다가 MCR은 UR5e 팔을 사용한 데이터 효율적 학습의 성능을 76.9% 향상시킵니다. 프로젝트 웹사이트: https://robots-pretrain-robots.github.io/.
효과적인 밀집 검색 시스템을 구축하는 것은 관련성 지도가 없는 경우에는 여전히 어렵습니다. 최근 연구는 이러한 도전을 극복하기 위해 대규모 언어 모델(LLM)을 활용하여 가상 문서를 생성하고 이를 사용하여 가장 가까운 실제 문서를 찾는 방법을 모색해 왔습니다. 그러나 이 접근 방식은 쿼리와 관련된 도메인 특정 지식을 LLM만 가지고 있다고 가정하는 데에만 의존하므로 실용적이지 않을 수 있습니다. 게다가, 가상 문서 생성은 각 쿼리에 대해 많은 토큰을 생성해야 하므로 효율적이지 못할 수 있습니다. 이러한 도전에 대처하기 위해 우리는 관련성 피드백에서 영감을 받은 실제 문서 임베딩(ReDE-RF)을 소개합니다. ReDE-RF은 가상 문서 생성을 관련성 평가 작업으로 재구성하여, LLM을 사용하여 가장 가까운 이웃 검색에 사용해야 할 문서를 선택하는 것을 제안합니다. 이 재구성을 통해 LLM은 더 이상 도메인 특정 지식이 필요하지 않고 단지 무엇이 관련 있는지를 판단하면 됩니다. 게다가, 관련성 평가는 LLM이 단일 토큰을 출력하기만 하면 되므로 검색 대기 시간을 개선할 수 있습니다. 우리의 실험 결과는 ReDE-RF가 다양한 저자원 검색 데이터셋에서 최첨단 제로샷 밀집 검색 방법을 일관되게 능가하면서, 쿼리 당 대기 시간을 크게 개선하고 있다는 것을 보여줍니다.
오프라인 페어링된 선호도 최적화 알고리즘은 선호도 데이터를 미세 조정하는 데 인기 있는 방법으로, 다양한 작업에서 전통적인 지도 미세 조정을 능가하고 있습니다. 그러나 전통적인 구현은 종종 장기적인 공유 프롬프트를 가진 작업에서 특히 중복 계산을 포함합니다. 접두사 공유를 소개합니다. 선호도 튜닝을 위한 기술로, 선택된 응답과 거부된 응답을 공유 접두사를 가진 하나의 시퀀스로 처리하는 새로운 기술입니다. 교차 응답 오염을 방지하기 위해 사용자 정의 블록-희소 어텐션 마스크를 사용합니다. 우리의 방법은 인기 있는 DPO 데이터셋에서 교육 처리량을 1.1-1.5배 향상시키며 수렴에는 영향을 미치지 않습니다. 시퀀스 패킹과 결합하면, 작은 시퀀스 길이를 가진 데이터셋에서도 일관된 1.3-1.6배 속도 향상을 관찰합니다. 우리는 직접적인 선호도 최적화(DPO)에 초점을 맞추지만, 우리의 방법은 다른 페어링된 선호도 튜닝 방법에도 적용할 수 있습니다. 계산 효율성을 향상시킴으로써, 우리의 작업은 다양한 응용 프로그램 및 모델 크기에 대한 선호도 기반 미세 조정을 보다 접근 가능하게 만드는 데 기여합니다. 우리의 코드는 https://github.com/frankxwang/dpo-prefix-sharing에서 오픈 소스로 제공됩니다.
우리는 디코더 전용 언어 모델(LLM)에서 널리 사용되는 문맥 예시가 검색 작업에서 임베딩 모델 성능을 향상시킬 수 있는지 조사합니다. LLM과는 달리, 단순히 추론 시에 문맥 예시(쿼리-문서 쌍)를 대상 쿼리 앞에 추가하는 것은 기본적으로 작동하지 않습니다. 우리는 리트리버가 문맥 예시를 활용할 수 있도록 하는 간단한 방법을 소개합니다. 우리의 접근 방식인 RARe는 대상 쿼리와 의미적으로 유사한 문맥 예시로 사전 훈련된 모델을 세밀 조정합니다. 이는 다양한 베이스 아키텍처(즉, 디코더 전용 언어 모델, 리트리버 모델)에 적용될 수 있으며, 다양한 오픈 도메인 검색 데이터셋(BeIR, RAR-b)에서 최대 +2.72% nDCG의 성능 향상을 일관되게 달성합니다. 특히, 우리는 RARe가 문맥 예시를 사용하지 않는 모델에 비해 도메인 밖 일반화에서 더 강한 성능을 보여주며, LLM에서의 문맥 학습에서 관찰되는 것과 유사한 결과를 얻었습니다. 또한, 문맥 예시 증강의 설계 선택에 대한 분석을 제공하고, 이 분야의 미래 작업을 위한 기초를 마련합니다.
대규모 언어 모델(LLMs)은 훈련 데이터를 기억하기 쉽기 때문에 민감한 정보 추출 가능성으로 인한 우려가 제기되고 있습니다. 현재 LLMs의 기억률을 측정하는 방법 중 하나인 발견 가능한 추출(Carlini et al., 2022)은 주로 단일 시퀀스 탐욕 샘플링에 의존하며, 실제 기억의 범위를 과소평가할 수 있습니다. 본 논문에서는 발견 가능한 추출의 확률적 완화를 소개하여 생성된 샘플 집합 내에서 대상 시퀀스를 추출할 확률을 측정하며, 다양한 샘플링 방법과 여러 시도를 고려합니다. 이 접근 방식은 LLMs의 확률적 성격과 사용자 상호작용 패턴을 고려하여 발견 가능한 추출을 통한 기억률 보고의 한계를 극복합니다. 실험 결과는 이 확률적 측정이 발견 가능한 추출을 통해 발견된 기억률보다 높은 기억률 사례를 밝혀냄을 보여줍니다. 또한 다른 샘플링 방법이 추출 가능성에 미치는 영향을 조사하여 LLMs의 기억과 관련된 위험을 보다 포괄적이고 현실적으로 평가합니다. 우리의 기여는 새로운 확률적 기억 정의, 그 효과성에 대한 경험적 증거, 그리고 다양한 모델, 크기, 샘플링 방법, 훈련 데이터 반복에 걸친 철저한 평가를 포함합니다.