번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 텍스트 지시만으로 이미지에 객체를 추가하는 중요한 문제를 다룹니다. 이는 새로운 객체가 조명, 질감, 공간적 위치와 같은 일관된 시각적 맥락 속에서 원활하게 통합되어야 하기 때문에 어려운 과제입니다. 기존의 텍스트 기반 이미지 인페인팅 방법들은 객체를 추가할 수 있지만, 배경 일관성을 유지하지 못하거나 경계 상자나 사용자 스크리블 마스크를 지정하는 번거로운 인간 개입이 필요합니다. 이러한 문제를 해결하기 위해, 우리는 텍스트 제어만으로 텍스트 기반 객체 추가를 가능하게 하는 Diffree라는 텍스트-이미지(T2I) 모델을 소개합니다. 이를 위해, 우리는 고급 이미지 인페인팅 기술을 사용하여 객체를 제거한 정교한 합성 데이터셋인 OABench를 구축했습니다. OABench는 원본 이미지, 객체가 제거된 인페인팅 이미지, 객체 마스크, 그리고 객체 설명으로 구성된 74K개의 실제 데이터 튜플을 포함합니다. Stable Diffusion 모델에 추가 마스크 예측 모듈을 적용하여 OABench로 학습된 Diffree는 새로운 객체의 위치를 독창적으로 예측하고 텍스트 지시만으로 객체 추가를 달성합니다. 광범위한 실험을 통해 Diffree는 높은 성공률로 새로운 객체를 추가하면서도 배경 일관성, 공간적 적절성, 객체 관련성 및 품질을 유지하는 데 탁월한 성능을 보임을 입증했습니다.
우리는 대형 모델의 힘을 활용한 새로운 오픈소스, 코드 없는 다중 에이전트 데이터 분석 시스템인 ``LAMBDA''를 소개합니다. LAMBDA는 자연어를 사용하여 반복적이고 생성적으로 작동하는 혁신적으로 설계된 데이터 에이전트를 통해 복잡한 데이터 기반 애플리케이션에서의 데이터 분석 문제를 해결하도록 설계되었습니다. LAMBDA의 핵심에는 프로그래머와 검사자라는 두 가지 주요 에이전트 역할이 있으며, 이들은 원활하게 협력하도록 설계되었습니다. 구체적으로, 프로그래머는 사용자의 지시와 도메인 특화 지식을 기반으로 코드를 생성하며, 이는 고급 모델에 의해 강화됩니다. 한편, 검사자는 필요할 때 코드를 디버깅합니다. 견고성을 보장하고 불리한 시나리오를 처리하기 위해 LAMBDA는 사용자가 운영 루프에 직접 개입할 수 있는 사용자 인터페이스를 제공합니다. 또한, LAMBDA는 지식 통합 메커니즘을 통해 외부 모델과 알고리즘을 유연하게 통합할 수 있어, 맞춤형 데이터 분석의 요구를 충족시킵니다. LAMBDA는 다양한 머신러닝 데이터셋에서 강력한 성능을 입증했습니다. 이는 인간과 인공 지능을 원활하게 통합함으로써 데이터 과학 실무 및 분석 패러다임을 개선할 잠재력을 가지고 있으며, 다양한 배경을 가진 개인들에게 더 접근하기 쉽고, 효과적이며, 효율적인 도구가 될 수 있습니다. LAMBDA의 데이터 과학 문제 해결에서의 강력한 성능은 여러 사례 연구를 통해 입증되었으며, 이는 https://www.polyu.edu.hk/ama/cmfai/lambda.html에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 최근 발전은 매우 대규모 시뮬레이션에서 다중 에이전트 시스템을 적용할 수 있는 새로운 가능성을 열었습니다. 그러나 기존 플랫폼을 사용하여 다중 에이전트 시뮬레이션을 수행할 때는 확장성과 효율성의 한계, 에이전트 다양성의 부족, 관리 프로세스의 노력 집약성 등 여러 가지 과제가 남아 있습니다. 이러한 과제를 해결하기 위해 우리는 사용자 친화적인 다중 에이전트 플랫폼인 AgentScope에 여러 새로운 기능과 구성 요소를 개발하여 매우 대규모 다중 에이전트 시뮬레이션을 지원하는 편의성과 유연성을 강화했습니다. 구체적으로, 우리는 뛰어난 확장성과 높은 효율성을 위한 기반 기술 인프라로 액터 기반 분산 메커니즘을 제안하고, 다양한 실제 시나리오를 시뮬레이션하기 위한 유연한 환경 지원을 제공하여 다중 에이전트의 병렬 실행, 중앙 집중식 워크플로 오케스트레이션, 그리고 에이전트 간 및 에이전트-환경 상호작용을 가능하게 했습니다. 또한, AgentScope에 사용하기 쉬운 구성 가능한 도구와 자동 배경 생성 파이프라인을 통합하여 다양한 상세 배경 설정을 가진 에이전트 생성 프로세스를 단순화했습니다. 마지막으로, 여러 장치에 걸쳐 배포될 수 있는 대량의 에이전트를 편리하게 모니터링하고 관리할 수 있는 웹 기반 인터페이스를 제공합니다. 우리는 AgentScope의 제안된 개선 사항의 효과를 입증하기 위해 포괄적인 시뮬레이션을 수행하고, 대규모 시뮬레이션에서 다중 에이전트 시스템을 적용할 수 있는 큰 잠재력을 강조하기 위해 상세한 관찰과 논의를 제공합니다. 소스 코드는 https://github.com/modelscope/agentscope에서 GitHub에 공개되어 대규모 다중 에이전트 시뮬레이션 분야의 추가 연구와 개발을 촉진할 수 있도록 했습니다.
대규모 데이터셋에 대한 학습을 통해, 제로샷 단안 깊이 추정(MDE) 방법들은 야외 환경에서 강력한 성능을 보이지만 종종 충분히 정밀한 세부 사항을 제공하지 못하는 문제가 있습니다. 최근 확산 기반(diffusion-based) MDE 접근법들은 매력적인 세부 정보 추출 능력을 보여주지만, 다양한 데이터셋에서 강력한 기하학적 사전 정보를 얻는 데 어려움을 겪어 기하학적으로 복잡한 장면에서 여전히 어려움을 겪습니다. 두 방법의 상호 보완적인 장점을 활용하기 위해, 우리는 BetterDepth를 제안하여 기하학적으로 정확한 아핀 불변(affine-invariant) MDE 성능을 효율적으로 달성하면서도 미세한 세부 사항을 포착할 수 있도록 합니다. 구체적으로, BetterDepth는 사전 훈련된 MDE 모델의 예측을 깊이 조건으로 사용하는 조건부 확산 기반 정제기(conditional diffusion-based refiner)로, 전역 깊이 맥락을 잘 포착하고 입력 이미지를 기반으로 세부 사항을 반복적으로 정제합니다. 이러한 정제기를 훈련하기 위해, 우리는 전역 사전 정렬(global pre-alignment)과 지역 패치 마스킹(local patch masking) 방법을 제안하여 BetterDepth가 깊이 조건에 충실하면서도 미세한 장면 세부 사항을 학습할 수 있도록 합니다. 소규모 합성 데이터셋에 대한 효율적인 훈련을 통해, BetterDepth는 다양한 공개 데이터셋과 야외 장면에서 최첨단 제로샷 MDE 성능을 달성합니다. 또한, BetterDepth는 추가 재훈련 없이 플러그 앤 플레이 방식으로 다른 MDE 모델의 성능을 향상시킬 수 있습니다.
AI 에이전트는 주로 환경을 인지하고, 작업을 이해하며, 목표를 자율적으로 달성하는 능력으로 인해 점점 더 많은 관심을 받고 있습니다. 모바일 시나리오에서의 AI 에이전트 연구를 발전시키기 위해, 우리는 일반적인 모바일 GUI 제어 에이전트를 위해 설계된 포괄적이고 대규모의 데이터셋인 Android Multi-annotation EXpo(AMEX)를 소개합니다. 이 데이터셋을 통해 모바일 기기의 그래픽 사용자 인터페이스(GUI)와 직접 상호작용하여 복잡한 작업을 완료하는 능력을 훈련하고 평가합니다. AMEX는 110개의 인기 모바일 애플리케이션에서 추출한 104,000개 이상의 고해상도 스크린샷으로 구성되어 있으며, 여러 수준으로 주석이 달려 있습니다. 기존의 모바일 기기 제어 데이터셋(예: MoTIF, AitW 등)과 달리, AMEX는 세 가지 수준의 주석을 포함합니다: GUI 상호작용 요소 위치 지정, GUI 화면 및 요소 기능 설명, 그리고 평균 13단계의 단계별 GUI 액션 체인을 포함한 복잡한 자연어 지시문입니다. 우리는 이 데이터셋을 보다 교육적이고 상세한 관점에서 개발하여 기존 데이터셋의 일반적인 설정을 보완합니다. 또한, 우리는 베이스라인 모델인 SPHINX Agent를 개발하고, 다른 데이터셋으로 훈련된 최신 에이전트들과의 성능을 비교합니다. 추가 연구를 촉진하기 위해, 우리는 데이터셋, 모델 및 관련 평가 도구를 오픈소스로 공개합니다. 이 프로젝트는 https://yuxiangchai.github.io/AMEX/에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)이 생성하는 유해 콘텐츠의 위험은 중요한 문제로 대두되고 있습니다. 본 논문은 LLMs의 코스 수정 능력, 즉 모델이 자율적으로 유해 콘텐츠 생성을 피할 수 있는 능력을 평가하고 개선하는 방법에 대한 체계적인 연구를 제시합니다. 이를 위해 먼저, C^2-Eval 벤치마크를 도입하여 정량적 평가를 수행하고, 10개의 인기 있는 LLMs를 분석하여 현재 안전 조정된 LLMs의 코스 수정 능력이 다양함을 밝혔습니다. 개선을 위해, 우리는 선호 학습을 통한 LLMs의 미세 조정을 제안하며, 특히 적시에 코스 수정을 선호하도록 강조합니다. 자동화된 파이프라인을 사용하여 750K 쌍별 선호도를 포함한 합성 데이터셋인 C^2-Syn을 생성하여, 데이터 기반 선호 학습을 통해 모델이 적시에 코스 수정하는 개념을 학습하도록 합니다. Llama2-Chat 7B와 Qwen2 7B 두 가지 LLMs에 대한 실험 결과, 우리의 방법이 일반적인 성능에 영향을 주지 않으면서 코스 수정 능력을 효과적으로 향상시킴을 보여줍니다. 또한, 특히 제일브레이크 공격에 저항하는 데 있어 LLMs의 안전성을 효과적으로 개선합니다.
오늘날 가장 강력한 언어 모델의 사전 학습 데이터는 불투명합니다. 특히, 다양한 도메인이나 언어가 어떤 비율로 포함되어 있는지에 대해서는 거의 알려져 있지 않습니다. 본 연구에서는 우리가 데이터 혼합 추론(data mixture inference)이라고 부르는 작업을 다루며, 이는 학습 데이터의 분포적 구성을 밝히는 것을 목표로 합니다. 우리는 이전에 간과되었던 정보원인 바이트 페어 인코딩(BPE) 토크나이저를 기반으로 한 새로운 공격 방법을 소개합니다. BPE 토크나이저는 현대 언어 모델의 대다수가 사용하고 있습니다. 우리의 핵심 통찰은 BPE 토크나이저가 학습한 병합 규칙의 순서화된 목록이 학습 데이터의 토큰 빈도에 대한 정보를 자연스럽게 드러낸다는 것입니다: 첫 번째 병합은 가장 흔한 바이트 쌍이고, 두 번째는 첫 번째 토큰을 병합한 후 가장 흔한 쌍이며, 이런 식으로 계속됩니다. 관심 있는 각 카테고리에 대한 데이터 샘플과 함께 토크나이저의 병합 목록이 주어지면, 우리는 토크나이저의 학습 세트에서 각 카테고리의 비율을 계산하는 선형 프로그램을 공식화합니다. 중요한 점은, 토크나이저 학습 데이터가 사전 학습 데이터를 대표하는 한, 우리는 간접적으로 사전 학습 데이터에 대해 학습할 수 있다는 것입니다. 통제된 실험에서, 우리는 우리의 공격이 자연어, 프로그래밍 언어, 데이터 소스의 알려진 혼합물로 학습된 토크나이저에 대해 높은 정밀도로 혼합 비율을 복구함을 보여줍니다. 그런 다음 우리는 최근 언어 모델과 함께 공개된 상용 토크나이저에 우리의 접근 방식을 적용합니다. 우리는 이러한 모델에 대해 공개적으로 알려진 많은 정보를 확인하고, 몇 가지 새로운 추론을 합니다: GPT-4o의 토크나이저는 이전 모델보다 훨씬 더 다국어적이며, 39%의 비영어 데이터로 학습되었습니다; Llama3는 GPT-3.5의 토크나이저를 주로 다국어(48%) 사용을 위해 확장했습니다; GPT-3.5와 Claude의 토크나이저는 주로 코드(~60%)로 학습되었습니다. 우리의 연구가 현재의 사전 학습 데이터 설계 관행에 대한 통찰을 제공하고, 언어 모델을 위한 데이터 혼합 추론 연구가 계속되기를 바랍니다.
명령어 수행 대형 시각-언어 모델(LVLMs) 분야에서, 이러한 모델의 효율적인 배포는 특히 키-값(KV) 캐시의 높은 메모리 요구로 인해 어려움에 직면해 있습니다. 기존의 LLM 캐시 관리 전략은 캐시 제거에 초점을 맞추고 있어, 다중모달 명령어 수행 모델의 특수한 요구를 충족시키지 못하는 경우가 많습니다. 이러한 격차를 인식하여, 본 논문에서는 명령어 인코딩과 출력 생성 단계에 각기 다른 가속 방법을 적용함으로써 이점을 얻는 새로운 접근 방식인 Elastic Cache를 소개합니다. 우리는 다양한 단계에서의 중요도 지표를 조사하고, 중요도 기반 캐시 병합 전략을 제안하여 중복 캐시를 정리합니다. 중요도가 낮은 캐시를 단순히 버리는 대신, 우리의 전략은 중요한 키/값 벡터를 앵커 포인트로 식별합니다. 그런 다음 중요도가 낮은 주변 캐시를 이러한 앵커와 병합함으로써 KV 캐시의 문맥 정보 보존을 강화하면서도 임의의 가속 비율을 달성합니다. 명령어 인코딩의 경우, 캐시의 중요도를 평가하기 위해 빈도를 활용합니다. 출력 생성에 관해서는, 오프셋과의 거리를 기준으로 토큰의 우선순위를 정하여 초기 토큰과 가장 최근 토큰을 모두 보존합니다. 다양한 LVLM에 대한 실험 결과, Elastic Cache는 효율성을 향상시킬 뿐만 아니라 다양한 작업에서 기존의 정리 방법을 뛰어넘는 언어 생성 성능을 보여줍니다. 코드는 https://github.com/liuzuyan/ElasticCache에서 확인할 수 있습니다.
최근의 발전은 멀티모달 대형 언어 모델(MLLM)의 이미지-텍스트 콘텐츠 생성 및 이해 능력을 크게 향상시켰습니다. 이러한 성과에도 불구하고, 다른 언어로 된 고품질 멀티모달 리소스의 부족으로 인해 진전은 주로 영어에 국한되고 있습니다. 이러한 한계는 아랍어와 같은 언어에서 경쟁력 있는 모델 개발을 저해합니다. 이러한 상황을 완화하기 위해, 우리는 LLaMA-2 기반의 고급 언어 모델을 활용하여 멀티모달 상호작용을 용이하게 하는 효율적인 아랍어 멀티모달 어시스턴트인 Dallah을 소개합니다. Dallah은 아랍어 MLLM에서 최첨단 성능을 보여줍니다. 여섯 가지 아랍어 방언을 미세 조정함으로써, Dallah은 텍스트와 시각적 요소를 모두 포함한 복잡한 방언 상호작용을 처리할 수 있는 능력을 입증했습니다. 이 모델은 두 가지 벤치마크 테스트에서 뛰어난 성능을 보였습니다: 하나는 현대 표준 아랍어(MSA)에서의 성능을 평가하는 것이고, 다른 하나는 방언 응답을 평가하기 위해 특별히 설계된 것입니다. 멀티모달 상호작용 작업에서의 견고한 성능을 넘어, Dallah은 방언 인식 아랍어 MLLM의 추가 개발을 위한 길을 열어줄 잠재력을 가지고 있습니다.
혈액 염색제인 헤마톡실린과 에오신(H&E)으로 염색된 조직 이미지에서 세포 핵의 분할은 다양한 임상 응용 및 분석에 필수적입니다. 세포 형태학의 복잡한 특성으로 인해, 고품질 분할을 생성하기 위해서는 넓은 수용 영역이 중요하게 여겨집니다. 그러나 기존 방법들은 수용 영역과 계산 부담 사이의 균형을 달성하는 데 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 LKCell이라는 고정확도이면서 효율적인 세포 분할 방법을 제안합니다. 이 방법의 핵심 통찰은 큰 컨볼루션 커널의 잠재력을 활용하여 계산적으로 효율적인 넓은 수용 영역을 달성하는 데 있습니다. 구체적으로, (1) 우리는 사전 훈련된 큰 컨볼루션 커널 모델을 의료 영역에 처음으로 전이시켜, 세포 분할에서의 효과를 입증합니다. (2) 우리는 기존 방법의 중복성을 분석하고, 큰 컨볼루션 커널을 기반으로 한 새로운 분할 디코더를 설계합니다. 이 디코더는 더 높은 성능을 달성하면서도 매개변수 수를 크게 줄입니다. 우리는 가장 도전적인 벤치마크에서 이 방법을 평가하고, 이전의 선두 방법 대비 단 21.6%의 FLOPs로 세포 핵 인스턴스 분할에서 최첨단 결과(0.5080 mPQ)를 달성했습니다. 우리의 소스 코드와 모델은 https://github.com/hustvl/LKCell에서 확인할 수 있습니다.
우리는 ACL 2024와 함께 개최된 ArabicNLP 2024 컨퍼런스의 일환으로 조직된 FIGNEWS 공유 과제에 대한 개요를 제시한다. 이 공유 과제는 다국어 뉴스 게시물에서의 편향성과 선전적 요소 주석 작업을 다룬다. 우리는 이스라엘-가자 전쟁 초기를 사례 연구로 집중적으로 분석한다. 이 과제는 잠재적 편향성과 선전적 요소를 강조하는 다양한 서사를 분석하기 위한 프레임워크를 구축함으로써 주관적 작업에 대한 주석 가이드라인 개발에서의 협력을 촉진하는 것을 목표로 한다. 다양성을 촉진하고 장려하는 정신 속에서, 우리는 다국어 관점, 즉 영어, 프랑스어, 아랍어, 히브리어, 힌디어 등 다섯 가지 언어 내에서 이 문제를 다룬다. 총 17개 팀이 두 가지 주석 하위 과제인 편향성(16개 팀)과 선전적 요소(6개 팀)에 참여했다. 팀들은 가이드라인 개발, 주석 품질, 주석 양, 일관성 등 네 가지 평가 트랙에서 경쟁했다. 이 팀들은 총 129,800개의 데이터 포인트를 생성했다. 이 분야에 대한 주요 발견과 시사점에 대해 논의한다.
복잡한 인용 지식 그래프 내에서 중요한 참고문헌을 식별하는 것은 도전적인 과제입니다. 이 그래프는 인용, 저자, 키워드 및 기타 관계적 속성을 통해 연결되어 있습니다. 논문 출처 추적(PST) 작업은 고급 데이터 마이닝 기술을 활용하여 주어진 학술 논문의 핵심 참고문헌을 자동으로 식별하는 것을 목표로 합니다. KDD CUP 2024에서 우리는 PST 작업에 맞춤화된 추천 기반 프레임워크를 설계했습니다. 이 프레임워크는 최종 예측을 생성하기 위해 신경 협업 필터링(NCF) 모델을 사용합니다. 논문의 텍스트 속성을 처리하고 모델의 입력 특징을 추출하기 위해 사전 훈련된 언어 모델인 SciBERT를 활용합니다. 실험 결과에 따르면, 우리의 방법은 평균 정밀도(MAP) 지표에서 0.37814의 점수를 달성하여 기준 모델들을 능가했으며, 모든 참가 팀 중 11위를 기록했습니다. 소스 코드는 https://github.com/MyLove-XAB/KDDCupFinal에서 공개적으로 제공됩니다.