번역이 포함된 일일 선별된 AI 연구 논문
본 논문에서는 Fuyu-8B에서 진화한 혁신적인 멀티모달 모델인 OtterHD-8B를 소개한다. 이 모델은 고해상도 시각 입력을 세밀한 정밀도로 해석하도록 특별히 설계되었다. 고정 크기의 비전 인코더에 제약을 받는 기존 모델과 달리, OtterHD-8B는 유연한 입력 차원을 처리할 수 있는 능력을 자랑하며, 다양한 추론 요구 사항에 걸쳐 다용도로 사용될 수 있다. 이 모델과 함께, 우리는 모델이 작은 물체의 미세한 세부 사항과 공간적 관계를 식별하는 능력을 면밀히 검토하기 위해 설계된 평가 프레임워크인 MagnifierBench를 소개한다. 우리의 비교 분석은 현재의 선두 모델들이 이 벤치마크에서 실패하는 반면, 특히 고해상도 입력을 직접 처리할 때 OtterHD-8B가 상당한 차이로 다른 모델들을 능가한다는 것을 보여준다. 이러한 결과는 다양한 모델 간의 시각 정보 처리 구조적 차이와 비전 인코더의 사전 학습 해상도 차이가 이러한 벤치마크 내에서 모델의 효과성에 미치는 영향을 밝힌다. 우리의 연구는 대형 멀티모달 모델에서 유연성과 고해상도 입력 능력의 중요성을 강조하며, 복잡한 시각 데이터를 처리하는 데 있어 Fuyu 아키텍처의 단순성이 지닌 잠재력을 예시한다.
다중 모달 대형 언어 모델(Multi-modal Large Language Models, MLLMs)은 다양한 개방형 작업에서 인상적인 지시 능력을 보여왔습니다. 그러나 기존 방법들은 주로 다중 모달 능력 향상에 초점을 맞추어 왔습니다. 본 연구에서는 텍스트 및 다중 모달 작업에서의 성능을 향상시키기 위해 모달리티 간 협력을 효과적으로 활용하는 다용도 다중 모달 대형 언어 모델인 mPLUG-Owl2를 소개합니다. mPLUG-Owl2는 모듈화된 네트워크 설계를 채택하며, 언어 디코더가 다양한 모달리티를 관리하는 범용 인터페이스 역할을 합니다. 구체적으로, mPLUG-Owl2는 모달리티 협력을 촉진하기 위해 공유 기능 모듈을 통합하고, 모달리티별 특성을 보존하는 모달리티 적응형 모듈을 도입합니다. 광범위한 실험을 통해 mPLUG-Owl2가 텍스트 작업과 다중 모달 작업 모두를 일반화할 수 있으며, 단일 일반 모델로 최첨단 성능을 달성할 수 있음을 확인했습니다. 특히, mPLUG-Owl2는 순수 텍스트 및 다중 모달 시나리오 모두에서 모달리티 협력 현상을 보여주는 최초의 MLLM 모델로서, 향후 다중 모달 기반 모델 개발에 있어 선구적인 길을 열었습니다.
대규모 언어 모델(LLM)의 최근 발전은 복잡한 문제를 "사고"라고 불리는 더 관리 가능한 언어 시퀀스로 분해함으로써 의사결정 과정을 혁신적으로 변화시켰습니다. 효과적인 사고 설계는 성능, 효율성, 유연성이라는 세 가지 핵심 관점을 고려해야 합니다. 그러나 기존의 사고 패러다임은 이 중 최대 두 가지 특성만을 동시에 구현할 수 있습니다. 이러한 한계를 극복하기 위해, 우리는 "모든 사고"(Everything of Thoughts, XoT)라는 새로운 사고 프롬프팅 접근법을 제안합니다. 이는 기존 사고 패러다임의 "펜로즈 삼각형" 법칙을 극복하기 위한 것입니다. XoT는 사전 학습된 강화 학습과 몬테카를로 트리 탐색(MCTS)을 활용하여 외부 도메인 지식을 사고에 통합함으로써 LLM의 능력을 향상시키고, 이를 통해 보이지 않는 문제에 효율적으로 일반화할 수 있도록 합니다. MCTS-LLM 협업 사고 수정 프레임워크를 활용함으로써, 이 접근법은 최소한의 LLM 상호작용으로도 고품질의 포괄적인 인지 매핑을 자율적으로 생성합니다. 또한, XoT는 LLM이 제약 없는 사고를 할 수 있도록 하여, 다중 해결책이 존재하는 문제에 대해 유연한 인지 매핑을 가능하게 합니다.
방의 음향 특성은 방의 기하학적 구조, 방 내부의 물체, 그리고 그들의 구체적인 위치에 의해 결정됩니다. 방의 음향 특성은 소스와 청취자 위치 간의 임펄스 응답(RIR)으로 특징지어지거나, 방 내부의 자연 신호 녹음을 통해 대략적으로 추론될 수 있습니다. 방 내부 물체의 위치 변화는 RIR로 특징지어진 방의 음향 특성에 측정 가능한 변화를 일으킬 수 있습니다. 기존의 RIR 데이터셋은 환경 내 물체의 위치를 체계적으로 변화시키지 않거나, 시뮬레이션된 RIR만으로 구성되어 있습니다. 우리는 현재까지 공개된 것 중 가장 큰 실제 환경에서 측정된 고유한 RIR 데이터셋인 SoundCam을 소개합니다. 이 데이터셋은 세 가지 다른 방(통제된 음향 실험실, 실제 거실, 회의실)에서 측정된 10채널 실세계 임펄스 응답 5,000개와 10채널 음악 녹음 2,000개를 포함하며, 각 방 내부에 위치한 다양한 사람들을 포함합니다. 우리는 이러한 측정값이 사람을 감지하고 식별하며, 그들의 위치를 추적하는 것과 같은 흥미로운 작업에 사용될 수 있음을 보여줍니다.
대규모 언어 모델(LLMs)이 실제 세계에서 점점 더 많은 책임을 맡게 됨에 따라, 이러한 시스템의 행동을 신뢰할 수 있는 방식으로 명시하고 제약하는 것이 중요해졌습니다. 모델 개발자는 "욕설을 생성하지 말 것"과 같은 명시적인 규칙을 설정하고 싶어할 수 있지만, 이러한 규칙은 탈옥(jailbreaking) 기술에 의해 우회될 수 있습니다. 적대적 입력에 직면했을 때 LLMs가 개발자가 제공한 규칙을 얼마나 잘 따르는지 평가하는 것은 일반적으로 수동 검토를 필요로 하며, 이는 모니터링과 방법 개발을 늦추게 됩니다. 이 문제를 해결하기 위해, 우리는 LLMs의 규칙 준수 능력을 측정하기 위한 프로그래밍 프레임워크인 Rule-following Language Evaluation Scenarios(RuLES)를 제안합니다. RuLES는 모델이 인간 사용자와 상호작용하면서 자연어로 된 일련의 규칙을 준수하도록 지시하는 15개의 간단한 텍스트 시나리오로 구성됩니다. 각 시나리오에는 대화 중에 모델이 어떤 규칙을 위반했는지 판단하기 위한 간결한 평가 프로그램이 있습니다. 우리 시나리오에서 모델 행동을 수동으로 탐색하면서, 우리는 6가지 범주의 공격 전략을 식별하고 두 가지 테스트 케이스 모음을 수집했습니다: 하나는 수동 테스트에서 얻은 고유한 대화로 구성되고, 다른 하나는 6가지 범주의 전략을 체계적으로 구현한 것입니다. GPT-4와 Llama 2와 같은 다양한 인기 있는 독점 및 오픈 모델을 대상으로 평가한 결과, 모든 모델이 다양한 적대적 수작업 사용자 입력에 취약한 것으로 나타났지만, GPT-4가 가장 우수한 성능을 보였습니다. 또한, 우리는 오픈 모델을 그래디언트 기반 공격 하에서 평가하고 상당한 취약점을 발견했습니다. 우리는 RuLES를 LLMs에 대한 수동 및 자동 공격을 탐색하고 방어하기 위한 연구를 위한 새로운 도전적인 설정으로 제안합니다.
Neural MMO 2.0은 강화 학습 연구를 위한 대규모 다중 에이전트 환경입니다. 이 새 버전의 핵심 기능은 사용자가 다양한 목표와 보상 신호를 정의할 수 있는 유연한 작업 시스템입니다. 우리는 연구자들에게 훈련 중에 접해보지 못한 작업, 지도, 상대에게도 일반화할 수 있는 에이전트를 훈련시키는 과제를 제시합니다. Neural MMO는 표준 설정에서 128개의 에이전트가 있는 절차적 생성 지도를 특징으로 하며, 최대 지원 가능한 에이전트 수를 제공합니다. 버전 2.0은 이전 버전을 완전히 재작성하여 성능이 세 배 향상되었으며 CleanRL과의 호환성을 갖추고 있습니다. 우리는 이 플랫폼을 무료 오픈소스 소프트웨어로 공개하며, neuralmmo.github.io에서 포괄적인 문서를 제공하고 활발한 커뮤니티 Discord를 운영하고 있습니다. 이 새로운 플랫폼에서의 초기 연구를 촉발하기 위해, 우리는 NeurIPS 2023에서 동시에 경쟁을 진행하고 있습니다.
기존의 비디오 매팅은 비디오 프레임에 나타나는 모든 인스턴스에 대해 하나의 알파 매트(alpha matte)를 출력하므로 개별 인스턴스를 구분하지 못합니다. 비디오 인스턴스 세분화(video instance segmentation)는 시간적 일관성을 갖는 인스턴스 마스크를 제공하지만, 특히 이진화(binarization)가 적용되기 때문에 매팅 애플리케이션에서는 만족스러운 결과를 제공하지 못합니다. 이러한 단점을 해결하기 위해, 우리는 비디오 시퀀스의 각 프레임에서 각 인스턴스의 알파 매트를 추정하는 Video Instance Matting(VIM)을 제안합니다. 이 어려운 문제를 해결하기 위해, 우리는 VIM을 위한 새로운 베이스라인 모델로 Mask Sequence Guided Video Instance Matting(MSG-VIM) 신경망을 제시합니다. MSG-VIM은 부정확하고 일관성 없는 마스크 지침에 대해 예측을 강건하게 만들기 위해 다양한 마스크 증강 기법을 활용합니다. 또한, 시간적 마스크와 시간적 특징 지침을 통합하여 알파 매트 예측의 시간적 일관성을 개선합니다. 더 나아가, 우리는 VIM을 위한 새로운 벤치마크인 VIM50을 구축했습니다. VIM50은 전경 객체로 여러 인간 인스턴스를 포함하는 50개의 비디오 클립으로 구성됩니다. VIM 작업의 성능을 평가하기 위해, 우리는 Video Instance-aware Matting Quality(VIMQ)라는 적절한 메트릭을 도입했습니다. 우리가 제안한 모델인 MSG-VIM은 VIM50 벤치마크에서 강력한 베이스라인을 설정하며, 기존 방법들을 큰 차이로 능가합니다. 이 프로젝트는 https://github.com/SHI-Labs/VIM에서 오픈소스로 제공됩니다.
대규모 언어 모델이 점점 더 보편화됨에 따라, 이들이 생성할 수 있는 유해하거나 부적절한 응답이 우려의 원인이 되고 있다. 본 논문은 이러한 유해하거나 부적절한 응답을 유발하도록 설계된 질문 형태의 적대적 예시를 포함한 독자적인 데이터셋인 AttaQ를 소개한다. 우리는 다양한 모델이 이 데이터셋에 노출되었을 때의 취약점을 분석함으로써 데이터셋의 효용성을 평가한다. 또한, 모델이 유해한 출력을 생성할 가능성이 높은 입력 의미 영역을 식별하고 명명하기 위한 새로운 자동화 접근 방식을 제안한다. 이는 입력 공격의 의미적 유사성과 모델 응답의 유해성을 모두 고려한 특수한 클러스터링 기법을 적용하여 달성된다. 취약한 의미 영역을 자동으로 식별함으로써 모델의 약점 평가가 강화되고, 그 안전 메커니즘과 전반적인 신뢰성에 대한 표적 개선이 용이해진다.
자기 지도 표현 학습은 표현에 인코딩된 불변성을 지정하기 위해 데이터 증강에 크게 의존합니다. 기존 연구에서는 다양한 데이터 증강을 적용하는 것이 다운스트림 성능에 중요하다는 것을 보여주었지만, 증강 기술은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 자기 지도 표현 학습을 위한 이미지 증강을 생성하기 위해 가우시안 랜덤 필드 기반의 새로운 지역 변환 패밀리를 제안합니다. 이러한 변환은 잘 알려진 아핀 및 색상 변환(이동, 회전, 색상 지터 등)을 일반화하며, 변환 매개변수 값을 픽셀마다 다르게 허용함으로써 증강의 공간을 크게 확장합니다. 매개변수는 공간 좌표의 연속 함수로 취급되며, 독립적인 가우시안 랜덤 필드로 모델링됩니다. 실험 결과는 자기 지도 표현 학습을 위한 새로운 변환의 효과를 보여줍니다. 특히, ImageNet 다운스트림 분류에서 기준선 대비 1.7%의 상위 1 정확도 향상을 달성했으며, 분포 외 iNaturalist 다운스트림 분류에서는 3.6%의 향상을 보였습니다. 그러나 새로운 변환의 유연성으로 인해 학습된 표현은 하이퍼파라미터에 민감합니다. 약한 변환은 표현을 개선하지만, 강한 변환은 이미지의 구조를 저하시킬 수 있어, 증강의 다양성과 강도를 균형 있게 조절하는 것이 학습된 표현의 일반화를 개선하는 데 중요함을 확인했습니다.
형식 검증(formal verification)은 중요한 시스템 소프트웨어의 정확성을 수학적으로 보장할 수 있지만, 높은 증명 부담으로 인해 오랫동안 광범위한 채택이 어려웠다. 최근, 대규모 언어 모델(LLMs)이 코드 분석 및 합성 분야에서 성공을 거두고 있다. 본 논문에서는 Rust 기반의 형식 검증 프레임워크인 Verus를 위해 불변식(invariants), 단언문(assertions), 그리고 기타 증명 구조를 합성하기 위해 LLMs와 정적 분석(static analysis)을 결합한 방법을 제시한다. 소량의 예시만 제공하는 환경에서도 LLMs는 짧은 코드 조각을 분석할 때 특히 후조건(postconditions)과 루프 불변식(loop invariants)을 생성하는 데 있어 인상적인 논리적 능력을 보여준다. 그러나 LLMs는 전통적인 정적 분석의 강점인 컨텍스트 정보를 유지하고 전파하는 능력이 부족하다. 이러한 관찰을 바탕으로, 우리는 OpenAI의 GPT-4 모델을 기반으로 한 프로토타입을 개발했다. 이 프로토타입은 검증 작업을 여러 개의 작은 작업으로 분해하고, GPT-4에 반복적으로 질의하며, 그 출력을 경량 정적 분석과 결합한다. 우리는 이 프로토타입을 20개의 벡터 조작 프로그램에 대해 개발자가 참여한 자동화 루프에서 평가했다. 그 결과, 이 프로토타입이 초보자 수준의 증명 코드 작성에 필요한 인간의 노력을 크게 줄일 수 있음을 입증했다.