번역이 포함된 일일 선별된 AI 연구 논문
다중모드 대형 언어 모델(Multimodal Large Language Model, MLLM)은 현재 LLM의 고급 기능에 힘입어 급속한 성장을 경험하고 있다. 이전의 전문가 모델과 달리, 기존 MLLM은 다중모드 일반주의(Multimodal Generalist) 패러다임으로 진화하고 있다. 초기에는 여러 모드를 이해하는 데 제한적이었던 이 모델들은 이제 여러 모드를 이해할 뿐만 아니라 생성할 수 있는 수준까지 발전했다. 이들의 능력은 거시적에서 미시적인 다중모드 이해로 확장되었으며, 제한된 모드에서 임의의 모드를 지원하는 수준까지 진보했다. MLLM을 평가하기 위한 많은 벤치마크가 존재하지만, 중요한 질문이 제기된다: 여러 작업에서 더 높은 성능이 더 강력한 MLLM 능력을 나타내며, 인간 수준의 AI에 더 가까워진다는 것을 단순히 가정할 수 있는가? 우리는 그 답이 생각만큼 간단하지 않다고 주장한다. 이 프로젝트는 MLLM의 성능과 일반성을 5단계로 정의한 평가 프레임워크인 General-Level을 소개하며, MLLM을 비교하고 기존 시스템이 더 강력한 다중모드 일반주의자로, 궁극적으로는 AGI(일반 인공지능)로 나아가는 진전을 측정하는 방법론을 제공한다. 이 프레임워크의 핵심은 시너지(Synergy) 개념으로, 모델이 이해와 생성, 그리고 여러 모드에 걸쳐 일관된 능력을 유지하는지를 측정한다. 이 평가를 지원하기 위해, 우리는 700개 이상의 작업과 325,800개의 인스턴스를 포함한 더 넓은 스펙트럼의 기술, 모드, 형식 및 능력을 포괄하는 General-Bench를 제시한다. 100개 이상의 최첨단 MLLM을 포함한 평가 결과는 일반주의자의 능력 순위를 밝히며, 진정한 AI에 도달하기 위한 과제를 강조한다. 우리는 이 프로젝트가 차세대 다중모드 기반 모델에 대한 미래 연구의 길을 열고, AGI 실현을 가속화하기 위한 견고한 인프라를 제공할 것으로 기대한다. 프로젝트 페이지: https://generalist.top/
대형 언어 모델(LLMs)은 환각 현상에 취약하며, 검색 증강 생성(Retrieval-Augmented Generation, RAG)은 이를 완화하는 데 도움을 주지만, 높은 계산 비용과 잘못된 정보의 위험을 수반합니다. 적응형 검색은 필요할 때만 검색을 수행하는 것을 목표로 하지만, 기존 접근 방식은 LLM 기반의 불확실성 추정에 의존하여 여전히 비효율적이고 실용적이지 못합니다. 본 연구에서는 외부 정보를 기반으로 한 경량화된 LLM 독립적 적응형 검색 방법을 소개합니다. 우리는 7개 그룹으로 구성된 27개의 특징과 이들의 혼합 조합을 조사했습니다. 이러한 방법들을 6개의 질의응답(QA) 데이터셋에서 평가하여 QA 성능과 효율성을 측정했습니다. 결과적으로, 우리의 접근 방식은 복잡한 LLM 기반 방법과 동등한 성능을 유지하면서도 상당한 효율성 향상을 달성했으며, 적응형 검색을 위한 외부 정보의 잠재력을 입증했습니다.
최근 몇 년간 멀티모달 이해 모델과 이미지 생성 모델 모두에서 놀라운 발전이 이루어졌다. 각각의 성공에도 불구하고, 이 두 분야는 독립적으로 진화하며 서로 다른 아키텍처 패러다임을 형성해 왔다: 멀티모달 이해 분야에서는 자기회귀 기반 아키텍처가 주도적인 반면, 이미지 생성 분야에서는 확산 기반 모델이 핵심적인 역할을 해왔다. 최근에는 이러한 작업들을 통합하는 통합 프레임워크 개발에 대한 관심이 점차 증가하고 있다. GPT-4o의 새로운 기능 등장은 이러한 통합의 가능성을 보여주는 대표적인 사례이다. 그러나 두 분야 간의 아키텍처적 차이는 상당한 도전 과제로 남아 있다. 통합을 위한 현재의 노력을 명확히 정리하고 미래 연구를 안내하기 위해, 본 논문에서는 포괄적인 조사를 제시한다. 먼저, 멀티모달 이해와 텍스트-이미지 생성 모델의 기본 개념과 최근 발전을 소개한다. 다음으로, 기존의 통합 모델들을 검토하며 이를 확산 기반, 자기회귀 기반, 그리고 자기회귀와 확산 메커니즘을 융합한 하이브리드 접근법이라는 세 가지 주요 아키텍처 패러다임으로 분류한다. 각 범주에 대해 관련 연구에서 도입된 구조적 설계와 혁신을 분석한다. 또한, 통합 모델을 위해 특화된 데이터셋과 벤치마크를 정리하여 향후 탐구를 위한 자료를 제공한다. 마지막으로, 토큰화 전략, 교차 모달 어텐션, 데이터 등 이 초기 단계의 분야가 직면한 주요 과제에 대해 논의한다. 이 분야는 아직 초기 단계에 있기 때문에 빠른 발전이 예상되며, 본 조사는 정기적으로 업데이트될 예정이다. 우리의 목표는 추가 연구를 촉진하고 학계에 가치 있는 참고 자료를 제공하는 것이다. 본 조사와 관련된 참고 문헌은 GitHub(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)에서 확인할 수 있다.
효과적인 정보 검색은 대규모 언어 모델(LLM)의 추론 및 생성 능력을 향상시키는 데 필수적입니다. 최근 연구에서는 실시간 검색 엔진과 상호작용하며 LLM의 검색 능력을 개선하기 위해 강화 학습(RL)을 활용하는 방법을 탐구해 왔습니다. 이러한 접근법은 유망한 결과를 보여주지만, 두 가지 주요 문제에 직면하고 있습니다: (1) 통제되지 않은 문서 품질: 검색 엔진이 반환하는 문서의 품질은 예측하기 어려워 훈련 과정에 노이즈와 불안정성을 초래합니다. (2) 과도한 API 비용: RL 훈련은 수십만 건의 검색 요청을 포함할 수 있는 빈번한 롤아웃을 필요로 하며, 이는 상당한 API 비용을 발생시키고 확장성을 심각하게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 실제 검색 엔진과 상호작용하지 않고도 LLM의 검색 능력을 강화하는 강화 학습 프레임워크인 ZeroSearch를 소개합니다. 우리의 접근법은 LLM을 쿼리에 대해 관련성 있는 문서와 노이즈가 포함된 문서를 생성할 수 있는 검색 모듈로 변환하기 위한 경량의 지도 학습 미세 조정으로 시작합니다. RL 훈련 동안, 우리는 생성된 문서의 품질을 점진적으로 저하시키는 커리큘럼 기반 롤아웃 전략을 사용하여, 점점 더 어려운 검색 시나리오에 노출시킴으로써 모델의 추론 능력을 점진적으로 이끌어냅니다. 광범위한 실험을 통해 ZeroSearch가 3B LLM을 검색 모듈로 사용하여 LLM의 검색 능력을 효과적으로 강화함을 입증했습니다. 특히, 7B 검색 모듈은 실제 검색 엔진과 비슷한 성능을 보였으며, 14B 검색 모듈은 이를 능가하기까지 했습니다. 또한, 이 방법은 다양한 파라미터 크기의 기본 모델과 지시 튜닝 모델 모두에서 잘 일반화되며, 다양한 RL 알고리즘과 호환됩니다.
맞춤형 비디오 생성은 사용자가 정의한 유연한 조건 하에서 특정 주체를 포함한 비디오를 제작하는 것을 목표로 하지만, 기존 방법들은 주체 일관성과 제한된 입력 양식에 어려움을 겪는 경우가 많습니다. 본 논문에서는 이미지, 오디오, 비디오, 텍스트 조건을 지원하면서 주체 일관성을 강조한 다중 양식 맞춤형 비디오 생성 프레임워크인 HunyuanCustom을 제안합니다. HunyuanVideo를 기반으로 구축된 우리의 모델은 먼저 LLaVA 기반의 텍스트-이미지 융합 모듈을 도입하여 향상된 다중 양식 이해를 달성하고, 시간적 연결을 통해 프레임 간 주체 특징을 강화하는 이미지 ID 강화 모듈을 통해 이미지-텍스트 조건 생성 작업을 해결합니다. 오디오 및 비디오 조건 생성을 가능하게 하기 위해, 공간적 교차 주의를 통해 계층적 정렬을 달성하는 AudioNet 모듈과 패치화 기반 특징 정렬 네트워크를 통해 잠재 압축 조건 비디오를 통합하는 비디오 주입 모듈과 같은 양식별 조건 주입 메커니즘을 추가로 제안합니다. 단일 및 다중 주체 시나리오에 대한 광범위한 실험을 통해 HunyuanCustom이 ID 일관성, 현실감, 텍스트-비디오 정렬 측면에서 최신 오픈소스 및 클로즈드소스 방법들을 크게 능가함을 입증합니다. 또한, 오디오 및 비디오 주도 맞춤형 비디오 생성과 같은 하위 작업에서의 견고성을 검증합니다. 우리의 결과는 제어 가능한 비디오 생성을 발전시키는 데 있어 다중 양식 조건화 및 주체 보존 전략의 효과를 강조합니다. 모든 코드와 모델은 https://hunyuancustom.github.io에서 확인할 수 있습니다.
복잡한 3D 형태를 단순한 기하학적 요소로 분해하는 형태 원시 추상화는 인간의 시각적 인지에 중요한 역할을 하며, 컴퓨터 비전 및 그래픽스 분야에서 광범위하게 응용되고 있다. 최근 3D 콘텐츠 생성 기술의 발전이 눈부신 진전을 보이고 있지만, 기존의 원시 추상화 방법들은 제한된 의미론적 이해를 바탕으로 한 기하학적 최적화에 의존하거나, 소규모의 특정 카테고리 데이터셋에서 학습하여 다양한 형태 카테고리 간 일반화에 어려움을 겪고 있다. 본 연구에서는 형태 원시 추상화를 원시 조립 생성 작업으로 재구성한 새로운 프레임워크인 PrimitiveAnything을 제안한다. PrimitiveAnything은 자동회귀 생성을 위한 형태 조건부 원시 트랜스포머와 여러 유형의 원시를 통일된 방식으로 표현하는 모호성 없는 파라미터화 기법을 포함한다. 제안된 프레임워크는 대규모 인간 제작 추상화로부터 원시 조립 과정을 직접 학습함으로써, 인간이 복잡한 형태를 원시 요소로 분해하는 방식을 포착할 수 있다. 광범위한 실험을 통해 PrimitiveAnything이 인간의 인지와 더 잘 부합하는 고품질의 원시 조립을 생성하면서도 다양한 형태 카테고리 간 기하학적 정확성을 유지할 수 있음을 입증하였다. 이는 다양한 3D 응용 분야에 이점을 제공하며, 게임에서 원시 기반 사용자 생성 콘텐츠(UGC)를 가능하게 할 잠재력을 보여준다. 프로젝트 페이지: https://primitiveanything.github.io
2021년 초 출시된 OpenAI의 CLIP은 오랫동안 멀티모달 기반 모델 구축을 위한 시각 인코더의 대표적인 선택지로 자리 잡아 왔습니다. 최근 SigLIP과 같은 대안들이 이러한 현상에 도전하기 시작했지만, 우리가 아는 한 완전히 오픈된 옵션은 없습니다: 이들의 학습 데이터는 독점적이거나 학습 방법이 공개되지 않은 경우가 대부분입니다. 본 논문은 이러한 공백을 메우기 위해 OpenVision을 제안합니다. OpenVision은 LLaVA와 같은 멀티모달 프레임워크에 통합될 때 OpenAI의 CLIP 성능을 능가하거나 동등한 성능을 보이는 완전히 오픈된, 비용 효율적인 시각 인코더 패밀리입니다. OpenVision은 기존 연구들(예: 학습 프레임워크로 CLIPS, 학습 데이터로 Recap-DataComp-1B)을 기반으로 하면서도 인코더 품질 향상을 위한 여러 핵심 통찰을 제시하고 멀티모달 모델 발전의 실질적인 이점을 입증합니다. 5.9M부터 632.1M 파라미터에 이르는 다양한 규모의 시각 인코더를 공개함으로써, OpenVision은 멀티모달 모델 구축 시 용량과 효율성 간의 유연한 균형을 제공합니다: 더 큰 모델은 향상된 멀티모달 성능을 제공하는 반면, 더 작은 버전은 경량화된 엣지 환경에서의 멀티모달 배포를 가능하게 합니다.
우리는 인간 테스트에서 영감을 받아 새롭게 설계한 시각 과제 세트를 활용하여 비전 언어 모델(VLMs)의 시각적 관점 수용 능력을 조사한다. 본 연구의 접근 방식은 단일 휴머노이드 미니피규어와 단일 물체가 짝을 이루는 세밀하게 통제된 장면을 활용한다. 물체의 위치를 휴머노이드 미니피규어에 상대적으로 변화시키고, 휴머노이드 미니피규어의 방향을 조정하며, 조감도와 표면 수준의 시점을 모두 사용함으로써 총 144개의 독특한 시각 과제를 생성하였다. 각 시각 과제는 장면 이해, 공간 추론, 시각적 관점 수용이라는 세 가지 수준의 시각 인지를 평가하기 위해 설계된 7개의 진단 질문과 짝을 이룬다. GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct 및 Claude Sonnet의 변형을 포함한 여러 최신 모델을 평가한 결과, 이들은 장면 이해에서는 뛰어난 성능을 보였으나 공간 추론에서는 성능이 크게 저하되었고, 관점 수용에서는 더욱 악화되었다. 우리의 분석은 복잡한 시각 과제에 필요한 깊이 있는 공간 및 관점 추론과 표면 수준의 물체 인식 간의 격차를 시사하며, 향후 VLM 개발에서 명시적인 기하학적 표현과 맞춤형 훈련 프로토콜의 통합이 필요함을 지적한다.
데이터 혼합 전략은 언어 모델 훈련에 소요되는 비용을 성공적으로 절감해 왔다. 이러한 방법은 유망하지만 두 가지 결점을 가지고 있다. 첫째, 이들은 미리 정의된 데이터 도메인(예: 데이터 소스, 작업 유형)에 의존하는데, 이는 중요한 의미론적 뉘앙스를 포착하지 못해 성능을 제한할 수 있다. 둘째, 이러한 방법은 도메인 수에 따라 계산적으로 비효율적인 방식으로 확장된다. 우리는 이러한 문제를 R&B 프레임워크를 통해 해결한다. R&B는 의미론적 유사성을 기반으로 훈련 데이터를 재분할(Regroup)하여 더 세분화된 도메인을 생성하고, 훈련 과정에서 얻은 도메인 그래디언트로 유도된 그램 행렬을 활용하여 데이터 구성을 효율적으로 최적화(Balance)한다. 기존 연구와 달리, R&B는 손실이나 그래디언트와 같은 평가 정보를 얻기 위한 추가 계산을 필요로 하지 않는다. 우리는 이 기법을 표준 규칙성 조건 하에서 분석하고, R&B의 효과를 비적응적 혼합 접근법과 비교하여 이론적으로 입증한다. 실험적으로, 우리는 자연어 처리부터 추론 및 다중모달 작업에 이르는 다섯 가지 다양한 데이터셋에서 R&B의 효과를 입증한다. 단 0.01%의 추가 계산 오버헤드만으로도 R&B는 최신 데이터 혼합 전략의 성능을 능가하거나 동등한 수준을 달성한다.
대형 언어 모델(LLMs)은 복잡한 추론 능력을 보여주지만, 자연스러운 군집 특성인 제한된 지역적 인지와 통신과 같은 엄격한 제약 하에서 다중 에이전트 시스템(MAS) 내에서의 창발적 조정 능력은, 특히 군집 지능의 미묘한 측면에 관해, 아직 크게 탐구되지 않았습니다. 기존 벤치마크는 종종 불완전한 시공간 정보를 가진 에이전트들이 운영할 때 발생하는 분산 조정의 독특한 도전을 충분히 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 분산 에이전트로 작동하는 LLMs의 군집 지능 능력을 체계적으로 평가하기 위한 새로운 벤치마크인 SwarmBench을 소개합니다. SwarmBench은 구성 가능한 2D 그리드 환경 내에서 다섯 가지 기본 MAS 조정 작업을 특징으로 하며, 에이전트들이 주로 지역적 감각 입력(k x k 시야)과 지역적 통신에 의존하도록 합니다. 우리는 조정 효과에 대한 메트릭을 제안하고 창발적 그룹 역학을 분석합니다. 제로샷 설정에서 여러 주요 LLMs를 평가한 결과, 작업 간에 상당한 성능 차이가 나타나며, 이는 지역적 정보 제약이 야기하는 어려움을 강조합니다. 일부 조정이 나타나기는 하지만, 결과는 이러한 분산 시나리오에서 불확실성 하에서의 견고한 계획 및 전략 수립의 한계를 보여줍니다. 군집과 유사한 조건에서 LLMs를 평가하는 것은 미래의 분산 시스템에서 그들의 잠재력을 실현하기 위해 중요합니다. 우리는 SwarmBench을 정의된 기계적 특성을 가진 사용자 정의 가능하고 확장 가능한 물리적 시스템을 기반으로 한 개방적이고 확장 가능한 툴킷으로 공개합니다. 이는 환경, 프롬프트, 평가 스크립트 및 생성된 포괄적인 실험 데이터셋을 제공하여, LLM 기반 MAS 조정 및 구체화된 MAS의 이론적 기반에 대한 재현 가능한 연구를 촉진하기 위해 노력합니다. 우리의 코드 저장소는 https://github.com/x66ccff/swarmbench에서 이용 가능합니다.
표면적으로는 자명한 작업으로 보이는 문제 해결은 과학과 공학에서 중요한 구성 요소로 자리 잡아 왔다. 그러나 문제 해결 자체에 대한 일반적이면서도 구체적인 형식화는 아직 부재한 상태이다. 최근 AI 기반 문제 해결 에이전트의 발전과 함께, 프로세스 수준에서의 검증 가능성에 대한 요구가 급증하고 있으나 이에 대한 탐구는 여전히 미흡하다. 이러한 격차를 메우기 위해, 우리는 문제 해결을 결정론적 마르코프 결정 과정으로 형식화하는 원칙적인 접근법을 제시한다. 이는 기존의 FTP(형식적 정리 증명) 환경을 활용하여 프로세스 검증된 문제 해결을 수행하는 새로운 프레임워크인 FPS(형식적 문제 해결)와, 해결과 답변 검증을 분리하여 인간과의 조율을 개선한 D-FPS(연역적 FPS)를 포함한다. 이 프레임워크들의 표현력, 건전성, 완전성이 입증되었다. 우리는 문제 해결을 위한 세 가지 벤치마크를 구성하였다: MATH500 벤치마크의 일부를 형식화한 FormalMath500; FTP 벤치마크인 MiniF2F와 PutnamBench를 적응시킨 MiniF2F-Solving과 PutnamBench-Solving. 신뢰할 수 있고 해석 가능하며 인간과 조율된 평가를 위해, 우리는 형식적 검증을 통해 답변의 정확성을 판단하는 기호적 접근법인 RPE(제한된 명제 동치)를 제안한다. 우리는 네 가지 주요 FTP 모델과 두 가지 프롬프팅 방법을 기준으로 평가하여, FormalMath500의 최대 23.77%, MiniF2F-Solving의 27.47%, PutnamBench-Solving의 0.31%를 해결하였다.
GitHub 이슈 해결 작업은 저장소에 보고된 이슈를 자동으로 해결하는 것을 목표로 합니다. 대규모 언어 모델(LLM)의 발전과 함께 이 작업은 점점 더 많은 관심을 받고 있으며, LLM의 이슈 해결 능력을 평가하기 위한 여러 벤치마크가 제안되었습니다. 그러나 기존 벤치마크에는 세 가지 주요 한계가 있습니다. 첫째, 현재 벤치마크는 단일 프로그래밍 언어에 초점을 맞추고 있어 다양한 언어의 저장소에서 발생하는 이슈를 평가하는 데 제한이 있습니다. 둘째, 일반적으로 좁은 범위의 도메인을 다루기 때문에 실제 세계의 다양한 이슈를 충분히 반영하지 못할 수 있습니다. 셋째, 기존 벤치마크는 이슈 설명의 텍스트 정보에만 의존하여 이미지와 같은 멀티모달 정보를 간과하고 있습니다. 본 논문에서는 다국어, 멀티모달, 다중 도메인을 지원하는 GitHub 이슈 해결 벤치마크인 OmniGIRL을 제안합니다. OmniGIRL은 네 가지 프로그래밍 언어(즉, Python, JavaScript, TypeScript, Java)와 여덟 가지 다른 도메인의 저장소에서 수집된 959개의 작업 인스턴스를 포함합니다. 우리의 평가 결과, 현재의 LLM은 OmniGIRL에서 제한된 성능을 보였습니다. 특히, 가장 성능이 뛰어난 모델인 GPT-4o는 단 8.6%의 이슈만 해결했습니다. 또한, 현재의 LLM은 이미지를 이해해야 하는 이슈를 해결하는 데 어려움을 겪는 것으로 나타났습니다. 이미지 정보가 포함된 이슈에서 가장 좋은 성능을 보인 Claude-3.5-Sonnet도 단 10.5%의 이슈만 해결했습니다. 마지막으로, 우리는 현재 LLM이 OmniGIRL에서 실패하는 이유를 분석하여 향후 개선을 위한 통찰을 제공합니다.
이중 시스템 VLA(Vision-Language-Action) 아키텍처는 구체화된 지능 연구 분야에서 핫 토픽으로 떠올랐지만, 성능 분석과 최적화를 위한 충분한 오픈소스 작업이 부족한 실정이다. 이 문제를 해결하기 위해, 본 논문은 기존 이중 시스템 아키텍처의 구조적 설계를 요약하고 비교하며, 핵심 설계 요소에 대한 체계적인 실증 평가를 수행할 것이다. 궁극적으로, 추가 탐구를 위한 저비용 오픈소스 모델을 제공할 예정이다. 물론, 이 프로젝트는 더 많은 실험 결과와 개선된 성능의 오픈소스 모델을 지속적으로 업데이트하여 모두가 선택할 수 있도록 할 것이다. 프로젝트 페이지: https://openhelix-robot.github.io/.
문제 해결은 다양한 분야에서 인간의 진보를 이끄는 근본적인 동력이 되어왔습니다. 인공지능의 발전과 함께, 대형 언어 모델(LLMs)은 복잡한 문제를 해결할 수 있는 강력한 도구로 부상했습니다. 전통적인 계산 시스템과 달리, LLMs은 원시적인 계산 능력과 인간의 사고 방식을 근사화한 것을 결합하여 해결책을 생성하고, 추론을 수행하며, 외부 계산 도구를 활용할 수 있습니다. 그러나 LLMs를 실제 문제 해결에 적용하는 것은 다단계 추론, 도메인 지식 통합, 결과 검증 등 상당한 도전 과제를 안고 있습니다. 본 논문은 CoT(Chain-of-Thought) 추론, 지식 증강, 다양한 LLM 기반 및 도구 기반 검증 기법을 포함한 기술을 검토하며, LLMs의 복잡한 문제 해결 능력과 한계를 탐구합니다. 또한, 소프트웨어 공학, 수학적 추론 및 증명, 데이터 분석 및 모델링, 과학 연구와 같은 다양한 분야에서의 도메인 특화적 도전 과제를 강조합니다. 이 논문은 더 나아가 현재 LLM 솔루션의 근본적인 한계와 다단계 추론, 도메인 지식 통합, 결과 검증의 관점에서 LLM 기반 복잡 문제 해결의 미래 방향에 대해 논의합니다.
본 논문에서는 사용 편의성, 확장성, 테스트 케이스의 포괄적 커버리지, 그리고 자동화된 검증에 초점을 맞춘 고급 GUI 탐색 AI 에이전트를 위한 복잡한 멀티모달 데스크톱 지향 작업의 벤치마크인 OSUniverse를 소개한다. 작업은 기본적인 정밀 클릭에서부터 민첩성, 정밀도, 명확한 사고를 요구하는 다단계, 다중 애플리케이션 테스트에 이르기까지 점진적으로 복잡성이 증가하는 수준으로 구분된다. 여기서 소개하는 벤치마크의 첫 번째 버전에서는, 출판 당시의 최첨단(SOTA) 에이전트가 50% 이상의 성과를 달성하지 못하도록 벤치마크 테스트 케이스의 복잡성을 조정하였으며, 평범한 화이트칼라 근로자는 이 모든 작업을 완벽한 정확도로 수행할 수 있도록 하였다. 이 벤치마크는 수동으로 채점할 수 있지만, 평균 오류율이 2% 미만인 자동화된 검증 메커니즘도 도입하였다. 따라서 이 벤치마크는 단기 및 중기적으로 GUI 탐색 AI 에이전트의 진전, 능력 및 효과를 완전히 자동화된 방식으로 측정할 수 있는 견고한 기반을 제공한다. 벤치마크의 소스 코드는 https://github.com/agentsea/osuniverse에서 확인할 수 있다.
에이전트는 주로 작업 성공 지표를 통해 평가 및 최적화되며, 이러한 지표는 대체로 거칠고 전문가의 수동 설계에 의존하며 중간에 발생하는 새로운 행동을 보상하지 못합니다. 우리는 AutoLibra라는 에이전트 평가 프레임워크를 제안합니다. 이 프레임워크는 "버튼이 비활성화된 것을 발견했다면 다시 클릭하지 마세요" 또는 "이 에이전트는 스스로 무엇을 할지 결정할 수 있는 자율성이 너무 많다"와 같은 개방형 인간 피드백을 에이전트 궤적에서 세부 행동을 평가하기 위한 지표로 변환합니다. AutoLibra는 피드백을 에이전트의 행동에 기반하여 구체화하고, 유사한 긍정적 및 부정적 행동을 클러스터링하며, 명확한 정의와 구체적인 예시를 포함한 구체적인 지표를 생성함으로써 이를 달성합니다. 이러한 지표는 LLM-as-a-Judge(판단자로서의 대형 언어 모델)를 평가자로 사용하기 위한 프롬프트로 활용될 수 있습니다. 또한 우리는 개방형 피드백과 (유도된) 지표 집합 간의 정렬을 평가하기 위해 "커버리지"와 "중복성"이라는 두 가지 메타 지표를 제안합니다. 이러한 메타 지표를 최적화함으로써, 우리는 AutoLibra가 이전의 에이전트 평가 벤치마크에서 제안된 것보다 더 구체적인 에이전트 평가 지표를 유도하고 에이전트를 분석하기 위한 새로운 지표를 발견할 수 있음을 실험적으로 입증합니다. 또한 우리는 AutoLibra의 두 가지 응용 사례를 제시합니다: 첫째, AutoLibra가 유도한 지표가 다양한 텍스트 게임 작업에서 작업 성공률보다 더 나은 프롬프트 엔지니어링 목표로 작용하여, 에이전트 성능을 기준선 대비 평균 20% 향상시킨다는 것을 보여줍니다. 둘째, AutoLibra가 웹 탐색 에이전트를 위한 고품질 미세 조정 데이터를 반복적으로 선택할 수 있음을 보여줍니다. 우리의 결과는 AutoLibra가 언어 에이전트를 평가하고 개선하기 위한 강력한 작업 독립적 도구임을 시사합니다.
대부분의 기존 비디오 이상 탐지기는 RGB 프레임에만 의존하며, 이는 이상 이벤트의 주요 지표인 급격하거나 일시적인 움직임 단서를 포착하는 데 필요한 시간적 해상도가 부족합니다. 이러한 한계를 해결하기 위해, 우리는 RGB 비디오에서 직접 이벤트 표현을 합성하고 이를 이미지 특징과 원칙적이고 불확실성 인식 프로세스를 통해 융합하는 Image-Event Fusion for Video Anomaly Detection (IEF-VAD) 프레임워크를 제안합니다. 이 시스템은 (i) Student's-t 가능도를 사용하여 센서 노이즈의 두꺼운 꼬리를 모델링하고 Laplace 근사를 통해 값 수준의 역분산 가중치를 도출하며, (ii) 시간에 걸쳐 모달리티를 균형 있게 조정하기 위해 Kalman 스타일의 프레임 단위 업데이트를 적용하고, (iii) 잔여 교차 모달 노이즈를 제거하기 위해 융합된 잠재 상태를 반복적으로 개선합니다. 전용 이벤트 센서나 프레임 수준 레이블 없이도 IEF-VAD는 여러 실제 이상 탐지 벤치마크에서 새로운 최첨단 기술을 설정합니다. 이러한 결과는 RGB 프레임에서 종종 과소 표현되는 움직임 단서를 강조하는 합성 이벤트 표현의 유용성을 강조하며, 전용 이벤트 센서 없이도 다양한 응용 프로그램에서 정확하고 견고한 비디오 이해를 가능하게 합니다. 코드와 모델은 https://github.com/EavnJeong/IEF-VAD에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 다양한 적응 전략을 사용하여 수많은 작업에서 뛰어난 성능을 달성합니다. 그러나 자원 제약 하에서 모델과 적응 전략을 최적으로 선택하는 것은 어려운 문제이며, 종종 광범위한 실험을 필요로 합니다. 우리는 비용이 많이 드는 실험 없이도 성능과 비용을 정확하게 예측할 수 있는지 조사합니다. 우리는 LLM을 위한 전략 선택 문제를 공식화하고, 최소 비용으로 적응 결과를 효율적으로 추정하는 통합 예측 프레임워크인 COSMOS를 소개합니다. 우리는 이 프레임워크의 능력을 두 가지 강력한 예측기를 통해 구체화하고 연구합니다: 파인튜닝 성능을 예측하기 위한 임베딩-증강 경량 프록시 모델과, 검색-증강 인컨텍스트 학습을 예측하기 위한 저샘플링 스케일링 법칙입니다. 8개의 대표적인 벤치마크에 걸친 광범위한 평가 결과, COSMOS는 평균 92.72%, 자원 집약적인 시나리오에서는 최대 98.71%까지 계산 비용을 줄이면서도 높은 예측 정확도를 달성함을 보여줍니다. 우리의 결과는 적응 결과를 효율적으로 예측하는 것이 가능할 뿐만 아니라, 성능 기준을 유지하면서 LLM 배포의 계산 오버헤드를 상당히 줄일 수 있음을 보여줍니다.
CBCT 스캔에서 3D 치아 분할을 위한 준지도 학습(semi-supervised learning)은 레이블 데이터가 부족한 상황에서 매우 유망한 접근 방식으로 자리 잡았습니다. 그러나 기존 방법들은 여전히 두 가지 지속적인 문제에 직면해 있습니다: 지도 학습 중 구조적으로 모호하거나 잘못 레이블된 영역에서의 제한된 교정 지도(supervision), 그리고 레이블이 없는 데이터에서 신뢰할 수 없는 의사 레이블(pseudo-label)로 인한 성능 저하입니다. 이러한 문제를 해결하기 위해, 우리는 이중 그룹 이중 학생(dual-group dual-student) 구조의 준지도 학습 프레임워크인 Region-Aware Instructive Learning(RAIL)을 제안합니다. 각 그룹은 공유된 교사 네트워크(teacher network)에 의해 지도받는 두 개의 학생 모델(student model)로 구성됩니다. RAIL은 두 그룹 간의 교대 학습을 통해 그룹 간 지식 전달과 협력적인 영역 인식 지도(region-aware instruction)를 촉진하면서 단일 모델의 특성에 과적합(overfitting)되는 것을 줄입니다. 구체적으로, RAIL은 두 가지 지도 메커니즘을 도입합니다. Disagreement-Focused Supervision(DFS) Controller는 학생 모델의 예측이 실제 정답(ground truth)과 최고의 학생 모델 모두와 다른 영역에서만 지도를 집중함으로써 구조적으로 모호하거나 잘못 레이블된 영역에 대한 지도를 개선합니다. 비지도 학습 단계에서는 Confidence-Aware Learning(CAL) Modulator가 모델의 확신도가 높은 영역에서의 일치를 강화하고, 학습 중 낮은 신뢰도의 예측의 영향을 줄입니다. 이는 모델이 불안정한 패턴을 학습하는 것을 방지하고 의사 레이블의 전반적인 신뢰성을 향상시킵니다. 네 가지 CBCT 치아 분할 데이터셋에서의 광범위한 실험을 통해 RAIL이 제한된 주석 하에서 최신 기술(state-of-the-art) 방법을 능가함을 보여줍니다. 우리의 코드는 https://github.com/Tournesol-Saturday/RAIL에서 공개될 예정입니다.
과학적 지식 창출은 인간과 AI 시스템이 도구-사용자 관계를 넘어 공진화적 인식적 파트너십으로 진화함에 따라 근본적으로 변모하고 있다. AlphaFold가 단백질 구조 예측을 혁신적으로 변화시켰을 때, 연구자들은 근본적인 관계를 재구성하는 인식적 파트너와의 협력을 경험했다고 설명했다. 이 논문은 기존 모델의 한계를 해결하기 위한 Cognitio Emergens(CE) 프레임워크를 소개한다. 기존 모델은 정적 역할이나 좁은 지표에 초점을 맞추면서 시간에 따른 인간-AI 간의 순환적 상호작용을 통해 과학적 이해가 어떻게 창출되는지 포착하지 못한다. CE는 이러한 한계를 해결하기 위해 세 가지 구성 요소를 통합한다: 인간과 AI 간의 권한 분배를 설명하는 Agency Configurations(Directed, Contributory, Partnership)는 파트너십이 선형적 진행을 따르지 않고 구성 간에 동적으로 진동한다; Discovery, Integration, Projection 축을 통해 협력으로 창출되는 여섯 가지 구체적 역량을 포착하는 Epistemic Dimensions는 개발을 안내하는 독특한 "역량 서명"을 생성한다; 그리고 이러한 관계가 어떻게 진화하는지를 형성하는 힘, 특히 연구자가 공식적으로 승인한 지식에 대한 해석적 통제력을 상실하는 인식적 소외의 위험을 식별하는 Partnership Dynamics를 포함한다. 자가생성 이론, 사회 시스템 이론, 조직 모듈성에서 도출된 CE는 역할, 가치, 조직 구조의 지속적인 협상을 통해 지식 공동 창출이 어떻게 발생하는지를 보여준다. 인간-AI 과학적 협력을 근본적으로 공진화적인 것으로 재개념화함으로써, CE는 AI의 진화적 역할을 무비판적으로 찬양하거나 불필요하게 두려워하지 않는 균형 잡힌 관점을 제공한다. 대신, 의미 있는 인간 참여를 유지하면서 변혁적인 과학적 돌파구를 가능하게 하는 파트너십을 육성하기 위한 개념적 도구를 제공한다.