번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)로 구동되는 딥 리서치 에이전트는 빠르게 발전하고 있지만, 일반적인 테스트 시간 스케일링 알고리즘을 사용하여 복잡하고 장편의 연구 보고서를 생성할 때는 성능이 정체되는 경우가 많습니다. 인간의 연구 과정이 탐색, 추론, 수정의 반복적인 사이클로 이루어진다는 점에서 영감을 받아, 우리는 테스트 시간 확산 딥 리서처(TTD-DR)를 제안합니다. 이 새로운 프레임워크는 연구 보고서 생성을 확산 과정으로 개념화합니다. TTD-DR은 이 과정을 초안으로 시작하는데, 이 초안은 업데이트 가능한 골격으로서 연구 방향을 안내하는 진화하는 기초 역할을 합니다. 그런 다음 이 초안은 각 단계에서 외부 정보를 통합하는 검색 메커니즘에 의해 동적으로 정보가 제공되는 "디노이징" 과정을 통해 반복적으로 개선됩니다. 이 핵심 과정은 에이전트 워크플로우의 각 구성 요소에 적용되는 자기 진화 알고리즘에 의해 더욱 강화되어, 확산 과정을 위한 고품질의 문맥 생성을 보장합니다. 이 초안 중심의 설계는 보고서 작성 과정을 더욱 시기적절하고 일관성 있게 만들면서, 반복적인 탐색 과정에서의 정보 손실을 줄입니다. 우리는 TTD-DR이 집중적인 탐색과 다중 홉 추론이 필요한 다양한 벤치마크에서 최첨단 결과를 달성하며, 기존의 딥 리서치 에이전트를 크게 능가함을 입증합니다.
대규모 언어 모델(LLM)의 가중치를 16비트에서 더 낮은 비트폭으로 양자화하는 것은 거대한 트랜스포머 모델을 더 경제적인 가속기에 배포하기 위한 사실상의 표준 접근법입니다. GPTQ는 LLM 규모에서의 일회성 사후 훈련 양자화를 위한 표준 방법 중 하나로 부상했습니다. 그러나 GPTQ의 내부 동작은 기하학적 의미나 최악의 경우 보장을 모호하게 만드는 일련의 임시 대수적 업데이트로 설명됩니다. 본 연구에서는 선형 레이어에 대해 역순(마지막 차원에서 첫 번째 차원으로)으로 실행될 때, GPTQ가 레이어 입력의 헤시안 행렬에 의해 정의된 격자에서의 고전적인 최근접 벡터 문제(CVP)에 대한 바바이의 최근접 평면 알고리즘과 수학적으로 동일함을 보입니다. 이 동등성은 정교한 수학적 논증에 기반하며, 두 가지 분석적 결과를 가져옵니다: (i) GPTQ의 오류 전파 단계가 직관적인 기하학적 해석을 얻음; (ii) GPTQ가 클리핑이 없는 조건에서 바바이 알고리즘의 오류 상한을 상속받음. 이러한 결과들은 GPTQ를 견고한 이론적 기반 위에 위치시키고, 수십 년간의 격자 알고리즘 연구 성과를 십억 파라미터 모델을 위한 미래의 양자화 알고리즘 설계에 도입할 수 있는 길을 열어줍니다.
Windows, macOS, Linux, iOS, Android 및 웹 플랫폼 전반에 걸쳐 GUI 자동화 에이전트를 평가하기 위한 계층적 벤치마크인 MMBench-GUI를 소개한다. 이 벤치마크는 GUI 콘텐츠 이해, 요소 그라운딩, 작업 자동화, 작업 협업의 네 가지 수준으로 구성되며, GUI 에이전트에게 필수적인 기술을 포괄한다. 또한, 온라인 자동화 시나리오에서 GUI 에이전트의 실행 효율성을 평가하기 위한 새로운 Efficiency-Quality Area(EQA) 메트릭을 제안한다. MMBench-GUI를 통해 정확한 시각적 그라운딩이 전체 작업 성공의 중요한 결정 요인임을 확인하였으며, 특화된 그라운딩 모듈을 통합한 모듈형 프레임워크의 상당한 이점을 강조한다. 더 나아가, 신뢰할 수 있는 GUI 자동화를 달성하기 위해서는 에이전트가 강력한 작업 계획 및 크로스 플랫폼 일반화 능력을 필요로 하며, 장기 컨텍스트 메모리, 광범위한 액션 공간, 장기적 추론이 중요한 역할을 한다. 무엇보다도, 작업 효율성은 여전히 심각하게 탐구되지 않은 차원이며, 모든 모델이 상당한 비효율성을 겪고 있으며, 작업이 최종적으로 완료되더라도 과도한 중복 단계가 발생한다. 정확한 위치 지정, 효과적인 계획, 조기 중단 전략의 통합은 진정으로 효율적이고 확장 가능한 GUI 자동화를 가능하게 하는 데 필수적이다. 본 벤치마크 코드, 평가 데이터 및 실행 환경은 https://github.com/open-compass/MMBench-GUI에서 공개될 예정이다.
멀티모달 대형 언어 모델(MLLMs)은 고해상도 이미지, 긴 비디오 시퀀스, 긴 오디오 입력과 같은 점점 더 길고 복잡한 컨텍스트를 처리할 수 있는 능력 덕분에 놀라운 발전을 이루었습니다. 이러한 능력은 MLLM의 성능을 크게 향상시키지만, 수많은 입력 토큰과 함께 자기 주의 메커니즘의 이차 복잡성으로 인해 상당한 계산적 문제를 야기합니다. 이러한 병목 현상을 완화하기 위해 토큰 압축이 훈련 및 추론 과정에서 토큰 수를 효율적으로 줄이는 유망하고 중요한 접근 방식으로 등장했습니다. 본 논문에서는 멀티모달 장기 컨텍스트 토큰 압축이라는 급성장하는 분야에 대한 첫 번째 체계적인 조사와 종합을 제시합니다. 효과적인 압축 전략이 각 모달리티의 고유한 특성과 중복성과 깊이 연관되어 있음을 인식하고, 기존 접근 방식을 주요 데이터 중심으로 분류하여 연구자들이 특정 관심 분야에 맞춤화된 방법을 빠르게 접하고 학습할 수 있도록 합니다: (1) 시각 데이터의 공간적 중복성을 해결하는 이미지 중심 압축, (2) 동적 시퀀스의 시공간적 중복성을 다루는 비디오 중심 압축, (3) 음향 신호의 시간적 및 스펙트럼 중복성을 처리하는 오디오 중심 압축. 이러한 모달리티 중심 분류를 넘어, 변환 기반, 유사성 기반, 주의 기반, 쿼리 기반 접근 방식과 같은 기본 메커니즘에 따라 방법들을 더욱 세분화합니다. 이 조사를 통해 포괄적이고 구조화된 개요를 제공함으로써 현재의 진전을 통합하고 주요 과제를 식별하며, 이 빠르게 진화하는 분야의 미래 연구 방향을 영감받고자 합니다. 또한, 이 유망한 분야의 최신 발전을 지속적으로 추적하고 업데이트하기 위한 공개 저장소를 유지합니다.
대규모 언어 모델(LLMs)은 그룹 상대 정책 최적화(GRPO)와 같은 강화 학습(RL) 방법을 통해 다운스트림 작업에 점점 더 적응되고 있으며, 이는 새로운 작업을 학습하기 위해 수천 번의 롤아웃을 요구하는 경우가 많다. 우리는 언어의 해석 가능한 특성이 희소하고 스칼라 형태의 보상에서 도출된 정책 그래디언트에 비해 LLMs에게 훨씬 풍부한 학습 매체를 제공할 수 있다고 주장한다. 이를 검증하기 위해, 우리는 자연어 반영을 철저히 통합하여 시행착오를 통해 고수준 규칙을 학습하는 프롬프트 최적화 도구인 GEPA(Genetic-Pareto)를 소개한다. 하나 이상의 LLM 프롬프트를 포함하는 모든 AI 시스템에 대해, GEPA는 시스템 수준의 궤적(예: 추론, 도구 호출, 도구 출력)을 샘플링하고 이를 자연어로 반영하여 문제를 진단하고, 프롬프트 업데이트를 제안 및 테스트하며, 자체 시도의 파레토 프론티어에서 상호 보완적인 교훈을 결합한다. GEPA의 설계 덕분에, 단 몇 번의 롤아웃만으로도 큰 품질 향상을 이끌어낼 수 있다. 네 가지 작업에서 GEPA는 GRPO보다 평균 10%, 최대 20% 더 나은 성능을 보였으며, 최대 35배 적은 롤아웃을 사용했다. 또한 GEPA는 두 가지 LLM에서 선도적인 프롬프트 최적화 도구인 MIPROv2를 10% 이상 앞섰으며, 코드 최적화를 위한 추론 시간 검색 전략으로서도 유망한 결과를 보여주었다.
대규모 언어 모델(LLM)의 평가는 점차 다른 LLM이 판단자 역할을 하는 방식에 의존하고 있습니다. 그러나 현재의 평가 패러다임은 일반적으로 단일 점수나 순위를 산출하며, 어떤 모델이 더 나은지에 대한 답은 제공하지만 그 이유는 설명하지 않습니다. 벤치마킹에 필수적이지만, 이러한 상위 수준의 점수는 모델 성능 뒤에 숨겨진 구체적이고 실행 가능한 이유를 가려버립니다. 이러한 격차를 해소하기 위해, 우리는 LLM 기반 오류 분석을 위한 인터랙티브 오픈소스 패키지인 CLEAR를 소개합니다. CLEAR는 먼저 인스턴스별 텍스트 피드백을 생성한 다음, 시스템 수준의 오류 문제 세트를 만들고 각 식별된 문제의 빈도를 정량화합니다. 또한, 이 패키지는 사용자에게 집계 시각화를 통해 포괄적인 오류 분석을 가능하게 하는 인터랙티브 대시보드를 제공하며, 특정 문제나 점수 범위를 분리하기 위한 인터랙티브 필터를 적용하고, 특정 행동 패턴을 보여주는 개별 인스턴스까지 드릴다운할 수 있게 합니다. 우리는 RAG 및 수학 벤치마크에 대한 CLEAR 분석을 시연하고, 사용자 사례 연구를 통해 그 유용성을 입증합니다.
언어 모델(LMs)은 컨텍스트 내 보상 해킹에 취약하며, 이는 사용자의 진정한 의도를 충족시키지 않고도 오염되거나 결함이 있는 서면 명세 또는 루브릭의 결함을 악용하여 높은 점수를 얻는 현상을 말합니다. 우리는 명세 자가 수정(SSC)이라는 새로운 테스트 시점 프레임워크를 소개합니다. 이 프레임워크는 언어 모델이 자신의 지침 명세 내 결함을 식별하고 수정할 수 있게 합니다. SSC는 다단계 추론 프로세스를 사용하며, 모델은 먼저 오염된 명세를 기반으로 응답을 생성하고, 그 출력을 비판한 다음, 악용 가능한 허점을 제거하기 위해 명세 자체를 수정합니다. 그런 다음 이 자가 수정된 명세를 사용하여 최종적으로 더 강력한 응답을 생성합니다. 창의적 글쓰기 및 에이전트 코딩 작업을 포함한 여러 언어 모델에 걸친 실험에서, 모델이 처음에는 오염된 명세를 50-70%의 경우에서 악용하지만, SSC 프로세스는 이러한 취약성을 90% 이상 줄이는 것으로 나타났습니다. 이 동적 수정은 추론 시점에 발생하며, 가중치 수정이 필요 없고, 더 강력하게 정렬된 모델 행동으로 이어집니다. 코드는 https://github.com/vicgalle/specification-self-correction에서 확인할 수 있습니다.
엔드투엔드 자율주행 모델은 유망한 결과를 보여주지만, 대규모 모델 크기, 고가의 LiDAR 센서에 대한 의존성, 그리고 계산 집약적인 BEV(Bird's Eye View) 특징 표현 등으로 인해 실제 배포에는 어려움이 따릅니다. 이는 특히 카메라만 장착된 대량 생산 차량의 확장성을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 PRIX(Plan from Raw Pixels)를 제안합니다. 우리의 새롭고 효율적인 엔드투엔드 주행 아키텍처는 명시적인 BEV 표현 없이 카메라 데이터만을 사용하며, LiDAR가 필요하지 않습니다. PRIX는 시각적 특징 추출기와 생성적 계획 헤드를 결합하여 원시 픽셀 입력에서 직접 안전한 궤적을 예측합니다. 우리 아키텍처의 핵심 구성 요소는 다중 수준 시각적 특징을 효과적으로 강화하여 더 견고한 계획을 가능하게 하는 Context-aware Recalibration Transformer(CaRT)라는 새로운 모듈입니다. 우리는 포괄적인 실험을 통해 PRIX가 NavSim 및 nuScenes 벤치마크에서 최첨단 성능을 달성하며, 더 크고 다중 모드 확산 계획자의 능력을 따라가면서도 추론 속도와 모델 크기 측면에서 훨씬 더 효율적임을 입증했습니다. 이는 실제 배포를 위한 실용적인 솔루션으로 적합합니다. 우리의 작업은 오픈소스이며, 코드는 https://maxiuw.github.io/prix에서 확인할 수 있습니다.
급속히 발전하는 인공지능(AI) 모델이 초래할 전례 없는 위험을 이해하고 식별하기 위해, 본 보고서는 이러한 최첨단 AI 모델의 위험을 포괄적으로 평가한다. Frontier AI Risk Management Framework(v1.0)(SafeWork-F1-Framework)의 E-T-C 분석(배포 환경, 위협 원천, 가능케 하는 역량)을 바탕으로, 우리는 사이버 공격, 생물학적 및 화학적 위험, 설득 및 조작, 통제되지 않은 자율 AI 연구개발(R&D), 전략적 기만 및 음모, 자기 복제, 그리고 공모 등 7개 영역에서의 주요 위험을 식별한다. "AI-45° 법칙"을 지침으로 삼아, 이러한 위험을 "레드 라인"(허용 불가능한 임계값)과 "옐로우 라인"(조기 경고 지표)을 사용하여 평가함으로써 위험 구역을 정의한다: 그린(일상적인 배포와 지속적인 모니터링이 가능한 관리 가능한 위험), 옐로우(강화된 완화 조치와 통제된 배포가 필요한 위험), 레드(개발 및/또는 배포 중단이 필요한 위험). 실험 결과는 최근의 모든 최첨단 AI 모델이 레드 라인을 넘지 않고 그린 및 옐로우 구역에 위치함을 보여준다. 구체적으로, 평가된 모델 중 사이버 공격 또는 통제되지 않은 AI R&D 위험에 대해 옐로우 라인을 넘는 모델은 없다. 자기 복제, 그리고 전략적 기만 및 음모의 경우, 대부분의 모델이 그린 구역에 머물지만, 특정 추론 모델은 옐로우 구역에 위치한다. 설득 및 조작의 경우, 대부분의 모델이 인간에게 미치는 효과적인 영향력으로 인해 옐로우 구역에 있다. 생물학적 및 화학적 위험의 경우, 대부분의 모델이 옐로우 구역에 위치할 가능성을 배제할 수 없으나, 추가 주장을 하기 위해서는 상세한 위협 모델링과 심층 평가가 필요하다. 이 작업은 AI 최첨단 위험에 대한 우리의 현재 이해를 반영하며, 이러한 도전을 완화하기 위한 집단적 행동을 촉구한다.
AI 비디오 채팅은 실시간 통신(RTC)의 새로운 패러다임으로 등장하고 있으며, 여기서 한쪽 피어는 인간이 아닌 멀티모달 대형 언어 모델(MLLM)입니다. 이는 인간과 AI 간의 상호작용을 마치 실제 사람과 얼굴을 마주보고 대화하듯 더 직관적으로 만듭니다. 그러나 이는 지연 시간에 상당한 도전을 제기합니다. 왜냐하면 MLLM 추론이 응답 시간의 대부분을 차지하여 비디오 스트리밍에 할당할 시간이 매우 적기 때문입니다. 네트워크의 불확실성과 불안정성으로 인해 전송 지연은 AI가 실제 사람처럼 행동하는 데 있어 중요한 병목 현상이 됩니다. 이를 해결하기 위해 우리는 Artic라는 AI 중심의 실시간 통신 프레임워크를 제안하며, "인간이 비디오를 보는 것"에서 "AI가 비디오를 이해하는 것"으로의 네트워크 요구 사항 변화를 탐구합니다. MLLM 정확도를 유지하면서 비트레이트를 극적으로 줄이기 위해, 우리는 채팅에 중요한 비디오 영역을 인식하고 비트레이트를 거의 전적으로 이러한 영역에 할당하는 컨텍스트 인식 비디오 스트리밍을 제안합니다. 패킷 재전송을 피하기 위해, 우리는 이전 프레임을 활용하여 손실되거나 지연된 프레임을 대체하면서 비트레이트 낭비를 방지하는 손실 복원 적응형 프레임 레이트를 제안합니다. 비디오 스트리밍 품질이 MLLM 정확도에 미치는 영향을 평가하기 위해, 우리는 Degraded Video Understanding Benchmark(DeViBench)라는 첫 번째 벤치마크를 구축했습니다. 마지막으로, 우리는 AI 비디오 채팅에 대한 몇 가지 열린 질문과 진행 중인 해결책에 대해 논의합니다.
비지도 도메인 적응 의미론적 분할(Unsupervised Domain Adaptive Semantic Segmentation, UDA-SS)에서는 레이블이 지정된 소스 도메인 데이터(예: 합성 이미지)로 모델을 학습시키고, 레이블이 없는 타겟 도메인(예: 실제 이미지)에 적응시키며, 이때 타겟 도메인의 주석에 접근하지 않습니다. 기존의 UDA-SS 방법들은 종종 세밀한 지역적 세부 사항과 전역적 문맥 정보 간의 균형을 맞추는 데 어려움을 겪어 복잡한 영역에서 분할 오류가 발생합니다. 이를 해결하기 위해, 우리는 적응형 특징 정제(Adaptive Feature Refinement, AFR) 모듈을 도입했습니다. 이 모듈은 저해상도 로짓(logits)에서 얻은 의미론적 사전 정보를 사용하여 고해상도 특징을 정제함으로써 분할 정확도를 향상시킵니다. AFR은 또한 고주파 성분을 통합하여 세밀한 구조를 포착하고 중요한 경계 정보를 제공함으로써 객체 경계를 더욱 명확히 합니다. 또한, AFR은 불확실성 기반 주의 메커니즘을 통해 지역적 및 전역적 정보를 적응적으로 균형 있게 조절하여 오분류를 줄입니다. AFR의 경량 설계는 HRDA 기반 UDA 방법에 원활하게 통합될 수 있도록 하여 최첨단 분할 성능을 달성합니다. 우리의 접근 방식은 GTA V → Cityscapes에서 1.05% mIoU, Synthia → Cityscapes에서 1.04% mIoU로 기존 UDA-SS 방법을 개선합니다. 우리 프레임워크의 구현은 https://github.com/Masrur02/AFRDA에서 확인할 수 있습니다.