번역이 포함된 일일 선별된 AI 연구 논문
우리는 Qwen 시리즈의 이미지 생성 기반 모델인 Qwen-Image를 소개하며, 이 모델이 복잡한 텍스트 렌더링과 정밀한 이미지 편집에서 상당한 진전을 이루었음을 보여줍니다. 복잡한 텍스트 렌더링의 과제를 해결하기 위해, 우리는 대규모 데이터 수집, 필터링, 주석, 합성 및 균형 조정을 포함한 포괄적인 데이터 파이프라인을 설계했습니다. 더 나아가, 비텍스트에서 텍스트 렌더링으로 시작하여 단순한 텍스트 입력에서 복잡한 텍스트 입력으로 진화하고, 점차적으로 단락 수준의 설명으로 확장되는 점진적 훈련 전략을 채택했습니다. 이 커리큘럼 학습 접근법은 모델의 기본 텍스트 렌더링 능력을 크게 향상시켰습니다. 그 결과, Qwen-Image는 영어와 같은 알파벳 언어에서 뛰어난 성능을 보일 뿐만 아니라, 중국어와 같은 더 도전적인 표의 문자 언어에서도 주목할 만한 진전을 이루었습니다. 이미지 편집 일관성을 강화하기 위해, 우리는 전통적인 텍스트-이미지(T2I) 및 텍스트-이미지-이미지(TI2I) 작업뿐만 아니라 이미지-이미지(I2I) 재구성을 포함한 개선된 다중 작업 훈련 패러다임을 도입하여 Qwen2.5-VL과 MMDiT 간의 잠재 표현을 효과적으로 정렬했습니다. 또한, 원본 이미지를 Qwen2.5-VL과 VAE 인코더에 각각 입력하여 의미론적 표현과 재구성적 표현을 별도로 얻었습니다. 이 이중 인코딩 메커니즘은 편집 모듈이 의미 일관성을 유지하면서도 시각적 충실도를 유지하는 균형을 맞출 수 있게 합니다. Qwen-Image는 여러 벤치마크에서 최첨단 성능을 달성하며, 이미지 생성과 편집 모두에서 강력한 능력을 입증했습니다.
긴 문서에 대한 검색 강화 생성(Retrieval-Augmented Generation, RAG)은 일반적으로 텍스트를 더 작은 청크로 분할하여 이를 검색의 기본 단위로 사용합니다. 그러나 원본 문서 내의 의존성으로 인해 각 청크를 정확히 해석하기 위해서는 문맥 정보가 필수적입니다. 이를 해결하기 위해, 기존 연구에서는 더 긴 문맥 창을 인코딩하여 더 긴 청크에 대한 임베딩을 생성하는 방법을 탐구했습니다. 이러한 노력에도 불구하고, 검색 및 하위 작업에서의 성과는 여전히 제한적입니다. 이는 (1) 더 긴 청크가 인코딩해야 하는 정보량이 증가함에 따라 임베딩 모델의 용량을 초과하기 때문이며, (2) 모델 또는 인간의 대역폭 제약으로 인해 많은 실제 응용 프로그램에서 여전히 지역화된 증거를 반환해야 하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 더 넓은 문맥 창에 기반하여 짧은 청크를 표현함으로써 검색 성능을 향상시키는 대안적 접근 방식을 제안합니다. 즉, 청크의 의미를 그 문맥 내에 위치시킴으로써 이를 달성합니다. 또한, 기존의 임베딩 모델이 이러한 위치적 문맥을 효과적으로 인코딩하는 데 적합하지 않음을 보이고, 이를 위해 새로운 훈련 패러다임을 도입하여 위치적 임베딩 모델(SitEmb)을 개발합니다. 우리의 방법을 평가하기 위해, 위치적 검색 능력을 평가하기 위해 특별히 설계된 책 플롯 검색 데이터셋을 구축했습니다. 이 벤치마크에서, BGE-M3 기반의 SitEmb-v1 모델은 1B 파라미터만으로도 최대 7-8B 파라미터를 가진 여러 최신 임베딩 모델을 크게 능가합니다. 또한, 8B 파라미터를 가진 SitEmb-v1.5 모델은 성능을 10% 이상 더 향상시키며, 다양한 언어와 여러 하위 응용 프로그램에서 강력한 결과를 보여줍니다.
가상 세포 모델링은 인공지능과 생물학의 교차점에서 등장한 새로운 분야로, 다양한 외부 자극에 대한 반응과 같은 양적 예측을 목표로 합니다. 그러나 생물학적 시스템의 복잡성, 데이터 양식의 이질성, 그리고 다학제적 도메인 전문 지식의 필요성으로 인해 가상 세포를 위한 계산 모델을 자율적으로 구축하는 것은 어려운 과제입니다. 본 연구에서는 CellForge를 소개합니다. 이는 제시된 생물학적 데이터셋과 연구 목표를 직접 최적화된 가상 세포 계산 모델로 변환하는 다중 에이전트 프레임워크를 활용한 에이전트 시스템입니다. 구체적으로, 단일 세포 다중오믹스 데이터와 작업 설명만을 입력으로 받아, CellForge는 최적화된 모델 아키텍처와 가상 세포 모델의 학습 및 추론을 위한 실행 코드를 출력합니다. 이 프레임워크는 세 가지 핵심 모듈로 구성됩니다: 제시된 데이터셋의 특성 분석과 관련 문헌 검색을 담당하는 Task Analysis, 전문 에이전트들이 협력하여 최적의 모델링 전략을 개발하는 Method Design, 그리고 코드의 자동 생성을 담당하는 Experiment Execution. Design 모듈의 에이전트들은 서로 다른 관점을 가진 전문가와 중재자로 구성되며, 합리적인 합의에 도달할 때까지 협력적으로 솔루션을 교환해야 합니다. 우리는 CellForge의 능력을 단일 세포 외부 자극 예측에서 입증하기 위해, 유전자 녹아웃, 약물 처리, 사이토카인 자극 등 다양한 양식을 포함하는 여섯 개의 데이터셋을 사용했습니다. CellForge는 작업별 최신 기술을 일관되게 능가하는 성능을 보였습니다. 전반적으로, CellForge는 서로 다른 관점을 가진 LLM 에이전트 간의 반복적인 상호작용이 모델링 문제를 직접 해결하는 것보다 더 나은 솔루션을 제공할 수 있음을 보여줍니다. 우리의 코드는 https://github.com/gersteinlab/CellForge에서 공개되어 있습니다.
추론 모델은 복잡한 문제 해결에 뛰어나지만, 추론 능력과 명령 수행 능력 사이에서 우려스러운 트레이드오프를 보입니다. 기존의 명령 수행 능력 향상 접근법은 더 강력한 외부 모델에 의존함으로써 방법론적 병목 현상과 비용 증가, 접근성 제약 등의 실질적인 한계를 초래했습니다. 우리는 외부 감독 없이 추론 모델의 내부 신호를 활용하여 명령 수행 능력을 향상시키는 자기 지도 강화 학습(RL) 프레임워크를 제안합니다. 광범위한 실험을 통해 우리의 프레임워크가 추론 성능을 유지하면서도 명령 수행 능력을 크게 향상시킴을 입증하였으며, 이는 추론 모델의 명령 수행 능력을 강화하기 위한 확장 가능하고 비용 효율적인 접근 방식을 제공합니다. 데이터와 코드는 https://github.com/Rainier-rq/verl-if에서 공개되어 있습니다.
대규모 언어 모델(LLM)은 다양한 분야에서 두드러진 성공을 거두었지만, 일반적인 사이버보안 데이터의 부족, 표현적 복잡성, 그리고 안전 및 규제 문제로 인해 사이버보안 애플리케이션에의 통합은 여전히 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 이전에 다운스트림 작업에 적합한 사이버보안 중심의 LLM인 Foundation-Sec-8B를 소개했습니다. 그러나 해당 모델은 채팅 스타일 상호작용이나 지시 따르기에는 설계되지 않았습니다. 이 보고서에서 우리는 일반적인 사이버보안 대화를 위해 특별히 훈련된 모델인 Foundation-Sec-8B-Instruct를 공개합니다. 이 모델은 Foundation-Sec-8B를 기반으로 하여 도메인 특화 지식과 지시 따르기, 대화 능력, 그리고 인간의 선호도와의 정렬을 결합하여 고품질의 관련 응답을 생성합니다. 포괄적인 평가 결과, Foundation-Sec-8B-Instruct는 다양한 사이버보안 작업에서 Llama 3.1-8B-Instruct를 능가하며, 지시 따르기 성능에서는 동등한 수준을 보입니다. 또한 사이버 위협 인텔리전스 및 지시 따르기 작업에서 GPT-4o-mini와도 경쟁력을 갖추고 있습니다. 우리는 Foundation-Sec-8B-Instruct가 사이버보안 전문가들의 일상 업무에서 필수적인 도구가 될 것으로 기대합니다. 이 모델은 https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct에서 공개적으로 제공됩니다.
대부분의 인간 단백질은 여전히 약물 표적화되지 않은 상태로, 승인된 치료제에 의해 활용되지 않은 인간 단백질이 96% 이상을 차지한다. 구조 기반 가상 스크리닝은 약물 표적 가능한 단백질체를 확장할 가능성을 보여주지만, 기존 방법들은 원자 수준의 정밀도가 부족하고 결합 적합성을 예측하지 못해 번역적 영향이 제한적이다. 우리는 백만 규모의 화학유전체 데이터에 맞춤화된 원자 수준 구조 모델을 미세 조정하는 확장 가능한 가상 스크리닝 프레임워크인 AuroBind를 제시한다. AuroBind는 직접 선호 최적화, 고신뢰 복합체로부터의 자기 증류, 그리고 교사-학생 가속 전략을 통합하여 리간드 결합 구조와 결합 적합성을 동시에 예측한다. 제안된 모델은 구조적 및 기능적 벤치마크에서 최첨단 모델을 능가하며, 초대규모 화합물 라이브러리에서 100,000배 더 빠른 스크리닝을 가능하게 한다. 10개의 질병 관련 표적에 대한 전향적 스크리닝에서 AuroBind는 7-69%의 실험적 적중률을 달성했으며, 최상위 화합물은 나노몰에서 피코몰 수준의 효능을 보였다. 고아 GPCR인 GPR151과 GPR160에 대해 AuroBind는 작용제와 길항제를 16-30%의 성공률로 식별했으며, 기능적 분석을 통해 간암 및 전립선암 모델에서 GPR160 조절을 확인했다. AuroBind는 구조-기능 학습과 고처리량 분자 스크리닝을 위한 일반화 가능한 프레임워크를 제공하여, 구조 예측과 치료제 발견 간의 격차를 해소한다.
대규모 언어 모델(LLM)의 최근 발전은 전모달(omni-modal) 이해 및 생성 분야에서 인상적인 진전을 이끌어냈습니다. 그러나 다양한 모달리티를 처리하기 위해 필요한 이질적인 모델 아키텍처로 인해 전모달 LLM의 훈련은 여전히 상당한 도전 과제로 남아 있으며, 대규모 훈련을 위한 정교한 시스템 설계가 필요합니다. 기존 프레임워크는 일반적으로 모델 정의와 병렬 로직을 혼재시켜, 종단간 전모달 훈련에 있어 확장성의 한계와 상당한 엔지니어링 오버헤드를 초래합니다. % 우리는 전모달 LLM 개발을 가속화하기 위한 모듈식이고 효율적인 훈련 프레임워크인 \veomni를 제시합니다. \veomni는 통신과 계산을 분리하는 모델 중심의 분산 레시피를 도입하여 전모달 LLM에서 효율적인 3D 병렬 처리를 가능하게 합니다. 또한 \veomni는 최소한의 코드 변경으로 새로운 모달리티를 원활하게 통합할 수 있는 유연한 구성 인터페이스를 제공합니다. % \veomni를 사용하여 30B 매개변수를 가진 전모달 전문가 혼합(MoE) 모델은 128개의 GPU에서 3D 병렬 처리를 통해 초당 2,800개 이상의 토큰 처리량과 160K 컨텍스트 길이로 확장 가능하며, 대규모 전모달 LLM 훈련에 있어 뛰어난 효율성과 확장성을 입증합니다.
실제 세계에서 효과적으로 작동하기 위해서는 로봇이 다중 모드 추론과 정밀한 행동 생성을 통합해야 합니다. 그러나 기존의 시각-언어-행동(VLA) 모델들은 종종 한쪽을 희생시키거나, 작업 특화적인 조작 데이터에만 능력을 제한하며, 사전 훈련된 시각-언어 능력의 치명적인 망각을 겪습니다. 이러한 격차를 해소하기 위해, 우리는 InstructVLA를 소개합니다. 이는 대규모 시각-언어 모델(VLM)의 유연한 추론 능력을 유지하면서도 선도적인 조작 성능을 제공하는 종단 간 VLA 모델입니다. InstructVLA는 새로운 훈련 패러다임인 시각-언어-행동 명령 튜닝(VLA-IT)을 도입하여, 전문가 혼합 적응을 통한 다중 모드 훈련을 통해 표준 VLM 코퍼스와 650K 샘플로 구성된 VLA-IT 데이터셋에서 텍스트 추론과 행동 생성을 공동으로 최적화합니다. 도메인 내 SimplerEnv 작업에서 InstructVLA는 SpatialVLA 대비 30.5%의 성능 향상을 달성했습니다. 일반화 능력을 평가하기 위해, 우리는 폐루프 제어와 고수준 명령 이해가 필요한 80개 작업 벤치마크인 SimplerEnv-Instruct를 도입했으며, 여기서 InstructVLA는 미세 조정된 OpenVLA를 92%, GPT-4o를 지원받은 행동 전문가를 29% 앞섰습니다. 또한, InstructVLA는 다중 모드 작업에서 기준 VLM을 능가하며, 텍스트 추론을 활용하여 시뮬레이션과 실제 환경 모두에서 조작 성능을 향상시키는 추론 시간 스케일링을 보여줍니다. 이러한 결과는 InstructVLA가 직관적이고 조정 가능한 인간-로봇 상호작용과 효율적인 정책 학습을 연결할 잠재력을 가지고 있음을 보여줍니다.
대규모 데이터셋은 자연어 처리 분야의 연구 및 개발을 위한 기초적 요소입니다. 그러나 현재의 접근 방식은 세 가지 주요 과제에 직면해 있습니다: (1) 모호한 라이선스가 적용된 소스에 의존함으로써 사용, 공유 및 2차 저작물 생성이 제한되는 문제; (2) 커뮤니티 기여를 방해하고 장기적인 활용성을 저해하는 정적 데이터셋 공개 방식; (3) 출판 팀에 국한된 품질 보증 프로세스로 인해 커뮤니티 전문성을 활용하지 못하는 한계. 이러한 한계를 해결하기 위해, 우리는 두 가지 기여를 소개합니다: Dynaword 접근법과 Danish Dynaword입니다. Dynaword 접근법은 커뮤니티 협력을 통해 지속적으로 업데이트될 수 있는 대규모 오픈 데이터셋을 생성하기 위한 프레임워크입니다. Danish Dynaword는 이 접근법을 검증하고 그 잠재력을 입증하는 구체적인 구현 사례입니다. Danish Dynaword는 유사한 데이터셋 대비 네 배 이상의 토큰을 포함하며, 완전히 오픈 라이선스로 제공되고, 산업계와 연구계로부터 다수의 기여를 받았습니다. 이 저장소는 데이터 형식, 품질 및 문서화를 보장하기 위한 경량 테스트를 포함하여, 지속 가능한 커뮤니티 기여 및 데이터셋 진화를 위한 프레임워크를 구축합니다.
시각적 토큰 압축은 대규모 시각-언어 모델(LVLMs)이 고해상도 입력을 효율적으로 처리하는 데 있어 핵심적인 요소입니다. 일반적으로 고정된 압축 비율을 채택하는 기존 방법들은 다양한 복잡도의 장면에 적응하지 못해, 종종 정보가 풍부한 시각적 토큰을 제거하는 부정확한 가지치기를 초래하며 모델 성능을 저하시킵니다. 이 문제를 해결하기 위해, 우리는 인간의 인지 과정에서 영감을 받은 동적 가지치기 프레임워크인 GlimpsePrune를 소개합니다. 이 프레임워크는 데이터 기반의 '짧은 관찰(glimpse)'을 통해 답변 생성 전에 단일 순방향 전달로 관련 없는 시각적 토큰을 제거합니다. 이 접근법은 시각적 토큰의 92.6%를 제거하면서도 자유형 VQA(Visual Question Answering) 작업에서 기준 성능을 평균적으로 완전히 유지합니다. 또한, 감소된 계산 비용은 더 효과적인 미세 조정을 가능하게 하여, GlimpsePrune+는 기준 성능의 110%를 달성하면서도 유사하게 높은 가지치기 비율을 유지합니다. 우리의 연구는 더 강력하고 효율적인 LVLMs를 구축하는 새로운 방식을 제시합니다.
확산 기반 대형 언어 모델(dLLMs)은 추론과 병렬 디코딩 분야에서 획기적인 발전을 이뤘지만, 추론 과정에서 발생하는 2차 계산 복잡도와 메모리 오버헤드로 인해 실질적인 활용이 제한되고 있습니다. 현재의 캐싱 기술은 전체 레이어 상태를 저장함으로써 디코딩 속도를 향상시키지만, 상당한 메모리 사용량을 요구하여 장문맥 응용에 제약을 가합니다. dLLMs의 어텐션 패턴 분석 결과, 디코딩 단계 전반에 걸쳐 핵심 토큰은 지속적으로 중요성을 유지하고, 관련성이 낮은 토큰은 계속해서 중요하지 않다는 지속적인 교차 레이어 희소성이 발견되었으며, 이는 선택적 캐시 제거의 필요성을 시사합니다. 우리는 Sparse-dLLM을 제안합니다. 이는 지연된 양방향 희소 캐싱을 통해 동적 캐시 제거와 희소 어텐션을 통합한 최초의 학습 없는 프레임워크입니다. 토큰 중요성의 단계별 안정성을 활용하여 핵심 토큰을 유지하고, 어텐션 기반 전략을 통해 중요하지 않은 접두사/접미사 항목을 동적으로 제거합니다. LLaDA 및 Dream 시리즈에 대한 광범위한 실험 결과, Sparse-dLLM은 기존 dLLMs 대비 최대 10배 높은 처리량을 달성하면서도 유사한 성능과 최대 메모리 사용량을 유지하며, 이전 방법들을 효율성과 효과성 측면에서 능가하는 것으로 나타났습니다.
우리는 음성 기반 모델을 활용하여 전 세계의 방언과 지역 언어를 모델링하기 위한 새로운 벤치마크인 Voxlect를 소개합니다. 구체적으로, 우리는 영어, 아랍어, 중국어(보통화 및 광둥어), 티베트어, 인도 언어, 태국어, 스페인어, 프랑스어, 독일어, 브라질 포르투갈어, 이탈리아어의 방언과 지역 언어 변이에 대한 포괄적인 벤치마크 평가를 보고합니다. 본 연구에서는 방언 정보가 제공된 30개의 공개 음성 코퍼스에서 추출한 200만 개 이상의 훈련 발화를 사용했습니다. 우리는 여러 널리 사용되는 음성 기반 모델의 방언 분류 성능을 평가하고, 잡음이 있는 조건에서 방언 모델의 견고성을 검증하며, 지리적 연속성과 일치하는 모델링 결과를 강조하는 오류 분석을 제시합니다. 또한, 방언 분류 벤치마킹 외에도 Voxlect를 통해 가능해진 여러 다운스트림 애플리케이션을 시연합니다. 구체적으로, Voxlect는 기존 음성 인식 데이터셋에 방언 정보를 추가하여 방언 변이에 따른 ASR 성능을 더 세부적으로 분석할 수 있도록 하는 데 활용될 수 있음을 보여줍니다. 또한, Voxlect는 음성 생성 시스템의 성능을 평가하는 도구로도 사용됩니다. Voxlect는 RAIL 라이선스 하에 https://github.com/tiantiaf0627/voxlect에서 공개적으로 이용 가능합니다.
일반적으로 예술 작품, 특히 회화 작품의 작가 귀속은 항상 예술계에서 중요한 문제로 여겨져 왔습니다. 이미지를 생성하고 분석할 수 있는 강력한 인공지능 모델의 등장은 회화 작품의 작가 귀속에 새로운 도전을 제시합니다. 한편으로, AI 모델은 특정 화가의 스타일을 모방한 이미지를 생성할 수 있으며, 이는 예를 들어 다른 AI 모델에 의해 잘못 귀속될 수 있습니다. 반면에, AI 모델은 실제 회화 작품의 작가를 정확히 식별하지 못할 수 있어 사용자들이 작품을 잘못 귀속하게 만들 수 있습니다. 본 논문에서는 최신 AI 모델을 사용하여 이미지 생성 및 분석을 실험적으로 연구하고, 128명의 화가로부터 약 40,000점의 회화 작품으로 구성된 대규모 데이터셋을 활용했습니다. 연구 결과, 비전 언어 모델(VLM)은 1) 캔버스 작가 귀속을 수행하고 2) AI 생성 이미지를 식별하는 데 제한된 능력을 보였습니다. 사용자들이 정보를 얻기 위해 AI 모델에 의존하는 비중이 점점 커짐에 따라, 이러한 결과는 잘못된 정보의 확산을 방지하기 위해 VLM의 작가 귀속 및 AI 생성 이미지 탐지 능력을 향상시킬 필요가 있음을 보여줍니다.
텍스트-이미지 확산 모델은 시각적 콘텐츠 생성에 혁신을 가져왔지만, 현재의 안전 메커니즘은 균일한 기준을 적용하여 종종 개별 사용자 선호도를 반영하지 못하고 있다. 이러한 모델은 연령, 정신 건강, 개인적 신념과 같은 요인에 의해 형성된 다양한 안전 경계를 간과한다. 이를 해결하기 위해, 우리는 생성 모델에서 사용자별 안전 행동을 제어할 수 있는 프레임워크인 개인화된 안전 정렬(Personalized Safety Alignment, PSA)을 제안한다. PSA는 개인화된 사용자 프로필을 확산 과정에 통합하여 이미지 품질을 유지하면서 개별 안전 선호도에 맞게 모델의 행동을 조정한다. 우리는 사용자별 안전 선호도를 포착하고 이러한 프로필을 교차 주의 메커니즘을 통해 통합한 새로운 데이터셋인 Sage를 소개한다. 실험 결과, PSA는 유해 콘텐츠 억제에서 기존 방법을 능가하며 생성된 콘텐츠를 사용자 제약 조건에 더 잘 맞추어 Win Rate 및 Pass Rate 점수에서 더 높은 성과를 달성한다. 우리의 코드, 데이터 및 모델은 https://torpedo2648.github.io/PSAlign/에서 공개되어 있다.
우리는 물리적 구현 시스템에서의 평생 학습을 위한 뇌 과학에서 영감을 받은 다중 메모리 프레임워크인 RoboMemory를 제안한다. 이 프레임워크는 실제 환경에서의 주요 문제들, 즉 지속적 학습, 다중 모듈 메모리 지연, 작업 상관관계 포착, 그리고 폐루프 계획에서의 무한 루프 완화를 해결한다. 인지 신경과학에 기반을 둔 이 프레임워크는 네 가지 핵심 모듈을 통합한다: 정보 전처리기(시상과 유사), 평생 구현 메모리 시스템(해마와 유사), 폐루프 계획 모듈(전두엽과 유사), 그리고 저수준 실행기(소뇌와 유사)로 장기 계획과 누적 학습을 가능하게 한다. 이 프레임워크의 중심인 평생 구현 메모리 시스템은 공간, 시간, 에피소드, 의미론적 하위 모듈 간의 병렬화된 업데이트/검색을 통해 복잡한 메모리 프레임워크에서의 추론 속도 문제를 완화한다. 동적 지식 그래프(KG)와 일관된 아키텍처 설계를 통합하여 메모리 일관성과 확장성을 향상시킨다. EmbodiedBench에서의 평가 결과, RoboMemory는 오픈소스 기준선(Qwen2.5-VL-72B-Ins)보다 평균 성공률에서 25% 우수한 성능을 보였으며, 폐쇄형 최신 기술(SOTA)(Claude3.5-Sonnet)을 5% 앞서며 새로운 SOTA를 확립했다. 주요 구성 요소(비평가, 공간 메모리, 장기 메모리)에 대한 제거 연구가 이를 검증했으며, 실제 배포에서 반복 작업에서의 성공률이 크게 향상된 평생 학습 능력을 확인했다. RoboMemory는 확장성을 통해 높은 지연 문제를 완화하며, 물리적 로봇에서 다중 모드 메모리 시스템을 통합하기 위한 기초 참조로 기능한다.
대형 언어 모델(LLMs)은 실행 가능한 런타임 환경과 함께 학습될 경우 소프트웨어 엔지니어링 작업, 특히 GitHub 이슈 해결에서 놀라운 성과를 거두었습니다. 그러나 이러한 런타임 환경은 다른 도메인, 특히 사이버 보안에서는 종종 사용할 수 없으며, 여기서는 챌린지 구성과 실행 컨텍스트가 일시적이거나 제한적입니다. 우리는 사이버 보안 LLMs를 학습시키기 위해 고품질 에이전트 궤적을 합성하는 최초의 런타임 프리 프레임워크인 Cyber-Zero를 소개합니다. Cyber-Zero는 공개적으로 이용 가능한 CTF(캡처 더 플래그) writeup을 활용하고, 페르소나 기반 LLM 시뮬레이션을 통해 런타임 동작을 역공학하여 실제 환경 없이도 현실적이고 장기적인 상호작용 시퀀스를 생성합니다. Cyber-Zero가 합성한 궤적을 사용하여, 우리는 LLM 기반 에이전트를 학습시켰으며, 이는 InterCode-CTF, NYU CTF Bench, Cybench라는 세 가지 주요 CTF 벤치마크에서 기준 모델 대비 최대 13.1%의 절대 성능 향상을 달성했습니다. 우리의 최고 모델인 Cyber-Zero-32B는 오픈 웨이트 모델 중에서 새로운 최첨단 성능을 확립하며, DeepSeek-V3-0324 및 Claude-3.5-Sonnet과 같은 독점 시스템의 능력을 맞추면서도 더 우수한 비용 효율성을 제공합니다. 이를 통해 런타임 프리 궤적 합성이 최첨단 사이버 보안 에이전트 개발을 효과적으로 민주화할 수 있음을 입증했습니다.
최근 고밀도 3D 재구성 기술의 발전으로 상당한 진전이 이루어졌으나, 정확한 통합 기하학적 예측을 달성하는 것은 여전히 주요 과제로 남아 있습니다. 기존의 대부분의 방법은 입력 이미지로부터 단일 기하학적 양을 예측하는 데에 한정되어 있습니다. 그러나 깊이, 표면 법선, 포인트 맵과 같은 기하학적 양은 본질적으로 상호 연관되어 있으며, 이를 개별적으로 추정할 경우 일관성을 보장하기 어려워 정확성과 실용적 적용 가능성이 제한됩니다. 이에 따라 우리는 다양한 기하학적 특성 간의 구조적 결합을 명시적으로 모델링하여 공동 회귀를 가능하게 하는 통합 프레임워크를 탐구하게 되었습니다. 본 논문에서는 다양한 하위 작업에 적응 가능한 공동 기하학적 고밀도 예측을 위한 3D 기초 모델인 Dens3R를 제안합니다. Dens3R는 일반화 가능하고 본질적으로 불변적인 포인트맵 표현을 점진적으로 구축하기 위해 두 단계의 훈련 프레임워크를 채택합니다. 구체적으로, 우리는 경량의 공유 인코더-디코더 백본을 설계하고, 고해상도 입력에 대한 강건성을 강화하면서도 표현력을 유지하기 위해 위치 보간 회전 위치 인코딩을 도입했습니다. Dens3R는 이미지 쌍 매칭 특징과 본질적 불변성 모델링을 통합하여 표면 법선 및 깊이와 같은 여러 기하학적 양을 정확하게 회귀하며, 단일 뷰에서 다중 뷰 입력에 이르기까지 일관된 기하학적 인식을 달성합니다. 또한, 기하학적으로 일관된 다중 뷰 추론을 지원하는 후처리 파이프라인을 제안합니다. 다양한 고밀도 3D 예측 작업에서 Dens3R의 우수한 성능을 입증하는 광범위한 실험을 통해, 이 모델의 더 넓은 응용 가능성을 강조합니다.
새로운 환경을 해결하기 위해 메타 강화 학습(meta-RL) 에이전트를 훈련할 때 충분한 탐색을 보장하는 것은 핵심적인 과제입니다. 탐색-활용 딜레마에 대한 기존의 해결책은 탐색을 촉진하기 위해 무작위화, 불확실성 보너스 또는 내재적 보상과 같은 명시적 인센티브를 주입하는 것입니다. 본 연구에서는 탐욕적(활용만을 목표로 하는) 목적만을 최대화하도록 훈련된 에이전트가 세 가지 조건이 충족될 경우 탐색적 행동을 자연스럽게 나타낼 수 있다는 가설을 세웁니다: (1) 반복되는 환경 구조, 즉 환경이 과거 경험이 미래 선택에 영향을 미칠 수 있는 반복 가능한 규칙성을 갖추고 있을 때; (2) 에이전트 메모리, 즉 에이전트가 역사적 상호작용 데이터를 유지하고 활용할 수 있을 때; (3) 장기간 신용 할당, 즉 학습이 탐색의 지연된 이익이 현재 결정에 영향을 미칠 수 있을 만큼 충분한 시간 범위에 걸쳐 반환값을 전파할 때. 확률적 다중 팔 도박 문제와 시간적으로 확장된 그리드월드에서의 실험을 통해, 구조와 메모리가 모두 존재할 때 탐욕적 목적만으로 훈련된 정책이 정보를 찾는 탐색적 행동을 나타냄을 관찰했습니다. 또한, 통제된 제거 실험을 통해 환경 구조나 에이전트 메모리가 없을 경우(조건 1 & 2) 자연스럽게 발생하는 탐색이 사라짐을 입증했습니다. 놀랍게도, 장기간 신용 할당을 제거하더라도(조건 3) 항상 탐색이 사라지는 것은 아니었는데, 이는 유사 톰슨 샘플링 효과로 설명할 수 있습니다. 이러한 결과는 적절한 전제 조건 하에서 탐색과 활용이 서로 직교하는 목표로 취급될 필요 없이 통합된 보상 최대화 과정에서 자연스럽게 발생할 수 있음을 시사합니다.
테스트 시간 스케일링(TTS)은 추론 과정에서 추가적인 컴퓨팅 자원을 할당함으로써 대규모 언어 모델(LLM)의 성능을 향상시킨다. 그러나 기존 연구는 주로 단일 단계 작업에서 TTS를 탐구하는 반면, 많은 실제 문제는 이질적인 하위 작업으로 구성된 다단계 복잡 작업으로, 각 하위 작업은 특정 능력을 갖춘 LLM을 필요로 한다. 따라서 우리는 다단계 복잡 작업에서 테스트 시간 컴퓨팅 최적 스케일링이라는 새로운 문제를 연구하여, 적합한 모델을 선택하고 하위 작업별 예산을 할당하여 전체 성능을 극대화하는 것을 목표로 한다. 다단계 작업에서의 TTS는 두 가지 근본적인 도전 과제를 제시한다: (i) 모델 및 예산 할당의 조합적 탐색 공간과 추론의 높은 비용으로 인해 무차별 대입 탐색이 비현실적이다. (ii) 하위 작업 간 최적의 모델 및 예산 할당은 상호 의존적이어서 컴퓨팅 최적 탐색의 복잡성을 증가시킨다. 이러한 격차를 해결하기 위해, 우리는 6개의 데이터셋에 걸친 4가지 작업에 대한 광범위한 파일럿 실험을 수행하여 다단계 복잡 작업에서 LLM의 행동을 특징짓는 세 가지 경험적 통찰을 도출했다. 이러한 통찰을 바탕으로, 우리는 실행 환경과의 반복적 피드백 기반 상호작용을 통해 컴퓨팅 최적 할당을 자율적으로 탐색하는 LLM 에이전트 기반 프레임워크인 AgentTTS를 제안한다. 실험 결과는 AgentTTS가 전통적인 및 기타 LLM 기반 베이스라인 대비 탐색 효율성에서 크게 우수하며, 다양한 훈련 세트 크기에 대한 강건성과 해석 가능성이 향상되었음을 보여준다.
대규모 언어 모델에서 장기 문맥을 모델링하려는 요구는 지속적으로 증가하고 있지만, 표준 자기 주의(self-attention) 메커니즘의 2차 복잡도는 종종 병목 현상으로 작용합니다. 기존의 희소 주의(sparse attention) 메커니즘은 효율성을 개선했지만, 여전히 정적 패턴이나 정보 손실과 같은 문제에 직면할 수 있습니다. 우리는 학습 가능한 동적 마스크 희소 주의 메커니즘인 Dynamic Mask Attention(DMA)을 소개하며, 이는 내용 인식(content-aware) 및 위치 인식(position-aware) 희소성을 효과적으로 활용합니다. DMA는 두 가지 주요 혁신을 통해 이를 달성합니다: 첫째, 값 표현(value representations)으로부터 내용 인식 희소 마스크를 동적으로 생성하여 모델이 중요한 정보를 적응적으로 식별하고 집중할 수 있게 합니다. 둘째, 불필요한 계산 영역을 효과적으로 건너뛰는 위치 인식 희소 주의 계산을 구현합니다. 이 이중 희소성 설계는 모델이 중요한 정보의 계산 복잡도를 크게 줄이면서도 완전한 정보를 유지할 수 있게 하여, 정보 충실도와 계산 효율성 사이의 탁월한 균형을 달성합니다. 우리는 DMA의 성능을 포괄적인 실험을 통해 검증했습니다. 비교 연구 결과, DMA는 Chinchilla Scaling Law 설정에서 perplexity 측면에서 다중 헤드 주의(multi-head attention), 슬라이딩 윈도우 주의(sliding window attention), 다중 헤드 잠재 주의(multi-head latent attention), 그리고 기본 희소 주의(native sparse attention)를 능가하는 것으로 나타났습니다. 또한, 도전적인 다중 쿼리 연상 회상(multi-query associative recall) 작업에서도 DMA는 이러한 방법들에 비해 우수한 성능과 효율성을 보여주었습니다. 특히, 1.7B 매개변수 모델 평가에서 DMA는 표준 벤치마크 성능과 어려운 needle-in-a-haystack 작업 모두에서 다중 헤드 주의를 크게 앞질렀습니다. 이러한 실험 결과는 DMA가 모델 효율성과 장기 문맥 모델링 능력을 효과적으로 균형 잡을 수 있는 능력을 강조합니다.
텍스트-모션(T2M) 생성은 자연어 설명으로부터 사실적이고 의미론적으로 정렬된 인간 동작 시퀀스를 합성하는 것을 목표로 합니다. 그러나 현재의 접근 방식은 이중의 도전에 직면해 있습니다: 생성 모델(예: 확산 모델)은 제한된 다양성, 오류 누적 및 물리적 비현실성으로 어려움을 겪는 반면, 검색-증강 생성(RAG) 방법은 확산 관성, 부분적 모드 붕괴 및 비동기적 아티팩트를 보입니다. 이러한 한계를 해결하기 위해, 우리는 ReMoMask를 제안합니다. 이는 세 가지 주요 혁신을 통합한 통합 프레임워크입니다: 1) 양방향 모멘텀 텍스트-모션 모델은 모멘텀 큐를 통해 배치 크기와 부정적 샘플 규모를 분리하여 교차 모달 검색 정밀도를 크게 향상시킵니다; 2) 의미론적 시공간 주의 메커니즘은 부분 수준 융합 중 생체역학적 제약을 강제하여 비동기적 아티팩트를 제거합니다; 3) RAG-클래스리어-프리 가이던스는 무조건적 생성을 소량 포함하여 일반화를 강화합니다. MoMask의 RVQ-VAE를 기반으로 구축된 ReMoMask는 최소한의 단계로 시간적으로 일관된 동작을 효율적으로 생성합니다. 표준 벤치마크에 대한 광범위한 실험은 ReMoMask의 최첨단 성능을 입증하며, 이전 SOTA 방법인 RAG-T2M에 비해 HumanML3D와 KIT-ML에서 각각 3.88%와 10.97%의 FID 점수 향상을 달성했습니다. 코드: https://github.com/AIGeeksGroup/ReMoMask. 웹사이트: https://aigeeksgroup.github.io/ReMoMask.
양자 서포트 벡터 머신은 고차원 양자 상태와 하드웨어적 한계로 인해 확장성 문제에 직면해 있습니다. 본 연구에서는 클래스 균형 k-평균 증류와 사전 훈련된 Vision Transformer 임베딩을 결합한 임베딩 인식 양자-클래식 파이프라인을 제안합니다. 주요 발견으로는, ViT 임베딩이 양자 이점을 독특하게 가능하게 하여 Fashion-MNIST에서 클래식 SVM 대비 최대 8.02%, MNIST에서 4.42%의 정확도 향상을 달성한 반면, CNN 특징은 성능 저하를 보였습니다. cuTensorNet을 통한 16-큐비트 텐서 네트워크 시뮬레이션을 사용하여, 양자 커널 이점이 임베딩 선택에 크게 의존한다는 첫 번째 체계적인 증거를 제공하며, 트랜스포머 어텐션과 양자 특징 공간 간의 근본적인 시너지를 밝혀냈습니다. 이는 현대 신경망 아키텍처를 활용한 확장 가능한 양자 머신 러닝을 위한 실용적인 경로를 제시합니다.
아랍 세계의 풍부한 언어적 풍경은 공식적인 의사소통 언어인 현대 표준 아랍어(MSA)와 일상생활에서 사용되는 다양한 지역 방언 간의 상당한 격차로 특징지어집니다. 이러한 이중언어 현상은 자연어 처리, 특히 기계 번역에 있어서 상당한 도전 과제로 작용합니다. 본 논문은 MSA와 시리아 방언 간의 의사소통 격차를 해소하기 위해 특별히 설계된 양방향 기계 번역 시스템인 SHAMI-MT를 소개합니다. 우리는 MSA에서 시리아 방언으로의 번역과 시리아 방언에서 MSA로의 번역을 위한 두 가지 전용 모델을 제시하며, 이 두 모델은 최신 AraT5v2-base-1024 아키텍처를 기반으로 구축되었습니다. 이 모델들은 포괄적인 Nabra 데이터셋을 기반으로 미세 조정되었으며, MADAR 코퍼스의 미검증 데이터를 통해 엄격하게 평가되었습니다. 우리의 MSA-to-Shami 모델은 OPENAI 모델 GPT-4.1에 의해 평가되었을 때 5.0점 만점에 평균 4.01점의 우수한 품질 점수를 달성하여, 정확할 뿐만 아니라 방언적으로도 진정성 있는 번역을 생성할 수 있는 능력을 입증했습니다. 이 연구는 이전까지 충분히 지원되지 않았던 언어 쌍을 위한 고품질의 도구를 제공함으로써, 방언 아랍어 번역 분야를 발전시키고 콘텐츠 현지화, 문화 유산, 그리고 문화 간 의사소통에 있어 중요한 응용 가능성을 제시합니다.
우리는 가계 부와 같은 사회경제적 지표가 위성 이미지(물리적 특성 포착)와 인터넷 소스 텍스트(역사적/경제적 서사 반영)에 복구 가능한 흔적을 남기는지 조사한다. 아프리카 지역의 인구 및 건강 조사(DHS) 데이터를 사용하여, Landsat 이미지를 위치/연도에 따라 조건화된 대형 언어 모델(LLM) 생성 텍스트 설명 및 AI 검색 에이전트가 웹 소스에서 검색한 텍스트와 짝짓는다. 우리는 다섯 가지 파이프라인을 통해 가계 부(국제 부 지수)를 예측하는 다중모달 프레임워크를 개발한다: (i) 위성 이미지에 대한 비전 모델, (ii) 위치/연도만 사용하는 LLM, (iii) 웹 텍스트를 검색/통합하는 AI 에이전트, (iv) 이미지-텍스트 공동 인코더, (v) 모든 신호의 앙상블. 우리의 프레임워크는 세 가지 기여를 한다. 첫째, 비전과 에이전트/LLM 텍스트를 융합하는 것이 부 예측에서 비전만 사용한 기준선을 능가하며(예: 표본 외 분할에서 R-제곱 0.77 대 0.63), LLM 내부 지식이 에이전트 검색 텍스트보다 더 효과적임이 입증되어 국가 외 및 시간 외 일반화에 대한 견고성을 향상시킨다. 둘째, 부분적 표현 수렴을 발견한다: 비전/언어 모달리티에서 융합된 임베딩은 중간 정도의 상관관계를 보이며(정렬 후 중간 코사인 유사도 0.60), 물질적 안녕의 공유 잠재 코드를 제안하면서도 보완적 세부 사항을 유지하며, 이는 플라톤적 표현 가설과 일치한다. LLM만 사용한 텍스트가 에이전트 검색 데이터를 능가하여 에이전트 유도 신규성 가설에 도전하지만, 일부 분할에서 에이전트 데이터를 결합한 것에서의 미미한 이득은 에이전트 수집 정보가 정적 LLM 지식으로 완전히 포착되지 않은 독특한 표현 구조를 도입한다는 개념을 약하게 지지한다. 셋째, 위성 이미지, LLM 생성 설명, 에이전트 검색 텍스트와 연결된 60,000개 이상의 DHS 클러스터로 구성된 대규모 다중모달 데이터셋을 공개한다.
대형 언어 모델은 복잡한 수학적 추론 과제에서 뛰어난 능력을 보여주지만, 다단계 해결 과정에서 필연적으로 오류를 생성합니다. 과정 수준 보상 모델(PRM)은 각 중간 단계에서 감독과 평가를 제공함으로써 모델의 추론 능력을 효과적으로 향상시키는 데 큰 가능성을 보여주었습니다. 그러나 효과적인 PRM을 훈련시키기 위해서는 고품질의 과정 보상 데이터가 필요하며, 이러한 데이터를 구축하는 기존 방법들은 종종 노동 집약적이거나 비효율적입니다. 본 논문에서는 PRM을 위한 데이터 생성 및 주석 프로세스를 모두 포함하는 불확실성 기반 자동화된 과정 보상 데이터 구축 프레임워크를 제안합니다. 또한, 다수결 투표와 PRM의 한계를 식별하고, 다수결 투표와 PRM의 장점을 결합한 두 가지 일반적인 불확실성 인식 출력 집계 방법인 하이브리드 다수 보상 투표와 가중 보상 빈도 투표를 소개합니다. ProcessBench, MATH, GSMPlus에 대한 광범위한 실험을 통해 제안된 PRM 데이터 구축 프레임워크의 효과성과 효율성을 입증하고, 두 출력 집계 방법이 다양한 PRM에서 수학적 추론 능력을 더욱 향상시킴을 보여줍니다. 코드와 데이터는 https://github.com/Jiuzhouh/UnPRM에서 공개될 예정입니다.