번역이 포함된 일일 선별된 AI 연구 논문
일반 AI 에이전트는 복잡한 추론, 웹 상호작용, 코딩, 그리고 자율적인 연구 능력을 가능하게 하는 차세대 인공지능의 기반 프레임워크로 점점 더 인식되고 있습니다. 그러나 현재의 에이전트 시스템은 오픈소스가 아니거나 다양한 유료 API와 독점 도구에 크게 의존하고 있어, 연구 커뮤니티의 접근성과 재현성을 제한하고 있습니다. 본 연구에서는 고급 AI 에이전트의 개발과 평가를 민주화하기 위해 완전히 오픈소스이며 (최대한) 무료인 다중 모듈 에이전트 프레임워크인 Cognitive Kernel-Pro를 소개합니다. Cognitive Kernel-Pro 내에서 우리는 에이전트 기반 모델을 위한 고품질 학습 데이터의 선별을 체계적으로 연구하며, 웹, 파일, 코드, 그리고 일반 추론이라는 네 가지 주요 영역에서 쿼리, 궤적, 그리고 검증 가능한 답변의 구축에 초점을 맞춥니다. 또한, 에이전트의 견고성과 성능을 향상시키기 위한 에이전트 테스트 시간 반영 및 투표 전략을 탐구합니다. 우리는 Cognitive Kernel-Pro를 GAIA에서 평가하여 오픈소스 및 무료 에이전트 중 최첨단 결과를 달성했습니다. 특히, 우리의 8B 파라미터 오픈소스 모델은 WebDancer와 WebSailor와 같은 이전의 선두 시스템을 능가하며, 접근 가능한 고성능 AI 에이전트를 위한 새로운 성능 기준을 확립했습니다. 코드는 https://github.com/Tencent/CognitiveKernel-Pro에서 확인할 수 있습니다.
확산 기반 대형 언어 모델(Diffusion Large Language Models, DLLMs)은 현재 주류를 이루는 자기회귀적 대형 언어 모델(Autoregressive Large Language Models)에 대한 강력한 대안으로 부상하고 있으며, 효율적인 병렬 생성과 전역 컨텍스트 모델링 능력을 제공합니다. 그러나 DLLMs의 실제 적용은 중요한 아키텍처적 제약으로 인해 방해를 받고 있습니다: 바로 정적으로 미리 정의된 생성 길이가 필요하다는 점입니다. 이 정적 길이 할당은 문제가 되는 트레이드오프를 초래합니다: 불충분한 길이는 복잡한 작업에서의 성능을 저하시키는 반면, 과도한 길이는 상당한 계산 오버헤드를 유발하고 때로는 성능 저하를 초래합니다. 추론 프레임워크가 경직되어 있음에도 불구하고, 우리는 모델 자체가 주어진 작업에 대한 최적 응답 길이와 상관관계가 있는 내부 신호를 가지고 있음을 관찰했습니다. 이 간극을 메우기 위해, 우리는 이러한 잠재 신호를 활용하고 DLLMs를 위한 동적 적응형 길이 확장(Dynamic Adaptive Length Expansion)을 가능하게 하는 새로운 학습 없는 디노이징 전략인 DAEDAL을 소개합니다. DAEDAL은 두 단계로 작동합니다: 1) 디노이징 과정 전에, DAEDAL은 짧은 초기 길이에서 시작하여 시퀀스 완성 메트릭을 통해 반복적으로 확장하여 작업에 적합한 대략적인 길이에 도달합니다. 2) 디노이징 과정 중에, DAEDAL은 마스크 토큰 삽입을 통해 불충분한 생성 영역을 정확히 찾아내고 확장함으로써 최종 출력이 완전히 개발되도록 합니다. DLLMs에 대한 광범위한 실험을 통해 DAEDAL이 세심하게 조정된 고정 길이 기준선과 비슷하거나 경우에 따라 더 우수한 성능을 달성하면서도, 더 높은 유효 토큰 비율을 달성하여 계산 효율성을 동시에 향상시킴을 입증했습니다. 정적 길이 제약을 해결함으로써, DAEDAL은 DLLMs의 새로운 잠재력을 개방하고, 자기회귀적 대응 모델과의 중요한 간극을 메우며, 더 효율적이고 능력 있는 생성을 위한 길을 열어줍니다.
현재 디퓨전 트랜스포머의 성공은 사전 학습된 변분 오토인코더(VAE)에 의해 형성된 압축된 잠재 공간에 크게 의존하고 있습니다. 그러나 이러한 두 단계의 학습 패러다임은 필연적으로 누적된 오류와 디코딩 아티팩트를 초래합니다. 이러한 문제를 해결하기 위해 연구자들은 복잡한 캐스케이드 파이프라인과 증가된 토큰 복잡성을 감수하며 픽셀 공간으로 돌아갔습니다. 이와 대조적으로, 우리는 패치 단위 디코딩을 신경 필드로 모델링하고 단일 스케일, 단일 단계, 효율적이며 종단 간(end-to-end) 솔루션인 픽셀 신경 필드 디퓨전(Pixel Neural Field Diffusion, PixelNerd)을 제안합니다. PixNerd의 효율적인 신경 필드 표현 덕분에 우리는 복잡한 캐스케이드 파이프라인이나 VAE 없이도 ImageNet 256×256에서 2.15 FID, ImageNet 512×512에서 2.84 FID를 직접 달성했습니다. 또한 우리는 PixNerd 프레임워크를 텍스트-이미지 응용 프로그램으로 확장했습니다. 우리의 PixNerd-XXL/16은 GenEval 벤치마크에서 경쟁력 있는 0.73의 종합 점수와 DPG 벤치마크에서 80.9의 종합 점수를 달성했습니다.
대규모 시각-언어 모델(VLMs)은 2D 시각 이해 작업에서 상당한 진전을 이루며, 이러한 능력을 3D 장면 이해로 확장하려는 관심을 불러일으켰다. 그러나 현재의 3D VLMs는 고품질 공간 데이터의 부족과 시점 가정의 정적 특성으로 인해 견고한 추론과 일반화에 어려움을 겪고 있다. 이러한 문제를 해결하기 위해, 우리는 3D VLMs의 추론 능력을 강화하는 기초 모델인 3D-R1을 제안한다. 구체적으로, 우리는 먼저 기존의 3D-VL 데이터셋과 Gemini 2.5 Pro 기반의 데이터 엔진을 활용하여 CoT(Chain-of-Thought)가 포함된 고품질 합성 데이터셋인 Scene-30K를 구축한다. 이는 3D-R1의 콜드 스타트 초기화 데이터로 사용된다. 또한, 강화 학습 훈련 과정에서 GRPO와 같은 RLHF(Reinforcement Learning from Human Feedback) 정책을 활용하여 추론 능력을 강화하고, 탐지 정확도와 답변의 의미론적 정밀도를 유지하기 위해 인식 보상, 의미론적 유사성 보상 및 형식 보상이라는 세 가지 보상 함수를 도입한다. 더 나아가, 3D 장면 이해를 위해 가장 유익한 시점을 적응적으로 선택하는 동적 시점 선택 전략을 소개한다. 다양한 3D 장면 벤치마크에서 3D-R1은 평균 10%의 성능 향상을 보여주며, 3D 장면 이해에서의 추론 및 일반화 능력 강화의 효과를 입증한다. 코드: https://github.com/AIGeeksGroup/3D-R1. 웹사이트: https://aigeeksgroup.github.io/3D-R1.
대규모 언어 모델(LLM) 에이전트의 최근 발전은 다중 에이전트 협업 및 몬테카를로 트리 탐색(MCTS)과 같은 고급 기술을 활용하여 소프트웨어 문제 해결에서 놀라운 진전을 보여주었습니다. 그러나 현재의 에이전트는 메모리가 없는 탐색자로 작동하며, 각 문제를 별도로 처리하고 이전 수리 경험에서 얻은 지식을 유지하거나 재사용하지 않습니다. 이로 인해 실패한 경로의 중복 탐색과 유사한 문제에 성공적인 문제 해결 방법을 적용할 기회를 놓치게 됩니다. 이 문제를 해결하기 위해, 우리는 SWE-Exp를 소개합니다. 이는 이전 에이전트 경로에서 간결하고 실행 가능한 경험을 추출하여 문제 간 지속적인 학습을 가능하게 하는 경험 강화 접근법입니다. 우리의 방법은 성공적이거나 실패한 수리 시도를 모두 포착하는 다면적 경험 은행을 도입합니다. 구체적으로, 이는 높은 수준의 문제 이해부터 특정 코드 변경에 이르기까지 다양한 수준에서 재사용 가능한 문제 해결 지식을 추출합니다. 실험 결과, SWE-Exp는 오픈소스 에이전트 프레임워크 하에서 SWE-bench-Verified에서 최첨단 해결률(41.6% Pass@1)을 달성했습니다. 우리의 접근 방식은 자동화된 소프트웨어 엔지니어링 에이전트가 체계적으로 수리 전문 지식을 축적하고 활용하는 새로운 패러다임을 확립하며, 시행착오식 탐색에서 전략적이고 경험 기반의 문제 해결로 근본적으로 전환합니다.
대형 언어 모델(LLMs)의 고급 추론 능력 덕분에 이슈 해결 분야에서 놀라운 진전이 이루어졌습니다. 최근 SWE-agent와 같은 에이전트 기반 프레임워크는 복잡한 소프트웨어 엔지니어링 작업을 해결하기 위해 자율적 도구 사용 에이전트를 가능하게 함으로써 이러한 진전을 더욱 발전시켰습니다. 기존의 에이전트 기반 이슈 해결 접근법은 주로 에이전트의 독립적인 탐색에 기반을 두고 있지만, 종종 지역적 해결책에 갇히거나 코드베이스의 다른 부분에 걸친 이슈 패턴을 식별하지 못하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 다양한 추론 경로를 장려하고 더 통합된 이슈 위치 파악을 달성하는 경쟁적 다중 에이전트 토론 프레임워크인 SWE-Debate를 제안합니다. SWE-Debate는 먼저 코드 의존성 그래프를 탐색하여 여러 개의 결함 전파 경로를 위치 제안으로 생성합니다. 그런 다음, 결함 전파 경로를 따라 각기 다른 추론 관점을 구현한 전문 에이전트들 간의 세 라운드 토론을 조직합니다. 이 구조화된 경쟁은 에이전트들이 협력적으로 통합된 수정 계획에 도달할 수 있게 합니다. 마지막으로, 이 통합된 수정 계획은 패치 생성을 위해 MCTS 기반 코드 수정 에이전트에 통합됩니다. SWE-bench 벤치마크에서의 실험 결과, SWE-Debate는 오픈소스 에이전트 프레임워크에서 새로운 최첨단 결과를 달성하고 기준선을 큰 차이로 능가하는 것으로 나타났습니다.
대규모 언어 모델(LLM)의 대화 능력을 평가하는 것은 여전히 어려운 과제로 남아 있다. 현재 주류 접근 방식은 주로 "LLM-as-a-judge" 패러다임에 의존하며, 이는 LLM을 평가자로 활용하여 대화 품질을 평가하는 방식이다. 그러나 이러한 방법은 다양한 편향으로 인해 평가 결과의 신뢰성과 일관성이 저해되는 경우가 많다. 이러한 편향을 완화하기 위해 최근의 방법들은 여러 LLM을 판단자로 활용하고 그들의 평가를 종합하여 최적의 평가를 선택한다. 이 다중 판단자 접근 방식은 효과적이지만, 추론 과정에서 상당한 계산 오버헤드를 초래한다. 본 논문에서는 다중 LLM 판단자의 집단 지혜를 포착하여 그들의 선호 지식을 단일 모델로 통합하는 효율적인 다중 턴 대화 평가자를 제안한다. 우리의 접근 방식은 다양한 다중 판단자 피드백의 이점을 유지하면서 평가 비용을 크게 줄여 빠르고 유연한 대화 품질 평가를 가능하게 한다. 7개의 단일 평점 및 쌍별 비교 대화 평가 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 다양한 시나리오에서 기존 베이스라인을 능가하며 효율성과 견고성을 입증하였다.
대규모 언어 모델의 최근 발전은 텍스트, 음성, 시각을 통합된 프레임워크 내에서 결합하는 다중모달 대형 언어 모델(MLLM)의 개발을 촉진시켰다. MLLM이 특정 작업에 국한된 단일 언어 시스템에서 일반 목적의 명령 수행 모델로 진화함에 따라, 주요 연구 방향은 다국어 및 다중모달 능력을 장단기 문맥에서 평가하는 데 있다. 그러나 기존 벤치마크는 이러한 차원을 종합적으로 평가하는 데 한계가 있다: 주로 영어에 국한되어 있고, 대부분 한 번에 하나의 모달리티에 초점을 맞추며, 짧은 문맥에 의존하거나, 인간 주석이 부족하여 언어, 모달리티, 작업 복잡성에 걸친 모델 성능의 포괄적인 평가를 방해한다. 이러한 격차를 해결하기 위해, 우리는 MCIF(Multimodal Crosslingual Instruction Following)를 소개한다. 이는 과학 강연을 기반으로 한 최초의 다국어 인간 주석 벤치마크로, 단기 및 장기 입력에 걸쳐 다국어 및 다중모달 환경에서 명령 수행 능력을 평가하도록 설계되었다. MCIF는 음성, 시각, 텍스트라는 세 가지 핵심 모달리티와 영어, 독일어, 이탈리아어, 중국어라는 네 가지 다양한 언어를 포괄하여, MLLM이 다양한 언어 간 명령을 해석하고 다중모달 문맥 정보와 결합하는 능력을 종합적으로 평가할 수 있도록 한다. MCIF는 CC-BY 4.0 라이선스 하에 공개되어 MLLM 개발의 개방적 연구와 진전을 장려한다.
멀티모달 참조 분할(Multimodal Referring Segmentation)은 텍스트나 오디오 형식의 참조 표현(referring expressions)을 기반으로 이미지, 비디오, 3D 장면과 같은 시각적 장면에서 대상 객체를 분할하는 것을 목표로 합니다. 이 작업은 사용자 지시에 기반한 정확한 객체 인식이 필요한 실제 응용 분야에서 중요한 역할을 합니다. 지난 10년간, 컨볼루션 신경망(CNN), 트랜스포머(Transformer), 대규모 언어 모델(LLM)의 발전으로 인해 멀티모달 인식 능력이 크게 향상되면서, 이 분야는 멀티모달 커뮤니티에서 상당한 주목을 받았습니다. 본 논문은 멀티모달 참조 분할에 대한 포괄적인 조사를 제공합니다. 먼저, 이 분야의 배경과 문제 정의, 일반적으로 사용되는 데이터셋을 소개합니다. 다음으로, 참조 분할을 위한 통합 메타 아키텍처를 요약하고 이미지, 비디오, 3D 장면을 포함한 세 가지 주요 시각적 장면에서의 대표적인 방법들을 검토합니다. 또한, 현실 세계의 복잡성을 해결하기 위한 일반화된 참조 표현(GREx) 방법과 관련 작업 및 실제 응용 분야에 대해 논의합니다. 표준 벤치마크에서의 광범위한 성능 비교도 제공됩니다. 관련 연구는 https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation에서 지속적으로 추적하고 있습니다.
오디오 기반 비디오 생성은 인간이 청각 입력으로부터 장면을 시각화하는 능력과 유사하게, 입력 오디오 녹음과 일치하는 사실적인 비디오를 합성하는 것을 목표로 합니다. 그러나 기존 접근법은 주로 오디오에 존재하는 소리 발생원의 클래스와 같은 의미론적 정보를 탐색하는 데 초점을 맞추어, 정확한 내용과 공간 구성을 가진 비디오를 생성하는 능력이 제한적입니다. 반면에, 우리 인간은 소리 발생원의 의미론적 범주를 자연스럽게 식별할 뿐만 아니라 위치와 이동 방향과 같은 깊이 인코딩된 공간 속성도 결정할 수 있습니다. 이러한 유용한 정보는 음량이나 주파수와 같은 소리의 고유한 물리적 특성에서 파생된 특정 공간 지표를 고려함으로써 명확히 할 수 있습니다. 기존 방법들은 이 요소를 대부분 무시했기 때문에, 우리는 SpA2V를 제안합니다. 이는 오디오에서 이러한 공간 청각 단서를 명시적으로 활용하여 높은 의미론적 및 공간적 일치를 가진 비디오를 생성하는 최초의 프레임워크입니다. SpA2V는 생성 과정을 두 단계로 분해합니다: 1) 오디오 기반 비디오 계획: 우리는 최신 MLLM을 세심하게 조정하여 입력 오디오에서 공간 및 의미론적 단서를 활용하여 비디오 장면 레이아웃(VSL)을 구성하는 새로운 작업을 수행합니다. 이는 오디오와 비디오 모달리티 간의 격차를 메우기 위한 중간 표현으로 기능합니다. 2) 레이아웃 기반 비디오 생성: 우리는 VSL을 조건부 지침으로 사전 훈련된 확산 모델에 원활하게 통합하는 효율적이고 효과적인 접근 방식을 개발하여, 훈련 없이 VSL 기반 비디오 생성을 가능하게 합니다. 광범위한 실험을 통해 SpA2V가 입력 오디오와 의미론적 및 공간적 정렬을 가진 사실적인 비디오를 생성하는 데 탁월함을 입증합니다.
대형 언어 모델(LLM)은 인간의 글쓰기와 매우 유사한 텍스트를 생성하는 데 있어 뛰어난 능력을 보여주고 있다. 그러나 이러한 모델들은 종종 사실과 다른 오류를 생성하는데, 이 문제는 일반적으로 '환각(hallucination)'이라고 불린다. 환각 문제를 해결하는 것은 LLM의 신뢰성과 효과성을 높이는 데 있어 매우 중요하다. 기존 연구는 주로 영어에서의 환각 현상에 초점을 맞추었으나, 본 연구는 힌디어, 페르시아어, 중국어 등 세 가지 언어의 대화 데이터로 이 조사를 확장하였다. 우리는 GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 및 Qwen-3 모델을 대상으로 이들 언어에서의 사실적 오류와 언어적 오류를 종합적으로 분석하였다. 연구 결과, LLM은 중국어에서는 매우 적은 수의 환각 응답을 생성한 반면, 힌디어와 페르시아어에서는 상당히 많은 수의 환각 응답을 생성하는 것으로 나타났다.
이미지를 목표로 한 시각적 탐색은 근본적이면서도 도전적인 문제입니다. 기존의 방법들은 종단간 강화학습(RL)에 의존하거나, 위상 그래프나 BEV(Bird's Eye View) 맵을 메모리로 사용하는 모듈 기반 정책을 활용했는데, 이는 탐색된 3D 환경과 목표 이미지 간의 기하학적 관계를 완전히 모델링하지 못합니다. 3D 공간에서 목표 이미지를 효율적이고 정확하게 위치시키기 위해, 우리는 렌더링 가능한 3D 가우시안(3DGS) 표현을 기반으로 탐색 시스템을 구축했습니다. 그러나 3DGS 최적화의 계산 부담과 6-DoF 카메라 포즈의 큰 탐색 공간으로 인해, 에이전트 탐색 과정에서 3DGS를 직접 활용하여 이미지 위치를 파악하는 것은 비효율적입니다. 이를 해결하기 위해, 우리는 IGL-Nav(Incremental 3D Gaussian Localization) 프레임워크를 제안합니다. 이는 효율적이고 3D 인식이 가능한 이미지 목표 탐색을 위한 프레임워크입니다. 구체적으로, 새로운 이미지가 도착할 때마다 단안 예측을 통해 장면 표현을 점진적으로 업데이트합니다. 그런 다음 기하학적 정보를 활용하여 이산 공간 매칭을 통해 목표를 대략적으로 위치시킵니다. 이는 효율적인 3D 컨볼루션과 동등할 수 있습니다. 에이전트가 목표에 가까워지면, 미분 가능 렌더링을 통한 최적화로 정밀한 목표 포즈를 최종적으로 해결합니다. 제안된 IGL-Nav는 다양한 실험 설정에서 기존의 최신 방법들을 큰 차이로 능가합니다. 또한 더 도전적인 자유 시점 이미지 목표 설정을 처리할 수 있으며, 임의의 포즈에서 목표 이미지를 캡처하기 위해 스마트폰을 사용하여 실제 로봇 플랫폼에 배포할 수 있습니다. 프로젝트 페이지: https://gwxuan.github.io/IGL-Nav/.
AI는 텍스트, 오디오, 이미지, 비디오 생성에 뛰어나지만, 비디오 게임과 같은 인터랙티브 오디오-비주얼 콘텐츠를 만드는 것은 여전히 어려운 과제로 남아 있습니다. 현재의 대형 언어 모델(LLM)은 JavaScript 게임과 애니메이션을 생성할 수 있지만, 자동화된 평가 메트릭이 부족하며, 일반적으로 예술가들이 만든 자산을 사용하여 여러 달 동안 팀으로 작업해야 하는 복잡한 콘텐츠(멀티샷, 멀티에이전트)를 생성하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해 우리는 새로운 메트릭과 멀티에이전트 시스템을 구축했습니다. 우리는 오디오-비주얼 레코딩(AVR)을 사용하여 멀티미디어 콘텐츠 품질을 평가하는 상대적 메트릭인 AVR-Eval을 제안합니다. 텍스트, 비디오, 오디오를 처리하는 오모달 모델은 두 콘텐츠의 AVR을 비교하고, 텍스트 모델이 평가를 검토하여 우수성을 결정합니다. 우리는 AVR-Eval이 정상적인 콘텐츠와 결함이 있거나 불일치하는 콘텐츠를 올바르게 식별함을 보여줍니다. 우리는 멀티미디어 자산(오디오, 이미지, 3D 모델)을 기반으로 JavaScript 코드를 생성하는 멀티에이전트 시스템인 AVR-Agent를 구축했습니다. 코딩 에이전트는 관련 자산을 선택하고, 여러 초기 코드를 생성하며, AVR-Eval을 사용하여 최적의 버전을 식별하고, AVR에서 제공하는 오모달 에이전트 피드백을 통해 반복적으로 개선합니다. 우리는 AVR-Eval을 사용하여 게임과 애니메이션에 대한 실험을 실행했습니다(콘텐츠 A 대 B의 승률). AVR-Agent가 생성한 콘텐츠는 원샷 생성 방식으로 만들어진 콘텐츠에 비해 상당히 높은 승률을 보였습니다. 그러나 모델은 사용자 정의 자산과 AVR 피드백을 효과적으로 활용하지 못해 승률이 더 높아지지 않았습니다. 이는 중요한 차이점을 드러냅니다: 인간은 고품질 자산과 오디오-비주얼 피드백으로부터 이점을 얻지만, 현재의 코딩 모델은 이러한 자원을 그만큼 효과적으로 활용하지 못하며, 이는 인간과 기계의 콘텐츠 생성 접근 방식 간의 근본적인 차이를 강조합니다.