번역이 포함된 일일 선별된 AI 연구 논문
확산 언어 모델은 빠른 병렬 생성을 가능하게 하는 잠재력을 지니는 반면, 자기회귀(AR) 모델은 일반적으로 언어 모델링과 자연스럽게 부합하는 인과적 구조 덕분에 품질 측면에서 뛰어난 성능을 보입니다. 이로 인해 다음과 같은 근본적인 의문이 제기됩니다: 높은 처리량, 향상된 GPU 활용률, 그리고 AR 수준의 품질을 모두 갖춘 시너지를 달성할 수 있을까? 기존 방법론들은 이 두 가지 측면을 효과적으로 균형 잡지 못하며, AR을 우선시하여 약한 모델을 순차적 초안 생성(특수 디코딩)에 사용함으로써 낮은 초안 작성 효율을 보이거나, 확산 모델에 어떤 형태의 좌측-우측(AR 스타일) 디코딩 논리를 적용하여 여전히 품질 저하가 발생하고 잠재적인 병렬화 가능성을 포기합니다. 우리는 TiDAR를 소개합니다. 이는 특수하게 설계된 구조화된 어텐션 마스크를 사용하여 단일 순전파 과정 내에서 확산 방식으로 토큰 초안을 생성(Thinking)하고 자기회귀 방식으로 최종 출력을 샘플링(Talking)하는 시퀀스 수준의 하이브리드 아키텍처입니다. 이 설계는 유휴 GPU 컴퓨팅 자원을 최대한 활용하여 초안 생성 능력과 검증 능력 사이의 강력한 균형을 달성합니다. 더욱이 TiDAR는 독립형 모델로서 서비스 배포에 친화적(낮은 오버헤드)으로 설계되었습니다. 우리는 TiDAR를 1.5B 및 8B 규모의 생성 및 가능도 작업에서 AR 모델, 특수 디코딩, 그리고 다양한 확산 모델 변형들과 비교하여 광범위하게 평가했습니다. 병렬 초안 생성 및 샘플링과 정확한 KV 캐시 지원 덕분에 TiDAR는 측정된 처리량에서 특수 디코딩을 능가하며, Dream이나 Llada와 같은 확산 모델들을 효율성과 품질 모두에서 뛰어넘습니다. 특히 주목할 만한 점은, TiDAR는 AR 모델과의 품질 격차를 해소하면서 동시에 초당 4.71배에서 5.91배 더 많은 토큰을 생성하는 최초의 아키텍처입니다.
우리는 도전적인 3D 오픈월드 환경에서 실시간으로 수 시간에 걸친 복잡한 미션을 완수할 수 있는 범용 에이전트를 개발하기 위한 최초의 오픈 레시피인 Lumine을 소개한다. Lumine은 비전-언어 모델로 구동되는, 지각, 추론, 행동을 종단 간 방식으로 통합한 인간과 유사한 상호작용 패러다임을 채택한다. 이는 5Hz로 원시 픽셀을 처리하여 정밀한 30Hz 키보드-마우스 동작을 생성하고, 필요할 때만 적응적으로 추론을 호출한다. Genshin Impact에서 훈련된 Lumine은 인간 수준의 효율성으로 5시간에 걸친 몬드슈타트 메인 스토리라인을 성공적으로 완료하며, 3D 오픈월드 탐험과 2D GUI 조작에서 수집, 전투, 퍼즐 해결, NPC 상호작용 등 다양한 작업을 수행하기 위해 자연어 명령을 따른다. 도메인 내 성능 외에도, Lumine은 강력한 제로샷 교차 게임 일반화 능력을 보여준다. 미세 조정 없이도 Wuthering Waves에서 100분짜리 미션을 완수하고 Honkai: Star Rail의 첫 번째 장 전체를 5시간 동안 완료한다. 이러한 유망한 결과는 Lumine이 서로 다른 세계와 상호작용 역학에서의 효과성을 강조하며, 개방형 환경에서의 범용 에이전트로 나아가는 구체적인 단계를 표시한다.
히트 후보 물질 발굴은 초기 신약 개발의 핵심 과제로, 전통적으로 상당한 실험 자원이 필요했습니다. 최근 인공지능, 특히 대규모 언어 모델(LLM)의 발전으로 비용을 절감하고 효율성을 높이는 가상 스크리닝 방법이 가능해졌습니다. 그러나 이러한 도구들의 복잡성이 증가함에 따라 실험실 연구자들의 접근성이 제한되고 있습니다. 다중 에이전트 시스템은 LLM의 해석 가능성과 전문 모델 및 도구의 정밀성을 결합하여 유망한 해결책을 제시합니다. 본 연구에서는 자연어 질의로부터 맞춤형 히트 후보 물질 발굴 파이프라인을 구축하고 실행하는 다중 에이전트 시스템인 MADD를 소개합니다. MADD는 데 노보 화합물 생성 및 스크리닝의 주요 하위 작업을 처리하기 위해 네 가지 조율된 에이전트를 활용합니다. 우리는 7개의 신약 개발 사례에 걸쳐 MADD를 평가하고 기존 LLM 기반 솔루션 대비 우수한 성능을 입증합니다. MADD를 활용하여 5개의 생물학적 표적에 대해 AI 주도 신약 설계를 최초로 적용하고 발굴된 히트 분자들을 공개합니다. 마지막으로, 약물 설계의 에이전트 기반 미래 발전에 기여하고자 3백만 개 이상의 화합물에 대한 질의-분자 쌍 및 도킹 점수로 구성된 새로운 벤치마크를 제시합니다.
확산 기반 비디오 생성은 사실적인 비디오를 생성할 수 있으나, 기존의 이미지 및 텍스트 기반 조건화는 정밀한 모션 제어를 제공하지 못합니다. 모션 조건화 합성을 위한 기존 방법은 일반적으로 모델별 미세 조정을 필요로 하며, 이는 계산 비용이 많이 들고 제한적입니다. 본 논문에서는 이미지-투-비디오(I2V) 확산 모델을 이용한 모션 및 외관 제어 비디오 생성을 위한 추가 학습이 필요 없으며 즉시 사용 가능한 프레임워크인 Time-to-Move(TTM)를 소개합니다. 우리의 핵심 통찰은 잘라내기-끌기 또는 깊이 기반 재투영과 같은 사용자 친화적 조작을 통해 얻은 정제되지 않은 참조 애니메이션을 활용하는 것입니다. SDEdit가 이미지 편집을 위해 대략적인 레이아웃 단서를 사용하는 방식에 착안하여, 우리는 정제되지 않은 애니메이션을 대략적인 모션 단서로 간주하고 해당 메커니즘을 비디오 영역에 적용합니다. 이미지 조건화를 통해 외관을 보존하고, 이중 클럭 디노이징을 도입합니다. 이는 지역에 따라 다른 전략을 적용하여 모션이 지정된 영역에서는 강력한 정렬을 강제하되 다른 영역에서는 유연성을 허용함으로써 사용자 의도에 대한 충실도와 자연스러운 역학 사이의 균형을 맞춥니다. 샘플링 과정의 이러한 경량 수정은 추가적인 학습 또는 실행 시간 비용을 발생시키지 않으며 어떤 백본 모델과도 호환됩니다. 객체 및 카메라 모션 벤치마크에 대한 광범위한 실험을 통해 TTM이 사실성과 모션 제어 측면에서 기존의 학습 기반 기준선을 능가하거나 동등한 성능을 보임을 입증합니다. 이를 넘어 TTM은 픽셀 수준 조건화를 통한 정밀한 외관 제어라는 독특한 능력을 도입하여 텍스트만으로 하는 프롬프팅의 한계를 넘어섭니다. 비디오 예시 및 코드는 프로젝트 페이지(https://time-to-move.github.io/)를 참조하십시오.
우리는 아키텍처 혁신과 시스템 수준 최적화를 결합하여 대규모 언어 모델의 효율성 한계를 넓힌 새로운 오픈 웨이트 기초 모델인 Motif-2-12.7B를 소개한다. 제한된 컴퓨팅 예산 내에서 확장 가능한 언어 이해와 강력한 지시문 일반화를 위해 설계된 Motif-2.7B는 신호와 잡음 제어 주의 경로를 분리하여 표현 효율성을 향상시키는 GDA(Grouped Differential Attention)를 통합하여 Motif-2.6B를 기반으로 구축되었다. 본 모델은 데이터 구성 비율을 점진적으로 변경하는 커리큘럼 기반 데이터 스케줄러를 사용하여 다양한 언어, 수학, 과학 및 프로그래밍 영역에 걸친 5.5조 토큰으로 사전 학습되었다. 훈련 시스템은 융합된 PolyNorm 활성화 함수와 Parallel Muon 알고리즘을 포함한 맞춤형 고성능 커널과 함께 MuonClip 옵티마이저를 활용하여 대규모 분산 환경에서 처리량과 메모리 효율성을 크게 높였다. 사후 훈련은 일반적인 지시문 준수, 구성적 이해 및 언어적 정밀도를 순차적으로 향상시키는 3단계 지도 미세 조정 파이프라인을 사용한다. Motif-2-12.7B는 다양한 벤치마크에서 경쟁력 있는 성능을 보여주며, 신중한 아키텍처 확장과 최적화된 훈련 설계가 훨씬 더 큰 모델의 능력에 맞설 수 있음을 입증한다.
외부 도구를 활용한 대규모 언어 모델(LLM) 증강은 복잡한 다단계 작업 실행을 가능하게 합니다. 그러나 도구 학습은 데이터 생성과 모델 훈련이 별개이며 상호작용이 없는 정적 합성 데이터 파이프라인으로 인해 제약을 받고 있습니다. 이러한 접근 방식은 모델의 특정 약점에 적응적으로 집중하지 못하며 노이즈 레이블이 지속되어 훈련 효율성을 저하시킵니다. 본 연구에서는 데이터 합성과 모델 훈련을 긴밀하게 통합하여 이 순환을 폐쇄하는 완전 자동화된 모델 인식 데이터 진화 프레임워크인 LoopTool을 소개합니다. LoopTool은 세 가지 상호 보완적 모듈을 통해 데이터와 모델을 반복적으로 정제합니다: (1) Greedy Capability Probing(GCP)은 모델이 숙달한 능력과 실패한 능력을 진단합니다; (2) Judgement-Guided Label Verification(JGLV)은 오픈소스 판단 모델을 사용하여 주석 오류를 찾아 수정함으로써 데이터셋을 점진적으로 정제합니다; (3) Error-Driven Data Expansion(EDDE)은 식별된 실패 사례를 바탕으로 새로운 도전적인 샘플을 생성합니다. 이 폐쇄형 순환 과정은 비용 효율적인 오픈소스 생태계 내에서 운영되어 고가의 폐쇄형 API에 대한 의존성을 제거합니다. 실험 결과, LoopTool로 훈련된 우리의 8B 모델은 32B 데이터 생성기를 크게 능가하며 해당 규모에서 BFCL-v3 및 ACEBench 벤치마크에서 새로운 최첨단 성과를 달성했습니다. 우리의 작업은 폐쇄형 자기 정제 데이터 파이프라인이 LLM의 도구 사용 능력을 극적으로 향상시킬 수 있음을 입증합니다.
비전-언어-행동(VLA) 모델은 범용 로봇 매니퓰레이션에서 강력한 잠재력을 보여주지만, 전문가 시연 데이터에 대한 의존성으로 인해 실패로부터 학습하고 자가 수정을 수행하는 능력이 제한됩니다. 강화 학습(RL)은 물리적 환경과의 자기 개선적 상호작용을 통해 이러한 문제를 해결하지만, 실제 로봇에서 높은 샘플 복잡도 문제를 겪습니다. 본 연구에서는 실제 환경과의 상호작용 없이 온-정책 VLA 강화 학습을 위한 원칙적인 프레임워크인 월드 모델 기반 정책 최적화(WMPO)를 소개합니다. 널리 사용되는 잠재 월드 모델과 대조적으로, WMPO는 웹 규모 이미지로 사전 학습된 VLA 특징과 "상상된" 궤적을 정렬하는 픽셀 기반 예측에 중점을 둡니다. 중요한 것은 WMPO가 정책으로 하여금 기존에 흔히 사용되던 오프-정책 방법보다 더 강력한 성능을 제공하는 온-정책 GRPO를 수행할 수 있게 한다는 점입니다. 시뮬레이션과 실제 로봇 환경에서의 광범위한 실험을 통해 WMPO가 (i) 샘플 효율성을 크게 향상시키고, (ii) 더 강력한 전반적인 성능을 달성하며, (iii) 자가 수정과 같은 창발적 행동을 보여주고, (iv) 견고한 일반화 및 평생 학습 능력을 입증함을 확인했습니다.
사용자 인터페이스(UI) 개발은 디자인 목업을 기능적 코드로 변환하는 과정을 필요로 하며, 이 과정은 여전히 반복적이고 노동 집약적으로 남아 있습니다. 최근 Vision-Language Models(VLMs)이 UI-to-Code 생성을 자동화하고 있지만, 이들은 상호작용성이 부족한 정적 HTML/CSS/JavaScript 레이아웃만 생성합니다. 이를 해결하기 위해 우리는 상호작용형 UI-to-Code 생성 및 검증을 위한 최초의 에이전트 기반 프레임워크인 WebVIA를 제안합니다. 이 프레임워크는 세 가지 구성 요소로 이루어집니다: 1) 다중 상태 UI 스크린샷을 캡처하는 탐색 에이전트, 2) 실행 가능한 상호작용 코드를 생성하는 UI2Code 모델, 3) 상호작용성을 검증하는 검증 모듈. 실험 결과, WebVIA-Agent는 범용 에이전트(예: Gemini-2.5-Pro)보다 더 안정적이고 정확한 UI 탐색을 달성함을 보여줍니다. 또한, 미세 조정된 WebVIA-UI2Code 모델은 실행 가능하고 상호작용적인 HTML/CSS/JavaScript 코드 생성에서 상당한 향상을 보이며, 상호작용형 및 정적 UI2Code 벤치마크 모두에서 기본 모델을 능가합니다. 우리의 코드와 모델은 https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}에서 이용 가능합니다.
멀티모달 대규모 언어 모델(MLLMs)은 시각-언어 질의응답 과제에서 뛰어난 능력을 입증해왔습니다. 그러나 이러한 모델들은 수학 문제 해결과 같은 복잡한 추론 과제를 달성하는 데 어려움을 겪는 경우가 많습니다. 기존 연구들은 전문화된 수학 데이터셋에 대한 미세 조정에 주력해왔습니다. 하지만 이러한 데이터셋들은 일반적으로 교사 모델에서 직접 추출된 것으로, 정적인 추론 패턴만을 포착하여 학생 모델과 비교 시 상당한 격차를 남깁니다. 고정된 교사 모델 기반 데이터셋에 대한 이러한 의존성은 훈련 데이터의 한계를 넘어서는 새로운 또는 더 복잡한 질문에 적응하는 모델의 능력을 제한할 뿐만 아니라, 강건한 일반화를 위해 필요한 반복적인 심층 학습이 부족합니다. 이러한 한계를 극복하기 위해 우리는 MLLM을 위한 수학적 자가 진화 프레임워크인 \method를 제안합니다. 기존의 일회성 미세 조정 패러다임과 달리, \method는 추론, 성찰, 그리고 보상 기반 피드백의 주기를 통해 모델을 반복적으로 정제합니다. 구체적으로, 이전 단계 추론에서 도출된 정확한 추론 경로를 통합하고 전문화된 결과 보상 모델(ORM)의 성찰을 통합하여 반복적 미세 조정을 강화합니다. \method의 효과를 검증하기 위해 우리는 일련의 도전적인 벤치마크에서 평가를 수행하여 백본 모델 대비 상당한 성능 향상을 입증합니다. 특히 MathVL-test에 대한 우리의 실험 결과는 오픈소스 멀티모달 수학 추론 모델인 QVQ를 능가합니다. 우리의 코드와 모델은 https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/에서 이용 가능합니다.
웹 에이전트는 환경 특화 작업과 시연 데이터의 부족으로 인해 새로운 웹사이트에 적응하는 데 어려움을 겪습니다. 최근 연구에서는 이러한 문제를 해결하기 위해 합성 데이터 생성 방법을 탐구했지만, 합성된 작업이 실행 불가능한 환각(hallucination)을 포함하거나 수집된 궤적이 중복되거나 잘못 정렬된 동작으로 인해 노이즈가 많은 등 데이터 품질 문제가 발생하고 있습니다. 본 논문에서는 작업과 궤적의 이중 정제(dual refinement)를 통해 합성 데이터 품질을 향상시키는 완전 합성 감독 프레임워크인 SynthAgent를 제안합니다. 우리의 접근법은 웹 요소의 범주화된 탐색을 통해 다양한 작업을 합성하여 대상 환경의 효율적인 커버리지를 보장하는 것에서 시작합니다. 궤적 수집 단계에서는 실제 관찰과 충돌이 감지될 때 작업을 정제하여 작업 일관성을 유지하면서 환각 현상을 완화합니다. 수집 이후에는 전역 컨텍스트를 활용한 궤적 정제를 수행하여 잠재적인 노이즈 또는 오정렬을 줄입니다. 마지막으로, 정제된 합성 데이터로 오픈소스 웹 에이전트를 미세 조정하여 대상 환경에 적응시킵니다. 실험 결과는 SynthAgent가 기존 합성 데이터 방법보다 우수한 성능을 보여주며, 고품질 합성 감독의 중요성을 입증합니다. 코드는 https://github.com/aiming-lab/SynthAgent에서 공개될 예정입니다.
확산 모델은 샘플링 궤적을 수정하여 출력 품질을 향상시키는 classifier-free guidance(CFG)와 같은 안내 방법을 사용할 때 강력한 생성 성능을 입증해왔습니다. 이러한 방법들은 일반적으로 정체성 혼합이나 흐림 조건과 같은 경험적 교란 함수를 사용하여 무조건 출력과 같은 다른 출력을 의도적으로 저하시킴으로써 목표 출력을 개선합니다. 그러나 이러한 접근법은 원칙적인 토대가 부족하며 수동으로 설계된 왜곡에 의존합니다. 본 연구에서는 최적 수송 이론의 관점에서 확산 모델의 어텐션 점수를 재해석하고 Sinkhorn 알고리즘을 통해 수송 비용을 의도적으로 방해하는 새로운 방법인 Adversarial Sinkhorn Attention Guidance(ASAG)를 제안합니다. ASAG는 어텐션 메커니즘을 단순히 손상시키는 대신, 쿼리와 키 간의 픽셀 단위 유사도를 감소시키기 위해 자기 어텐션 계층 내에 적대적 비용을 주입합니다. 이러한 의도적인 저하는 오해를 불러일으키는 어텐션 정렬을 약화시키고 조건부 및 무조건부 샘플 품질의 개선으로 이어집니다. ASAG는 텍스트-이미지 확산에서 일관된 개선을 보여주며, IP-Adapter 및 ControlNet과 같은 하위 응용 프로그램에서 제어성과 정확도를 향상시킵니다. 이 방법은 경량이며 플러그 앤 플레이 방식으로, 모델 재훈련 없이도 신뢰성을 향상시킵니다.
OpenAI Codex, Claude Code, Cursor와 같은 에이전트형 코딩 도구들이 소프트웨어 엔지니어링 환경을 변화시키고 있습니다. 이러한 AI 기반 시스템은 복잡한 개발 작업을 계획하고 실행할 수 있는 자율적인 팀원으로 기능합니다. 에이전트들은 관찰 가능한 동작을 변경하지 않고 내부 코드 품질을 개선하는 것을 목표로 하는 지속 가능한 소프트웨어 개발의 핵심인 리팩토링 과정에서 적극적인 참여자가 되었습니다. 이러한 도구들의 사용이 증가함에도 불구하고, 실제 현장에서 에이전트형 리팩토링이 어떻게 활용되는지, 인간에 의한 리팩토링과 어떻게 비교되는지, 그리고 코드 품질에 어떤 영향을 미치는지에 대한 실증적 이해가 심각하게 부족합니다. 이러한 실증적 공백을 해소하기 위해 우리는 실제 오픈소스 Java 프로젝트에서 AI 에이전트가 생성한 리팩토링에 대한 대규모 연구를 제시하며, AIDev 데이터셋에서 도출된 12,256개의 풀 리퀘스트와 14,988개의 커밋에 걸친 15,451개의 리팩토링 인스턴스를 분석합니다. 우리의 실증적 분석에 따르면, 이 개발 패러다임에서 리팩토링은 흔하며 의도적인 활동으로, 에이전트들은 커밋의 26.1%에서 명시적으로 리팩토링을 대상으로 합니다. 리팩토링 유형 분석은 에이전트의 노력이 '변수 유형 변경(11.8%)', '매개변수 이름 바꾸기(10.4%)', '변수 이름 바꾸기(8.5%)'와 같은 저수준의 일관성 지향 편집이 주를 이룸을 보여주며, 이는 인간의 리팩토링에서 흔한 고수준 설계 변경보다는 지역적 개선을 선호함을 반영합니다. 또한, 에이전트형 리팩토링 배후의 동기는 압도적으로 내부 품질 문제에 집중되어 있으며, 유지보수성(52.5%)과 가독성(28.1%)이 주요 동기입니다. 나아가, 코드 품질 메트릭에 대한 정량적 평가는 에이전트형 리팩토링이 구조적 메트릭에서 통계적으로 유의미하지만 작은 개선을 가져오며, 특히 중간 수준의 변경에서 클래스 크기와 복잡성을 감소시킴을 보여줍니다(예: Class LOC 중앙값 Δ = -15.25).
언어 모델은 놀라운 자연어 생성 능력을 보이지만, 구문적으로 일관된 응답을 생성함에도 불구하고 사실적으로 부정확한 정보를 생성하는 환각 현상에 취약한 한계를 지닙니다. 본 연구에서는 구조화된 지식 그래프에 대한 형식적 검증을 통해 사실적 제약을 적용하여 언어 모델의 환각 현상을 차단하도록 설계된 아키텍처 솔루션인 라이선싱 오라클을 소개합니다. 데이터 확장이나 미세 조정에 의존하는 통계적 접근법과 달리, 라이선싱 오라클은 모델의 생성 과정에 결정론적 검증 단계를 내장하여 사실적으로 정확한 주장만이 출력되도록 보장합니다. 우리는 라이선싱 오라클의 효과를 평가하기 위해 기준 언어 모델 생성, 사실 회상 미세 조정, 회피 행동 미세 조정, 검색 증강 생성(RAG) 등 여러 최신 방법과 비교 실험을 수행했습니다. 그 결과, RAG와 미세 조정이 성능을 향상시키기는 하지만 환각 현상을 근절하지는 못하는 반면, 라이선싱 오라클은 완벽한 회피 정밀도(AP = 1.0)와 0%의 오답률(FAR-NE = 0.0)을 달성하여 사실 응답에서 89.1%의 정확도로 유효한 주장만을 생성함을 입증했습니다. 이 연구는 라이선싱 오라클과 같은 아키텍처 혁신이 구조화된 지식 표현이 가능한 영역에서 환각 현상에 대한 필요 충분 조건을 제공하며, 통계적 방법이 따라올 수 없는 보장을 제공함을 보여줍니다. 비록 라이선싱 오라클이 사실 기반 영역의 환각 현상을 특수하게 해결하도록 설계되었지만, 그 프레임워크는 향후 AI 시스템에서 진실 제약 생성의 기초를 마련함으로써 신뢰할 수 있고 인식론적으로 근거 있는 모델로 나아가는 새로운 길을 제시합니다.