번역이 포함된 일일 선별된 AI 연구 논문
우리는 장기적이고 심층적인 정보 탐색 연구 과제를 위해 특별히 설계된 에이전트형 대규모 언어 모델인 Tongyi DeepResearch를 소개한다. 자율적인 심층 연구 능력을 고취하기 위해 Tongyi DeepResearch는 에이전트 중간 훈련과 에이전트 사후 훈련을 결합한 종단간 훈련 프레임워크를 통해 개발되어 복잡한 작업 전반에 걸쳐 확장 가능한 추론 및 정보 탐색이 가능하다. 우리는 고비용의 인간 주석에 의존하지 않는 완전 자동화된 고도로 확장 가능한 데이터 합성 파이프라인을 설계하여 모든 훈련 단계를 지원한다. 각 단계별 맞춤형 환경을 구축함으로써 우리 시스템은 전 과정에 걸쳐 안정적이고 일관된 상호작용을 가능하게 한다. 총 305억 개의 매개변수 중 토큰당 33억 개만 활성화되는 Tongyi DeepResearch는 Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES, xbench-DeepSearch-2510 등 일련의 에이전트 심층 연구 벤치마크에서 최첨단 성능을 달성한다. 우리는 커뮤니티의 발전을 위해 모델, 프레임워크 및 완전한 솔루션을 오픈소스로 공개한다.
언어 에이전트는 웹 검색 및 정보 검색 분야에서 뛰어난 잠재력을 입증해왔습니다. 그러나 이러한 검색 에이전트들은 사용자 질의가 완전하고 명확하다는 가정 하에 작동하는데, 이는 실제로 사용자가 불완전한 질의로 시작하여 상호작용을 통해 명확화가 필요한 현실과 괴리됩니다. 그럼에도 대부분의 에이전트는 검색 과정 중 상호작용 메커니즘을 갖추지 못했으며, 기존 벤치마크는 이러한 능력을 평가할 수 없습니다. 이러한 격차를 해결하기 위해 우리는 검색 에이전트가 질의의 모호성을 인지하고 검색 중 이를 해결하기 위해 능동적으로 상호작용할 수 있는지 평가하기 위해 설계된 벤치마크인 InteractComp를 소개합니다. '쉽게 검증 가능하고, 상호작용으로 명확화한다'는 원칙에 따라, 우리는 상호작용을 통해서만 해결 가능한 진정한 모호성을 생성하는 타겟-방해 요소 방법론을 통해 9개 도메인에 걸친 전문가 검수 질문 210개를 구성했습니다. 17개 모델 평가 결과 놀라운 실패가 드러났습니다: 최고 성능 모델은 완전한 맥락이 제공될 때 71.50%의 정확도를 보였음에도 불구하고, 상호작용 조건에서 단 13.73%의 정확도만 달성하여 추론 능력 결핍이 아닌 체계적인 과신을暴露했습니다. 강제 상호작용은 극적인 성능 향상을 가져와 현재 전략이 활용하지 못하는 잠재 능력이 존재함을 입증했습니다. 종단 분석은 15개월 이상에 걸쳐 상호작용 능력이 정체된 반면 검색 성능은 7배나 향상되어 중요한 맹점이 있음을 보여줍니다. 이러한 정체와 검색 작업에 내재된 즉각적인 피드백 특성은 InteractComp가 검색 에이전트의 상호작용 능력을 평가하고 훈련시키는 데 모두 유용한 자원이 되게 합니다. 코드는 https://github.com/FoundationAgents/InteractComp에서 이용 가능합니다.
LLM 기반 웹 에이전트는 정보 탐색 분야에서 막대한 잠재력을 보여주지만, 장기적 과제 수행 효율성은 컨텍스트 관리의 근본적인 트레이드오프에 의해 제한됩니다. 기존 ReAct 기반 에이전트는 노이즈가 많은 원시 기록을 누적함에 따라 컨텍스트 포화 현상을 겪는 반면, 각 단계마다 전체 기록을 고정적으로 요약하는 방식은 중요한 세부 사항의 비가역적 손실 위험을 안고 있습니다. 이러한 문제를 해결하기 위해 우리는 인간의 회고적 정리 인지 과정에서 영감을 받아 능동적 컨텍스트 관리에 중점을 둔 새로운 에이전트 패러다임인 AgentFold을 제안합니다. AgentFold은 컨텍스트를 수동적으로 채워지는 로그가 아닌 능동적으로 조형되는 동적 인지 작업 공간으로 취급합니다. 각 단계마다 AgentFold은 다중 규모로 역사적 궤적을 관리하는 '폴딩' 작업을 실행하는 방법을 학습합니다: 중요한 세부 정보를 보존하기 위한 세분화된 응축을 수행하거나, 다단계 하위 작업 전체를 추상화하기 위한 심층 정리를 수행할 수 있습니다. 주요 벤치마크에서의 결과는 혁신적입니다: 간단한 지도 미세 조정만으로(지속 사전 학습이나 RL 없이) 우리의 AgentFold-30B-A3B 에이전트는 BrowseComp에서 36.2%, BrowseComp-ZH에서 47.3%를 달성했습니다. 특히 이 성능은 DeepSeek-V3.1-671B-A37B와 같이 규모가 훨씬 큰 오픈소스 모델을 능가하거나 필적할 뿐만 아니라, OpenAI의 o4-mini와 같은 선도적인 독점 에이전트도 넘어섰습니다.
멀티모달 대규모 언어 모델(MLLM)의 최근 발전은 로봇 매니픽레이션을 위한 시각-언어-행동(VLA) 모델의 급속한 진전을 이끌었습니다. 많은 시나리오에서 효과적이지만, 현재의 접근법은 주로 명시적 지시에 의존하는 반면, 실제 상호작용에서 인간은 직접적인 지시를 거의 내리지 않습니다. 효과적인 협력은 로봇이 사용자의 의도를 능동적으로 추론할 것을 요구합니다. 본 연구에서는 의도가 명시적 명령이 아닌 구어 대화, 환경 음향 및 시각적 단서에서 도출되는 새로운 설정인 크로스모달 상황적 지시를 소개합니다. 이 새로운 설정을 해결하기 위해 우리는 의도 인식, 상호작용 확인 및 행동 실행을 통합한 end-to-end 올니모달 LLM 기반의 Perceiver-Thinker-Talker-Executor 프레임워크인 RoboOmni를 제시합니다. RoboOmni는 강건한 의도 인식을 위해 청각 및 시각 신호를 시공간적으로 융합하면서 직접 음성 상호작용을 지원합니다. 로봇 매니픽레이션에서 능동적 의도 인식을 위한 훈련 데이터 부족 문제를 해결하기 위해 우리는 14만 개의 에피소드, 5,000명 이상의 화자, 2,400개의 사건 음향, 640개의 배경, 6가지 유형의 상황적 지시로 구성된 OmniAction 데이터셋을 구축했습니다. 시뮬레이션 및 실제 환경에서의 실험 결과, RoboOmni는 성공률, 추론 속도, 의도 인식 및 능동적 지원 측면에서 텍스트 및 ASR 기반 베이스라인을 능가하는 것으로 나타났습니다.
본 논문에서는 인간의 키보드-마우스 입력 체계에 기반한 통합적이고 확장 가능한 액션 공간을 통해 학습된 일반형 게임 에이전트 Game-TARS를 소개한다. API나 GUI 기반 접근법과 달리, 이 패러다임은 OS, 웹, 시뮬레이션 게임 등 이질적인 영역에 걸친 대규모 지속 사전 학습을 가능하게 한다. Game-TARS는 다양한 트랙토리와 멀티모달 데이터로 구성된 500B 이상의 토큰으로 사전 학습되었다. 핵심 기술로는 인과적 혼란을 줄이기 위한 감쇠 지속 학습 손실과, 추론 깊이와 비용 간 균형을 맞추는 효율적 Sparse-Thinking 전략이 포함된다. 실험 결과, Game-TARS는 오픈 월드 Minecraft 과제에서 기존 SOTA 모델 대비 약 2배의 성공률을 달성했으며, 처음 접하는 웹 3D 게임에서는 신규 인간 사용자의 일반성에 근접했고, FPS 벤치마크에서 GPT-5, Gemini-2.5-Pro, Claude-4-Sonnet을 능가했다. 학습 및 추론 시간에 대한 확장성 실험은 이 통합 액션 공간이 크로스 게임 및 멀티모달 데이터로 확장될 때도 성능 향상을 지속함을 입증한다. 본 연구 결과는 단순하고 확장 가능한 액션 표현과 대규모 사전 학습의 결합이 광범위한 컴퓨터 사용 능력을 지닌 일반형 에이전트 개발의 유망한 방향임을 보여준다.
연속 공간 비디오 생성은 빠르게 발전한 반면, 이산적 접근법은 오류 누적과 장기 맥락 불일치로 인해 뒤처져 왔습니다. 본 연구에서는 이산적 생성 모델링을 재조명하며 확장 가능한 비디오 생성을 위해 연속적 접근법과의 격차를 해소하는 간단하면서도 강력한 프레임워크인 URSA(Uniform discRete diffuSion with metric pAth)를 제안합니다. URSA의 핵심은 비디오 생성 작업을 이산적 시공간 토큰의 반복적 전역 정제로 공식화하는 것입니다. 여기에는 두 가지 핵심 설계가 통합되어 있습니다: 선형화된 메트릭 경로(Linearized Metric Path)와 해상도 의존적 타임스텝 이동(Resolution-dependent Timestep Shifting) 메커니즘입니다. 이러한 설계를 통해 URSA는 상당히 적은 추론 단계만으로 고해상도 이미지 합성 및 장기간 비디오 생성에 효율적으로 확장될 수 있습니다. 또한 보간 및 이미지-비디오 생성 등 다양한 작업을 단일 모델 내에서 통합하는 비동기적 시간적 미세 조정 전략을 도입합니다. 까다로운 비디오 및 이미지 생성 벤치마크에 대한 광범위한 실험을 통해 URSA가 기존 이산적 방법을 지속적으로 능가하며 최첨단 연속 확산 방법에 버금가는 성능을 달성함을 입증합니다. 코드와 모델은 https://github.com/baaivision/URSA에서 확인할 수 있습니다.
대규모 지도 미세조정을 통한 AI 에이전트 학습에 대한 공개 연구 결과는 에이전트 훈련 데이터 수집이 특유의 어려움을 내포하고 있어 상대적으로 드물다. 본 연구에서는 이러한 병목 현상이 근본적인 데이터 원천의 부족이 아니라, 다양한 데이터가 이기종 형식과 도구, 인터페이스에 분산되어 있기 때문이라고 주장한다. 이를 위해 우리는 다양한 형식의 에이전트 데이터셋과 하류의 통합 에이전트 훈련 파이프라인 사이의 "중간 언어" 역할을 하는 경량 표현 언어인 에이전트 데이터 프로토콜(ADP)을 소개한다. ADP의 설계는 API/도구 사용, 브라우징, 코딩, 소프트웨어 공학, 일반적인 에이전트 워크플로우 등 다양한 작업을 포착할 수 있을 만큼 표현력이 뛰어나면서도, 데이터셋별 엔지니어링 없이도 구문 분석과 훈련이 간단하다. 실험에서는 13개의 기존 에이전트 훈련 데이터셋을 광범위하게 수집하여 ADP 형식으로 통합하고, 표준화된 ADP 데이터를 여러 에이전트 프레임워크에 맞는 훈련 가능 형식으로 변환했다. 이 데이터에 대해 지도 미세조정을 수행한 결과, 해당 기본 모델 대비 평균 약 20%의 성능 향상을 보였으며, 도메인 특화적 조정 없이도 표준 코딩, 브라우징, 도구 사용, 리서치 벤치마크에서 최첨단 또는 최첨단에 근접한 성능을 제공했다. ADP가 표준화되고 확장 가능하며 재현 가능한 에이전트 훈련의 진입 장벽을 낮추는 데 도움이 되길 바라며, 모든 코드와 데이터를 공개한다.
기존 비전-언어-행동(VLA) 모델들은 3차원 실세계에서 동작하지만 일반적으로 2차원 인코더를 기반으로 구축되어, 일반화 및 적응성을 제한하는 공간 추론 격차를 남긴다. VLA를 위한 최근의 3차원 통합 기술들은 특수 센서가 필요하고 모달리티 간 이식성이 낮거나, 기하학적 정보가 부족하고 비전-언어 정렬을 저하시키는 약한 단서를 주입하는 방식에 그친다. 본 연구에서는 행동 헤드에 풍부한 3차원 공간 토큰을 주입하는 새로운 패러다임인 FALCON(From Spatial to Action)을 소개한다. FALCON은 공간 기초 모델을 활용하여 RGB 정보만으로도 강력한 기하학적 사전 정보를 제공하며, 깊이 또는 포즈 정보를 사용 가능할 경우 재학습이나 구조 변경 없이 더 높은 정밀도로 융합할 수 있는 구체화 공간 모델을 포함한다. 언어 추론 능력을 보존하기 위해 공간 토큰들은 비전-언어 백본에 연결(concatenate)되지 않고 공간 강화 행동 헤드에 의해 처리된다. 이러한 설계를 통해 FALCON은 공간 표현, 모달리티 이식성, 정렬 분야의 한계를 해결한다. 3개의 시뮬레이션 벤치마크와 11개의 실세계 과제에 걸친 포괄적 평가에서 제안된 FALCON은 최첨단 성능을 달성하고, 경쟁력 있는 베이스라인을 지속적으로 능가하며, 복잡한 환경, 공간 조건 프롬프트, 객체 크기 및 높이 변화 하에서도 견고한 성능을 유지한다.
최근 Diffusion-in-Transformer 모델 기반 이미지 편집 기술이 급속도로 발전하고 있습니다. 그러나 기존 편집 방법들은 편집 정도에 대한 효과적인 제어가 부족하여 보다 맞춤형 결과를 달성하는 데 한계가 있습니다. 이러한 한계를 해결하기 위해 우리는 DiT 모델 내 MM-Attention 메커니즘을 분석한 결과, Query와 Key 토큰이 레이어에만 의존하는 편향 벡터를 공유한다는 사실을 관찰했습니다. 우리는 이 편향을 모델의 내재적 편집 행동을 나타내는 것으로 해석하는 한편, 각 토큰과 해당 편향 사이의 델타 값은 콘텐츠 특화 편집 신호를 인코딩한다고 해석합니다. 이러한 통찰을 바탕으로 우리는 Group Relative Attention Guidance(GRAG)를 제안합니다. 이는 간단하면서도 효과적인 방법으로, 서로 다른 토큰들의 델타 값을 재가중하여 모델의 입력 이미지에 대한 집중도를 편집 지시어에 상대적으로 조절함으로써 추가 조정 없이도 편집 강도에 대한 연속적이고 세밀한 제어를 가능하게 합니다. 기존 이미지 편집 프레임워크에서 수행한 폭넓은 실험을 통해 GRAG가 최소 네 줄의 코드만으로 통합 가능하며 편집 품질을 지속적으로 향상시킬 수 있음을 입증했습니다. 더불어 일반적으로 사용되는 Classifier-Free Guidance와 비교 시, GRAG는 편집 정도에 대해 더 부드럽고 정밀한 제어를 달성합니다. 우리의 코드는 https://github.com/little-misfit/GRAG-Image-Editing에서 공개될 예정입니다.
추측 디코딩은 작은 드래프트 모델을 사용해 여러 토큰을 제안하고 대상 모델이 이를 병렬로 검증함으로써 LLM 추론 속도를 높입니다. 이 개념을 배치로 확장하는 것은 프로덕션 서빙에 필수적이지만, '래기드 텐서 문제'를 야기합니다: 동일한 배치 내 시퀀스들이 서로 다른 수의 드래프트 토큰을 수용하게 되어 우측 정렬이 깨지고, 위치 ID, 어텐션 마스크, KV 캐시 상태가 손상됩니다. 우리는 기존의 여러 배치 구현 방식들이 출력 동등성—즉, 추측 디코딩이 표준 자기회귀 생성과 동일한 토큰 시퀀스를 반드시 생성해야 한다는 근본 요구사항—을 위반함을 보입니다. 이러한 위반은 정확히 래기드 텐서 문제의 부적절한 처리 때문에 발생합니다. 이에 대응하여 우리는 (1) 정확성을 보장하는 동기화 요구사항을 규명하고, (2) 오버헤드의 40%를 재정렬 과정이 차지함을 보여주는 정확성 우선 배치 추측 디코딩 방식 EQSPEC을 제시하며, (3) 재정렬 오버헤드를 줄이면서 시퀀스별 추측 가속은 유지하기 위해 슬라이딩 풀을 유지하고 동일한 길이의 그룹을 동적으로 구성하는 EXSPEC을 소개합니다. SpecBench 데이터셋에서 Vicuna-7B/68M, Qwen3-8B/0.6B, GLM-4-9B/0.6B 대상/드래프트 모델 쌍에 대해, 우리의 방법은 배치 크기 1 대비 배치 크기 8에서 최대 3배의 처리량 향상을 달성했으며, 배치 크기 8까지 효율적인 확장성을 보였고, 95%의 출력 동등성을 유지했습니다. 우리의 방법은 커스텀 커널이 필요 없으며 기존 추론 스택에 깔끔하게 통합됩니다. 코드는 https://github.com/eBay/spec_dec에서 이용 가능합니다.
LLM 기반 검색 에이전트는 복잡하고 지식 집약적인 작업을 해결하기 위해 점차적으로 엔티티 중심의 합성 데이터로 훈련되고 있습니다. 그러나 그룹 상대 정책 최적화(GRPO)와 같은 기존 훈련 방법은 이러한 풍부한 엔티티 정보를 버리고, 희소한 결과 기반 보상에 의존합니다. 이 중요한 한계는 근접 오류(near-miss) 샘플, 즉 추론 과정은 상당히 정확했지만 최종 답변이 틀린 유익한 샘플을 완전한 실패와 구분하지 못하게 하여 귀중한 학습 신호를 버리게 만듭니다. 우리는 훈련 과정에서 버려지는 바로 그 엔티티를 활용하여 이 문제를 해결합니다. 실증 분석 결과, 에이전트의 추론 과정에서 식별된 실제 정답 엔티티의 수와 최종 답변 정확도 사이에 강한 양의 상관관계가 있음이 밝혀졌습니다. 이러한 통찰을 바탕으로, 우리는 밀집된 엔티티 인식 보상 함수를 구성하는 새로운 프레임워크인 엔티티 인식 그룹 상대 정책 최적화(E-GRPO)를 소개합니다. E-GRPO는 잘못된 샘플에 대해 엔티티 일치 비율에 비례하는 부분 보상을 부여하여 모델이 이러한 "근접 오류"로부터 효과적으로 학습할 수 있게 합니다. 다양한 질의응답(QA) 및 심층 연구 벤치마크에서의 실험을 통해 E-GRPO가 GRPO 기준선을 지속적이고 유의미하게 능가함을 보여줍니다. 더 나아가, 우리의 분석은 E-GRPO가 더 높은 정확도를 달성할 뿐만 아니라 더 적은 도구 호출을 필요로 하는 더 효율적인 추론 정책을 유도하여, 검색 에이전트 정렬에 대해 더 효과적이고 샘플 효율적인 접근법을 보여줍니다.
대규모 언어 모델 에이전트를 그 역량의 한계에 도달한 과제들로 훈련시키는 것은 고급 추론 능력을 개척하는 핵심 열쇠입니다. 본 연구에서는 교육학의 근접 발달 영역(ZPD) 이론에서 영감을 받은 데이터 합성 접근법을 소개합니다. ZPD는 언어 모델이 단독으로는 해결할 수 없지만 지도를 받으면 숙달할 수 있는 과제들의 영역으로 정의됩니다. 이를 구현하기 위해 우리는 언어 모델의 ZPD 내에 정확히 위치한 고품질의 다학제적 데이터를 자동으로 합성하는 AgentFrontier Engine을 제시합니다. 이 엔진은 지식 집약적 데이터를 활용한 사전 학습의 지속과 복잡한 추론 과제에 대한 표적 사후 학습을 모두 지원합니다. 동일한 프레임워크에서 우리는 이러한 한계 과제들에 대한 에이전트 역량을 평가하도록 설계된 동적이고 자동화된 벤치마크인 ZPD Exam을 도출합니다. 우리는 합성된 데이터로 AgentFrontier-30B-A3B 모델을 훈련시켰으며, 이 모델은 Humanity's Last Exam과 같은 까다로운 벤치마크에서 최첨단 성능을 달성하여 일부 주요 독점 에이전트를 능가하기도 했습니다. 우리의 연구는 ZPD에 기반한 데이터 합성 접근법이 더 우수한 언어 모델 에이전트 구축을 위한 확장 가능하고 효과적인 경로를 제공함을 입증합니다.
의사 결정 및 추론 능력의 발전으로 멀티모달 에이전트는 컴퓨터 응용 시나리오에서 강력한 잠재력을 보여주고 있습니다. 기존 평가는 주로 GUI 상호작용 능력을 평가해 왔으나, Model Context Protocol(MCP)으로 가능해진 도구 호출 능력은 크게 간과되어 왔습니다. 통합된 도구 호출 기능을 갖춘 에이전트와 GUI 상호작용만 평가된 에이전트를 비교하는 것은 본질적으로 공정하지 않습니다. 본 논문에서는 실제 환경에서 컴퓨터 사용 에이전트의 도구 호출, GUI 조작, 의사 결정 능력을 평가하기 위한 최초의 포괄적이고 공정한 벤치마크인 OSWorld-MCP를 소개합니다. 우리는 도구를 생성하기 위한 새로운 자동 코드 생성 파이프라인을 설계하고 이를 기존 도구에서 선별한 항목과 결합합니다. 엄격한 수동 검증을 통해 기능 정확성, 실용적 적용 가능성, 다용성까지 검증된 158개의 고품질 도구(7개의 일반적인 응용 프로그램 범주)를 확보했습니다. OSWorld-MCP에서 최첨단 멀티모달 에이전트에 대한 광범위한 평가를 수행한 결과, MCP 도구가 일반적으로 작업 성공률을 향상시키는 것으로 나타났습니다(예: OpenAI o3의 경우 15단계에서 8.3%에서 20.4%로, Claude 4 Sonnet의 경우 50단계에서 40.1%에서 43.3%로). 이는 도구 호출 능력 평가의 중요성을 강조합니다. 그러나 가장 강력한 모델조차도 도구 호출률이 상대적으로 낮아(36.3%에 불과) 개선의 여지가 있음을 시사하며 이 벤치마크의 과제 수준을 보여줍니다. MCP 도구 사용 능력을 명시적으로 측정함으로써, OSWorld-MCP는 멀티모달 에이전트에 대한 이해를 심화하고 복잡한 도구 지원 환경에서의 성능 평가를 위한 새로운 표준을 제시합니다. 우리의 코드, 환경 및 데이터는 https://osworld-mcp.github.io에서 공개되어 있습니다.
다중 모달 대규모 언어 모델(MLLM)은 시각적 이해에 뛰어난 성능을 보이지만, 시각적 계획과 상상이 필요한 복잡한 시나리오에서는 종종 어려움을 겪습니다. 인간이 아이디어를 발전시키고 전달하기 위한 시각적 사고의 한 형태로 스케치를 활용하는 방식에서 영감을 받아, 우리는 MLLM에 내부 시각적 스케치패드를 제공하는 프레임워크인 Latent Sketchpad를 소개합니다. MLLM의 내부 시각적 표현은 전통적으로 지각적 이해에 국한되어 왔습니다. 우리는 추론 능력을 저해하지 않으면서 생성적 시각적 사고를 지원하도록 이를 재구성했습니다. 최첨단 MLLM을 기반으로 하는 우리의 접근법은 시각 생성을 MLLM의 고유한 자기회귀적 추론 과정에 직접 통합합니다. 이는 모델이 텍스트 추론과 시각적 잠재 변수의 생성을 교차하여 수행할 수 있게 합니다. 이러한 잠재 변수는 내부 사고 과정을 안내하고 해석 가능성을 위해 스케치 이미지로 변환될 수 있습니다. 이를 실현하기 위해 우리는 두 가지 구성 요소를 도입했습니다: 맥락 인식 비전 헤드는 시각적 표현을 자기회귀적으로 생성하고, 사전 학습된 스케치 디코더는 이를 인간이 해석 가능한 이미지로 렌더링합니다. 우리는 새로운 데이터셋인 MazePlanning에서 이 프레임워크를 평가합니다. 다양한 MLLM에 대한 실험 결과, Latent Sketchpad는 해당 백본 모델과 견줄 만하거나 오히려 더 우수한 추론 성능을 제공하는 것으로 나타났습니다. 또한 이 방법은 Gemma3와 Qwen2.5-VL을 포함한 서로 다른 최첨단 MLLM들 간에 일반화됩니다. 모델의 텍스트 추론을 시각적 사고로 확장함으로써, 우리의 프레임워크는 더 풍부한 인간-컴퓨터 상호작용과 더 광범위한 응용 분야에 새로운 기회를 엽니다. 더 자세한 내용과 자료는 우리 프로젝트 페이지에서 확인할 수 있습니다: https://latent-sketchpad.github.io/.
대규모 언어 모델(LLM)의 발전으로 시각화 코드 생성, 실행, 수정이 가능한 코딩 에이전트가 최근 등장했습니다. 그러나 기존 모델들은 언어 지원 범위의 한계, 불안정한 실행 성능, 반복적 수정 메커니즘이 부족하다는 이유로 실제 워크플로우에서 종종 실패합니다. 이러한 진전은 단일 라운드 생성과 단일 언어 작업을 강조하는 협소한 데이터셋과 벤치마크에 의해 제약을 받아왔습니다. 이러한 문제를 해결하기 위해 본 연구는 시각화 코딩 에이전트 발전을 위한 세 가지 상호 보완적인 리소스를 소개합니다. VisCode-Multi-679K는 12개 프로그래밍 언어에 걸쳐 다중 턴 수정 대화를 포함하며 검증되고 실행 가능한 67만 9천 개의 시각화 샘플로 구성된 대규모 감독 데이터셋입니다. VisPlotBench는 실행 가능한 작업, 렌더링된 출력, 초기 생성 및 다중 라운드 자체 디버깅을 위한 프로토콜을 갖춘 체계적 평가 벤치마크입니다. 마지막으로 VisCode-Multi-679K로 학습된 다중 언어 시각화 모델 패밀리인 VisCoder2를 제시합니다. 실험 결과, VisCoder2는 강력한 오픈소스 기반 모델들을 크게 능가하며 GPT-4.1과 같은 사유 모델의 성능에 근접하는 것으로 나타났습니다. 특히 반복적 자체 디버깅을 통해 32B 규모에서 전체 실행 통과율이 82.4%에 도달했으며, 이는 기호론적 또는 컴파일러 의존적 언어에서 두드러진 성과를 보였습니다.
비판 언어 모델을 훈련시켜 모델 출력을 평가하고 피드백을 제공하도록 하는 것은 복잡한 추론 과제를 위한 LLM 성능 향상의 유망한 방법입니다. 그러나 기존 접근법은 일반적으로 비판 데이터 주석을 위해 더 강력한 감독자(supervisor)에 의존합니다. 이를 해결하기 위해 우리는 더 강력한 감독 없이 비판 언어 모델을 개발하는 온라인 RL 접근법인 Critique-RL을 제안합니다. 우리의 접근법은 두 참여자 패러다임으로 운영됩니다: 행위자(actor)가 응답을 생성하면, 비판자(critic)가 피드백을 제공하고, 행위자는 그에 따라 응답을 수정합니다. 우리는 먼저 RL 최적화를 위해 행위자 출력의 간접 보상 신호만 의존하는 것이 종종 불만족스러운 비판자로 이어진다는 점을 밝혀냈습니다. 비판자의 도움 정도(즉, 건설적인 피드백 제공)는 개선되지만, 식별 능력(즉, 응답의 질적 우수성 판단)은 낮은 수준에 머물러 성능 향상이 미미합니다. 이를 극복하기 위해 Critique-RL은 두 단계 최적화 전략을 채택합니다. 1단계에서는 규칙 기반의 직접 보상 신호로 비판자의 식별 능력을 강화합니다. 2단계에서는 행위자의 수정을 기반으로 간접 보상을 도입하여 비판자의 도움 정도를 개선함과 동시에 적절한 정규화를 통해 식별 능력을 유지합니다. 다양한 과제와 모델을 대상으로 한 광범위한 실험을 통해 Critique-RL이 상당한 성능 향상을 가져옴을 확인했습니다. 예를 들어, Qwen2.5-7B 기준으로 도메인 내 과제에서 9.02%, 도메인 외 과제에서 5.70%의 성능 향상을 달성하여 그 잠재력을 입증했습니다.
병렬 사고는 정보 탐색(IS) 에이전트의 심층 탐색을 보완하여 탐색 범위를 확장함으로써 문제 해결 능력을 한층 더 향상시킵니다. 그러나 기존의 병렬 사고 방식은 이러한 환경에서 두 가지 주요 과제에 직면합니다: 처음부터 반복적으로 롤아웃해야 하는 비효율성, 그리고 제한된 컨텍스트 용량으로 인해 답변 생성 과정에서 장기적인 추론 궤적을 통합하기 어렵다는 점입니다. 이러한 문제를 해결하기 위해 우리는 심층 IS 에이전트를 위해 설계된 두 단계 패러다임인 ParallelMuse를 제안합니다. 첫 번째 단계인 '기능별 부분 롤아웃'은 생성된 시퀀스를 기능별 영역으로 분할하고 불확실성 기반 경로 재사용 및 분기를 수행하여 탐색 효율을 높입니다. 두 번째 단계인 '압축 추론 통합'은 추론 과정의 중복성을 활용하여 답변 도출과 관련된 정보를 무손실 압축하고 일관된 최종 답변을 종합합니다. 다양한 오픈소스 에이전트와 벤치마크에서 진행한 실험을 통해 탐색 토큰 사용량을 10-30% 감소시키면서 최대 62%의 성능 향상을 확인했습니다.
대규모 언어 모델(LLM) 기반 에이전트는 개방형 문제 해결을 위한 혁신적 접근법으로 부상했으며, 정보 탐색(IS)은 자율적 추론과 의사 결정을 가능하게 하는 핵심 능력이다. 기존 연구는 주로 검색 깊이 향상에 집중해왔으나, 현재 IS 에이전트는 낮은 검색 효율성으로 인해 전체 성능이 제한되는 경우가 많다. 이러한 비효율성의 주요 원인은 훈련 과제에서 목표 개체의 희소성으로, 에이전트가 효율적인 검색 행동을 학습하고 일반화할 기회가 제한되기 때문이다. 이러한 과제를 해결하기 위해 우리는 고범위 IS 과제 구축과 효율적인 해결 궤적 생성을 위한 WebLeaper 프레임워크를 제안한다. 우리는 IS를 트리 구조 추론 문제로 공식화하여 제한된 컨텍스트 내에 훨씬 더 많은 수의 목표 개체를 포함할 수 있도록 한다. 정제된 위키피디아 테이블을 활용하여 기본, 통합, 역통합의 세 가지 IS 과제 합성 변형을 제안함으로써 IS 효율성과 효과성을 체계적으로 향상시킨다. 마지막으로 정확성과 검색 성능을 모두 최적화하기 위해 동시에 정확하고 효율적인 훈련 궤적만을 선별한다. 다섯 가지 IS 벤치마크(BrowserComp, GAIA, xbench-DeepSearch, WideSearch, Seal-0)에서 기본 및 포괄적 설정에 대한 광범위한 실험을 통해 우리 방법이 강력한 베이스라인 대비 효과성과 효율성 모두에서 지속적으로 향상을 달성함을 입증한다.
스케일링 법칙 연구는 압도적으로 영어에 집중되어 왔지만, 가장 주목받는 AI 모델들은 명시적으로 수십억 명의 전 세계 사용자를 대상으로 합니다. 본 연구에서는 774개에 달하는 다국어 학습 실험, 1천만~80억 개의 모델 매개변수, 400개 이상의 학습 언어, 48개의 평가 언어를 아우르는 역대 최대 규모의 다국어 스케일링 법칙 연구를 수행합니다. 우리는 단일 언어 및 다국어 사전 학습 모두에 적용 가능한 Adaptive Transfer Scaling Law(ATLAS)를 제안하며, 이는 기존 스케일링 법칙의 표본 외 일반화 성능을 R² 기준으로 종종 0.3 이상 능가합니다. 실험 분석을 통해 다국어 학습 동역학, 언어 간 전이 특성, 그리고 다국어성의 저주에 대한 통찰을 제시합니다. 첫째, 38x38=1444개 언어 쌍 간의 상호 이득 점수를 실증적으로 측정한 교차 언어 전이 행렬을 도출합니다. 둘째, 성능 저하 없이 언어를 추가할 때 모델 크기와 데이터를 최적으로 확장하는 방법을 보여주는 언어 중립적 스케일링 법칙을 유도합니다. 셋째, 다국어 체크포인트에서의 전이 학습 대신 처음부터 사전 학습을 수행해야 하는 계산적 전환점을 규명합니다. 이러한 연구 결과가 언어 간 스케일링 법칙의 민주화를 위한 과학적 기반을 마련하고, 실무자가 영어 중심 AI를 넘어 모델을 효율적으로 확장하는 데 기여하기를 바랍니다.
혼합 전문가(MoE) 모델은 계산 효율성을 유지하면서 모델 용량을 확장하기 위한 강력한 패러다임으로 부상했습니다. 대규모 언어 모델(LLM)에서의 두드러진 성공에도 불구하고, MoE를 Diffusion Transformer(DiT)에 적용하려는 기존 시도들은 제한된 성능 향상만을 보여왔습니다. 우리는 이러한 격차가 언어 토큰과 시각 토큰 간의 근본적인 차이에서 비롯된다고 분석합니다. 언어 토큰은 의미론적으로 밀집되어 있고 토큰 간 변이가 뚜렷한 반면, 시각 토큰은 공간적 중복성과 기능적 이질성을 나타내어 시각 MoE에서의 전문가 특화를 저해합니다. 이를 해결하기 위해 우리는 명시적 라우팅 지도를 통한 2단계 라우터를 특징으로 하여 전문가 특화를 촉진하는 MoE 프레임워크인 ProMoE를 제안합니다. 구체적으로, 이 지도는 라우터가 이미지 토큰을 기능적 역할에 따라 조건부 라우팅을 통해 조건부 집합과 무조건부 집합으로 분할하도록 장려하고, 학습 가능한 프로토타입을 기반으로 한 의미론적 내용에 따른 프로토타입 라우팅을 통해 조건부 이미지 토큰의 할당을 정제합니다. 더 나아가, 프로토타입 라우팅에 의해 가능해진 잠재 공간 내 유사도 기반 전문가 할당은 명시적 의미론적 지도를 통합하는 자연스러운 메커니즘을 제공하며, 우리는 이러한 지도가 시각 MoE에 중요함을 입증합니다. 이를 기반으로, 우리는 프로토타입 라우팅 과정을 명시적으로 향상시켜 전문가 내 일관성과 전문가 간 다양성을 촉진하는 라우팅 대조 손실을 제안합니다. ImageNet 벤치마크에 대한 광범위한 실험을 통해 ProMoE가 Rectified Flow 및 DDPM 훈련 목표 모두에서 최첨단 방법들을 능가함을 입증합니다. 코드와 모델은 공개될 예정입니다.
멀티모달 대규모 언어 모델과 대규모 오디오-언어 모델의 빠른 발전에도 불구하고, 기존 오디오 벤치마크는 텍스트 캡션에서 복원 가능한 의미론을 주로 테스트하여 세밀한 지각 추론의 결함을 가립니다. 우리는 시간과 3차원 공간에서의 음향 역학에 대한 추론으로 정의되는 오디오 4D 지능을 공식화하고, 이를 측정하기 위한 STAR-Bench를 소개합니다. STAR-Bench는 기초 음향 인지 설정(절대 및 상대 체계 하의 여섯 가지 속성)과 종합적 시공간 추론 설정을 결합합니다. 종합적 설정에는 연속 및 이산 프로세스에 대한 세그먼트 재정렬과 정적 위치 파악, 다중 소스 관계, 동적 궤적을 아우르는 공간 과제가 포함됩니다. 우리의 데이터 선별 파이프라인은 고품질 샘플을 보장하기 위해 두 가지 방법을 사용합니다. 기초 과제에는 절차적 합성 및 물리 시뮬레이션 오디오를 활용합니다. 종합적 데이터의 경우 인간 주석과 인간 수행 능력을 기반으로 한 최종 선택을 포함하는 4단계 프로세스를 따릅니다. 캡션만으로 답변 시 정확도가 약간 하락하는 기존 벤치마크와 달리, STAR-Bench는 훨씬 더 큰 성능 하락(시간 -31.5%, 공간 -35.2%)을 유발하여 언어적으로 설명하기 어려운 단서에 초점을 맞추고 있음을 입증합니다. 19개 모델을 평가한 결과, 인간 대비 상당한 격차와 능력 계층 구조가 드러났습니다: 독점 모델은 세밀한 지각에 의해 병목 현상이 발생하는 반면, 오픈소스 모델은 지각, 지식, 추론 전반에서 뒤처집니다. 우리의 STAR-Bench는 물리 세계를 더욱 견고하게 이해하는 미래 모델 개발을 위한 중요한 통찰과 명확한 방향을 제시합니다.
현재까지 많은 언어와 문화를 포괄하는 대규모 언어 모델(LLM)용 문화 특화 평가 벤치마크는 거의 존재하지 않는다. 본 논문에서는 전 세계 65개국 출신 연구자 335명이 직접 수작업으로 구축한 100개 이상의 언어를 대상으로 하는 참여형 상식 추론 벤치마크인 Global PIQA를 소개한다. Global PIQA에 포함된 116개 언어 변이는 5개 대륙, 14개 어족, 23개 문자 체계를 아우른다. Global PIQA의 비병렬 분할 데이터셋에서는 예시의 50% 이상이 지역 음식, 관습, 전통 또는 기타 문화 특화 요소를 참조하고 있다. 우리는 최첨단 LLM이 전체적으로 Global PIQA에서 우수한 성능을 보이지만, 저자원 언어에서는 상대적으로 낮은 성능(무작위 추론 정확도 50% 대비 최대 37% 정확도 격차)을 나타낸다는 사실을 확인했다. 오픈 모델은 일반적으로 사유 모델보다 낮은 성능을 보였다. Global PIQA는 복잡한 추론이나 전문 지식과 같이 널리 논의되는 능력과 함께, 많은 언어와 문화에서 일상적 지식이 여전히 개선이 필요한 영역임을 강조한다. LLM 평가 도구로서의 활용을 넘어, Global PIQA가 인간 언어가 내재된 문화의 광범위한 다양성을 엿볼 수 있는 창이 되기를 기대한다.
자기 발전 시스템은 지속적인 적응을 위해 환경과의 상호작용이 필요합니다. 본 연구에서는 단일 모델이 두 가지 역할(대규모 코퍼스에서 문서를 탐색하여 다양한 추론 과제를 생성하는 도전자와 이를 해결하는 추론자)을 수행하는 강화 학습 프레임워크인 SPICE(Self-Play In Corpus Environments)를 소개합니다. 적대적 역학을 통해 도전자는 추론자의 능력 한계를 넘어서는 자동화된 커리큘럼을 생성하며, 코퍼스 접지(grounding)는 지속적 발전에 필요한 풍부하고 거의 고갈되지 않는 외부 신호를 제공합니다. 제한된 이점만 제공하는 기존의 비접지(non-grounded) 자기 대결 방식과 달리, SPICE는 여러 모델 패밀리에서 수학적 추론(+8.9%) 및 일반 추론(+9.8%) 벤치마크에 걸쳐 일관된 성능 향상을 달성했습니다. 우리의 분석은 문서 접지가 SPICE에서 점점 더 어려운 목표를 지속적으로 생성하고 달성하여 꾸준한 자기 발전을 가능하게 하는 핵심 요소임을 보여줍니다.
검증 가능 보상 강화학습(RLVR)은 수학적 및 다중모달 추론 분야에서 인상적인 성과를 달성하며, 현대 언어 및 시각-언어 모델의 표준 사후 학습 패러다임으로 자리 잡았습니다. 그러나 RLVR 방식은 정규화 전략을 적용하지 않은 장기간 학습 시 모델이 기초 능력을 망각하는 능력 퇴행 위험을 내포합니다. 우리는 실증적으로 이 문제를 확인하며, 오픈소스 추론 모델들이 인식 능력과 사실성 같은 핵심 역량에서 성능 저하를 겪는 것을 관찰했습니다. KL 발산 같은 정규화 항을 적용하면 기본 모델과의 이탈을 방지하는 데 도움이 되지만, 이러한 항은 현재 작업에 기반해 계산되므로 광범위한 지식 보존을 보장하지는 못합니다. 한편, 이질적 영역에서 흔히 사용되는 경험 재현 기법은 각 목표가 얼마나 많은 학습 비중을 가져야 할지 결정하기 어렵게 만듭니다. 이를 해결하기 위해 우리는 일반 지식 보존을 위한 동적 목표 재가중 재현 전략인 RECAP을 제안합니다. 우리의 재가중 메커니즘은 수렴과 불안정성에 대한 단기 신호를 사용해 온라인 방식으로 조정되며, 포화된 목표에서 성능이 부진하거나 변동성이 큰 목표로 사후 학습 초점을 전환합니다. 우리의 방법은 end-to-end 방식으로 추가 모델 학습이나 복잡한 튜닝 없이 기존 RLVR 파이프라인에 바로 적용 가능합니다. Qwen2.5-VL-3B와 Qwen2.5-VL-7B 기반 벤치마크에서의 폭넓은 실험을 통해 우리 방법의 효과를 입증했으며, 이는 일반 역량을 보존할 뿐만 아니라 작업 내 보상 간 유연한 균형 조정을 통해 추론 성능까지 향상시킵니다.
시각화는 특정 도메인에 국한되지만 널리 사용되는 이미지 형태로, 복잡한 데이터셋을 직관적인 통찰로 전환하는 효과적인 방법이며, 그 가치는 데이터가 충실하게 표현되고 명확하게 전달되며 미적으로 설계되었는지에 따라 달라집니다. 그러나 시각화 품질을 평가하는 것은 어려운 과제입니다. 자연 이미지와 달리 데이터 인코딩 정확성, 정보 전달력, 시각적 미학에 걸친 동시적 판단이 필요하기 때문입니다. 멀티모달 대규모 언어 모델(MLLM)이 자연 이미지의 미학적 평가에서 유망한 성능을 보였음에도 불구하고, 시각화 평가 능력을 측정하기 위한 체계적인 벤치마크는 존재하지 않았습니다. 이를 해결하기 위해 우리는 시각화 미학 및 품질 평가에서 MLLM의 성능을 평가하는 최초의 포괄적인 벤치마크인 VisJudge-Bench를 제안합니다. 이 벤치마크는 실제 시나리오에서 수집된 전문가 주석이 달린 3,090개의 샘플을 포함하며, 32가지 차트 유형에 걸친 단일 시각화, 다중 시각화, 대시보드를 다룹니다. 이 벤치마크에 대한 체계적인 테스트 결과, 가장先进的인 MLLM(예: GPT-5)조차도 판단에 있어 인간 전문가에 비해 상당한 격차를 보였으며, 평균 절대 오차(MAE)는 0.551, 인간 평가와의 상관관계는 0.429에 불과했습니다. 이 문제를 해결하기 위해 우리는 시각화 미학 및 품질 평가를 위해 특별히 설계된 모델인 VisJudge를 제안합니다. 실험 결과, VisJudge는 인간 판단과의 격차를 크게 좁혀, GPT-5 대비 MAE를 0.442로 감소(19.8% 개선)시키고 인간 전문가와의 일치도를 0.681로 증가(58.7% 개선)시킴을 입증했습니다. 벤치마크는 https://github.com/HKUSTDial/VisJudgeBench에서 이용 가능합니다.
초고해상도(UHR) 텍스트-이미지(T2I) 생성 기술은 눈에 띄는 발전을 이루었습니다. 그러나 두 가지 주요 과제가 여전히 존재합니다: 1) 대규모 고품질 UHR T2I 데이터셋의 부재, 그리고 2) UHR 시나리오에서 정교한 디테일 합성을 위한 맞춤형 학습 전략의 부족입니다. 첫 번째 과제를 해결하기 위해 우리는 풍부한 캡션과 함께 다양한 콘텐츠와 높은 시각적 충실도를 제공하는 10만 장의 고품질 UHR 이미지로 구성된 UltraHR-100K 데이터셋을 소개합니다. 각 이미지는 3K 해상도를 초과하며 디테일 풍부성, 콘텐츠 복잡성, 미적 품질을 기준으로 엄격하게 선별되었습니다. 두 번째 과제를 해결하기 위해 우리는 T2I 확산 모델의 정교한 디테일 생성 능력을 향상시키는 주파수 인식 사후 학습 방법을 제안합니다. 구체적으로, (i) 디테일 중심 디노이징 단계에 학습을 집중하기 위한 Detail-Oriented Timestep Sampling (DOTS)과, (ii) 이산 푸리에 변환(DFT)을 활용하여 주파수 성분을 유연하게 제약함으로써 고주파 디테일 보존을 장려하는 Soft-Weighting Frequency Regularization (SWFR)을 설계했습니다. 우리가 제안한 UltraHR-eval4K 벤치마크에서의 광범위한 실험을 통해 본 접근 방식이 UHR 이미지 생성의 정교한 디테일 품질과 전반적인 충실도를 크게 향상시킴을 입증했습니다. 코드는 https://github.com/NJU-PCALab/UltraHR-100k에서 확인할 수 있습니다.
함수 호출(FC)은 대규모 언어 모델(LLM)과 자율 에이전트가 외부 도구와 상호작용할 수 있게 하는 핵심 능력으로, 복잡한 현실 세계 문제 해결에 필수적입니다. 이러한 능력이 고급 AI 시스템에서 점점 더 중심적인 역할을 함에 따라, 이를 개발하고 개선하기 위한 고품질의 다중 턴 학습 데이터 필요성은 아무리 강조해도 지나치지 않습니다. 기존의 무작위 환경 샘플링이나 다중 에이전트 역할 수행과 같은 데이터 합성 방법론은 현실 세계 환경에서 고품질 데이터를 생성하기에는 역부족입니다. 실제적인 과제는 세 가지로 요약됩니다: 목표 지향적 모델 학습, 도구 아키텍처의 분리, 그리고 다중 턴 논리적 의존성입니다. 이러한 구조적 한계를 해결하기 위해, 우리는 현실 세계 다중 턴 도구 사용을 위한 새로운 데이터 합성 프레임워크인 FunReason-MT를 제시합니다. FunReason-MT는 1) 환경-API 그래프 상호작용을 통한 다양하고 고품질의 경로 수집, 2) 복잡한 쿼리 구성을 간소화하는 고급 도구-쿼리 합성, 3) 정교한 사고 연쇄(CoT) 생성을 위한 지도 반복 체인을 활용하여 다중 턴 FC 데이터의 복잡성 장벽을 해결합니다. Berkeley Function-Calling Leaderboard(BFCLv3)에서의 평가는 우리 프레임워크의 성능을 입증합니다: FunReason-MT로 생성된 데이터로 구축된 40억 파라미터 모델이 동일 규모 모델 중 최첨단 성능을 달성하며 대부분의 비공개 모델을 능가했습니다. BFCLv4에서의 추가적인 성능 향상은 FunReason-MT가 에이전트 학습을 위한 신뢰할 수 있고 강력한 원천을 제공함을 확인시켜 줍니다.
체인 오브 쏘트(CoT) 추론은 대규모 시각-언어 모델(LVLM)의 해석 가능성과 신뢰성을 향상시키는 데 핵심적입니다. 그러나 SFT, PPO, GRPO와 같은 기존 훈련 알고리즘은 보이지 않는 추론 과제에서 일반화 성능이 떨어질 수 있으며 편향된 보상 모델에 크게 의존합니다. 이러한 문제를 해결하기 위해 우리는 LVLM의 추론을 사후 추론 문제로 재정의하고 변분 추론을 기반으로 한 확장 가능한 훈련 알고리즘을 제안합니다. 다양성 추구 강화 학습 알고리즘을 활용하여, 우리는 결정론적 샘플링의 한계를 극복하고 보상 해킹을 방지하는 다양한 고가능도 잠재 CoT를 장려하는 토큰 수준 학습 신호를 위한 새로운 희소 보상 함수를 도입합니다. 추가적으로 베이지안 추론 확장 전략을 구현하여 Best-of-N 및 빔 서치와 같은 고비용 방법을 한계가능도로 대체하여 최적의 근거와 답변을 효율적으로 순위 매깁니다. 우리는 제안된 방법이 효과성, 일반화 성능, 해석 가능성 측면에서 7가지 추론 벤치마크에서 최신 LVLM 성능을 향상시킴을 실증적으로 입증합니다.
대규모 시각-언어 모델(LVLM)이 쇼핑, 건강, 뉴스와 같은 분야에 점점 더 많이 배포됨에 따라, 이들은 만연한 설득적 콘텐츠에 노출되고 있습니다. 중요한 질문은 이러한 모델이 피설득자로서 어떻게 기능하는지, 즉 설득적인 멀티모달 입력에 의해 어떻게 그리고 왜 영향을 받을 수 있는지입니다. 지나치게 설득되기 쉬운 모델은 조작적인 메시지에 노출될 때 오해의 소지가 있는 신념을 채택하거나, 사용자 선호도를 무시하거나, 비윤리적이거나 안전하지 않은 출력을 생성할 수 있으므로, 이들의 설득에 대한 민감성과 다양한 설득 전략의 효과성을 이해하는 것이 중요합니다. 우리는 LVLM의 멀티모달 설득 역학을 체계적으로 연구하기 위한 통합 프레임워크인 MMPersuade를 소개합니다. MMPersuade는 (i) 상업적, 주관적 및 행동적, 적대적 맥락에 걸쳐 확립된 설득 원칙과 이미지 및 비디오를 짝지은 포괄적인 멀티모달 데이터셋과 (ii) 제3자 일치도 점수화 및 대화 기록에 대한 자체 추정 토큰 확률을 통해 설득 효과성과 모델 민감성을 모두 정량화하는 평가 프레임워크를 제공합니다. 피설득자로서의 6개의 주요 LVLM에 대한 우리의 연구는 세 가지 주요 통찰을 제공합니다: (i) 멀티모달 입력은 특히 오정보 시나리오에서 텍스트만 사용하는 경우에 비해 설득 효과성(및 모델 민감성)을 상당히 증가시킵니다; (ii) 명시된 사전 선호도는 민감성을 감소시키지만, 멀티모달 정보는 여전히 설득적 이점을 유지합니다; (iii) 서로 다른 전략은 맥락에 따라 효과성이 다르며, 상호성은 상업 및 주관적 맥락에서 가장 강력하고, 신뢰성과 논리는 적대적 맥락에서 우세합니다. 설득 효과성과 민감도를 함께 분석함으로써, MMPersuade는 설득적인 멀티모달 콘텐츠와 상호작용할 때 강건하고, 선호도에 일관되며, 윤리적으로 조정된 모델을 개발하기 위한 원칙적인 기초를 제공합니다.
물체를 구성 요소 수준에서 이해하는 것은 컴퓨터 비전, 그래픽스 및 로봇공학의 발전을 위한 핵심 요소입니다. PartNet과 같은 데이터셋이 3D 부품 이해 분야의 진전을 이끌어왔지만, 텍스처가 없는 기하학적 데이터와 전문가 의존적 주석 방식은 확장성과 사용성을 제한합니다. 본 연구는 이러한 한계를 해결하는 차세대 데이터셋인 PartNeXt를 소개합니다. PartNeXt는 50개 범주에 걸쳐 정밀한 계층적 부품 라벨이 지정된 23,000개 이상의 고품질 텍스처 3D 모델로 구성됩니다. PartNeXt에 대한 성능 평가는 두 가지 작업을 통해 진행했습니다. (1) 클래스 불문 부품 분할: 최신 방법론(예: PartField, SAMPart3D)이 정밀 부품 및 말단 수준 부품 인식에 어려움을 보였으며, (2) 3D 부품 중심 질의응답: 오픈 보컬러리 부품 기반 이해에 상당한 격차가 드러난 3D-LLM용 새로운 벤치마크입니다. 또한 PartNeXt로 Point-SAM을 학습시킨 결과 PartNet 대비 상당한 성능 향상을 확인하여 본 데이터셋의 우수한 품질과 다양성을 입증했습니다. 확장 가능한 주석, 텍스처 인식 라벨 및 다중 작업 평가를 결합한 PartNeXt는 구조화된 3D 이해 연구에 새로운 가능성을 제시합니다.
대규모 언어 모델(LLM)은 방대한 규모의 사전 훈련이 언어 영역에서 적은 지도만으로 시스템이 새로운 문제에 빠르게 적응할 수 있게 한다는 점을 입증해왔습니다. 그러나 이러한 성공은 시각 영역에서는 동일하게 효과적으로 나타나지 않고 있으며, LLM을 포함한 모델들은 여전히 구성적 이해, 샘플 효율성, 일반적인 문제 해결 능력에서 어려움을 겪고 있습니다. 본 연구는 이러한 격차를 해소할 유망한 방향으로서 비디오 확산 모델(VDM)을 조사합니다. 시공간 데이터에 대한 사전 훈련은 이러한 모델에 구조와 역학에 대한 강력한 귀납적 편향을 부여하며, 이는 광범위한 작업 적응성을 지원할 수 있을 것으로 가정합니다. 이를 검증하기 위해 사전 훈련된 LLM과 사전 훈련된 VDM 모두에 경량 어댑터를 장착하고 각각의 고유 영역 내 작업을 수행하도록 하는 통제된 평가를 설계합니다. ARC-AGI, ConceptARC, 시각 게임, 경로 계획, 셀룰러 오토마타를 포함한 벤치마크 전반에서 VDM은 언어 모델 대비 더 높은 데이터 효율성을 보여줍니다. 종합적으로, 우리의 결과는 비디오 사전 훈련이 시각 기초 모델 발전을 지원하는 귀납적 편향을 제공함을 시사합니다.
생성 모델은 짧은 텍스트 설명으로부터 고품질 오디오를 합성하는 데 상당한 진전을 이루었습니다. 그러나 자연어를 이용한 기존 오디오 편집은 여전히 크게 탐구되지 않은 분야로 남아 있습니다. 기존 접근법들은 편집된 오디오에 대한 완전한 설명을 요구하거나, 미리 정의된 유연성이 부족한 편집 지시에 제한되는 한계가 있습니다. 본 연구에서는 Stable Audio Open 기반의 SAO-Instruct 모델을 소개하며, 이는 자유 형식의 자연어 지시를 사용하여 오디오 클립을 편집할 수 있습니다. 모델 학습을 위해 Prompt-to-Prompt, DDPM inversion 및 수동 편집 파이프라인을 활용하여 오디오 편집 삼중항(입력 오디오, 편집 지시, 출력 오디오) 데이터셋을 구축했습니다. 부분적으로 합성 데이터로 학습되었음에도 불구하고, 본 모델은 실제 환경의 오디오 클립과 보지 않은 편집 지시에 대해 잘 일반화됩니다. SAO-Instruct가 객관적 지표에서 경쟁력 있는 성능을 달성하고, 주관적 청취 평가에서 다른 오디오 편집 접근법들을 능가함을 입증합니다. 향후 연구를 촉진하기 위해 코드와 모델 가중치를 공개합니다.
급변하는 데이터 환경에서 비정형 텍스트로부터 지식을 추출하는 것은 실시간 분석, 시간적 추론, 동적 메모리 프레임워크에 필수적입니다. 그러나 기존의 정적 지식 그래프 구축 방식은 실제 데이터의 역동적이고 시간에 민감한 특성을 종종 간과하여 지속적인 변화에 대한 적응력을 제한합니다. 더욱이 도메인 특화 미세 조정이나 사전 구축 온톨로지 의존을 회피하는 최근의 제로-샷 또는 퓨-샷 접근법들은 여러 실행에 걸친 불안정성과 핵심 사실의 불완전한 Coverage로 어려움을 겪습니다. 이러한 과제를 해결하기 위해 우리는 비정형 텍스트로부터 시간적 지식 그래프(TKG)를 구축하고 지속적으로 업데이트하는 퓨-샷 및 확장 가능한 접근법인 ATOM(AdapTive and OptiMized)을 소개합니다. ATOM은 입력 문서를 최소 단위의 독립적인 "원자적" 사실로 분할하여 추출의 완전성과 안정성을 향상시킵니다. 이후 이러한 사실들로부터 원자적 TKG를 구성함과 동시어 정보가 관측된 시점과 유효한 시점을 구분하는 이중 시간 모델링을 적용합니다. 결과적으로 생성된 원자적 TKG들은 병합됩니다. 실험 평가 결과, ATOM은 기준 방법 대비 약 18% 높은 완전성, 약 17% 더 나은 안정성, 90% 이상의 지연 시간 감소를 달성하여 동적 TKG 구축에 대한 강력한 확장성 가능성을 입증했습니다.
프론티어 AI 에이전트는 과학 연구 보조자로서 점점 더 가능성을 보여주며, 궁극적으로는 장기적이고 개방형 연구 워크플로우에 유용하게 활용될 수 있습니다. 그러나 새로운 연구에 에이전트를 사용하기 위해서는 먼저 그 작업의 근본적인 신뢰성과 정확성을 평가해야 합니다. 연구 보조자로서의 에이전트를 평가하기 위해 우리는 천체물리학 문헌에서 발췌한 전체 연구 논문을 에이전트가 재현할 수 있는지 테스트하는 평가 프레임워크인 ReplicationBench를 소개합니다. 천체물리학은 연구가 아카이브 데이터와 계산적 연구에 크게 의존하면서 실제 실험은 거의 필요로 하지 않기 때문에 과학 연구에서 AI 에이전트에 대한 특히 유용한 테스트베드입니다. 우리는 각 논문을 에이전트가 논문의 핵심 기여 내용, 즉 실험 설정, 공식 유도, 데이터 분석, 코드베이스를 재현해야 하는 작업으로 분할합니다. 각 작업은 원 논문 저자들과 공동으로 개발되어 주요 과학적 결과를 대상으로 하며, 신뢰성(원래 방법 준수 여부)과 정확성(결과의 기술적 정확성) 모두를 객관적으로 평가할 수 있게 합니다. ReplicationBench는 현재 최첨단 언어 모델에게 매우 어려운 과제이며, 가장 성능이 좋은 언어 모델도 20% 미만의 점수를 기록합니다. 우리는 도메인 전문가들과 협력하여 ReplicationBench 실행 궤적을 분석하고 과학 연구에서 에이전트의 풍부하고 다양한 실패 모드 집합을 발견했습니다. ReplicationBench는 논문 규모의 전문가 검증 천체물리학 연구 과제에 대한 최초의 벤치마크를 확립하고, 데이터 중심 과학의 다른 영역에도 일반화 가능한 에이전트 성능에 대한 통찰력을 제시하며, 과학 연구에서 AI 에이전트의 신뢰성을 측정하기 위한 확장 가능한 프레임워크를 제공합니다.
대규모 언어 모델(LLM)은 놀라운 일반화 능력과 훈련 데이터의 취약한 축어적 암기라는 문제적인 이중성을 보여준다. 이러한 예측 불가능성은 높은 위험을 수반하는 응용 분야에서 LLM의 신뢰성을 저해한다. 본 연구에서는 이러한 상이한 추론 모드를 이해, 식별, 제어하기 위한 통합 프레임워크를 제안한다. 먼저, 정보 병목(IB) 원리에 기반한 이론적 모델을 도입하여 일반화를 압축된 작업 관련 표현의 학습으로, 암기화를 압축 실패로 공식화한다. 이 이론을 바탕으로 우리는 새로운 추론 시점 알고리즘인 동적 모드 스티어링(DMS)을 개발한다. DMS는 두 가지 구성 요소로 이루어지는데, (1) 모델의 순간적 암기 의존도를 식별하는 경량의 인과적 기반 선형 프로브와, (2) 모델의 계산을 사전 식별된 일반화 회로 쪽으로 유도하는 동적 활성화 스티어링 메커니즘이다. 우리는 DMS를 적응형 자기 대비 디코딩의 한 형태로 규정한다. 추론 및 사실성 과제에 대한 실험 결과, DMS가 논리적 일관성과 사실적 정확도를 크게 향상시켜 LLM 신뢰성 강화를 위한 원칙적인 접근법을 제공함을 입증한다.
시각-언어 표현의 정렬은 현재의 시각-언어 모델(VLMs)에 강력한 다중 모달 추론 능력을 부여합니다. 그러나 다중 모달 표현의 의미를 통합된 개념 집합으로 매핑하는 어려움으로 인해 정렬 구성 요소의 해석 가능성은 아직 연구되지 않은 상태입니다. 이 문제를 해결하기 위해 우리는 시각-언어 표현을 은닉 활성화로 인코딩하는 희소 오토인코더인 VL-SAE를 제안합니다. 은닉층의 각 뉴런은 의미적으로 유사한 이미지와 텍스트로 표현되는 개념과 상관관계를 가지며, 이를 통해 이러한 표현을 통합된 개념 집합으로 해석합니다. 뉴런-개념 상관관계를 확립하기 위해 우리는 자기 지도 학습 과정에서 의미적으로 유사한 표현이 일관된 뉴런 활성화를 나타내도록 유도합니다. 첫째, 다중 모달 표현의 의미적 유사성을 측정하기 위해 코사인 유사도를 기반으로 명시적 형태의 정렬을 수행합니다. 둘째, 의미적으로 유사한 표현의 활성화 일관성을 보장하기 위해 거리 기반 인코더와 두 개의 모달리티 특화 디코더로 VL-SAE를 구성합니다. 다양한 VLM(예: CLIP, LLaVA)에 대한 실험은 VL-SAE가 시각-언어 정렬을 해석하고 향상시키는 데 있어 우수한 능력을 보여줍니다. 해석 측면에서는 시각과 언어 표현 간의 정렬을 개념과의 의미 비교를 통해 이해할 수 있습니다. 향상 측면에서는 개념 수준에서 시각-언어 표현을 정렬함으로써 정렬을 강화할 수 있으며, 이는 제로샷 이미지 분류와 환각 제거를 포함한 다운스트림 작업에서 성능 향상에 기여합니다. 코드는 https://github.com/ssfgunner/VL-SAE에서 확인할 수 있습니다.
의료 시각-언어 모델(VLM)에서 신뢰할 수 있는 추론은 정확한 예측뿐만 아니라 텍스트적 근거와 시각적 증거 간의 투명한 연계를 요구합니다. 체인 오브 썽크(CoT) 프롬프팅이 의료 시각 질의응답(VQA)에서 유망한 성과를 보였으나, 정밀한 시각적 근거를 포함한 단계적 추론을 포착한 대규모 전문가 수준 데이터셋은 존재하지 않았습니다. 본 연구에서는 경계 상자(bounding box)와 구조화된 시각적 CoT(SV-CoT)가 함께 제공되는 12,000개의 전문가 주석 의료 영상으로 구성된 최초의 대규모 데이터셋인 S-Chain을 소개합니다. SV-CoT는 시각 영역과 추론 단계를 명시적으로 연결하며, 해당 데이터셋은 16개 언어를 추가로 지원하여 총 70만 개 이상의 VQA 쌍을 제공해 광범위한 다국어 적용성을 갖췄습니다. S-Chain을 활용하여 최신 의료 VLM(ExGra-Med, LLaVA-Med)과 범용 VLM(Qwen2.5-VL, InternVL2.5)의 성능을 벤치마킹한 결과, SV-CoT 지도 학습이 해석 가능성, 근거 정확도 및 강건성을 크게 향상시킴을 확인했습니다. 벤치마킹을 넘어 검색 증강 생성(RAG)과의 시너지 효과를 분석함으로써 자율 회귀 추론 과정에서 도메인 지식과 시각적 근거가 어떻게 상호작용하는지 규명했습니다. 마지막으로 시각적 증거와 추론 간의 연계를 강화하여 신뢰성과 효율성을 모두 높이는 새로운 메커니즘을 제안합니다. S-Chain은 근거 기반 의료 추론을 위한 새로운 벤치마크를确立(확립)하고, 더욱 신뢰할 수 있고 설명 가능한 의료 VLM으로 나아가는 길을 열었습니다.
구조 토폴로지 최적화(TO)는 공학 설계의 핵심이지만 복잡한 물리 법칙과 강한 제약 조건으로 인해 계산 집약도가 높은 문제로 남아 있습니다. 기존 딥러닝 방법은 고정된 정사각형 격자, 소수의 수동 코딩된 경계 조건, 그리고 사후 최적화에 국한되어 있어 일반적인 적용이 어렵습니다. 본 연구에서는 임의의 종횡비, 해상도, 체적 분율, 하중 및 고정 조건에 대해 최소 준수도의 레이아웃을 직접 예측하는 파운데이션 모델 프레임워크인 OAT(Optimize Any Topology)를 소개합니다. OAT는 해상도 및 형상에 무관한 오토인코더와 암묵적 신경망 필드 디코더, 그리고 200만 개의 고유한 경계 조건 구성을 포함하는 220만 개의 최적화된 구조로 구성된 새로운 코퍼스인 OpenTO로 학습된 조건부 잠재 확산 모델을 결합했습니다. 4개의 공개 벤치마크와 2개의 까다로운 미검증 테스트에서 OAT는 기존 최고 모델 대비 평균 준수도를 최대 90%까지 낮추었으며, 단일 GPU에서 64x64부터 256x256에 이르는 해상도와 최대 10:1의 종횡비에서 1초 미만의 추론 속도를 제공했습니다. 이러한 결과는 OAT를 물리 인식 토폴로지 최적화를 위한 일반적이고 빠르며 해상도 제약이 없는 프레임워크로 입증하며, 역설계를 위한 생성 모델링의 추가 연구를 촉진할 대규모 데이터셋을 제공합니다. 코드와 데이터는 https://github.com/ahnobari/OptimizeAnyTopology에서 확인할 수 있습니다.
최근 GRPO 기반 강화 학습은 흐름 일치 모델 최적화에서 뚜렷한 진전을 보이며, 작업 특화 보상과의 정렬을 효과적으로 개선하고 있습니다. 이러한 프레임워크 내에서 정책 업데이트는 과도하게 확신에 찬 양의 및 음의 그래디언트를 제한하기 위해 중요도 비율 클리핑에 의존합니다. 그러나 실제로 중요도 비율 분포에 체계적인 변화가 관측됩니다. 즉, 그 평균이 1 미만으로 떨어지고 분산이 타임스텝에 따라 크게 달라집니다. 이렇게 왼쪽으로 치우치고 불일치하는 분포는 긍정적 이점을 가진 샘플이 클리핑 영역에 진입하는 것을 막아, 해당 메커니즘이 과도하게 확신에 찬 양의 업데이트를 제약하는 데 실패하게 합니다. 그 결과 정책 모델은 필연적으로 암묵적인 과최적화 단계에 진입하게 되는데, 프록시 보상은 계속 증가하는 반면 이미지 품질 및 텍스트 프롬프트 정렬과 같은 핵심 지표는 급격히 악화되어 결국 학습된 정책을 실제 환경에 적용하기 어렵게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 기존 GRPO 프레임워크에 간단하면서도 효과적인 개선 사항인 GRPO-Guard를 소개합니다. 우리의 방법은 비율 정규화를 통합하여 균형 잡히고 타임스텝 간 일관된 중요도 비율을 복원함으로써 PPO 클리핑이 노이즈 제거 타임스텝 전반에 걸쳐 유해한 업데이트를 적절히 제약하도록 보장합니다. 추가적으로, 그래디언트 재가중 전략은 노이즈 조건에 따른 정책 그래디언트를 균등화하여 특정 타임스텝 영역으로부터의 과도한 업데이트를 방지합니다. 이러한 설계들은 함께 조절된 클리핑 메커니즘으로 작동하여 강력한 KL 정규화에 의존하지 않으면서도 최적화를 안정화하고 암묵적 과최적화를 상당히 완화합니다. 다양한 디퓨전 백본(예: SD3.5M, Flux.1-dev)과 다양한 프록시 작업에 대한 광범위한 실험을 통해 GRPO-Guard가 생성 품질을 유지하거나 오히려 개선하면서도 과최적화를 현저히 줄인다는 것을 입증했습니다.
특허 텍스트 임베딩은 선행기술 조사, 기술 지형도 분석, 특허 분석을 가능하게 하지만, 기존 벤치마크는 특허 고유의 과제를 충분히 포착하지 못합니다. 우리는 206만 개의 예시로 구성된 검색, 분류, 패러프레이즈, 클러스터링 등 15개 과제를 아우르는 포괄적인 벤치마크인 PatenTEB를 소개합니다. PatenTEB는 도메인 계층화 분할, 도메인 특화 하드 네거티브 마이닝, 그리고 일반 임베딩 벤치마크에서는 찾아볼 수 없는 비대칭적 단편-문서 매칭 시나리오를 체계적으로 다룹니다. 우리는 6,700만에서 3억 4,400만 개의 파라미터와 최대 4096 토큰의 컨텍스트 길이를 가진 patembed 모델 패밀리를 다중 과제 학습을 통해 개발했습니다. 외부 검증 결과 강력한 일반화 성능을 확인했습니다: patembed-base는 MTEB BigPatentClustering.v2에서 최첨단 성능(기존 최고 0.445 대비 0.494 V-측정)을, patembed-large는 DAPFAM에서 0.377 NDCG@100을 달성했습니다. 체계적인 애블레이션 분석을 통해 다중 과제 학습이 벤치마크 성능에는 미미한 손실을 초래하지만 외부 일반화 성능을 향상시키며, 도메인 사전 학습된 초기화가 모든 과제 유형에 걸쳐 일관된 이점을 제공함을 확인했습니다. 모든 리소스는 https://github.com/iliass-y/patenteb에서 공개될 예정입니다. 키워드: 특허 검색, 문장 임베딩, 다중 과제 학습, 비대칭 검색, 벤치마크 평가, 대조 학습.
우리는 대규모 언어 모델(LLM)이 문화적으로 토대를 둔 언어, 특히 지역적 지식과 문화적 뉘앙스를 함축하는 비유적 표현을 이해하고 실제적으로 사용하는 능력을 종합적으로 평가한다. 문화적 뉘앙스와 지역적 지식을 대변하는 지표로서 비유적 언어를 활용하여, 아랍어와 영어로 된 맥락적 이해, 실제적 사용, 함축적 해석 평가 과제를 설계하였다. 이집트 아랍어 관용구, 다방언 아랍어 속담, 영어 속담에 대해 오픈소스와 클로즈드소스 LLM 22개 모델을 평가한 결과, 일관된 위계 구조를 확인하였다: 아랍어 속담의 평균 정확도는 영어 속담보다 4.29% 낮았으며, 이집트 관용구의 성능은 아랍어 속담보다 10.28% 낮게 나타났다. 실제적 사용 과제에서는 이해 과제 대비 정확도가 14.07% 하락했으나, 맥락적 관용구 문장을 제공 시 정확도가 10.66% 향상되었다. 모델들은 함축적 의미 해석에도 어려움을 보였으며, 인간 주석자 간 일치도 100%인 관용구에 대해 최대 85.58%의 일치율을 보였다. 이러한 결과는 비유적 언어가 문화적 추론에 대한 효과적 진단 도구로 기능함을 입증한다: LLM은 비유적 의미를 해석할 수 있는 경우가 많지만, 이를 적절히 사용하는 데는 한계를 보인다. 향후 연구를 지원하기 위해 비유적 이해와 실제적 사용 평가를 모두 위해 설계된 최초의 이집트 아랍어 관용구 데이터셋인 키나얏(Kinayat)을 공개한다.