번역이 포함된 일일 선별된 AI 연구 논문
실세계 영상 질의응답 시나리오에서 영상은 흔히 국소적인 시각적 단서만 제공하는 반면, 검증 가능한 답변은 개방형 웹 전반에 분산되어 있습니다. 따라서 모델은 교차 프레임 단서 추출, 반복적 검색, 다중 홉 추론 기반 검증을 동시에 수행해야 합니다. 이러한 격차를 해소하기 위해 우리는 최초의 영상 심층 연구 벤치마크인 VideoDR을 구축했습니다. VideoDR은 영상 기반 개방 도메인 영상 질의응답을 핵심으로 하며, 교차 프레임 시각적 앵커 추출, 상호작용형 웹 검색, 그리고 영상-웹 결합 증거에 대한 다중 홉 추론을 요구합니다. 엄격한 인간 주해와 품질 관리를 통해 우리는 여섯 가지 의미론적 영역에 걸친 고품질 영상 심층 연구 샘플을 확보했습니다. 우리는 Workflow와 Agentic 패러다임 하에서 여러 폐쇄형 및 오픈소스 멀티모달 대규모 언어 모델을 평가했으며, 그 결과 Agentic이 Workflow에 항상 우월한 것은 아님을 확인했습니다: Agentic의 성능 향상은 긴 검색 연쇄에서 초기 영상 앵커를 유지하는 모델의 능력에 의존합니다. 추가 분석에 따르면 목표 이탈과 장기적 일관성이 핵심 병목 현상입니다. 결론적으로 VideoDR은 개방형 웹 환경에서 영상 에이전트를 연구하기 위한 체계적인 벤치마크를 제공하며, 차세대 영상 심층 연구 에이전트의 핵심 과제를 밝혀냅니다.
인간은 언어 습득 훨씬 이전에 핵심 시각 능력을 발달시키지만, 현대의 멀티모달 대규모 언어 모델(MLLM)은 여전히 취약한 시각 이해력을 보완하기 위해 언어적 사전 지식에 크게 의존하고 있습니다. 우리는 중요한 사실을 발견했는데, 최첨단 MLLM조차 3세 유아도 거뜬히 해결하는 기본적인 시각 과제에서 지속적으로 실패한다는 점입니다. 이러한 격차를 체계적으로 조사하기 위해 MLLM의 언어 지식과 무관한 핵심 시각 능력을 평가하도록 설계된 벤치마크인 BabyVision을 소개합니다. BabyVision은 4가지 주요 범주, 22개 하위 분류, 총 388개 항목으로 구성된 다양한 과제를 포괄합니다. 실험 결과와 인간 평가에 따르면 주요 MLLM의 성능은 인간 기준치보다 현저히 낮습니다. Gemini3-Pro-Preview는 49.7점을 기록하여 6세 인간 아동보다 뒤처졌으며, 성인 평균 점수인 94.1점보다 훨씬 못 미쳤습니다. 이러한 결과는 지식 중심 평가에서는 뛰어난 성과를 보임에도 불구하고, 현재의 MLLM이 여전히 기본적인 시각 원시 능력이 부족함을 보여줍니다. BabyVision의 발전은 인간 수준의 시각 지각 및 추론 능력으로 나아가는 한 걸음입니다. 우리는 또한 생성 모델을 이용한 시각 추론 해결 방안을 탐구하기 위해 BabyVision-Gen과 자동 평가 도구 키트를 제안합니다. 재현을 위한 코드와 벤치마크 데이터는 https://github.com/UniPat-AI/BabyVision에서 공개되었습니다.
우리는 기존 언어 모델의 핵심적 한계, 즉 고정된 컨텍스트 윈도우 내 순차 추론을 크게 벗어나지 못하는 테스트 타임 컴퓨팅(TTC) 확장 불가능 문제를 해결하기 위해 설계된 훈련 및 추론 프레임워크인 병렬 조정 추론(PaCoRe)을 소개한다. PaCoRe는 메시지 전달 아키텍처를 통해 다중 라운드에 걸쳐 조정되는 대규모 병렬 탐색으로 TTC를 수행함으로써 기존 순차 패러다임에서 벗어난다. 각 라운드는 여러 병렬 추론 경로를 시작하고, 그 결과를 컨텍스트 한도 내 메시지로 압축하며, 이러한 메시지를 종합하여 다음 라운드를 안내하고 궁극적으로 최종 답변을 도출한다. 대규모 결과 기반 강화 학습으로 엔드투엔드 훈련된 모델은 PaCoRe가 요구하는 종합 능력을 습득하며 컨텍스트 한도를 초과하지 않으면서 수백만 토큰에 달하는 효과적 TTC로 확장된다. 이 접근법은 다양한 영역에서 강력한 성능 향상을 보이며, 특히 수학 영역에서 최첨단 시스템을 넘어서는 추론 능력을 보인다: 80억 파라미터 모델이 효과적 TTC를 약 200만 토큰 규모로 확장하여 HMMT 2025에서 94.5%를 달성하며 GPT-5의 93.2%를 능가한다. 후속 연구 가속화를 위해 모델 체크포인트, 훈련 데이터 및 전체 추론 파이프라인을 공개한다.
트랜스포머 아키텍처가 많은 분야를 지배하고 있지만, 그 자체 어텐션의 2차 복잡도는 대규모 응용 분야에서의 사용을 방해한다. 선형 어텐션은 효율적인 대안을 제공하지만, 이를 직접 적용하면 성능 저하가 흔히 발생하며, 기존 해결책들은 일반적으로 추가 모듈(예: 깊이별 분리 가능 합성곱)을 통해 계산 오버헤드를 다시 도입하여 본래 목적을 훼손한다. 본 연구에서는 이러한 방법들의 핵심 실패 원인, 즉 모델이 표현의 다양성을 상실하는 '전역 콘텍스트 붕괴'를 규명한다. 이를 해결하기 위해 우리는 토큰 차원을 따라 분할된 헤드 내에서 어텐션을 계산함으로써 이러한 다양성을 보존하는 다중 헤드 선형 어텐션(MHLA)을 제안한다. 우리는 MHLA가 선형 복잡도를 유지하면서 소프트맥스 어텐션의 표현력을 대부분 회복함을 증명하고, 여러 분야에서 그 효과를 입증한다. 동일한 시간 복잡도 하에서 ImageNet 분류에서 3.6%, 자연어 처리에서 6.3%, 이미지 생성에서 12.6%, 비디오 생성에서 41%의 성능 향상을 달성하였다.
경쟁 프로그래밍은 높은 수준의 추론 요구사항과 논리적 복잡성으로 인해 코드 대규모 언어 모델(Code LLMs)에게 큰 도전 과제를 제시합니다. 그러나 현재의 코드 LLMs는 여전히 실제 데이터에 크게 의존하고 있어 확장성이 제한됩니다. 본 논문에서는 실제 데이터에 의존하지 않고 코드 추론 모델의 능력을 향상시키기 위해 생성된 작업, 솔루션 및 테스트 케이스만으로 코드 LLMs를 훈련시키는 완전 합성 접근법을 탐구합니다. 이를 지원하기 위해 특징 기반 합성을 활용하여 SynthSmith라는 새로운 데이터 합성 파이프라인을 제안합니다. SynthSmith는 검증된 솔루션과 테스트와 함께 다양하고 도전적인 작업을 생성하는 데 강력한 잠재력을 보여주며, 지도 미세 조정과 강화 학습을 모두 지원합니다. 제안된 합성 SFT 및 RL 데이터셋을 기반으로 우리는 X-Coder 모델 시리즈를 소개합니다. 이 모델 시리즈는 7B 매개변수만을 가짐에도 불구하고 LiveCodeBench v5에서 62.9 avg@8, v6에서 55.8의 높은 통과율을 달성하여 DeepCoder-14B-Preview 및 AReal-boba2-14B를 능가합니다. 심층 분석을 통해 우리의 합성 데이터셋에서도 확장 법칙이 유효함을 확인하고, 어떤 차원을 확장하는 것이 더 효과적인지 탐구합니다. 또한 코드 중심 강화 학습에 대한 통찰력을 제공하고 상세한 제어 실험 및 분석을 통해 성능을 결정하는 핵심 요소를 부각합니다. 우리의 연구 결과는 고품질 합성 데이터의 확장과 단계별 훈련의 채택이 실제 코딩 데이터에 대한 의존성을 완화하면서 코드 추론 능력을 크게 발전시킬 수 있음을 입증합니다.
최근 추론 모델 및 에이전트형 AI 시스템의 발전으로 다양한 외부 정보에 대한 의존도가 높아지고 있습니다. 그러나 이러한 변화는 본질적으로 노이즈가 포함된 입력 컨텍스트를 도입하는데, 이는 현재의 정제된 벤치마크가 포착하지 못하는 현실입니다. 본 연구에서는 RAG, 추론, 얼라인먼트, 도구 사용 작업 등 11개 데이터셋에서 무작위 문서, 관련 없는 채팅 기록, 강력한 부정적 방해 요소 등 다양한 노이즈 유형에 대한 모델 강건성을 체계적으로 평가하는 포괄적인 벤치마크인 NoisyBench를 소개합니다. 우리의 평가 결과, 최첨단 모델들이 컨텍스트ual 방해 요소에 직면할 경우 최대 80%에 이르는 치명적인 성능 저하가 발생하는 것으로 나타났습니다. 중요한 것은, 에이전트 워크플로우가 노이즈가 포함된 도구 출력을 과도하게 신뢰함으로써 이러한 오류를 종종 증폭시키며, 방해 요소가 적대적 의도 없이도 새로운 유형의 오얼라인먼트(misalignment)를 유발할 수 있다는 점입니다. 우리는 프롬프팅, 컨텍스트 엔지니어링, SFT(지도하 미세조정), 결과-보상 기반 RL만으로는 강건성을 보장할 수 없음을 확인했습니다. 이와 대조적으로, 우리가 제안하는 Rationale-Aware Reward(RARE)는 노이즈 내 유용한 정보 식별을 장려함으로써 복원력을 크게 강화합니다. 마지막으로, 테스트 시 계산량 증가가 노이즈 환경에서 더 나쁜 성능으로 이어지는 역스케일링(inverse scaling) 경향을 발견하고, 어텐션 시각화를 통해 모델이 방해 요소 토큰에 지나치게 집중하는 것을 확인하여 차세대 강건한 추론 능력을 가진 에이전트 구축에 중요한 통찰을 제공합니다.
대규모 추론 모델(LRMs)은 명시적으로 다단계 사고 사슬을 생성함으로써 뛰어난 성능을 달성하지만, 이러한 능력은 상당한 추론 지연 시간과 계산 비용을 수반합니다. 협력적 추론은 경량 모델과 대형 모델 간에 작업을 선택적으로 할당하는 유망한 해결책을 제공하지만, 근본적인 과제는 여전히 남아 있습니다: 즉, 어떤 추론 단계에서 대형 모델의 역량이 필요한지, 아니면 소형 모델의 효율성으로 충분한지를 판단하는 문제입니다. 기존의 라우팅 전략은 지역적 토큰 확률이나 사후 검증에 의존하여 상당한 추론 오버헤드를 초래합니다. 본 연구에서는 단계별 협력에 대한 새로운 관점을 제안합니다: 추론 단계의 난이도는 해당 단계의 첫 번째 토큰에서 추론될 수 있다는 것입니다. LRMs의 "Aha Moment" 현상에서 영감을 받아, 초기 토큰의 엔트로피가 단계 난이도의 강력한 예측 인자가 됨을 보여줍니다. 이러한 통찰을 바탕으로, 학습이 필요 없는 단계별 협력 프레임워크인 GlimpRouter를 소개합니다. GlimpRouter는 경량 모델을 사용하여 각 추론 단계의 첫 번째 토큰만 생성하고, 초기 토큰 엔트로피가 임계값을 초과할 때만 해당 단계를 더 큰 모델로 라우팅합니다. 다중 벤치마크에서의 실험 결과, 본 접근법이 정확도를 유지하면서 추론 지연 시간을 현저히 단축함을 입증했습니다. 예를 들어, GlimpRouter는 AIME25에서 단독 대형 모델 대비 정확도는 10.7% 크게 향상시키면서 추론 지연 시간은 25.9% 줄였습니다. 이러한 결과는 전체 단계 평가가 아닌 사고의 일부를 엿보는 것만으로 계산을 할당하는 단순하면서도 효과적인 추론 메커니즘의 가능성을 시사합니다.
비전-언어 모델(VLM)이 컴퓨터 사용 에이전트(CUA)의 발전을 크게 주도했지만, 현재 프레임워크는 장기적 워크플로우에서의 견고성과 새로운 도메인에서의 일반화에 어려움을 겪고 있습니다. 이러한 한계는 역사적 시각 컨텍스트 관리에 대한 세분화된 통제 부족과 시각 인식 튜토리얼 검색의 부재에서 비롯됩니다. 이러한 격차를 해소하기 위해 우리는 강력한 자동화를 위한 두 가지 핵심 혁신을 조율하는 오케스트레이터를 포함하는 종합 프레임워크인 OS-Symphony를 소개합니다: (1) 마일스톤 기반 장기 메모리를 활용하여 궤적 수준 자기 수정을 가능하게 하는 Reflection-Memory 에이전트로, 장기적 과업에서 시각 컨텍스트 손실을 효과적으로 완화합니다; (2) SeeAct 패러다임을 채택한 멀티모달 검색기를 갖춘 Versatile Tool 에이전트로, 브라우저 기반 샌드박스를 탐색하여 실시간으로 시각적으로 정렬된 튜토리얼을 합성함으로써 보지 못한 시나리오에서의 정확도 문제를 해결합니다. 실험 결과는 OS-Symphony가 다양한 모델 규모에서 상당한 성능 향상을 제공하며, 세 가지 온라인 벤치마크에서 새로운 최첨단 결과를 달성했음을 보여줍니다. 특히 OSWorld에서 65.84%를 달성했습니다.
확산 언어 모델(DLM)은 반복적 정제를 통한 병렬 디코딩을 가능하게 함으로써 언어 모델링에 대한 유망한 대안을 제공합니다. 그러나 대부분의 DLM은 하드 이진 마스킹과 이산 토큰 할당에 의존하여 초기 결정 수정을 방해하고 중간 확률적 표현을 충분히 활용하지 못합니다. 본 논문에서는 하드 이진 마스크를 진화하는 소프트 토큰 분포로 대체하는 새로운 확산 기반 언어 모델링 접근법인 EvoToken-DLM을 제안합니다. EvoToken-DLM은 마스크된 상태에서 이산 출력으로의 점진적 전환을 가능하게 하여 수정 가능한 디코딩을 지원합니다. 이러한 진화를 효과적으로 지원하기 위해 훈련 목표를 반복적 확률적 업데이트와 일치시키는 연속 궤적 감독을 도입합니다. 다양한 벤치마크에서 수행한 광범위한 실험을 통해 EvoToken-DLM이 강력한 확산 기반 및 마스킹 DLM 기준선을 능가하는 우수한 성능을 일관되게 달성함을 보여줍니다. 프로젝트 웹페이지: https://aim-uofa.github.io/EvoTokenDLM.
LLM 기반 에이전트가 장기 상호작용에 점점 더 많이 활용됨에 따라 누적 메모리는 개인화를 가능하게 하고 스타일 일관성을 유지하는 데 핵심적입니다. 그러나 대부분의 기존 시스템은 메모리 사용에 있어 '전부 또는 무(all-or-nothing)' 방식을 채택하고 있습니다: 관련된 모든 과거 정보를 포함하면 에이전트가 과거 상호작용에 얽매이는 '메모리 앵커링(Memory Anchoring)' 현상이 발생할 수 있는 반면, 메모리를 완전히 배제하면 활용도가 낮아지고 중요한 상호작용 기록이 손실됩니다. 우리는 에이전트의 메모리 의존도를 명시적이고 사용자가 제어 가능한 차원으로 모델링할 수 있음을 보여줍니다. 먼저 과거 상호작용이 현재 출력에 미치는 영향을 정량화하기 위해 메모리 의존도에 대한 행동 지표를 소개합니다. 그런 다음 사용자가 메모리 의존도를 동적으로 조절할 수 있는 프레임워크인 Steerable Memory Agent(SteeM)를 제안합니다. 이 프레임워크는 혁신을 촉진하는 새로 시작 모드(fresh-start mode)부터 상호작용 기록을 충실히 따르는 고정확도 모드(high-fidelity mode)까지 다양한 조절을 지원합니다. 다양한 시나리오에서의 실험을 통해 우리의 접근 방식이 기존의 프롬프팅 및 경직된 메모리 마스킹 전략을 일관되게 능가하며, 개인화된 인간-에이전트 협업을 위한 더욱 세밀하고 효과적인 제어를 제공함을 입증합니다.
상호작용 및 자율 인공지능 시스템의 급속한 발전은 우리가 에이전트 시대에 진입했음을 의미합니다. 소프트웨어 공학 및 컴퓨터 활용과 같은 복잡한 에이전트 과제에 대한 에이전트 훈련 및 평가는 효율적인 모델 연산뿐만 아니라 방대한 에이전트-환경 상호작용을 조정할 수 있는 정교한 인프라를 필요로 합니다. 그러나 이러한 복잡한 에이전트 과제에 대한 대규모 훈련 및 평가를 효과적으로 지원할 수 있는 오픈소스 인프라는 존재하지 않습니다. 이러한 문제를 해결하기 위해 우리는 에이전트-환경 워크로드를 위한 효율적인 스케줄링, 자원 할당 및 세분화된 작업 관리를 가능하게 하는 대규모 분산 오케스트레이션 시스템인 MegaFlow를 제안합니다. MegaFlow는 에이전트 훈련 인프라를 통합 인터페이스를 통해 상호작용하는 세 가지 독립적인 서비스(모델 서비스, 에이전트 서비스, 환경 서비스)로 추상화하여 다양한 에이전트-환경 구성에서 독립적인 확장과 유연한 자원 할당을 가능하게 합니다. 우리의 에이전트 훈련 배포에서 MegaFlow는 높은 시스템 안정성을 유지하고 효율적인 자원 활용을 달성하면서 수만 개의 동시 에이전트 작업을 성공적으로 조정합니다. 이러한 대규모 에이전트 훈련을 가능하게 함으로써 MegaFlow는 부상하는 에이전트 AI 환경에서 중요한 인프라 격차를 해소합니다.
고품질 데이터 확보가 점점 어려워지면서 데이터 없는 자기 진화가 유망한 패러다임으로 부상하고 있다. 이 접근법은 대규모 언어 모델(LLM)이 복잡한 문제를 자율적으로 생성하고 해결함으로써 추론 능력을 향상시킬 수 있게 한다. 그러나 다중 턴 검색 에이전트는 질문 다양성의 한계와 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원으로 인해 데이터 없는 자기 진화 환경에서 어려움을 겪는다. 본 연구에서는 학습 데이터 없이도 검색 에이전트가 효과적으로 자기 진화할 수 있는 Dr. Zero 프레임워크를 소개한다. 구체적으로, 우리는 동일한 기본 모델에서 초기화된 솔버를 훈련시키기 위해 제안자가 다양한 질문을 생성하는 자기 진화 피드백 루프를 설계했다. 솔버가 진화함에 따라 제안자는 점점 더 어렵지만 해결 가능한 과제를 생성하도록 유도되어 두 에이전트를 모두 정제하는 자동화된 커리큘럼을 구축한다. 훈련 효율을 높이기 위해 우리는 홉 그룹화 상대 정책 최적화(HRPO)를 도입했다. 이 방법은 구조적으로 유사한 질문들을 클러스터링하여 그룹 수준 기준선을 구성함으로써 각 질문의 개별 난이도와 해결 가능성 평가에 필요한 샘플링 오버헤드를 효과적으로 최소화한다. 그 결과 HRPO는 성능이나 안정성을 저하시키지 않으면서 솔버 훈련에 필요한 컴퓨팅 자원을 크게 절감한다. 폭넓은 실험 결과는 데이터 없는 Dr. Zero가 완전 지도 학습된 검색 에이전트와 동등하거나 그 이상의 성능을 보여주며, 복잡한 추론 및 검색 능력이 순전히 자기 진화를 통해 발현될 수 있음을 입증한다.
비디오 생성 모델은 세계 모델(world model)의 한 형태로서, 복잡한 장면의 시간적 변화를 모델링함으로써 에이전트에게 미래를 예측하는 능력을 부여하는 AI 분야에서 가장 주목받는 프론티어로 떠올랐습니다. 자율주행에서는 이러한 비전이 주행 세계 모델(driving world model)로 이어지고 있습니다. 이는 생성형 시뮬레이터로, 자차(ego) 및 주변 에이전트의 미래 궤적을 예측하여 확장 가능한 시뮬레이션, 위험 상황(corner case)의 안전한 테스트, 그리고 풍부한 합성 데이터 생성을 가능하게 합니다. 그러나 연구 활동이 급속도로 증가함에도 불구하고, 이 분야는 진전을 측정하고 우선순위를 안내할 엄격한 벤치마크가 부족한 실정입니다. 기존 평가 방법은 한계가 뚜렷합니다. 일반적인 비디오 평가 지표는 안전에至关重要的한 영상 요소를 간과하고, 궤적의 타당성은 거의 정량화되지 않으며, 시간적 및 에이전트 수준의 일관성은 간과되고, 자차 조건화(ego conditioning)를 통한 제어 가능성은 무시되고 있습니다. 더욱이 현재 데이터셋은 실제 적용에 필요한 다양한 조건을 충분히 포괄하지 못합니다. 이러한 격차를 해결하기 위해 우리는 생성형 주행 세계 모델을 위한 최초의 포괄적인 벤치마크인 DrivingGen을 소개합니다. DrivingGen은 주행 데이터셋과 인터넷 규모의 비디오 소스에서 선별한 다양한 평가 데이터셋(기상, 시간대, 지리적 지역, 복잡한 주행 기동을 아우름)과 시각적 현실성, 궤적 타당성, 시간적 일관성, 제어 가능성을 종합적으로 평가하는 새로운 평가 지표군(suite)을 결합했습니다. 14개의 최첨단 모델을 벤치마킹한 결과 명확한 트레이드오프가 드러났습니다. 일반적인 모델은 영상 품질은 더 나아 보이지만 물리 법칙을 위반하는 반면, 주행 특화 모델은 운동을 현실적으로 포착하지만 시각적 품질에서는 뒤처졌습니다. DrivingGen은 통합된 평가 체계를 제공하여 신뢰할 수 있고 제어 가능하며 실제 배포가 가능한 주행 세계 모델의 발전을 촉진하고, 확장 가능한 시뮬레이션, 경로 계획(planning), 데이터 기반 의사결정을 가능하게 할 것입니다.
잠재 디퓨전 모델(LDM)은 일반적으로 변분 오토인코더(VAE)와 같은 이미지 토크나이저를 통해 얻어진 압축 잠재 공간에서 동작하여 고품질 이미지를 생성합니다. 생성에 적합한 VAE를 개발하기 위해 최근 연구들은 VAE의 표현 정렬 목표로 비전 파운데이션 모델(VFM)을 활용하는 방식을 탐구해 왔으며, 이는 LDM에 일반적으로 채택된 접근법을 따릅니다. 이는 일정한 성능 향상을 가져오지만, VAE와 LDM에 동일한 정렬 목표를 사용하는 것은 근본적으로 다른 두 모델의 표현 요구사항을 간과합니다. 우리는 LDM이 고수준 의미 개념을 보존하는 잠재 공간으로부터 이익을 얻는 반면, VAE는 의미적 분리를 통해 속성 수준 정보를 구조화된 방식으로 인코딩하는 데 뛰어나야 한다고 주장합니다. 이를 해결하기 위해 우리는 사전 훈련된 VFM의 의미 계층 구조와 잠재 공간을 정렬함으로써 명시적으로 분리된 표현 학습을 위해 최적화된 의미 분리 VAE(Send-VAE)를 제안합니다. 우리의 접근 방식은 VAE 잠재 변수를 변환하기 위한 비선형 매퍼 네트워크를 사용하여 이를 VFM과 정렬함으로써 속성 수준 분리와 고수준 의미 간의 간극을 메우고, VAE 학습에 효과적인 지도를 용이하게 합니다. 우리는 속성 예측 작업에 대한 선형 탐사를 통해 의미적 분리를 평가하며, 이가 향상된 생성 성능과 강한 상관 관계를 보임을 입증합니다. 마지막으로, Send-VAE를 사용하여 흐름 기반 변환기인 SiT를 훈련시킨 결과, Send-VAE가 훈련 속도를 크게 가속화하고 ImageNet 256x256에서 classifier-free guidance 사용 시 1.21, 미사용 시 1.75라는 최첨단 FID 값을 달성함을 실험을 통해 보여줍니다.
현재 비전-언어 벤치마크는 대부분 명확하고 명시적인 프롬프트를 가진 구조화된 질문으로 구성됩니다. 그러나 실제 사용자 질의는 비공식적이고 불충분하게 명시된 경우가 많습니다. 사용자는 이미지가 맥락을 전달할 것이라 기대하며 자연스럽게 많은 내용을 생략합니다. 본 연구는 한국 온라인 커뮤니티에서 수집한 86,000개 후보 문항 중 0.76%인 653개의 실제 시각 질문과 각각에 대한 명시적 재구성 버전을 쌍으로 구성하여 총 1,306개 질의 변형을 포함하는 HAERAE-Vision 벤치마크를 소개합니다. 39개의 VLM을 평가한 결과, 최첨단 모델(GPT-5, Gemini 2.5 Pro)조차 원본 질의에서 50% 미만의 성능을 보였습니다. 중요한 것은 질의 명시화만으로도 8~22점의 성능 향상이 나타났으며, 특히 소규모 모델에서 가장 큰 개선 효과를 확인했습니다. 또한 웹 검색을 활용하더라도 불충분하게 명시된 질의는 검색 없이 명시적 질의를 사용한 경우보다 성능이 낮아, 현재의 검색 기술이 사용자가 생략한 정보를 보완하지 못함을 보여줍니다. 본 연구의 결과는 VLM의 어려움 상당 부분이 모델 능력 자체보다는 자연스러운 질의의 불충분한 명시성에서 비롯됨을 입증하며, 벤치마크 평가와 실제 현장 적용 사이에 존재하는 중요한 격차를 부각합니다.
대규모 언어 모델(LLM)은 도구 통합 추론(TIR) 패러다임을 채택하여 매개변수 지식의 한계를 확장할 수 있습니다. 그러나 기존의 LLM 기반 에이전트 학습 프레임워크는 주로 답변의 정확성에 중점을 두어 행동 패턴에 대한 구체적인 정합성을 간과하는 경향이 있습니다. 그 결과, 에이전트는 TIR 작업 수행 중 중복적이거나 불충분한 도구 호출과 같은 비효율적인 행동을 보여주는 경우가 많습니다. TIR 작업 실행 시 발생하는 오류 행동 패턴을 어떻게 교정하여 효과적인 경로를 탐구할 것인지는 여전히 미해결 과제로 남아 있습니다. 본 논문에서는 자기 진화 데이터 플라이휠과 행동 교정 학습이라는 두 가지 상호 보완적 관점을 통해 에이전트의 도구 사용 행동을 교정하는 학습 프레임워크인 ET-Agent를 제안합니다. 구체적으로, 향상된 데이터를 생성하여 LLM의 미세 조정을 통해 탐구 능력을 향상시키는 자기 진화형 데이터 플라이휠을 도입합니다. 이를 기반으로 오류 행동 패턴을 최적 행동으로 점진적으로 교정하도록 설계된 2단계 행동 교정 학습 프레임워크를 구현합니다. 심층 실험을 통해 본 프레임워크가 정확성, 효율성, 추론의 간결성, 도구 실행 정확성 등 다차원적 측면에서 우수함을 입증하였습니다. 우리의 ET-Agent 프레임워크는 TIR 분야 연구에 실질적인 통찰을 제공합니다. 코드는 https://github.com/asilverlight/ET-Agent에서 확인할 수 있습니다.
여행 계획 수립은 다양한 정보를 종합하여 일정을 구성하는 복잡한 의사결정 과정입니다. 그러나 기존 여행 계획 방법론은 다음과 같은 과제에 직면해 있습니다: (1) 높은 재현율을 유지하면서 후보 관심 지점(POI)을 선별하는 문제; (2) 단일 추론 경로가 여행 계획의 실현 가능한 솔루션 공간 탐색 능력을 제한하는 점; (3) 강제 제약 조건과 비강제 제약 조건의 동시 최적화가 여전히 큰 어려움으로 남아 있는 점. 이러한 문제를 해결하기 위해 본 연구에서는 다중 경로 추론과 제약 조건 게이트 강화 학습을 특징으로 하는 종합 프레임워크인 TourPlanner를 제안합니다. 구체적으로, 먼저 공간 인식형 후보 POI 집합을 구축하기 위한 개인화 재현율 및 공간 최적화(PReSO) 워크플로를 도입합니다. 이후 실현 가능한 솔루션 공간 탐색 능력을 향상시키는 다중 경로 추론 패러다임인 경쟁적 합의 사고 연쇄(CCoT)를 제안합니다. 계획을 더욱 정제하기 위해 강화 학습 단계에 시그모이드 기반 게이트 메커니즘을 통합하여 강제 제약 조건이 충족된 후에만 비강제 제약 조건 충족을 동적으로 우선시합니다. 여행 계획 벤치마크에 대한 실험 결과, TourPlanner가 최첨단 성능을 달성하며 실현 가능성과 사용자 선호도 일치 측면에서 기존 방법을 크게 능가함을 입증했습니다.
체인 오브 씽크(Chain-of-Thought)가 대규모 시각-언어 모델에 다단계 추론 능력을 부여하지만, 명시적 텍스트 근거는 정보 대역폭 병목 현상을 겪으며 연속적인 시각적 세부 사항이 이산적인 토큰화 과정에서 누락됩니다. 최근의 잠재적 추론 방법들은 이러한 문제를 해결하려 시도하지만, 경직된 자기회귀적 목표 함수로 인해 의미론적 조기 붕괴에 쉽게 빠지는 경우가 많습니다. 본 논문에서는 동적 창 정렬 학습(Dynamic Windowed Alignment Learning, DWAL)을 통해 시각적 추론을 재구성하는 새로운 패러다임인 Laser를 제안합니다. Laser는 지점별 예측을 강요하는 대신, 잠재 상태를 미래 의미의 동적 타당성 창과 정렬시킵니다. 이 메커니즘은 "숲을 먼저 보고 나무를 보라"는 인지적 계층 구조를 강제하여 모델이 지역적 세부 사항으로 축소되기 전에 전역 특징의 확률적 중첩 상태를 유지할 수 있게 합니다. 특히 Laser는 디코딩 가능한 궤적을 통해 해석 가능성을 유지하면서 자기 정제 중첩(Self-Refined Superposition)을 통해 제약이 없는 학습을 안정화합니다. 6개 벤치마크에서 진행한 폭넓은 실험을 통해 Laser가 잠재적 추론 방법 중 최첨단 성능을 달성하며, 강력한 기준 모델인 Monet을 평균 5.03% 능가함을 입증했습니다. 주목할 점은 97% 이상 추론 토큰을 감소시키는 극한의 효율성으로 이러한 성능 향상을 달성한 동시에 분포 외 영역으로의 강건한 일반화 능력을 보여주었다는 것입니다.
대규모 언어 모델(LLM)이 정적 대화 인터페이스에서 자율적 일반 에이전트로 진화함에 따라, 효과적인 메모리는 장기적 일관성을 보장하는 데 가장 중요해졌습니다. 그러나 기존 벤치마크는 주로 일상적 대화나 작업 지향 대화에 초점을 맞추어, 에이전트가 변화하는 목표를 추적해야 하는 **"장기 프로젝트 지향"** 상호작용을 제대로 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 현실적인 프로젝트 시나리오에 기반한 최초의 벤치마크인 **RealMem**을 소개합니다. RealMem은 11가지 시나리오에 걸친 2,000개 이상의 교차 세션 대화로 구성되며, 평가를 위해 자연스러운 사용자 쿼리를 활용합니다. 우리는 프로젝트 기반 구축, 다중 에이전트 대화 생성, 메모리 및 일정 관리를 통합하여 메모리의 동적 진화를 시뮬레이션하는 합성 파이프라인을 제안합니다. 실험 결과, 현재의 메모리 시스템은 현실 세계 프로젝트에 내재된 장기 프로젝트 상태와 동적 컨텍스트 의존성을 관리하는 데 상당한 어려움을 겪는 것으로 나타났습니다. 저희 코드와 데이터셋은 [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench)에서 확인하실 수 있습니다.
우리는 알고리즘 설계, 실행, 에이전트-환경 상호작용을 관심사별로 분리하여 구축한 대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 인프라인 OpenTinker를 소개한다. OpenTinker는 단일화된 종단간(end-to-end) RL 파이프라인에 의존하기보다 에이전트 학습 시스템을 명확한 추상화 경계를 가진 경량의 구성 가능 컴포넌트로 분해한다. 사용자는 에이전트, 환경, 상호작용 프로토콜을 지정하는 반면, 추론 및 학습은 관리형 실행 런타임에 위임된다. OpenTinker는 공유 자원을 통해 LoRA 기반 및 전체 파라미터 RL, 지도 미세 조정, 추론을 포함한 학습 및 추론 워크로드를 관리하기 위한 중앙 집중식 스케줄러를 도입한다. 또한 다중 에이전트 학습으로 OpenTinker를 확장하기 위한 설계 원칙에 대해 논의한다. 마지막으로 실제 에이전트 학습 시나리오에서 본 프레임워크의 효과를 입증하는 일련의 RL 사용 사례를 제시한다.
현재 대규모 언어 모델(LLM)의 메모리 접근법은 주로 정적 검색 증강 생성(RAG)에 의존하고 있으며, 이는 종종 산발적인 검색을 초래하고 복잡한 추론에 필요한 구조적 의존성을 포착하지 못합니다. 자율 에이전트의 경우, 이러한 수동적이고 평면적인 아키텍처는 장기적 상호작용의 동적이고 연상적인 특성을 모델링하는 데 필요한 인지적 조직력을 결여하고 있습니다. 이를 해결하기 위해 우리는 관계적 사실을 위한 그래프 메모리 계층과 서사적 진행을 위한 동적 에피소드 메모리 계층을 시너지적으로 결합한 계층적 프레임워크인 구조적 에피소드 사건 메모리(SEEM)를 제안합니다. 인지 프레임 이론에 기반한 SEEM은 정확한 출처 포인터로 고정된 구조화된 에피소드 사건 프레임(EEF)으로 상호작용 스트림을 변환합니다. 더 나아가, 우리는 단편화된 증거로부터 일관된 서사적 맥락을 재구성하기 위한 에이전트 연상 융합 및 역출처 확장(RPE) 메커니즘을 도입합니다. LoCoMo 및 LongMemEval 벤치마크에 대한 실험 결과는 SEEM이 기준선을 크게 능가하여 에이전트가 우수한 서사적 일관성과 논리적 정합성을 유지할 수 있음을 입증합니다.
인공지능 혁신이 빠르게 가속화되는 가운데, 돌파구를 여는 지적 과정(연구자들이 어떻게 공백을 발견하고, 기존 연구를 종합하며, 통찰을 생성하는지)은 여전히 제대로 이해되지 않고 있습니다. 과학적 추론에 대한 구조화된 데이터의 부재는 인공지능 연구 에이전트의 체계적인 분석과 개발을 저해하고 있습니다. 본 연구는 고품질 인공지능 연구의 배후에 있는 지적 종합 과정을 포착한 최초의 데이터셋인 Sci-Reasoning을 소개합니다. 커뮤니티에서 검증된 품질 신호와 대규모 언어 모델(LLM)로 가속화되고 인간이 검증한 파이프라인을 활용하여, NeurIPS, ICML, ICLR(2023-2025)의 Oral 및 Spotlight 논문들을 그 핵심 선행 연구들과 연결짓고, 구체적인 추론 연결 관계를 구조화된 형식으로 명시합니다. 우리의 분석은 15가지의 독특한 사고 패턴을 확인했으며, 그중 세 가지 주요 전략이 52.7%를 차지했습니다: 공백 주도 재구성(Gap-Driven Reframing, 24.2%), 분야 간 종합(Cross-Domain Synthesis, 18.0%), 표현 방식 전환(Representation Shift, 10.5%). 가장 강력한 혁신 방법은 여러 패턴을 결합한 것으로, 공백 주도 재구성 + 표현 방식 전환, 분야 간 종합 + 표현 방식 전환, 그리고 공백 주도 재구성 + 분야 간 종합이었습니다. 이 데이터셋은 과학적 진보에 대한 정량적 연구를 가능하게 하고, 차세대 인공지능 연구 에이전트 훈련을 위한 구조화된 추론 궤적을 제공합니다.
인간은 주로 개념(예: 개)을 통해 세계를 이해하는데, 이는 지각, 추론, 학습을 구조화하는 추상적 정신 표상이다. 그러나 대규모 언어 모델(LLM)이 지속적 사전 학습 과정에서 이러한 개념을 어떻게 습득하고, 유지하며, 망각하는지는 여전히 명확히 이해되지 않고 있다. 본 연구에서는 개별 개념의 습득과 망각 과정, 그리고 다중 개념 간 간섭과 시너지를 통한 상호작용을 분석한다. 우리는 이러한 행동 역학을 LLM의 내부 개념 회로(특정 개념과 연관된 계산적 하위 그래프)와 연결하고, 그래프 지표를 도입하여 회로 구조를 규명한다. 분석 결과는 다음과 같다: (1) LLM 개념 회로는 개념 학습 및 망각에 대한 통계적으로 유의미한 신호를 제공한다; (2) 개념 회로는 지속적 사전 학습 동안 단계적 시간 패턴(초기 증가 후 점진적 감소 및 안정화)을 보인다; (3) 더 큰 학습 이득을 보인 개념은 후속 훈련에서 더 큰 망각을 나타내는 경향이 있다; (4) 의미론적으로 유사한 개념은 약하게 연관된 개념보다 더 강한 간섭을 유발한다; (5) 개념적 지식은 전이 가능성에 차이가 있으며, 일부 개념은 다른 개념의 학습을 유의미하게 촉진한다. 종합적으로, 본 연구 결과는 개념 학습 역학에 대한 회로 수준의 시각을 제시하며, LLM을 위한 더 해석 가능하고 강건한 개념 인식 훈련 전략 설계에 기여한다.
대규모 언어 모델(LLM)은 놀라울 정도로 정교한 자체 불확실성 추정치를 생성할 수 있습니다. 그러나 이러한 표현된 신뢰도가 모델의 추론, 지식 또는 의사 결정과 어느 정도 연관되어 있는지는 여전히 불분명합니다. 이를 검증하기 위해 우리는 모델이 다양한 오류 패널티에 따라 자제 정책을 조정하는지 평가하기 위해 설계된 RiskEval 프레임워크를 도입했습니다. 여러 최첨단 모델에 대한 평가 결과 중요한 분리 현상을 확인했습니다: 모델들은 언어적 신뢰도를 표현할 때 비용 인식 능력을 보이지 않았으며, 높은 패널티 조건에서 참여할지 자제할지 결정할 때 전략적으로 대응하지도 않았습니다. 극단적인 패널티로 인해 빈번한 자제가 수학적으로 최적의 전략이 되는 상황에서도 모델들은 거의 자제하지 않아 효용성이 급격히 붕괴되었습니다. 이는 교정된 언어적 신뢰도 점수만으로는 신뢰할 수 있고 해석 가능한 AI 시스템을 구축하기에 부족할 수 있음을 시사하며, 현재 모델들은 불확실성 신호를 최적의 위험 감지 의사 결정으로 전환할 전략적 주체성을 결여하고 있습니다.
현대 정보 시스템은 텍스트 질의, 이미지, 비디오 클립, 오디오 세그먼트 등 다양한 유형의 항목들을 종합적으로 다룹니다. 이에 따라 이기종 모달리티를 공유 공간에 매핑하여 직접 비교가 가능한 전(全)모달 임베딩 모델의 필요성이 대두되고 있습니다. 그러나 최근의 대부분의 전모달 임베딩은 사전 학습된 시각-언어 모델 백본에서 상속된 암묵적 정렬에 크게 의존하고 있습니다. 실제로 이로 인해 세 가지 일반적인 문제가 발생합니다: (i) 유사도 로짓이 모달리티에 따라 예리도가 달라 점수가 일관된 척도에 있지 않음, (ii) 혼합 모달리티 배치가 불균형한 난이도 분포를 생성하여 배치 내 네거티브 샘플의 효과가 시간이 지남에 따라 감소함. 결과적으로 많은 네거티브 샘플이 빠르게 쉬워져 기여하는 기울기가 미미해짐, (iii) 모달리티 간 임베딩이 일치하지 않는 1차 및 2차 통계량을 보여 순위 안정성이 저하됨. 이러한 문제를 해결하기 위해 우리는 기성 시각-언어 모델을 강력한 전모달 임베딩 모델로 적응시키는 경량의 명시적 정렬 기법인 e5-omni를 제안합니다. e5-omni는 세 가지 간단한 구성 요소를 결합합니다: (1) 유사도 척도를 맞추기 위한 모달리티 인식 온도 보정, (2) 오류 네거티브의 영향을 줄이면서 혼동을 주는 네거티브 샘플에 집중하기 위한 편향 제거 기능이 있는 제어 가능한 네거티브 커리큘럼, (3) 공유 임베딩 공간에서의 교차 모달리티 기하학적 구조를 더 잘 맞추기 위한 공분산 정규화를 동반한 배치 화이트닝. MMEB-V2 및 AudioCaps에 대한 실험은 강력한 이중 모달 및 전모달 기준선 대비 일관된 성능 향상을 보여주며, 동일한 기법은 다른 시각-언어 모델 백본에도 잘 전이됩니다. 우리는 모델 체크포인트를 https://huggingface.co/Haon-Chen/e5-omni-7B 에 공개합니다.
ChatGPT, Copilot, Claude, Gemini와 같은 대규모 언어 모델(LLM)이 소프트웨어 개발 워크플로우에 통합됨에 따라 개발자들은 코드 주석에 AI 관여의 흔적을 점점 더 많이 남기고 있습니다. 이 중 일부 주석은 생성형 AI 사용과 기술적 결함의 존재를 모두 명시적으로 인정합니다. 공개된 Python 및 JavaScript 기반 GitHub 저장소(2022년 11월~2025년 7월)에서 LLM을 언급한 코드 주석 6,540개를 분석한 결과, 그중 81개가 기술 부채를 자체 인정(SATD)하는 것으로 확인되었습니다. 개발자들은 지연된 테스트, 불완전한 적용, AI 생성 코드에 대한 제한된 이해를 가장 흔히 설명하며, AI 지원이 기술 부채가 발생하는 시기와 이유 모두에 영향을 미친다는 점을 시사합니다. 우리는 개발자가 AI 생성 코드를 통합하면서 그 동작이나 정확성에 대해 명시적으로 불확실함을 표현하는 반복적인 사례를 설명하기 위한 개념적 렌즈로 GenAI 유발 자체 인정 기술 부채(GIST)라는 용어를 제안합니다.
대규모 언어 모델(LLM)은 적은 수의 학습 가능 매개변수만을 수정하는 매개변수 효율 미세 조정(PEFT) 방법을 통해 새로운 작업에 적용될 수 있으며, 이는 종종 저순위 업데이트를 통해 이루어집니다. 본 연구에서는 이러한 방법들의 효과를 이해하기 위해 양자 정보 이론에서 영감을 받은 관점을 채택합니다. 이 관점에서 저순위 매개변수화는 자연스럽게 저차원 행렬 곱 상태(MPS) 표현에 대응되며, 이를 통해 매개변수 구조에 대한 얽힘 기반 특성화가 가능해집니다. 이에 따라 우리는 인공 신경망(특히 LLM)의 매개변수에 대한 얽힘 엔트로피로 정의되는 "인공 얽힘"이라는 개념을 정의하고 측정합니다. 우리는 먼저 Tulu3 및 OpenThoughts3 데이터셋으로 학습된 1B 및 8B 규모의 LLaMA 모델을 사용하여 대표적인 저순위 적응(LoRA) PEFT 방법과 완전 미세 조정(FFT)을 비교 연구하고 다음과 같은 사실을 발견했습니다: (i) LoRA의 쿼리 및 값 투영 행렬 업데이트에서 관찰된 내부 인공 얽힘은 중심 억제("얽힘 골짜기"라고 명명)를 동반한 체적 법칙을 따르며, 이는 하이퍼파라미터에 민감하고 FFT에서 관찰되는 양상과 구별됩니다; (ii) 표현 공간에서 토큰-토큰 상관관계에 해당하는 어텐션 행렬에서의 외부 인공 얽힘은 대수적 보정을 수반한 면적 법칙을 따르며, LoRA 하이퍼파라미터 및 학습 단계에 대해 강건하게 유지됩니다. 블랙홀 물리학의 '털 없는 정리'와 유사점을 도출하여, 우리는 LoRA와 FFT가 서로 다른 내부 얽힘 특성을 유발하지만, 이러한 차이가 어텐션 출력에는 나타나지 않아 저순위 업데이트의 효과성을 가져오는 "털 없는" 특성을 시사한다고 주장합니다. 우리는 또한 무작위 행렬 이론에 기반한 이론적 근거를 제시하고, 정성적으로 유사한 양상을 보이는 MPS 적응 PEFT 방법으로 분석을 확장합니다.
복선과 결말은 작가가 이야기 초반에 약속을 제시하고 구체적이며 관찰 가능한 결과를 통해 해결하는 보편적인 서사 장치입니다. 그러나 스토리 생성 기술이 발전했음에도 불구하고, 대규모 언어 모델(LLM)은 이러한 장기간의 서사적 의존 관계를 연결하는 데 자주 실패하며, 필요한 맥락이 존재함에도 불구하고 종종 "체호프의 총"을 발사하지 않은 채 방치합니다. 기존 평가는 주로 표면적 일관성에 초점을 맞추고 서사적 설정의 논리적 이행을 간과함으로써 이러한 구조적 결함을 대체로 간과해 왔습니다. 본 논문에서는 결말 실현이라는 관점을 통해 서사적 품질을 재정의하는 새로운 프레임워크인 '체계화된 복선-결말 생성(CFPG)'을 소개합니다. LLM이 복선으로 제시된 사건의 "발동 메커니즘"을 직관적으로 파악하는 데 어려움을 겪는다는 점을 인지하고, CFPG는 서사적 연속성을 실행 가능한 인과 관계 술어 집합으로 변환합니다. BookSum 코퍼스에서 복선-발동-결말 삼중항을 추출 및 인코딩함으로써, 복선으로 제시된 약속이 단순히 언급되는 것을 넘어 시기적절하고 논리적으로 이행되도록 구조화된 지도를 제공합니다. 실험 결과, CFPG가 결말 정확도와 서사 정합성 측면에서 표준 프롬프팅 기준선을 크게 능가하는 것으로 나타났습니다. 우리의 연구 결과는 서사 메커니즘을 명시적으로 체계화하는 것이 LLM이 표면적 유창성에서 진정한 서사 능력으로 나아가는 데 필수적임을 시사합니다.
그래픽 사용자 인터페이스(GUI)는 인간-컴퓨터 상호작용의 핵심이지만, 복잡한 GUI 작업의 자동화는 확장 가능한 고품질 학습 데이터의 부족으로 인해 자율 에이전트에게 여전히 큰 과제로 남아 있습니다. 인간의 시연 기록은 풍부한 데이터 원천이지만, 일반적으로 길고 비구조적이며 주석이 부족하여 에이전트가 학습하기 어렵습니다. 이를 해결하기 위해 우리는 데스크톱 환경에서 비구조적인 실제 인간의 화면 기록을 구조화되고 실행 가능한 작업으로 변환하는 포괄적인 파이프라인인 ShowUI-Aloha를 소개합니다. 우리의 프레임워크는 네 가지 핵심 구성 요소를 포함합니다: 화면 비디오와 함께 마우스 클릭, 키 입력, 스크롤 같은 정확한 사용자 상호작용을 포착하는 기록기. 이러한 원시 상호작용과 주변 시각적 맥락을 의미론적으로 해석하여 설명적인 자연어 캡션으로 변환하는 학습기. 구문 분석된 시연을 읽고 작업 상태를 유지하며 맥락적 추론을 기반으로 다음 고수준 행동 계획을 동적으로 수립하는 계획기. 이러한 행동 계획을 OS 수준에서 안전 검사와 실시간 피드백을 통해 정확한 클릭, 드래그, 텍스트 입력, 창 조작을 수행하는 실행기. 이러한 구성 요소들이 함께 작동하여 실제 인간 데이터를 수집하고 구문 분석하기 위한 확장 가능한 솔루션을 제공하며, 단순히 인간을 관찰함으로써 효과적으로 학습할 수 있는 범용 GUI 에이전트 구축을 위한 실현 가능한 경로를 제시합니다.
무인 항공기(UAV)는 택배 배송, 교통 모니터링, 재난 대응 및 인프라 점검과 같은 응용 분야에서 인간과 가까운 거리에 점점 더 많이 배치되고 있습니다. 이러한 인간이 거주하는 환경에서 안전하고 신뢰할 수 있는 운영을 보장하려면 항공 시점에서 인간의 자세와 행동을 정확하게 인지해야 합니다. 이러한 관점은 특히 응용 프로그램이 실시간 실행 가능한 모델을 요구할 경우 낮은 해상도, 급격한 시야각 및 (자체)폐색으로 기존 방법에 도전과제를 제기합니다. 우리는 항공 영상을 위한 경량 탑다운(top-down) 인간 자세 추정 파이프라인인 FlyPose를 학습 및 배포합니다. 다중 데이터셋 학습을 통해 Manipal-UAV, VisDrone, HIT-UAV 및 우리의 맞춤형 데이터셋 테스트 세트 전반에 걸쳐 평균 6.8 mAP의 사람 탐지 성능 향상을 달성했습니다. 2D 인간 자세 추정에서는 까다로운 UAV-Human 데이터셋에서 16.3 mAP의 향상을 보고합니다. FlyPose는 Jetson Orin AGX Developer Kit에서 전처리를 포함해 약 20밀리초의 추론 지연 시간으로 실행되며, 비행 실험 동안 쿼드로터 UAV에 온보드로 탑재되어 배포됩니다. 우리는 또한 어려운 항공 관점에서 수동 주석을 포함한 작지만 도전적인 항공 인간 자세 추정 데이터셋인 FlyPose-104를 공개합니다: https://github.com/farooqhassaan/FlyPose.
결정론적 추론은 고전적 소프트웨어에서 안심시키는 이상이다: 동일한 프로그램에 동일한 입력을 주면 항상 동일한 출력이 나와야 한다. 대규모 언어 모델이 실제 환경에 배포되면서, 이 이상이 추론 스택에 그대로 도입되었다. Thinking Machines Lab의 최근 연구는 LLM 추론에서의 비결정론을 상세히 분석하며, 배치-불변 커널과 결정론적 어텐션이 비트 단위 동일 출력을 어떻게 강제하는지 보여주고, 재현성과 기업 신뢰성의 전제 조건으로 결정론적 추론을 위치시켰다. 본 논문에서는 반대 입장을 취한다. 우리는 LLM의 경우 결정론적 추론이 발전을 저해한다고 주장한다. 이는 불확실성을 모델링하는 능력을 죽이고, 창발적 능력을 억제하며, 추론을 단일한 취약한 경로로 축소시키고, 꼬리 위험을 숨김으로써 안전성 정렬을 약화시킨다. LLM은 고정된 함수가 아닌, 출력에 대한 조건부 분포를 구현한다. 이러한 분포를 단일한 표준 완성문으로 축소하는 것은 안심시키는 것처럼 보일 수 있지만, 인공 인지의 핵심 속성들을 체계적으로 은폐한다. 우리는 대신 확률적 CHAOS를 주창하며, 분포적 변동성을 측정하고 통제해야 할 신호로 간주한다. 실증적으로, 우리는 결정론적 추론이 체계적으로 오해를 불러온다는 것을 보여준다. 단일 샘플 결정론적 평가는 역량과 취약성을 모두 과소평가하며, 패러프레이즈와 노이즈 하에서의 실패 확률을 가린다. 창발적 능력과 관련된 위상과 같은 전환은 탐욕적 디코딩 하에서 사라진다. 다중 경로 추론은 결정론적 백본에 강제될 때 저하되어 정확도와 진단적 통찰력을 감소시킨다. 마지막으로, 결정론적 평가는 다중 샘플 평가에서만 나타나는 희귀하지만 위험한 행동을 숨김으로써 안전 위험을 과소평가한다.
시스템 로그는 현대 컴퓨팅 인프라의 모니터링과 진단에 핵심적이지만, 그 규모와 복잡성으로 인해 신뢰할 수 있고 효율적인 자동 해석이 필요합니다. 심각도 수준은 시스템 로그 메시지에 미리 정의된 메타데이터이므로, 모델이 이를 단순히 분류하는 것만으로는 독립적인 실용 가치가 제한적이며 시스템 로그 해석의 근본적인 능력을 거의 드러내지 않습니다. 우리는 심각도 분류가 최종 작업으로보다는 런타임 로그 이해력을 탐색하는 벤치마크로 활용될 때 더 많은 정보를 제공한다고 주장합니다. Linux 프로덕션 서버의 실제 journalctl 데이터를 사용하여 9개의 소형 언어 모델(SLM)과 소형 추론 언어 모델(SRLM)을 제로샷, 퓨샷, 검색 증강 생성(RAG) 프롬프팅 조건에서 평가했습니다. 결과는 뚜렷한 성능 계층화를 보여줍니다. Qwen3-4B는 RAG 적용 시 95.64%로 가장 높은 정확도를 달성한 반면, Gemma3-1B는 퓨샷 프롬프팅에서 20.25%였던 정확도가 RAG 적용 시 85.28%로 향상되었습니다. 특히 소형 Qwen3-0.6B는 검색 없이는 약한 성능을 보였음에도 불구하고 88.12%의 정확도에 도달했습니다. 대조적으로 Qwen3-1.7B 및 DeepSeek-R1-Distill-Qwen-1.5B를 포함한 여러 SRLM은 RAG와 결합했을 때 성능이 현저히 저하되었습니다. 효율성 측정에서도 모델 간 차이가 두드러졌습니다: 대부분의 Gemma 및 Llama 변종은 로그 당 1.2초 미만으로 추론을 완료한 반면, Phi-4-Mini-Reasoning은 10% 미만의 정확도를 달성하면서도 로그 당 228초를 초과하는 시간이 소요되었습니다. 이러한 결과는 (1) 아키텍처 설계, (2) 훈련 목표, 그리고 (3) 엄격한 출력 제약 하에서 검색된 맥락을 통합하는 능력이 성능을 종합적으로 결정함을 시사합니다. 배포 가능한 소형 모델에 중점을 둔 이 벤치마크는 디지털 트윈(DT) 시스템의 실시간 요구사항과 부합하며, 심각도 분류가 모델의 능력과 실시간 배포 가능성을 평가하는 렌즈 역할을 하여 근본 원인 분석(RCA) 및 더 넓은 DT 통합에 시사점을 제공함을 보여줍니다.
임의 길이의 시퀀스 데이터를 효율적이고 내재적으로 처리하는 통합 신경망을 설계하는 것은 시퀀스 모델링에서 핵심적이면서도 어려운 과제입니다. Transformer의 설계 선택(2차 복잡도 및 약한 길이 외삽 능력 등)은 긴 시퀀스로 확장하는 데 한계를 보였습니다. 본 연구에서는 Mega와 Megalodon(게이트 어텐션과 지수 이동 평균 결합)의 설계를 계승하고, 장기 의존성 포착 능력을 향상시키기 위해 시간 감쇠 정규화, 슬라이딩 청크 어텐션 메커니즘, 적응형 작업 기억 등 여러 기술적 구성 요소를 추가로 도입한 Gecko 신경망 아키텍처를 제안합니다. 70억 개의 매개변수와 2조 개의 훈련 토큰 규모에서 Llama2 및 Megalodon과의 통제된 사전 훈련 비교에서 Gecko는 더 나은 효율성과 장문맥 확장성을 입증했습니다. Gecko는 1.68의 훈련 손실을 달성하여 Llama2-7B(1.75) 및 Megalodon-7B(1.70)를 크게 앞섰으며, Llama2-13B(1.67)에 근접한 성능을 보였습니다. 특히, 어떠한 문맥 확장 기술에도 의존하지 않으면서 Gecko는 내재적인 장문맥 처리 및 검색 능력을 보여주며, 최대 400만 토큰 길이의 시퀀스를 안정적으로 처리하고 어텐션 윈도우 길이의 최대 4배에 달하는 문맥에서 정보를 검색할 수 있었습니다. 코드: https://github.com/XuezheMax/gecko-llm
자기 일관성(self-consistency)은 추론 과제에서 대규모 언어 모델의 정확도를 향상시키기 위한 인기 있는 기술로 부상했습니다. 이 접근법은 간단합니다. 여러 추론 경로를 생성하고 다수결을 통해 가장 흔한 답을 선택하는 것입니다. 이 방법이 정확도를 안정적으로 높이기는 하지만, 이러한 향상이 진정한 추론 품질의 개선을 반영하는지는 여전히 불분명합니다. 우리는 이전에 연구된 적 없는 근본적인 질문을 조사합니다. 추론 규모 확장이 추론의 신뢰성(faithfulness)을 향상시키는가? 우리는 100개의 GSM8K 수학적 추론 문제에 대해 4개의 최첨단 모델(GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, DeepSeek-v3.2)을 대상으로 포괄적인 실증 연구를 수행했습니다. 우리의 분석은 부트스트랩 신뢰 구간, 짝지은 비교를 위한 McNemar 검정, Cohen의 d 효과 크기를 활용하여 효과를 엄격하게 정량화합니다. 결과는 자기 일관성에 대한 일반적인 가정에 의문을 제기하는 현저한 모델 간 차이를 보여줍니다. GPT-5.2는 예상된 패턴을 보입니다: N=5에서 정확도가 78%에서 90%로 향상되며 신뢰성은 상대적으로 안정적으로 유지됩니다(0.540에서 0.510). Claude Opus 4.5는 완전히 다른 이야기를 보여줍니다. 정확도는 실제로 78%에서 74.3%로 떨어지는 반면, N=5에서 신뢰성은 0.270에서 0.891로 극적으로 급증합니다. 이미 98%의 정확도를 보이는 DeepSeek-v3.2는 천장 효과를 보이며 신뢰성은 약간 향상됩니다(0.440에서 0.541). Gemini-3-flash는 정확도가 81%에서 86%로 향상되지만 신뢰성은 약간 감소합니다(0.260에서 0.212). 문제 난이도 분석에 따르면, GPT-5.2는 어려운 문제의 82%를 해결하는 반면 쉬운 문제는 13%만 실패합니다. 이와 대조적으로 Claude는 쉬운 문제의 23%를 실패하며, 이는 정확도 감소를 설명합니다. 이러한 발견은 실무자에게 중요합니다. 자기 일관성은 보편적으로 유익한 것이 아니며, 팀은 배포 전에 특정 모델을 테스트해야 합니다. 우리는 코드를 공개하고 이러한 절충점을 탐색하기 위한 실용적인 권장 사항을 제공합니다.
대규모 언어 모델의 사후 훈련은 일반적으로 지도 미세 조정(SFT)과 강화 학습(RL)을 번갈아 가며 수행됩니다. 이 두 방법은 서로 다른 목적을 가지고 있습니다: SFT는 모델 출력과 전문가 응답 간의 교차 엔트로피 손실을 최소화하는 반면, RL은 인간 선호도나 규칙 기반 검증기에서 도출된 보상 신호를 최대화합니다. 현대 추론 모델들은 SFT와 RL 훈련을 교대로 적용하는 방식을 널리 채택하고 있습니다. 그러나 이 둘을 분리할 수 있는지에 대한 이론적 설명은 부족했습니다. 우리는 두 순서 모두에서 분리가 불가능함을 증명합니다: (1) SFT-후-RL 결합: RL은 SFT 최적성 하에서 SFT 손실을 증가시키며, (2) RL-후-SFT 결합: SFT는 RL이 달성한 보상을 낮춥니다. Qwen3-0.6B에서 수행한 실험은 예측된 성능 저하를 확인하며, 사후 훈련에서 이전 성능의 손실 없이 SFT와 RL을 분리할 수 없음을 검증합니다.
대규모 원시 오디오로 사전 학습된 생성형 음성 언어 모델은 화자나 감정과 같은 속성을 보존하면서 적절한 내용으로 음성 프롬프트를 이어갈 수 있어, 음성 대화를 위한 기초 모델로 기능합니다. 기존 문헌에서는 이러한 모델을 '전역 토큰 복잡성'을 사용하여 평가하는 경우가 많으며, 이는 텍스트 복잡성 공식을 음성 토큰에 직접 적용합니다. 그러나 이러한 관행은 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 음성 특성을 과소평가할 가능성이 있습니다. 본 연구에서는 단순한 전역 토큰 복잡성을 대체할 수 있는 다양한 가능성 기반 및 생성 기반 평가 방법을 제안합니다. 제안된 평가 방법이 인간이 평가한 평균 의견 점수와 더 강한 상관관계를 보임으로써 지각된 생성 품질을 더 충실히 반영한다는 것을 입증합니다. 새로운 측정 기준으로 평가할 때, 음성 언어 모델의 상대적 성능 지형이 재구성되어 최고 성능 모델과 인간 상한선 간의 격차가 현저히 줄어드는 것을 확인할 수 있습니다. 이러한 결과를 종합해 보면, 음성 언어 모델링의 진전을 정확히 평가하기 위해 적절한 평가가 중요하다는 것을 시사합니다.
다중 모달 대규모 언어 모델(MLLMs)은 강력한 범용 능력을 보여주지만, 미세한 시각적 식별력을 요구하며 많은 실제 애플리케이션에서 중요한 핵심 인지 과업인 세분화 시각 분류(FGVC)에서는 여전히 어려움을 겪고 있습니다. 수학이나 코딩과 같은 도전적인 과제의 성능을 향상시키기 위해 널리 채택된 전략은 사고의 연쇄(CoT) 추론입니다. 그러나 여러 선행 연구들은 CoT가 실제로 시각 인지 과업의 성능을 해칠 수 있다고 보고했습니다. 이러한 연구들은 비교적 제한된 시각에서 문제를 검토했으며, CoT가 인지 중심 성능을 저하시키는 이유에 대해서는 열려둔 채로 남아 있습니다. 우리는 제로샷 평가와 다양한 훈련 패러다임이라는 렌즈를 통해 FGVC에서 CoT의 역할을 체계적으로 재검토합니다. 이러한 설정 전반에 걸쳐 우리는 핵심적인 역설을 발견했습니다: CoT에 의해 유발되는 성능 저하는 주로 추론 길이에 의해 결정되며, 더 긴 텍스트 추론은 일관되게 분류 정확도를 낮춥니다. 우리는 이 현상을 "사고의 비용(Cost of Thinking)"이라고 명명합니다. 이 발견을 바탕으로 우리는 두 가지 핵심 기여를 합니다: (1) 이질적인 보상 신호를 균형 있게 조정하는 다중 보상 최적화를 위한 간단하고 범용적인 플러그 앤 플레이 정규화 방법인 \alg, 그리고 (2) 앙상블 보상과 \alg를 결합하여 정확도 중심의 조밀한 피드백을 제공하면서 추론 길이를 제약하는 프레임워크인 ReFine-RFT입니다. 광범위한 실험을 통해 우리의 발견과 제안된 ReFine-RFT의 효과성을 입증하며, FGVC 벤치마크 전반에서 최첨단 성능을 달성했습니다. 코드와 모델은 https://github.com/jiezhu23/ReFine-RFT{프로젝트 링크}에서 확인할 수 있습니다.
멀티모달 대규모 언어 모델(MLLM)은 시각적 이해 분야에서 놀라운 발전을 이루었지만, 인간이 생성한 스케치의 비정형적이고 모호한 특성 앞에서는 종종 어려움을 겪습니다. 이러한 한계는 모델이 단순히 문제를 해결하는 것을 넘어 손으로 그린 다이어그램의 오류를 진단해야 하는 시각적 채점이라는 충분히 연구되지 않은 과업에서 특히 두드러집니다. 이러한 진단 능력은 복잡한 구조적, 의미론적, 메타인지적 추론에 의존합니다. 이러한 격차를 해소하기 위해 우리는 손으로 그린 STEM 다이어그램 채점자로서 MLLM을 평가하기 위한 새로운 벤치마크인 SketchJudge를 소개합니다. SketchJudge는 기하학, 물리학, 차트, 플로차트 등 4개 영역에 걸친 1,015개의 손으로 그린 학생 응답을 포함하며, 다양한 스타일적 변형과 뚜렷한 오류 유형을 특징으로 합니다. SketchJudge에 대한 평가 결과, 최첨단 MLLM조차도 인간에 비해 크게 뒤처지는 것으로 나타나 기호 및 노이즈가 있는 환경에서 현재 시각-언어 정렬의 취약성을 드러내는 벤치마크의 효과성을 입증했습니다. 모든 데이터, 코드 및 평가 스크립트는 https://github.com/yuhangsu82/SketchJudge에서 공개적으로 이용 가능합니다.
금융과 같은 전문적이고 위험 부담이 높은 분야에서 언어 모델(LM)을 평가하는 것은 공개적이고 고품질이며 도메인 특화된 데이터셋의 부족으로 인해 여전히 큰 과제로 남아 있습니다. 기존의 일반 목적 벤치마크는 광범위한 범위를 제공하지만, 개념적 이해와 정량적 엄밀성을 모두 요구하는 실전 금융 추론을 평가하는 데 필요한 깊이와 도메인 충실도가 부족합니다. 이러한 격차를 해소하기 위해 본 연구는 전문가 주도 데이터 큐레이션과 통제된 LM 기반 합성을 결합한 하이브리드 방식을 통해 금융 특화 평가 벤치마크를 구축하는 확장 가능한 반-합성(semi-synthetic) 파이프라인인 FinForge를 소개합니다. FinForge는 권위 있는 금융 출처로부터 수동 및 프로그램 방식의 코퍼스 구축과 Gemini 2.5 Flash를 활용한 구조화된 질문 생성 및 검증을 결합합니다. 이 파이프라인의 효용성을 입증하기 위해, 총 143M 토큰에 달하는 100,000개의 검증된 문서로 구성된 큐레이션 코퍼스에서 도출된 11개 금융 하위 도메인에 걸친 5,000개 이상의 인간 검증 질문-답변 쌍으로 구성된 스냅샷 벤치마크인 FinForge-5k를 생성했습니다. FinForge-5k를 사용한 최첨단 오픈소스 및 클로즈드소스 모델 평가 결과, 금융 추론 능력에서 현저한 차이가 확인되었으며, 선두 모델들의 정확도는 약 80% 수준에 도달했습니다. 이러한 결과는 현재 모델의 한계를 진단하고 금융 도메인 역량의 미래 개선을指引하는 데 본 프레임워크의 유용성을 강조합니다. 모든 코드와 데이터는 https://github.com/gtfintechlab/FinForge 에서 이용 가능합니다.
공간 지능은 3차원 환경 내에서 객체와 그 상호관계를 인지, 추론, 설명하는 능력을 의미하며, 구체화된 지각 및 장면 이해의 기초를 형성합니다. 3D 캡셔닝은 3D 장면을 자연어로 기술하는 것을 목표로 하지만, 점군의 희소성과 불규칙성뿐만 아니라 더 근본적으로는 기존 캡셔너의 약한 접지와 실내외 3D 장면을 포함한 극히 다른 환경 간 제한적인 분포 외 일반화 성능으로 인해 여전히 과제로 남아 있습니다. 이러한 문제를 해결하기 위해 우리는 대조적 시각-언어 학습과 3D 캡션 생성을 통합하고, 캡셔너 매개변수 업데이트 없이 테스트 시점 탐색을 통해 강건성을 더욱 향상시키는 일반화 가능한 3D 캡셔닝 프레임워크인 3D CoCa v2를 제안합니다. 3D CoCa v2는 고정된 CLIP 기반 의미론적 사전 지식, 기하학적 정보를 위한 공간 인식 3D 장면 인코더, 그리고 대조 및 캡셔닝 목표를 함께 최적화하는 다중 모드 디코더를 기반으로 하여 외부 검출기나 수작업 제안을 필요로 하지 않습니다. 추론 단계에서 테스트 시점 탐색은 다양한 캡션 후보를 생성하고 간결한 장면 요약을 이용한 보안도 기반 선택을 수행합니다. 실험 결과, ScanRefer에서 CIDEr@0.5IoU 기준 3D CoCa 대비 +1.50, Nr3D에서 +1.61의 성능 향상을 보였으며, TOD3Cap의 제로샷 분포 외 평가에서 CIDEr@0.25 기준 +3.8의 향상을 나타냈습니다. 코드는 https://github.com/AIGeeksGroup/3DCoCav2에서 공개될 예정입니다.
직접 선호도 최적화(DPO)는 대규모 언어 모델을 쌍별 선호도에 맞춰 정렬하기 위한 RLHF의 원칙적이고 확장 가능한 대안이지만, 그 내부 기하학적 특성은 충분히 규명되지 않아 감사, 체크포인트 비교, 실패 예측에 제한을 줍니다. 우리는 SPINAL(신경 정렬 계층 내 스케일링 법칙 및 선호도 통합)을 소개합니다. 이는 정렬이 표현 공간을 계층별로 어떻게 재구성하는지 국소적 구조 변화를 추적하여 측정하는 진단법입니다. 다양한 모델 패밀리에서 DPO는 주로 최종 디코더 블록(종종 21-30계층)에 집중된 계층별 보정 효과를 생성하며, 이는 선호도 기울기가 다음 토큰 분포에 가장 직접적으로 영향을 미치는 영역입니다. SPINAL은 각 체크포인트를 (계층 인덱스, 수축 점수, 이동 점수)에 대한 깊이 추적으로 인코딩합니다. 수축 점수는 한 계층의 스펙트럼 꼬리가 얼마나 빠르게 감소하는지(작은 모드가 얼마나 빨리 사라지는지)를 요약하며, 높은 값은 더 적은 유효 방향으로의 강한 수축을 나타냅니다. 이동 점수는 경계 중첩 측정을 사용해 인접 계층 간 토큰 분포 이동량을 요약하며, 낮은 값은 표현 공간 내에서 더 짧고 부드러운 이동을 의미합니다. 정렬된 체크포인트는 후반 계층에서 수축이 급증하고 이동이 부드럽게 감소하는 패턴을 보이며, 이는 정책 질량이 강화되고 안정화된 것과 일치합니다. 반면, 비정렬 모델은 더 높은 곡률, 더 높은 엔트로피, 그리고 기하학적으로 비일관된 깊이 경로를 추적합니다. 전체적으로 정렬은 기하학적으로 국소화됩니다: 최종 계층들이 지배적인 선호도 유도 보정을 인코딩합니다. SPINAL은 이러한 국소화를 실용적인 감사 신호로 전환하여 정렬이 어디에 집중되는지, 얼마나 강하게 나타나는지, 훈련 중 언제 불안정해지기 시작하는지를 정량화합니다.
비조합적 표현(관용구, 속담, 은유 등)은 그 의미가 개별 단어만으로 도출될 수 없어 신경망 기계 번역 시스템에 상당한 과제를 제기합니다. 이러한 표현은 풍부한 문화적 의미를 내포하고 있으며 비유적 의미와 문자적 의미를 모두 지니고 있어 정확한 번역이 어렵습니다. 모델이 조합적 텍스트 번역에는 상당히 능하므로, 우리는 관용구 번역 능력을 향상시키기 위해 기계 번역 품질 추정(MTQE) 모델을 보상 함수로 활용한 GRPO 방식의 미세 조정을 연구합니다. 중국어와 힌디어 관용구 데이터셋을 사용한 결과, 관용구 번역 능력은 약 14점, 일반 비관용구 번역은 약 8점, 교차 언어 번역 능력(한 언어로 훈련 후 다른 언어로 평가)은 약 6점 각각 향상되었습니다. 전반적으로 본 연구는 비조합적 번역의 격차를 정량화하고, 더 강력한 문화 간 및 비유적 언어 이해 능력을 갖춘 대규모 언어 모델 개발을 위한 통찰을 제공합니다.