번역이 포함된 일일 선별된 AI 연구 논문
추론은 추론, 문제 해결, 의사 결정의 기초가 되는 핵심 인지 과정이다. 대규모 언어 모델(LLM)은 폐쇄적 환경에서는 강력한 추론 능력을 보이지만, 개방적이고 동적인 환경에서는 어려움을 겪는다. 에이전트 추론은 LLM을 지속적 상호작용을 통해 계획하고 행동하며 학습하는 자율적 에이전트로 재정의함으로써 패러다임 전환을 가져온다. 본 고찰에서는 에이전트 추론을 세 가지 상호 보완적 차원으로 체계화한다. 먼저, 환경 역동성을 세 가지 계층으로 구분한다: 안정된 환경에서 계획, 도구 사용, 탐색 등 핵심 단일 에이전트 능력을 확립하는 기초 에이전트 추론; 피드백, 기억, 적응을 통해 에이전트가 이러한 능력을 개선하는 방법을 연구하는 자기 진화 에이전트 추론; 조정, 지식 공유, 공동 목표를 포괄하는 협력적 환경으로 지능을 확장하는 집단적 다중 에이전트 추론. 이러한 계층 전반에 걸쳐, 구조화된 오케스트레이션을 통해 시험 시간 상호작용을 확장하는 맥락 내 추론과, 강화 학습 및 지도 미세 조정을 통해 행동을 최적화하는 사후 훈련 추론을 구분한다. 나아가 과학, 로봇공학, 의료, 자율 연구, 수학을 포함한 실제 응용 분야 및 벤치마크에서 대표적인 에이전트 추론 프레임워크를 검토한다. 본 고찰은 에이전트 추론 방법을 사고와 행동을 연결하는 통합 로드맵으로 종합하고, 개인화, 장기적 상호작용, 세계 모델링, 확장 가능한 다중 에이전트 훈련, 실제 배포를 위한 거버넌스를 포함한 개방형 과제와 미래 방향을 제시한다.
딥 리서치 에이전트(DRA)는 다단계 검색 및 종합을 통해 인용이 풍부한 보고서를 생성하지만, 기존 벤치마크는 주로 텍스트 전용 환경이나 단문 형식의 멀티모달 질의응답을 대상으로 하여, 종단간 멀티모달 증거 사용을 평가하지 못하는 한계가 있습니다. 본 연구에서는 21개 도메인에 걸친 전문가 제작 140개 태스크로 구성된 벤치마크인 MMDeepResearch-Bench(MMDR-Bench)를 소개합니다. 각 태스크는 이미지-텍스트 번들을 제공하여 멀티모달 이해 능력과 증거에 기반한 보고서 생성 능력을 평가합니다. 기존 설정과 비교하여 MMDR-Bench는 명시적 증거 사용을 통한 보고서 스타일 종합에 중점을 두며, 모델이 시각적 자료를 출처가 명시된 주장과 연결하고 서술, 인용, 시각적 참조 간 일관성을 유지해야 합니다. 또한 통합적이고 해석 가능한 평가 파이프라인을 제안합니다: 보고서 품질 평가를 위한 FLAE(Formula-LLM Adaptive Evaluation), 증거-인용 정렬도 평가를 위한 TRACE(Trustworthy Retrieval-Aligned Citation Evaluation), 텍스트-시각 정보 무결성 평가를 위한 MOSAIC(Multimodal Support-Aligned Integrity Check)로, 각각 단일 전체 점수 이상의 세분화된 신호를 제공하여 오류 진단을 지원합니다. 25개의 최신 모델에 대한 실험 결과, 생성 품질, 인용 정확성, 멀티모달 근거 간 체계적인 트레이드오프가 확인되었으며, 우수한 문장력만으로는 충실한 증거 사용을 보장할 수 없으며 멀티모달 무결성이 딥 리서치 에이전트의 핵심 병목 현상으로 남아 있음을 보여줍니다.
비디오 생성 모델은 물리적 세계의 인지, 추론 및 행동을 포착하는 다양한 로봇 데이터 생성의 새로운 가능성을 열어가며 구현형 인공지능을 크게 발전시켰습니다. 그러나 실제 로봇 상호작용을 정확히 반영하는 고품질 비디오 합성은 여전히 어려운 과제이며, 표준화된 벤치마크의 부재는 공정한 비교와 발전을 제한하고 있습니다. 이러한 격차를 해결하기 위해 우리는 5가지 작업 영역과 4가지 독립적인 구현체에 걸쳐 로봇 지향 비디오 생성을 평가하기 위해 설계된 포괄적인 로봇 공학 벤치마크인 RBench를 소개합니다. 이 벤치마크는 재현 가능한 하위 메트릭(구조적 일관성, 물리적 타당성, 행동 완전성 등)을 통해 작업 수준의 정확성과 시각적 충실도를 모두 평가합니다. 25개의 대표적인 모델에 대한 평가는 물리적으로 현실적인 로봇 행동을 생성하는 데 있어 상당한 결함이 있음을 보여줍니다. 더 나아가, 본 벤치마크는 인간 평가와 0.96의 스피어만 상관계수를 달성하여 그 효과성을 입증했습니다. RBench가 이러한 결함을 식별하는 데 필요한 렌즈를 제공하는 반면, 물리적 현실감을 달성하기 위해서는 평가를 넘어 고품질 학습 데이터의 심각한 부족 문제를 해결해야 합니다. 이러한 통찰력을 바탕으로, 우리는 정제된 4단계 데이터 파이프라인을 도입하여 400만 개의 주석이 달린 비디오 클립, 수천 가지의 작업 범위, 포괄적인 물리 속성 주석으로 구성된 비디오 생성용 최대 규모의 오픈소스 로봇 데이터셋인 RoVid-X를 개발했습니다. 종합적으로, 평가와 데이터의 이 상승적 생태계는 비디오 모델의 엄격한 평가와 확장 가능한 학습을 위한 견고한 기반을 마련함으로써 구현형 AI가 일반 지능으로 진화하는 것을 가속화할 것입니다.
효과적인 반론(rebuttal) 작성은 언어적 유창성 이상을 요구하는 높은 수준의 과업으로, 심사자의 의도와 원고의 세부 사항 간 정확한 정합이 필요합니다. 기존 해결책들은 일반적으로 이를 직접 텍스트 생성 문제로 취급하여 허구적 내용 생성, 간과된 비판, 검증 가능한 근거 부족 등의 한계를 보입니다. 이러한 한계를 해결하기 위해 우리는 반론 생성을 증거 중심 계획 수립 과업으로 재구성하는 최초의 다중 에이전트 프레임워크인 RebuttalAgent를 소개합니다. 우리 시스템은 복잡한 피드백을 원자적 단위의 문제로 분해하고, 압축된 요약과 높은 정확도의 원문을 종합하여 하이브리드 맥락을 동적으로 구축함과 동시에, 외부 문헌이 필요한 문제를 해결하기 위해 자율적이고 주문형(on-demand) 외부 검색 모듈을 통합합니다. 반론 초안 작성 전 검증 가능한 응답 계획을 생성함으로써 RebuttalAgent는 모든 주장이 내부 또는 외부 증거에 명시적으로 기반하도록 보장합니다. 우리은 제안된 RebuttalBench에서 우리의 접근 방식을 검증하며, 우리의 파이프라인이 Coverage, 정확성(Faithfulness), 전략적 일관성(Strategic Coherence)에서 강력한 기준 모델들을 능가함을 입증하여, 동료 검토 과정을 위한 투명하고 제어 가능한 보조 도구를 제공합니다. 코드는 공개될 예정입니다.
강화학습(RL)은 사후 훈련의 핵심 요소이며, 특히 전문적인 추론 행동이 필요한 에이전트 모델에서 중요합니다. 이러한 맥락에서 모델 병합은 서로 다른 작업에서 RL로 훈련된 다중 에이전트를 단일 일반ist 모델로 통합하는 실용적인 메커니즘을 제공합니다. 그러나 기존 병합 방법은 지도 미세 조정(SFT)을 위해 설계되어 RL로 훈련된 에이전트 모델의 작업별 능력을 보존하는 데에는 차선책입니다. 그 근본 원인은 RL과 SFT 간의 작업 벡터 불일치에 있습니다: 온-정책 RL은 매우 희소하고 이질적인 작업 벡터를 생성하는 반면, SFT 스타일 병합은 암묵적으로 밀집되고 전역적으로 비교 가능한 작업 벡터를 가정합니다. 이러한 불일치 상황에서 표준 전역 평균화를 적용하면 중요한 작업별 행동을 인코딩하는 RL의 겹치지 않는 작업 벡터가 축소되고 매개변수 업데이트가 희석됩니다. 이 문제를 해결하기 위해 우리는 RL로 훈련된 에이전트 모델을 위해 명시적으로 설계된 분포 인식 병합 프레임워크인 Reinforced Agent Merging (RAM)을 제안합니다. RAM은 공유 매개변수 업데이트와 작업별 고유 매개변수 업데이트를 분리하여 공유 구성요소는 평균화하는 동시에 고유 구성요소는 선택적으로 보존 및 재조정하여 매개변수 업데이트 희석을 방지합니다. 다양한 에이전트 도메인과 모델 아키텍처에서의 실험을 통해 RAM이 병합 기준선을 능가할 뿐만 아니라, 에이전트 간의 시너지 잠재력을 극대화하여 해당 도메인의 전문 에이전트 성능을 뛰어넘는 결과를 달성함을 입증했습니다.
GutenOCR은 Qwen2.5-VL-3B와 Qwen2.5-VL-7B를 미세 조정하여 얻은 일련의 접지된 OCR 프론트엔드 모델 패밀리입니다. 결과적으로 생성된 단일 체크포인트 비전-언어 모델은 통합된 프롬프트 기반 인터페이스를 통해 읽기, 감지 및 접지 기능을 제공합니다. 비즈니스 문서, 과학 논문 및 합성 접지 데이터로 학습된 이 모델들은 라인 및 단락 수준의 경계 상자와 조건부 "x는 어디에 있나요?" 쿼리를 통해 전체 페이지 및 지역화된 읽기를 지원합니다. 본 논문은 접지된 OCR 평가 프로토콜을 소개하고, GutenOCR-7B가 10.5K개의 보류된 비즈니스 및 과학 페이지에서 기본 Qwen2.5-VL-7B 백본의 복합 접지 OCR 점수를 두 배 이상 향상시킴을 보여줍니다(0.40에서 0.82로). Fox 및 OmniDocBench v1.5 벤치마크에서 우리의 접근 방식은 영역 및 라인 수준 OCR과 텍스트 감지 재현율을 크게 개선하지만, 페이지 수준 선형화, 색상 기반 OCR 및 수식이 많은 레이아웃에서 트레이드오프가 있음을 보여줍니다.
체인 오브 쏘트(CoT) 프롬프팅은 대규모 언어 모델(LLM)의 추론 능력을 활성화하는 데 있어 주목할 만한 성과를 거두었습니다. CoT 프롬프팅은 추론 능력을 향상시키지만, 과도한 텍스트 길이로 인해 상당한 계산 부하가 발생합니다. 최근 연구들은 주로 결과 정렬에만 집중하고 중간 추론 과정에 대한 감독이 부족한 경우가 많습니다. 이러한 한계는 잠재적 추론 체인의 분석 가능성을 저해합니다. 이러한 문제를 해결하기 위해 우리는 추론 체인의 구체화를 위해 텍스트 단계를 이미지로 렌더링하여 잠재적 논리를 명시적이고 추적 가능하게 만드는 최초의 프레임워크인 렌더 오브 쏘트(RoT)를 제안합니다. 구체적으로, 우리는 기존 시각 언어 모델(VLM)의 시각 인코더를 의미론적 앵커로 활용하여 시각 임베딩과 텍스트 공간을 정렬합니다. 이러한 설계는 추가 사전 학습 부담 없이 플러그 앤 플레이 방식의 구현을 보장합니다. 수학적 및 논리적 추론 벤치마크에서의 광범위한 실험을 통해 우리의 방법이 명시적 CoT 대비 3-4배의 토큰 압축률과 상당한 추론 가속화를 달성함을 입증했습니다. 또한 다른 방법들 대비 경쟁력 있는 성능을 유지하며 이 패러다임의 실현 가능성을 검증하였습니다. 우리의 코드는 https://github.com/TencentBAC/RoT에서 확인할 수 있습니다.
문서 추출은 디지털 워크플로우의 핵심 구성 요소이지만, 기존 시각-언어 모델(VLM)은 주로 고자원 언어에 편향되어 있습니다. 태국어는 비라틴 문자로 인한 문자 체계의 복잡성, 명시적인 단어 경계의 부재, 그리고 매우 비정형적인 실제 문서의 보편화로 인해 추가적인 어려움을 제시하며, 이는 현재 오픈소스 모델들의 효과성을 제한합니다. 본 논문은 태국어와 영어에 특화된 문서 추출용 오픈 VLM인 Typhoon OCR을 소개합니다. 이 모델은 태국어 중심의 훈련 데이터셋을 사용하여 시각-언어 기반 모델을 미세 조정했습니다. 해당 데이터셋은 전통적인 OCR, VLM 기반 재구성, 그리고 정제된 합성 데이터를 결합한 다단계 데이터 구축 파이프라인을 통해 개발되었습니다. Typhoon OCR은 텍스트 전사, 레이아웃 재구성, 문서 수준의 구조적 일관성을 모두 수행할 수 있는 통합 프레임워크입니다. 최신 버전인 Typhoon OCR V1.5는 메타데이터 의존성을 줄이고 배포를 단순화하도록 설계된 경량이며 추론 효율이 높은 모델입니다. 재무 보고서, 정부 양식, 도서, 인포그래픽, 수기 문서 등 다양한 태국어 문서 범주에 걸친 포괄적인 평가 결과, Typhoon OCR은 계산 비용이 상당히 낮음에도 불구하고 대규모의 독점 프론티어 모델에 버금가거나 이를 능가하는 성능을 달성함을 보여줍니다. 이러한 결과는 오픈 시각-언어 OCR 모델이 경량이고 배포 가능한 상태를 유지하면서도 태국어 문서에 대해 정확한 텍스트 추출 및 레이아웃 재구성 성능을 달성하여 독점 시스템에 준하는 성능에 도달할 수 있음을 입증합니다.
Whisper와 같은 대규모 인코더-디코더 모델은 강력한 오프라인 음성 인식 성능을 달성하지만 높은 지연 시간으로 인해 스트리밍 애플리케이션에는 비실용적입니다. 그러나 사전 훈련된 체크포인트의 접근성으로 인해 태국어 ASR 분야는 이러한 오프라인 아키텍처가 주류를 이루고 있어, 효율적인 스트리밍 솔루션에 중요한 공백이 존재합니다. 본 논문에서는 저지연 태국어 음성 인식을 위한 1억 1,500만 개 파라미터 규모의 FastConformer-Transducer 모델인 Typhoon ASR Real-time을 제안합니다. 우리는 엄격한 텍스트 정규화가 모델 규모 확장만큼의 효과를 낼 수 있음을 입증합니다: 우리의 경량 모델은 Whisper Large-v3 대비 계산 비용을 45배 절감하면서도 유사한 정확도를 제공합니다. 본 연구의 정규화 파이프라인은 상황에 따른 숫자 읽기 및 반복 표시어(ไม้ยมก)를 포함한 태국어 전사 체계의 모호성을 해소하여 일관된 훈련 목표를 생성합니다. 또한 중부 태국어 성능을 유지하면서 이산(동북부) 방언 적응을 위한 2단계 커리큘럼 학습 접근법을 도입합니다. 태국어 ASR의 재현성 과제를 해결하기 위해, 우리는 확립된 태국어 언어 규칙을 따르는 전사로 구성된 정확한 인간 레이블 데이터셋인 Typhoon ASR Benchmark와 표준화된 평가 프로토콜을 연구 커뮤니티에 공개합니다.
에이전트 시스템은 최근 다중 모델과 도구의 협업을 통해 강력한 성능을 달성하며 정형 정리 증명의 주류 패러다임으로 부상했습니다. 그러나 기존 접근법은 과제별 파이프라인과 훈련된 정형 증명기에 의존하는 경우가 많아 유연성과 재현성이 제한됩니다. 본 논문에서는 범용 코딩 에이전트를 정형 수학 추론기로 직접 활용하는 패러다임을 제안합니다. 이 패러다임의 동기는 다음과 같습니다: (1) 범용 코딩 에이전트는 증명 이상의 다양한 추론 과제에 자연스러운 인터페이스를 제공하며, (2) 훈련 없이 기저 모델만 교체하면 성능을 향상시킬 수 있고, (3) MCP가 복잡한 설계 없이도 특화 도구의 유연한 확장과 자율 호출을 가능하게 합니다. 이 패러다임을 바탕으로 우리는 Claude Code와 Numina-Lean-MCP를 결합한 Numina-Lean-Agent를 소개합니다. 이는 Lean과의 자율적 상호작용, 관련 정리 검색, 비형식적 증명 및 보조 추론 도구 활용을 가능하게 합니다. Claude Opus 4.5를 기저 모델로 사용한 Numina-Lean-Agent는 Putnam 2025의 모든 문제(12/12)를 해결하여 최고의 폐쇄형 시스템과 동등한 성능을 보였습니다. 벤치마크 평가를 넘어, 우리는 수학자들과의 협업을 통해 Brascamp-Lieb 정리를 성공적으로 형식화하는 사례를 추가로 제시하여 일반성을 입증합니다. Numina-Lean-Agent와 모든 솔루션은 https://github.com/project-numina/numina-lean-agent에서 공개합니다.
대규모 언어 모델(LLM) 기반 금융 에이전트가 투자 분석, 위험 평가, 자동 의사 결정 분야에 점차 배포되면서, 계획 수립, 도구 호출, 변경 가능한 상태 조작 능력으로 인해 고위험 및 고규제 금융 환경에서 새로운 보안 위험이 발생하고 있습니다. 그러나 기존의 안전성 평가는 주로 언어 모델 수준의 콘텐츠 준수 또는 추상적인 에이전트 설정에 초점을 맞추어, 실제 운영 워크플로우와 상태 변경 작업에서 비롯되는 실행 기반 위험을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 금융 에이전트를 위한 최초의 실행 기반 보안 벤치마크인 FinVault를 제안합니다. FinVault는 상태 기록 가능 데이터베이스와 명시적 규제 준수 제약 조건을 갖춘 31개의 규제 사례 기반 샌드박스 시나리오, 107개의 실제 취약점, 963개의 테스트 케이스로 구성되어 있으며, 프롬프트 인젝션, 탈옥(jailbreaking), 금융 맞춤형 공격과 함께 오탐(false-positive) 평가를 위한 정상 입력을 체계적으로 다룹니다. 실험 결과, 기존 방어 메커니즘은 현실적인 금융 에이전트 환경에서 여전히 효과적이지 않으며, 최첨단 모델에서 평균 공격 성공률(ASR)이 50.0%에 달하고 가장 강력한 시스템에서도 공격 성공률(6.7%)이 무시할 수 없는 수준으로 나타나 현재 안전성 설계의 제한된 전이성과 금융 특화 강력한 방어 체계의 필요성을 강조합니다. 우리의 코드는 https://github.com/aifinlab/FinVault에서 확인할 수 있습니다.
최근 등장한 종단형 음성 대화 시스템은 음성 토크나이저와 신경망 오디오 코덱을 활용하여 LLM이 이산 음성 표현을 직접 처리할 수 있도록 합니다. 그러나 이러한 모델들은 화자 정체성 보존 능력이 제한적이어서 개인화된 음성 상호작용을 저해하는 경우가 많습니다. 본 연구에서는 낮은 지연 시간의 상호작용과 높은 정확도의 개인화된 음성 복제를 동시에 달성하는 최초의 오픈소스 실시간 종단형 음성 대화 모델인 Chroma 1.0을 소개합니다. Chroma는 스트리밍 생성을 지원하는 교차 텍스트-오디오 토큰 스케줄링(1:2)을 통해 1초 미만의 종단 간 지연 시간을 달성하면서도 다중 턴 대화에서 고품질의 개인화된 음성 합성을 유지합니다. 실험 결과에 따르면 Chroma는 인간 기준 대비 화자 유사도에서 10.96%의 상대적 향상을 보였으며, Real-Time Factor(RTF)는 0.43으로 측정되었고 강력한 추론 및 대화 능력을 유지했습니다. 코드와 모델은 https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma와 https://huggingface.co/FlashLabs/Chroma-4B에서 공개되어 있습니다.
정보 검색은 에이전트 기반 AI에 의해 재정의되며, 기존의 유사성 기반 패러다임을 넘어선 다중모달 추론을 요구하고 있습니다. 구성적 이미지 검색(CIR)은 각 쿼리가 참조 이미지와 텍스트 수정을 결합하여 다중 모달리티에 걸친 구성적 이해를 필요로 함으로써 이러한 전환을 대표합니다. 임베딩 기반 CIR 방법이 발전을 이루었지만, 여전히 시각이 제한적이며 제한된 교차 모달 단서만 포착하고 의미론적 추론이 부족합니다. 이러한 한계를 해결하기 위해 우리는 검색을 점진적으로 조정되는 추론 과정으로 재구성하는 학습 불필요 다중 에이전트 프레임워크인 XR을 소개합니다. XR은 세 가지 전문 에이전트 유형을 조정합니다: 상상 에이전트는 교차 모달 생성으로 목표 표현을 합성하고, 유사성 에이전트는 하이브리드 매칭을 통해 초기 필터링을 수행하며, 질문 에이전트는 표적 추론을 통해 사실 일관성을 검증하여 정교한 필터링을 수행합니다. 점진적 다중 에이전트 조정을 통해 XR은 의미론적 및 시각적 쿼리 제약을 모두 충족하도록 검색을 반복적으로 정제하며, FashionIQ, CIRR, CIRCO 데이터셋에서 강력한 학습 불필요 및 학습 기반 기준선 대비 최대 38% 성능 향상을 달성했으며, 애블레이션 연구를 통해 각 에이전트의 필수성을 입증했습니다. 코드 이용 가능: https://01yzzyu.github.io/xr.github.io/.
로보브레인 2.5를 소개합니다. 이는 차세대 구현형 AI 기초 모델로, 고품질 시공간 감독 데이터를 통한 대규모 학습을 통해 일반적인 인식, 공간 추론 및 시간적 모델링 기능을 향상시킵니다. 이전 모델을 기반으로 한 로보브레인 2.5는 두 가지 주요 능력 업그레이드를 도입했습니다. 구체적으로, 이 모델은 2D 픽셀 상대적 접근에서 깊이 인식 좌표 예측 및 절대적 미터법 제약 조건 이해로 전환하여 **정밀 3D 공간 추론**을 구현합니다. 이를 통해 물리적 제약 조건 하에서 순서가 지정된 키포인트 시퀀스로 완전한 3D 조작 궤적을 생성합니다. 이러한 공간 정밀도를 보완하기 위해, 모델은 다양한 시점에서 단계 인식 진행률 예측과 실행 상태 이해를 제공하는 **조밀 시간적 가치 추정**을 확립하여 하위 작업 학습을 위한 안정적인 피드백 신호를 생성합니다. 이러한 업그레이드를 통해 이 프레임워크는 복잡하고 세분화된 조작을 위한 보다 물리적으로 근거 있고 실행을 인지하는 구현형 지능으로 확장됩니다. 코드와 체크포인트는 프로젝트 웹사이트(https://superrobobrain.github.io)에서 이용할 수 있습니다.
우리는 언어 모델에서 새로운 현상을 확인했습니다: 첨단 모델의 양성 미세조정이 프라이버시 붕괴로 이어질 수 있다는 점입니다. 우리는 훈련 데이터에 존재하는 다양하고 미묘한 패턴들이 맥락적 프라이버시를 저하시킬 수 있음을 발견했는데, 이에는 도움성 최적화, 사용자 정보 노출, 정서적 및 주관적 대화, 내부 변수를 출력하는 코드 디버깅 등이 포함됩니다. 미세조정된 모델은 맥락적 프라이버시 규범에 대한 추론 능력을 상실하고, 도구와 부적절하게 정보를 공유하며, 다양한 맥락 간 메모리 경계를 위반합니다. 프라이버시 붕괴는 '침묵적 실패'에 해당하는데, 이는 모델이 심각한 프라이버시 취약점을 보이면서도 표준 안전성 및 유용성 벤치마크에서는 높은 성능을 유지하기 때문입니다. 우리의 실험은 6개 모델(폐쇄형 및 오픈 가중치), 5개 미세조정 데이터셋(실제 및 통제 데이터), 2개 작업 범주(에이전트 기반 및 메모리 기반)에 걸쳐 프라이버시 붕괴 증거를 보여줍니다. 우리의 메커니즘 분석은 프라이버시 표현이 보존되는 작업 관련 특징과 비교해 미세조정에 특히 취약함을 밝혀냅니다. 우리의 결과는 특히 전문화된 에이전트 배포를 위한 현재 안전성 평가의 중대한 간극을 드러냅니다.
영어를 포함한 많은 구어 언어는 방언과 액센트에서 광범위한 변이를 보이므로, 액센트 제어는 유연한 텍스트-투-스피치(TTS) 모델의 중요한 능력입니다. 현재 TTS 시스템은 일반적으로 특정 액센트와 연관된 화자 임베딩을 조건으로 하여 액센트가 포함된 음성을 생성합니다. 이 방법은 효과적이지만, 임베딩이 음색이나 감정과 같은 특성도 함께 인코딩하기 때문에 해석 가능성과 제어 가능성이 제한적입니다. 본 연구에서는 액센트 음성 합성에서 화자 임베딩과 언어학적으로 동기를 부여한 음운 규칙 간의 상호작용을 분석합니다. 미국 영어와 영국 영어를 사례 연구로 사용하여 플래핑, rhoticity(R음화), 모음 대응 규칙을 구현합니다. 우리는 임베딩이 규칙 기반 변환을 보존하거나 재정의하는 강도를 정량화하는 새로운 지표인 음소 변환율(PSR)을 제안합니다. 실험 결과, 규칙과 임베딩을 결합하면 더욱 정확한 액센트를 생성할 수 있는 반면, 임베딩이 규칙을 약화시키거나 덮어쓸 수 있어 액센트와 화자 정체성 간의 얽힘을 보여줍니다. 우리의 연구 결과는 음성 생성에서 액센트 제어를 위한 수단으로서, 그리고 얽힘 해제 평가를 위한框架로서 규칙의 중요성을 부각시킵니다.
이미지 표현 학습 모델은 일반적으로 인식(recognition) 또는 생성(generation) 중 한 가지 목적을 위해 설계됩니다. 다양한 형태의 대조 학습(contrastive learning)은 이미지를 분류, 탐지, 분할 작업에 유용한 임베딩으로 변환하는 방법을 모델에 학습시킵니다. 반면, 모델은 이미지 생성에 유용한 잠재 공간(latent space)을 학습하기 위해 픽셀 단위(pixel-wise), 지각(perceptual), 적대적(adversarial) 손실 함수를 사용한 이미지 재구성 작업으로 훈련될 수 있습니다. 본 연구는 인식과 생성에 동시에 유용한 표현을 학습하는 최초의 모델로 이 두 방향을 통합하고자 합니다. 우리는 빠르고 정확한 재구성을 위해 이미지를 모델 가중치에 매핑하는 방법을 학습하는 암묵적 신경 표현(implicit neural representation)을 위한 하이퍼 네트워크(hyper-network)로 모델을 훈련시킵니다. 또한 일반화 성능과 성능 향상을 위해 지식 증류(knowledge distillation)를 하이퍼 네트워크에 통합합니다. 이러한 새로운 훈련 설계를 넘어, 이 모델은 다양한 시각 작업에서 뛰어난 성능을 보이는 전례 없는 압축 임베딩 공간을 학습합니다. 완성된 모델은 이미지 표현 학습 분야에서 최첨단 결과와 경쟁할 수 있는 동시에 고품질의 소형 임베딩을 통한 생성 기능도 가능하게 합니다. 코드는 https://github.com/tiktok/huvr에서 확인할 수 있습니다.
대규모 언어 모델은 의료 영역에서 상당한 유용성을 입증해왔습니다. 그러나 전자의무기록(EHR)의 자율적 탐색에 대한 적용은 여전히 정제된 입력과 단순화된 검색 작업에 의존함으로써 제한되고 있습니다. 이상적인 실험 환경과 실제 임상 환경 간의 격차를 해소하기 위해 우리는 AgentEHR을 제시합니다. 이 벤치마크는 에이전트가 원본 및 고잡음 데이터베이스 내에서 직접 장기간의 상호작용적 추론을 요구하는 진단 및 치료 계획 수립과 같은 복잡한 의사 결정 작업을 수행하도록 요구합니다. 이러한 작업을 해결하는 과정에서 우리는 기존 요약 방법들이 필연적으로 중요한 정보 손실과 단절된 추론 연속성을 겪게 됨을 확인했습니다. 이를 해결하기 위해 우리는 회고적 요약 메커니즘과 진화하는 경험 전략을 통합한 새로운 프레임워크인 RetroSum을 제안합니다. 상호작용 이력을 동적으로 재평가함으로써 회고적 메커니즘은 장문맥 정보 손실을 방지하고 끊어지지 않는 논리적 일관성을 보장합니다. 또한, 진화 전략은 메모리 뱅크에서 축적된 경험을 검색하여 도메인 격차를 해소합니다. 광범위한 실증 평가를 통해 RetroSum이 경쟁력 있는 베이스라인 대비 최대 29.16%의 성능 향상을 달성하면서도 총 상호작용 오류를 최대 92.3%까지 크게 감소시킴을 입증했습니다.
대규모 언어 모델은 프롬프트 구조에 대해 놀라울 정도로 민감하게 반응하지만, 이러한 민감성의 작동 메커니즘은 아직 명확히 이해되지 않고 있습니다. 본 연구에서는 한 가지 두드러진 사례를 심층적으로 조사합니다: 객관식 질문 응답에서 맥락을 질문과 선택지 앞에 배치하는(CQO) 방식이 그 반대 순서(QOC)보다 14%p 이상 높은 성능을 보이며, 이러한 현상은 다양한 모델과 데이터셋에서 일관되게 관찰됩니다. 체계적인 아키텍처 분석을 통해 우리는 인과적 어텐션(causal attention)이 핵심 메커니즘임을 규명했습니다: QOC 프롬프트에서는 인과적 마스크가 선택지 토큰들이 맥락에 주의를 기울이는 것을 방해하여, 선택지가 맥락을 인식할 수 없는 정보 병목 현상을 생성합니다.
본 연구는 에이전트 수준의 의미론적 추론과 빠른 지역 제어를 통합하여 자율 로봇 탐사의 성능을 향상시킨다. 우리는 전역 추론을 위한 대규모 언어 모델(LLM)과 지역 의사 결정을 위한 강화 학습(RL) 정책을 통합한 계층적 자율 탐사 프레임워크인 FARE를 제안한다. FARE는 빠른-느린 사고 패러다임을 따른다. 느린 사고 LLM 모듈은 미지 환경에 대한 간결한 텍스트 설명을 해석하고 에이전트 수준의 탐사 전략을 종합하며, 이를 위상 그래프를 통해 일련의 전역 경유점으로 구체화한다. 추론 효율을 더욱 향상시키기 위해 이 모듈은 중복 그래프 구조를 줄이는 모듈성 기반 프루닝 메커니즘을 사용한다. 빠른 사고 RL 모듈은 LLM이 생성한 전역 경유점의 안내를 받으면서 지역 관측에 반응하여 탐사를 실행한다. RL 정책은 전역 경유점 준수를 장려하는 보상 항목을 추가로 적용하여 일관되고 견고한 폐루프 행동을 가능하게 한다. 이 아키텍처는 의미론적 추론과 기하학적 의사 결정을 분리하여 각 모듈이 적절한 시간 및 공간 규모에서 작동할 수 있도록 한다. 도전적인 시뮬레이션 환경에서 우리의 결과는 FARE가 최첨단 베이스라인 대비 탐사 효율성에서 상당한 향상을 달성함을 보여준다. 우리는 FARE를 하드웨어에 추가로 배포하여 복잡하고 대규모인 200m×130m 건물 환경에서 그 성능을 검증한다.
에이전트 생성 코드를 통합하는 현대적 CI/CD 파이프라인은 책임 귀속 구조적 실패를 보인다. 결정은 형식적으로 정확한 승인 과정을 통해 실행되지만, 해당 결정을 승인할 권한과 그 근거를 의미 있게 이해할 인지적 능력을 동시에 보유한 주체는 존재하지 않는다. 우리는 이러한 상태를 '책임 공백'으로 정의한다. 즉, 결정은 발생하지만 권한과 검증 능력이 일치하지 않아 책임을 귀속시킬 수 없는 상태를 말한다. 이는 프로세스 편차나 기술적 결함이 아닌, 의사결정 생성 처리량이 제한된 인간 검증 능력을 초과하는 배포 환경의 구조적 특성임을 보인다. 우리는 병렬 에이전트 생성, CI 기반 검증, 개별 인간 승인 게이트 등 표준 배포 가정 하에서 확장 한계를 규명한다. 처리량 임계값을 넘어서면 검증은 의사결정 기준으로서 기능을 중단하고 대리 신호에 기반한 의례적 승인으로 대체된다. 이러한 체제에서는 개인화된 책임이 구조적으로 달성 불가능해진다. 나아가 CI 증폭 동역학을 규명한다. 자동화 검증 범위 증가는 인간의 능력을 회복시키지 않은 채 대리 신호 밀도만 높인다. 고정된 시간과 주의 제약 하에서 이는 광의의 인지적 오프로딩을 가속화하며 형식적 승인과 인지적 이해 간 격차를 확대한다. 따라서 추가 자동화는 책임 공백을 완화하기보다 증폭시킨다. 조직이 의사결정 경계를 명시적으로 재설계하거나 개별 결정에서 배치/시스템 수준 소유권으로 책임을 재배당하지 않는 한, 책임 공백은 확장된 에이전트 배포에서 보이지 않지만 지속적인 고장 모드로 남을 것이라고 결론지는다.
코르테베흐-데 브리스(Korteweg-de Vries, KdV) 방정식은 비선형 파동 물리학의 기초 모델로서, 분산적 확산과 비선형적 첨예화 사이의 균형을 설명하여 솔리톤을 발생시킵니다. 본 논문은 푸리에 유사-스펙트럴 공간 이산화와 적응형 고차 시간 적분을 결합하여 이 방정식을 해결하는 오픈소스 파이썬 라이브러리인 상쿠리앙(sangkuriang)을 소개합니다. 구현에는 계산 효율성을 위한 JIT(Just-In-Time) 컴파일이 활용되며, 교육적 목적의 접근성은 유지됩니다. 검증 작업은 고립된 솔리톤 전파, 대칭적인 2중 파동 구성, 서로 다른 진폭을 가진 파동 간의 추월 충돌, 3체 상호작용 등 점차적으로 복잡해지는 시나리오를 포함합니다. 모든 테스트 사례에서 고전적 불변량의 보존이 모니터링되었으며, 이탈은 작은 수준으로 유지되었습니다. 측정된 솔리톤 속도는 가적분계 특유의 진폭-속도 관계에 기반한 이론적 예측과 밀접하게 일치합니다. 정보 이론 및 재귀 분석에서 도출된 보조 진단법은 계산된 해가 완전 가적분 역학에 기대되는 규칙적인 위상 공간 구조를 보존함을 확인합니다. 솔버는 일반적인 분석 도구와 호환되는 표준 과학 데이터 형식으로 결과를 출력하며, 시공간적 파동 진화의 시각화 자료를 생성합니다. 수치적 정확도와 적은 계산 자원에서의 실용적 접근성을 결합함으로써, 상쿠리앙은 비선형 파동 현상에 대한 교실 데모와 솔리톤 역학에 대한 탐구적 연구 모두에 적합한 플랫폼을 제공합니다.
ChatGPT Agent 및 GenSpark와 같은 웹 AI 에이전트가 일상적인 웹 기반 작업에 점점 더 많이 사용되고 있지만, 여전히 텍스트 기반 입력 프롬프트에 의존하며 사용자 의도를 능동적으로 탐지하지 못하고, 대화형 데이터 분석 및 의사 결정을 지원하지 않습니다. 본 논문에서는 웹 확장 프로그램인 WebSeek을 소개합니다. WebSeek은 혼합 주도적 방식으로 사용자가 웹페이지에서 정보를 발견 및 추출한 후, 대화형 캔버스 내에서 테이블, 목록, 시각화 자료와 같은 실질적인 데이터 아티팩트를 유연하게 구축, 변환 및 정제할 수 있도록 합니다. 이 환경 내에서 사용자는 테이블 결합이나 시각화 생성과 같은 데이터 변환을 포함한 분석을 수행할 수 있으며, 내장된 AI는 상황 인식 지도 및 자동화를 능동적으로 제안하고 사용자의 명시적 요청에 반응적으로 대응합니다. WebSeek을 탐구 도구로 활용한 탐색적 사용자 연구(N=15)를 통해 참가자들의 다양한 분석 전략을 확인하였으며, 이는 인간-AI 협업 과정에서 투명성과 통제권에 대한 사용자들의 요구를 강조합니다.
사실 확인과 같은 복잡한 정보 탐색 과업에서 의사결정을 지원하기 위한 AI 설명에 관한 연구는 많이 이루어졌으나, 증거의 역할은 놀랍게도 충분히 연구되지 않았다. 본 연구에서는 비전문가 참가자들을 대상으로 설명 유형, AI 예측 확신도, AI 시스템 조언의 정확성을 체계적으로 변형하여 주장과 AI 시스템 예측의 진위를 평가하도록 했다. 참가자들에게는 기반 증거를 쉽게 검토할 수 있는 옵션이 제공되었다. 연구 결과, 참가자들은 모든 실험 조건에서 AI 주장을 검증하기 위해 지속적으로 증거에 의존하는 것으로 나타났다. 참가자들에게 자연어 설명이 제공된 경우에는 증거 사용 빈도가 낮았지만, 이러한 설명이 불충분하거나 결함이 있다고 판단될 때는 증거에 의존했다. 질적 데이터 분석 결과, 출처 신원이 의도적으로 생략되었음에도 참가자들은 증거 출처의 신뢰성을 추론하려는 시도를 보였다. 우리의 결과는 증거가 사람들이 AI 시스템이 제시한 정보의 신뢰성을 평가하는 방식에서 핵심 요소이며, 자연어 설명과 결합될 때 의사결정에 유용한 지원을 제공함을 보여준다. 증거가 어떻게 제시되어야 하며 실제로 사람들이 증거와 어떻게 상호작용하는지 이해하기 위한 추가 연구가 시급히 필요하다.
단일 모노큘러 비디오와 선택적 3D 참조 메시로부터 고품질 4D 동적 객체를 합성하는 피드포워드 프레임워크인 Motion 3-to-4를 제안합니다. 최근 2D, 비디오, 3D 콘텐츠 생성 기술이 크게 발전했으나, 학습 데이터의 부족과 모노큘러 시점에서 기하학 및 운동을 복원하는固有的 모호함으로 인해 4D 합성은 여전히 어려운 과제로 남아 있습니다. Motion 3-to-4는 4D 합성을 정적 3D 형태 생성과 운동 재구성으로 분해하여 이러한 문제를 해결합니다. 표준 참조 메시를 활용하여 우리 모델은 간결한 운동 잠재 표현을 학습하고 프레임별 정점 궤적을 예측하여 완전한 시간적 일관성을 가진 기하학을 복원합니다. 확장 가능한 프레임별 트랜스포머는 다양한 시퀀스 길이에 대한 강건성을 더욱 향상시킵니다. 표준 벤치마크와 정확한 실측 기하학 데이터를 포함한 새로운 데이터셋에 대한 평가 결과, Motion 3-to-4가 기존 연구 대비 우수한 정확도와 공간 일관성을 제공함을 확인했습니다. 프로젝트 페이지는 https://motion3-to-4.github.io/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 단일 언어 수학 및 상식 추론 과제에서는 우수한 성능을 보이는 반면, 다국어 의료 추론 응용 분야에서는 여전히 신뢰할 수 없는 성능을 보여 다국어 의료 환경에서의 활용에 제약이 따릅니다. 본 연구는 이 문제를 해결하기 위해 먼저 CUREMED-BENCH를 소개합니다. 이는 열세 언어인 암하라어, 요루바어, 스와힐리어를 포함하여 13개 언어로 구성되고, 단일 검증 가능한 답변이 있는 개방형 추론 질의로 이루어진 고품질 다국어 의료 추론 데이터셋입니다. 이 데이터셋을 기반으로, 우리는 코드 전환(code-switching) 인지 지도 미세 조정과 Group Relative Policy Optimization을 통합하여 논리적 정확성과 언어 안정성을 함께 향상시키는 교과 과정 기반 강화 학습 프레임워크인 CURE-MED를 제안합니다. 13개 언어 전반에 걸쳐 우리의 접근법은 강력한 기준 모델들을 꾸준히 능가하며 효과적으로 확장되었는데, 70B 매개변수 기준으로 85.21%의 언어 일관성과 54.35%의 논리적 정확도를, 32B 매개변수 기준으로는 94.96%의 언어 일관성과 70.04%의 논리적 정확도를 달성했습니다. 이러한 결과는 LLM의 신뢰할 수 있고 공정한 다국어 의료 추론 가능성을 지지합니다. 코드와 데이터셋은 https://cure-med.github.io에서 이용할 수 있습니다.