번역이 포함된 일일 선별된 AI 연구 논문
원시 데이터 소스부터 분석가 수준의 심층 연구 보고서에 이르는 자율 데이터 과학은 오랜 기간 동안 해결해야 할 과제로 여겨져 왔으며, 강력한 대형 언어 모델(LLM)의 등장으로 이제 실현 가능성이 높아지고 있다. 최근 워크플로우 기반 데이터 에이전트는 특정 데이터 작업에서 유망한 결과를 보여주었지만, 사전 정의된 워크플로우에 의존하기 때문에 완전한 자율 데이터 과학을 달성하는 데 근본적인 한계가 있다. 본 논문에서는 데이터 소스부터 분석가 수준의 심층 연구 보고서까지 종단 간 파이프라인을 자동으로 완료할 수 있는 첫 번째 자율 데이터 과학용 에이전트 LLM인 DeepAnalyze-8B를 소개한다. 고복잡도 데이터 과학 작업을 해결하기 위해, 우리는 인간 데이터 과학자의 학습 경로를 모방한 커리큘럼 기반 에이전트 훈련 패러다임을 제안하여 LLM이 실세계 환경에서 점진적으로 다중 역량을 습득하고 통합할 수 있도록 한다. 또한 고품질 훈련 데이터를 구성하는 데이터 기반 궤적 합성 프레임워크를 도입한다. 에이전트 훈련을 통해 DeepAnalyze는 데이터 질의 응답 및 특수 분석 작업부터 개방형 데이터 연구에 이르기까지 광범위한 데이터 작업을 수행하는 방법을 학습한다. 실험 결과, 단 8B 파라미터만으로도 DeepAnalyze는 가장 진보된 독점 LLM 기반의 이전 워크플로우 에이전트들을 능가하는 성능을 보여준다. DeepAnalyze의 모델, 코드, 훈련 데이터는 오픈소스로 공개되어 자율 데이터 과학으로의 길을 열어준다.
이미지 편집은 최근에 놀라운 발전을 이루었습니다. 현대의 편집 모델은 이미 복잡한 지시를 따라 원본 콘텐츠를 조작할 수 있습니다. 그러나 편집 지시를 완료하는 것 이상으로, 동반되는 물리적 효과는 생성된 이미지의 현실감을 결정하는 핵심 요소입니다. 예를 들어, 객체를 제거할 때는 그 객체의 그림자, 반사, 그리고 주변 객체와의 상호작용도 함께 제거되어야 합니다. 불행히도, 기존의 모델과 벤치마크는 주로 지시 완료에 초점을 맞추고 이러한 물리적 효과를 간과해 왔습니다. 따라서 현재 시점에서, 우리는 물리적으로 현실적인 이미지 편집으로부터 얼마나 멀리 떨어져 있는가? 이 질문에 답하기 위해, 우리는 PICABench를 소개합니다. PICABench는 가장 일반적인 편집 작업(추가, 제거, 속성 변경 등)에 대해 광학, 역학, 상태 전환 등 8개의 하위 차원에 걸쳐 물리적 현실감을 체계적으로 평가합니다. 또한, 우리는 VLM-as-a-judge를 활용한 신뢰할 수 있는 평가 프로토콜인 PICAEval을 제안합니다. 이 프로토콜은 사례별, 지역별 인간 주석과 질문을 사용합니다. 벤치마킹을 넘어, 우리는 비디오로부터 물리학을 학습하고 PICA-100K라는 훈련 데이터셋을 구축함으로써 효과적인 해결책을 탐구합니다. 대부분의 주류 모델을 평가한 후, 우리는 물리적 현실감이 여전히 탐구할 여지가 큰 도전적인 문제임을 관찰했습니다. 우리는 우리의 벤치마크와 제안된 해결책이 단순한 콘텐츠 편집에서 물리적으로 일관된 현실감으로 나아가는 미래의 작업을 위한 기초가 되기를 바랍니다.
대규모 언어 모델(LLMs)은 문서 이해, 코드 분석, 다단계 추론과 같은 작업을 위해 점점 더 긴 문맥 모델링에 의존하고 있습니다. 그러나 문맥 윈도우를 백만 토큰 수준으로 확장하는 것은 과도한 계산 및 메모리 비용을 초래하여, 긴 문맥 LLMs의 실용성을 제한하고 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해 시각적 문맥 확장이라는 다른 관점을 취합니다. 토큰 기반 시퀀스를 확장하는 대신, Glyph라는 프레임워크를 제안하여 긴 텍스트를 이미지로 렌더링하고 이를 시각-언어 모델(VLMs)로 처리합니다. 이 접근법은 텍스트 입력을 상당히 압축하면서도 의미 정보를 보존하며, 정확도와 압축률을 균형 있게 조절하기 위해 LLM 기반 유전자 탐색을 설계하여 최적의 시각적 렌더링 구성을 식별합니다. 광범위한 실험을 통해, 우리의 방법이 다양한 긴 문맥 벤치마크에서 Qwen3-8B와 같은 선도적인 LLMs와 비슷한 정확도를 유지하면서 3-4배의 토큰 압축을 달성함을 입증했습니다. 이 압축은 또한 프리필링 및 디코딩 속도를 약 4배, SFT 훈련 속도를 약 2배 향상시킵니다. 더 나아가, 극단적인 압축 하에서 128K 문맥 VLM은 1M 토큰 수준의 텍스트 작업을 처리할 수 있도록 확장될 수 있습니다. 또한, 렌더링된 텍스트 데이터는 문서 이해와 같은 실제 세계의 다중 모달 작업에도 이점을 제공합니다. 우리의 코드와 모델은 https://github.com/thu-coai/Glyph에서 공개되었습니다.
비전-언어 모델(VLMs)의 발전은 일관성 없고 오염된 공개 데이터셋의 파편화된 환경으로 인해 방해받고 있습니다. 우리는 2,400만 개의 샘플로 구성된 세심하게 수집, 정제, 통합된 코퍼스인 FineVision을 소개합니다. 이는 동종 최대 규모의 오픈 리소스입니다. 우리는 200개 이상의 소스를 반자동화된 인간 참여형 파이프라인을 통해 185개의 하위 집합으로 통합했습니다: 자동화는 대량 수집과 스키마 매핑을 수행하고, 검토자는 매핑을 감사하고 출력물을 샘플 검사하여 주석의 충실한 소비, 적절한 형식 및 다양성, 안전성을 확인합니다; 문제가 발생하면 표적 수정과 재실행을 트리거합니다. 이 워크플로우는 소스 내 및 소스 간의 엄격한 중복 제거와 66개의 공개 벤치마크에 대한 오염 제거를 추가로 적용합니다. FineVision은 또한 통합된 액션 공간을 가진 에이전트/GUI 작업을 포함하며, 검토자는 스키마를 검증하고 궤적 샘플을 검사하여 실행 가능한 충실도를 확인합니다. FineVision으로 훈련된 모델은 광범위한 평가 스위트에서 기존의 오픈 혼합 데이터셋으로 훈련된 모델들을 일관되게 능가하며, 규모, 데이터 위생, 인간 감독과의 균형 잡힌 자동화의 이점을 강조합니다. 우리는 데이터 중심의 VLM 연구를 가속화하기 위해 코퍼스와 정제 도구를 공개합니다.
다중모달 언어 모델(Multimodal Language Model, MLLM) 연구에서 지배적인 가정은 MLLM의 성능이 대규모 매개변수와 뛰어난 능력을 가진 LLM(대형 언어 모델) 백본에서 상속된다는 것이다. 이는 MLLM이 이미지를 어떻게 인지하는지를 결정하는 비전 인코더에 대한 이해의 공백을 초래했다. 최근 MLLM 훈련 패러다임이 지도 미세 조정(Supervised Finetuning, SFT)에서 강화 학습(Reinforcement Learning, RL)으로 전환되면서, 이러한 훈련이 비전 인코더와 MLLM을 어떻게 재구성하는지에 대한 분석이 크게 부족하다는 점이 더욱 부각되었다. 이를 해결하기 위해, 우리는 먼저 훈련 전략이 MLLM에 미치는 영향을 조사했으며, RL이 시각과 밀접한 관련이 있는 VQA(Vision Question Answering) 벤치마크에서 SFT보다 뚜렷한 우위를 보임을 확인했다. 이를 바탕으로, 우리는 ImageNet 분류 및 세분화부터 그래디언트 시각화에 이르기까지 다양한 심층 실험을 통해 MLLM의 비전 인코더에 대한 중요하면서도 미흡하게 탐구된 분석을 수행했다. 우리의 결과는 MLLM의 훈련 후 전략(즉, SFT 또는 RL)이 MLLM의 다운스트림 작업에서 뚜렷한 결과를 초래할 뿐만 아니라, MLLM의 기본 시각 표현을 근본적으로 재구성함을 보여준다. 특히, 우리 연구의 주요 발견은 RL이 SFT에 비해 더 강력하고 정확하게 지역화된 시각 표현을 생성함으로써 MLLM의 비전 인코더 능력을 향상시킨다는 것이다. 우리는 이러한 발견을 MLLM을 위한 강력한 비전 인코더 구축을 위한 간단한 레시피인 Preference-Instructed Vision OpTimization(PIVOT)으로 재구성했다. MLLM에 통합될 때, PIVOT으로 훈련된 비전 인코더는 표준 비전 사전 훈련의 계산 비용의 1% 미만을 요구하면서도 더 크고 더 많이 훈련된 대조군을 능가하는 성능을 보였다. 이 결과는 MLLM의 비전 백본을 발전시키는 효과적이고 효율적인 경로를 열어준다. 프로젝트 페이지는 https://june-page.github.io/pivot/에서 확인할 수 있다.
대규모 언어 모델(LLMs)은 복잡한 추론 작업에서 놀라운 진전을 보여왔으며, 이는 주로 추론 시 추가적인 컴퓨팅 자원을 할당하는 테스트 타임 스케일링(TTS) 패러다임 덕분입니다. 이 중 외부 TTS(특히 Best-of-N 선택 패러다임)는 여러 독립적으로 생성된 추론 경로 중에서 선택함으로써 확장 가능한 성능 향상을 이끌어냅니다. 그러나 이 접근법은 두 가지 주요 한계에 직면해 있습니다: (i) 프로세스 보상 모델을 배포하는 데 드는 높은 계산 비용, (ii) LLM의 내재적 잠재 표현의 미흡한 활용. 우리는 TrajSelector를 소개합니다. 이는 샘플러 LLM의 숨겨진 상태를 활용하여 프로세스 수준의 점수를 매기는 효율적이고 효과적인 Best-of-N 프레임워크입니다. 경량 검증기(단 0.6B 매개변수)는 단계별 추론 경로의 품질을 평가한 후, 이러한 점수를 집계하여 최적의 추론 경로를 식별합니다. 우리의 프레임워크는 대규모 단계별 주석에 의존하지 않는 완전히 데이터 기반의 종단 간 학습 방식을 채택합니다. 다섯 가지 벤치마크에서의 실험 결과는 TrajSelector가 일관된 성능 향상을 제공함을 보여줍니다. Best-of-32 설정에서, 이는 다수결 투표를 4.61% 정확도로 능가하며, 기존 프로세스 보상 모델을 4.31%에서 12.21%까지 앞서면서도 더 낮은 추론 비용을 유지합니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 코퍼스에서 관련 문서를 검색하여 대규모 언어 모델(Large Language Models, LLMs)의 성능을 향상시키는 강력한 패러다임으로 부상했다. 그러나 기존의 RAG 시스템은 주로 단일 모드 텍스트 문서에 초점을 맞추고 있으며, 쿼리와 문서 모두 혼합 모드(예: 텍스트와 이미지)를 포함할 수 있는 실제 시나리오에서는 종종 부족한 성능을 보인다. 본 논문에서는 혼합 모드 정보를 검색하고 추론하여 시각-언어 생성 능력을 향상시키는 보편적 검색 증강 생성(Universal Retrieval-Augmented Generation, URAG)의 과제를 다룬다. 이를 위해, URAG 시나리오에 적합한 통합 혼합 모드 대 혼합 모드 검색기인 Nyx를 제안한다. 현실적인 혼합 모드 데이터의 부족 문제를 완화하기 위해, 웹 문서를 활용하여 다양한 혼합 모드 질문-답변 쌍으로 구성된 NyxQA 데이터셋을 생성하고 필터링하는 4단계 자동화 파이프라인을 도입한다. 이 고품질 데이터셋을 기반으로, Nyx에 대한 2단계 학습 프레임워크를 채택한다: 먼저 NyxQA와 다양한 오픈소스 검색 데이터셋을 사용해 사전 학습을 수행한 후, 하위 시각-언어 모델(Vision-Language Models, VLMs)의 피드백을 활용해 검색 출력을 생성 선호도와 일치하도록 지도 미세 조정을 진행한다. 실험 결과, Nyx는 표준 텍스트 전용 RAG 벤치마크에서 경쟁력 있는 성능을 보일 뿐만 아니라, 더 일반적이고 현실적인 URAG 설정에서도 탁월한 성능을 발휘하며 시각-언어 작업에서의 생성 품질을 크게 향상시킨다.
대규모 언어 모델(LLM)은 추론 과제에서 강력한 성능을 보이며, 경쟁 수준의 코딩 및 수학 문제를 해결하고 있습니다. 그러나 이러한 모델의 확장성은 인간이 레이블링한 데이터셋과 대규모의 도전적인 코딩 문제 훈련 데이터의 부족으로 제한되고 있습니다. 기존의 경쟁 프로그래밍 데이터셋은 수천에서 수만 개의 문제만을 포함하고 있습니다. 이전의 합성 데이터 생성 방법은 기존의 지시 데이터셋을 확장하거나 인간이 레이블링한 데이터에서 도전적인 문제를 선택하는 데 의존했습니다. 본 논문에서는 도전적인 코딩 문제를 생성하기 위해 특화된 생성기를 직접 최적화하는 난이도 인식 그래프 샘플링과 난이도 인식 거부 미세 조정을 결합한 새로운 프레임워크인 QueST를 제안합니다. 우리가 훈련한 생성기는 GPT-4o보다도 뛰어난 도전적인 문제 생성 능력을 보이며, 이는 다운스트림 성능에 이점을 제공합니다. 우리는 QueST를 활용하여 대규모 합성 코딩 문제를 생성하고, 이를 강력한 교사 모델로부터 장기 사고 체인을 통해 증류하거나 더 작은 모델을 위한 강화 학습을 수행하는 데 사용하며, 두 시나리오 모두에서 효과적임을 입증했습니다. 우리의 증류 실험은 상당한 성능 향상을 보여줍니다. 구체적으로, QueST로 생성된 10만 개의 어려운 문제로 Qwen3-8B-base를 미세 조정한 후, LiveCodeBench에서 원래의 Qwen3-8B의 성능을 능가했습니다. 추가로 11만 2천 개의 예시(즉, 2만 8천 개의 인간이 작성한 문제와 여러 합성 솔루션을 짝지은 데이터)를 사용하여, 우리의 8B 모델은 훨씬 더 큰 DeepSeek-R1-671B의 성능과 맞먹는 결과를 보였습니다. 이러한 결과는 QueST를 통해 복잡한 문제를 생성하는 것이 대규모 언어 모델의 경쟁 프로그래밍 및 추론의 한계를 넘어서는 효과적이고 확장 가능한 접근 방식을 제공함을 시사합니다.
대규모 언어 모델(LLM) 앙상블은 개별 모델의 상호 보완적 강점을 활용하여 성능을 뛰어넘는 유망한 접근법으로 주목받고 있습니다. 특히, 모델들의 다음 토큰 확률 분포를 집계하여 다음 토큰을 선택하는 방식이 다양한 과제에서 효과적인 것으로 입증되었습니다. 그러나 이 방식은 짧은 형식의 답변에서는 성공적이었지만, 긴 형식의 생성 작업에 대한 적용은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 기존 앙상블 방법을 긴 형식 생성에 적용할 때 모든 토큰에서 앙상블을 수행하는 표준 관행이 오히려 성능을 저하시킬 수 있으므로, 앙상블 위치를 신중하게 선택해야 함을 보여줍니다. 우리는 이러한 위치를 결정하는 두 가지 핵심 요소를 식별했습니다: 모델 간 토큰화 불일치와 다음 토큰 확률 분포의 일치도입니다. 이를 바탕으로, 우리는 이러한 요소들을 종합적으로 고려하여 선택적으로 앙상블을 수행하는 SAFE(Stable And Fast LLM Ensembling) 프레임워크를 제안합니다. 안정성을 더욱 개선하기 위해, 동일한 단어를 나타내는 여러 하위 단어 토큰에 분산된 확률을 단일 대표 토큰으로 통합하는 확률 선명화 전략을 도입했습니다. MATH500 및 BBH를 포함한 다양한 벤치마크에서의 실험 결과, SAFE는 정확도와 효율성 모두에서 기존 방법을 능가하며, 1% 미만의 토큰만 앙상블하더라도 성능 향상을 달성함을 입증했습니다.
파운데이션 모델은 다양한 분야에서 유망한 성과를 보여왔지만, 천문학은 여전히 매우 다양한 데이터 양식 간의 통합 모델링을 위한 통합 프레임워크가 부족한 상황이다. 본 논문에서는 천문학을 위한 대규모 멀티모달 파운데이션 모델인 AION-1 시리즈를 소개한다. AION-1은 이질적인 이미징, 분광학, 스칼라 데이터를 두 단계의 아키텍처로 통합한다: 모달리티별 토큰화와 이어지는 트랜스포머 기반의 크로스모달 토큰 시퀀스 마스크 모델링이다. 이 모델은 Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI), Gaia 등 5개의 대규모 서베이 데이터를 사전 학습한다. 이 데이터는 별, 은하, 퀘이사에 대한 2억 건 이상의 관측을 포함한다. 단일 고정 인코더를 사용한 AION-1은 은하 및 항성 속성 추정, 은하 형태 분류, 유사성 기반 검색, 은하 이미지 분할, 스펙트럼 초해상도 등 다양한 다운스트림 작업에서 강력한 성능을 보인다. 우리는 3억 개에서 31억 개의 파라미터를 가진 AION-1 모델 변종을 공개한다. 천문학을 넘어, AION-1은 노이즈가 많고 장치 특정적인 관측 데이터를 원활하게 통합할 수 있는 확장 가능한 멀티모달 과학 파운데이션 모델의 청사진을 제공한다. 모든 코드, 토크나이저, 사전 학습된 가중치, 경량 평가 도구는 오픈소스 라이선스로 공개된다.
추론 시간 탐색을 통한 스케일링이 대형 언어 모델에 혁신을 가져왔음에도 불구하고, 이러한 성과를 이미지 생성으로 전환하는 것은 어려운 것으로 입증되었습니다. 최근 연속 확산 모델에 탐색 전략을 적용하려는 시도들은 제한된 이점만을 보여주었으며, 단순한 무작위 샘플링이 종종 최고의 성능을 발휘했습니다. 우리는 시각적 자기회귀 모델의 이산적이고 순차적인 특성이 이미지 생성을 위한 효과적인 탐색을 가능하게 한다는 것을 입증합니다. 빔 탐색이 텍스트-이미지 생성을 크게 개선하여, 2B 파라미터의 자기회귀 모델이 12B 파라미터의 확산 모델을 벤치마크 전반에서 능가할 수 있음을 보여줍니다. 체계적인 제거 실험은 이러한 이점이 이산 토큰 공간에서 비롯되며, 이를 통해 조기 가지치기와 계산 재사용이 가능하다는 것을 보여줍니다. 또한, 검증기 분석은 속도와 추론 능력 사이의 트레이드오프를 강조합니다. 이러한 연구 결과는 시각적 생성에서 추론 시간 최적화를 위해 모델의 규모뿐만 아니라 아키텍처도 중요하다는 것을 시사합니다.
대형 언어 모델(LLMs)이 자신의 지식 경계를 인식하고 보정된 신뢰도를 표현할 수 있는 능력인 '정직성 정렬(Honesty alignment)'은 신뢰할 수 있는 배포에 필수적입니다. 기존 방법들은 훈련 없이도 신뢰도를 추정하는 방법(예: 토큰 확률, 자기 일관성)이나 정답 주석을 활용한 훈련 기반 보정 방법을 사용합니다. 이러한 방법들은 효과적이지만, 훈련 기반 보정을 통해 보편적인 정직성 정렬을 달성하려면 비용이 많이 드는 대규모 라벨링이 필요합니다. 주석 효율적인 훈련을 지원하기 위해, 우리는 Elicitation-Then-Calibration(EliCal)이라는 두 단계 프레임워크를 제안합니다. 이 프레임워크는 먼저 저렴한 자기 일관성 감독을 통해 내부 신뢰도를 유도한 다음, 소량의 정답 주석을 사용하여 이 신뢰도를 보정합니다. 대규모 연구를 지원하기 위해, 우리는 정답 및 자기 일관성 신호가 주석된 560k 훈련 및 70k 평가 인스턴스로 구성된 10개의 자유형 QA 데이터셋을 포함한 HonestyBench 벤치마크를 공개합니다. 실험 결과, EliCal은 단 1k개의 정답 주석(전체 감독의 0.18%)만으로도 최적에 가까운 정렬을 달성했으며, 보정만 수행한 베이스라인보다 보이지 않는 MMLU 작업에서 더 나은 정렬 성능을 보여, LLMs의 보편적인 정직성 정렬을 위한 확장 가능한 솔루션을 제공합니다.
지시 기반 이미지 편집은 놀라운 발전을 이루어 왔지만, 지도 학습을 통해서만 훈련된 모델들은 주석된 패턴에 과적합되는 경향이 있어 훈련 분포를 넘어서는 탐색 및 일반화 능력을 저해합니다. 이를 해결하기 위해, 우리는 정책 최적화를 기반으로 한 새로운 사후 훈련 프레임워크인 Edit-R1을 소개합니다. 구체적으로, 우리는 유사도 없는 정책 최적화 방법인 Diffusion Negative-aware Finetuning (DiffusionNFT)을 활용하여, 흐름 매칭 전방 과정과 일관된 고차 샘플러와 더 효율적인 훈련을 가능하게 합니다. 여기서 또 다른 주요 과제는 다양한 편집 지시와 작업으로 인해 보편적인 보상 모델이 부재하다는 점입니다. 이를 해결하기 위해, 우리는 다중 모드 대형 언어 모델(MLLM)을 통합된 훈련 없는 보상 모델로 사용하여, 출력 로짓을 통해 세밀한 피드백을 제공합니다. 또한, MLLM 점수 잡음을 줄이고 최적화를 안정화하기 위해 저분산 그룹 필터링 메커니즘을 신중하게 설계했습니다. 이 프레임워크로 훈련된 UniWorld-V2는 ImgEdit 및 GEdit-Bench 벤치마크에서 각각 4.49와 7.83의 점수를 기록하며 최첨단 결과를 달성했습니다. 무엇보다도, 우리의 프레임워크는 모델에 구애받지 않으며, Qwen-Image-Edit 및 FLUX-Kontext와 같은 다양한 기본 모델에 적용할 때 상당한 성능 향상을 보여주어 그 광범위한 적용 가능성을 입증했습니다. 코드와 모델은 https://github.com/PKU-YuanGroup/UniWorld-V2에서 공개되어 있습니다.
최근 훈련이 필요 없는 주의 제어 방법의 발전으로 기존 생성 모델에 대한 유연하고 효율적인 텍스트 기반 편집 기능이 가능해졌다. 그러나 현재의 접근법은 강력한 편집 강도와 원본과의 일관성을 동시에 제공하는 데 어려움을 겪고 있다. 이러한 한계는 특히 다중 라운드 및 비디오 편집에서 시각적 오류가 시간이 지남에 따라 누적될 수 있기 때문에 더욱 중요해진다. 또한, 대부분의 기존 방법은 전역 일관성을 강제하므로 텍스처와 같은 개별 속성을 수정하면서 다른 속성을 보존하는 능력이 제한되어 세밀한 편집을 방해한다. 최근 U-Net에서 MM-DiT로의 아키텍처 전환은 생성 성능의 상당한 개선을 가져왔으며 텍스트와 시각 모달리티를 통합하는 새로운 메커니즘을 도입했다. 이러한 발전은 이전 방법들이 해결하지 못한 과제를 극복할 수 있는 길을 열어준다. MM-DiT에 대한 심층 분석을 통해 우리는 그 주의 메커니즘에 대한 세 가지 주요 통찰을 도출했다. 이를 바탕으로 MM-DiT에 특화된 새로운 주의 제어 방법인 ConsistEdit를 제안한다. ConsistEdit는 시각 전용 주의 제어, 마스크 기반 사전 주의 융합, 그리고 쿼리, 키, 값 토큰의 차별화된 조작을 통합하여 일관적이고 프롬프트에 맞는 편집을 생성한다. 광범위한 실험을 통해 ConsistEdit가 구조 일관 및 비일관 시나리오를 포함한 다양한 이미지 및 비디오 편집 작업에서 최첨단 성능을 달성함을 입증했다. 이전 방법과 달리, 이 방법은 모든 추론 단계와 주의 계층에서 수작업 없이 편집을 수행하는 최초의 접근법으로, 신뢰성과 일관성을 크게 향상시켜 견고한 다중 라운드 및 다중 영역 편집을 가능하게 한다. 또한, 구조적 일관성의 점진적 조정을 지원하여 더 세밀한 제어를 가능하게 한다.
AI 연구의 재현은 대규모 언어 모델(LLM) 에이전트에게 있어 중요한 과제이면서도 어려운 작업이다. 기존의 접근 방식들은 실행 가능한 코드를 생성하는 데 어려움을 겪는 경우가 많으며, 이는 주로 배경 지식의 부족과 참고 논문에 숨겨진 잠재적 기술적 세부 사항을 포착하지 못하는 검색 증강 생성(RAG) 방법의 한계 때문이다. 더욱이, 이전의 접근 방식들은 가치 있는 구현 수준의 코드 신호를 간과하는 경향이 있으며, 다중 세분화 검색과 재사용을 지원하는 구조화된 지식 표현이 부족하다. 이러한 문제를 극복하기 위해, 우리는 실행 가능한 지식 그래프(Executable Knowledge Graphs, xKG)를 제안한다. xKG는 과학 문헌에서 추출된 기술적 통찰, 코드 스니펫, 도메인 특화 지식을 자동으로 통합하는 모듈식 및 플러그형 지식 기반이다. 두 가지 다른 LLM을 사용한 세 가지 에이전트 프레임워크에 통합되었을 때, xKG는 PaperBench에서 상당한 성능 향상(o3-mini 기준 10.9%)을 보여주며, 자동화된 AI 연구 재현을 위한 일반적이고 확장 가능한 솔루션으로서의 효과를 입증한다. 코드는 https://github.com/zjunlp/xKG에서 공개될 예정이다.
장문의 사고 연쇄(long-form chain-of-thought) 추론은 대규모 언어 모델의 고급 추론 능력의 핵심 요소로 자리 잡았습니다. 최근 검증-개선(verification-refinement) 프레임워크를 통해 독점 모델들이 올림피아드 수준의 문제를 해결할 수 있게 되었지만, 이러한 효과는 강력하고 신뢰할 수 있는 검증 및 수정 능력에 의존하며, 이는 오픈 웨이트(open-weight) 소규모 모델에서는 여전히 취약합니다. 본 연구는 어려운 과제에서 약한 검증 및 개선 능력만으로도, 우리가 '심층 자기 진화 추론(Deep Self-Evolving Reasoning, DSER)'이라 명명한 확률적 패러다임을 통해 이러한 모델들의 추론 한계를 크게 확장할 수 있음을 보여줍니다. 우리는 반복적 추론을 마르코프 체인(Markov chain)으로 개념화하며, 각 단계는 해결 공간에서의 확률적 전이를 나타냅니다. 핵심 통찰은 개선의 확률이 악화의 확률을 약간만 초과하더라도 올바른 해결책으로의 수렴이 보장된다는 것입니다. DSER는 여러 장기적 자기 진화 프로세스를 병렬로 실행함으로써 이러한 작은 긍정적 경향을 증폭시켜 모델이 점진적으로 정답에 접근할 수 있도록 합니다. 실험적으로, 우리는 DSER를 DeepSeek-R1-0528-Qwen3-8B 모델에 적용했습니다. 도전적인 AIME 2024-2025 벤치마크에서 DSER는 이전에 해결할 수 없었던 9개 문제 중 5개를 해결하고 전반적인 성능을 향상시켰으며, 이 소규모 모델이 다수결(majority voting)을 통해 600B 파라미터 규모의 교사 모델의 단일 턴 정확도를 능가할 수 있게 했습니다. 테스트 시 스케일링(test-time scaling)에 대한 즉각적인 유용성을 넘어, DSER 프레임워크는 현재 오픈 웨이트 추론 모델들의 근본적인 한계를 진단하는 데 기여합니다. 자기 검증, 개선 및 안정성에서의 결함을 명확히 규명함으로써, 본 연구 결과는 강력한 내재적 자기 진화 능력을 갖춘 차세대 모델 개발을 위한 명확한 연구 방향을 제시합니다.
사전 학습된 시계열 모델은 작업별 훈련 없이도 정확한 예측을 생성할 수 있는 추론 전용 예측 시스템을 가능하게 했습니다. 그러나 기존 접근 방식은 주로 단변량 예측에 초점을 맞추고 있어, 다변량 데이터와 공변량이 중요한 역할을 하는 실제 시나리오에서의 적용 가능성이 제한적입니다. 우리는 단변량, 다변량 및 공변량 기반 예측 작업을 제로샷 방식으로 처리할 수 있는 사전 학습된 모델인 Chronos-2를 제시합니다. Chronos-2는 그룹 내 여러 시계열 간의 효율적인 정보 공유를 통해 컨텍스트 내 학습(ICL)을 가능하게 하는 그룹 어텐션 메커니즘을 사용합니다. 이 그룹은 관련 시계열 집합, 다변량 시계열의 변수, 또는 예측 작업의 목표와 공변량을 나타낼 수 있습니다. 이러한 일반적인 기능은 단변량 시계열에 다양한 다변량 구조를 부과하는 합성 데이터셋을 통해 학습함으로써 달성됩니다. Chronos-2는 fev-bench, GIFT-Eval, Chronos Benchmark II라는 세 가지 포괄적인 벤치마크에서 최첨단 성능을 보여줍니다. 다변량 및 공변량 기반 예측을 강조하는 fev-bench에서 Chronos-2의 보편적인 ICL 기능은 기존 모델 대비 상당한 개선을 이끌어냅니다. 공변량이 포함된 작업에서는 일관되게 넓은 차이로 베이스라인을 능가합니다. 에너지 및 소매 분야의 사례 연구는 Chronos-2의 실용적인 이점을 더욱 부각시킵니다. Chronos-2의 컨텍스트 내 학습 기능은 실제 예측 파이프라인에서 "그대로" 사용할 수 있는 범용 예측 모델로서의 입지를 확고히 합니다.
에이전트형 AI의 급속한 진화는 인공지능의 새로운 단계를 나타내며, 이제 대형 언어 모델(LLMs)은 단순히 응답하는 것을 넘어 행동하고, 추론하며, 적응합니다. 이 설문은 에이전트형 AI 구축에서의 패러다임 전환을 추적합니다: 외부 로직에 의해 계획, 도구 사용, 메모리가 조율되는 파이프라인 기반 시스템에서, 이러한 능력들이 모델의 파라미터 내부에 내재화된 모델-네이티브 패러다임으로의 전환을 다룹니다. 먼저, 강화 학습(RL)을 이 패러다임 전환을 가능하게 하는 알고리즘 엔진으로 위치시킵니다. 정적 데이터를 모방하는 학습에서 결과 중심의 탐색으로 학습을 재구성함으로써, RL은 언어, 시각, 그리고 구체화된 영역에 걸쳐 LLM + RL + Task의 통합 솔루션을 뒷받침합니다. 이를 바탕으로, 이 설문은 각 능력 — 계획, 도구 사용, 메모리 — 이 외부 스크립트 모듈에서 종단 간 학습된 행동으로 어떻게 진화했는지를 체계적으로 검토합니다. 더 나아가, 이 패러다임 전환이 주요 에이전트 애플리케이션, 특히 장기적 추론을 강조하는 딥 리서치 에이전트와 구체화된 상호작용을 강조하는 GUI 에이전트를 어떻게 재구성했는지 살펴봅니다. 결론적으로, 다중 에이전트 협업과 반성과 같은 에이전트 능력의 지속적인 내재화와 함께, 미래 에이전트형 AI에서 시스템과 모델 계층의 진화하는 역할을 논의합니다. 이러한 발전들은 통합된 학습 및 상호작용 프레임워크로서의 모델-네이티브 에이전트형 AI로의 일관된 궤적을 그리며, 지능을 적용하는 시스템을 구축하는 것에서 경험을 통해 지능을 성장시키는 모델을 개발하는 것으로의 전환을 표시합니다.
메타의 Codec Avatars Lab은 Embody 3D 데이터셋을 소개합니다. 이 데이터셋은 다중 카메라 수집 환경에서 439명의 참가자로부터 수집된 500시간 분량의 3D 모션 데이터로, 총 5,400만 프레임 이상의 추적된 3D 모션을 포함하고 있습니다. 데이터셋은 단일 인물의 다양한 동작 데이터를 포함하며, 이는 프롬프트에 따른 동작, 손 제스처, 이동 동작 등을 포괄합니다. 또한 다중 인물 간의 행동 및 대화 데이터도 포함되어 있는데, 이는 토론, 다양한 감정 상태에서의 대화, 협업 활동, 아파트와 유사한 공간에서의 공동 생활 시나리오 등을 다룹니다. 데이터셋은 손 추적 및 신체 형태를 포함한 인간 동작 추적 데이터, 텍스트 주석, 그리고 각 참가자별 개별 오디오 트랙을 제공합니다.
최근 GPT-4o Image Gen과 같은 독점 시스템에 의해 주도되는 이미지 생성 분야의 발전은 사용자가 이러한 모델과 상호작용하는 방식을 지속적으로 재구성하고 있습니다. 기존 벤치마크는 이러한 새로운 사용 사례를 따라잡지 못하고 포착하지 못함으로써, 커뮤니티가 인식하는 진전과 공식 평가 간의 격차를 남기고 있습니다. 이를 해결하기 위해, 우리는 ECHO를 제안합니다. ECHO는 모델 사용의 실제 증거(새로운 프롬프트와 사용자의 질적 판단을 보여주는 소셜 미디어 게시물)로부터 직접 벤치마크를 구축하는 프레임워크입니다. 이 프레임워크를 GPT-4o Image Gen에 적용하여, 우리는 이러한 게시물에서 선별한 31,000개 이상의 프롬프트 데이터셋을 구축했습니다. 우리의 분석은 ECHO가 (1) 기존 벤치마크에서 누락된 창의적이고 복잡한 작업(예: 제품 라벨을 여러 언어로 재렌더링하거나 지정된 총액이 포함된 영수증 생성)을 발견하고, (2) 최첨단 모델과 대안 모델을 더 명확하게 구분하며, (3) 모델 품질을 측정하기 위한 지표 설계에 활용할 수 있는 커뮤니티 피드백(예: 관찰된 색상, 정체성, 구조의 변화 측정)을 표면화한다는 것을 보여줍니다. 우리의 웹사이트는 https://echo-bench.github.io에서 확인할 수 있습니다.
에이전트 강화학습(Agentic Reinforcement Learning, RL)은 대형 언어 모델이 추론 과정에서 도구를 자율적으로 호출하도록 훈련시키며, 검색이 가장 일반적인 응용 사례입니다. 이러한 모델은 다단계 추론 작업에서 뛰어난 성능을 보이지만, 그 안전성 특성은 잘 이해되지 않고 있습니다. 본 연구에서는 RL로 훈련된 검색 모델이 명령어 튜닝에서 거부 기능을 상속받아 유해한 요청을 안전한 질의로 전환하는 경우가 많음을 보여줍니다. 그러나 이러한 안전성은 취약합니다. 두 가지 간단한 공격, 하나는 모델이 검색으로 응답을 시작하도록 강제하는 공격(Search attack), 다른 하나는 모델이 반복적으로 검색하도록 유도하는 공격(Multi-search attack)은 유해한 검색과 답변의 연쇄를 유발합니다. 두 모델 계열(Qwen, Llama)에서 로컬 및 웹 검색 모두에 걸쳐 이러한 공격은 거부율을 최대 60.0%, 답변 안전성을 82.5%, 검색 질의 안전성을 82.4%까지 낮춥니다. 이 공격은 모델이 상속된 거부 토큰을 생성하기 전에 유해한 요청을 반영하는 검색 질의를 생성하도록 유발함으로써 성공합니다. 이는 현재 RL 훈련의 핵심 약점을 드러냅니다: RL은 질의의 효과적인 생성을 보상하지만 그 유해성을 고려하지 않습니다. 결과적으로, RL 검색 모델은 사용자가 쉽게 악용할 수 있는 취약점을 가지고 있어, 안전한 검색을 최적화하는 안전 인식 에이전트 RL 파이프라인을 개발하는 것이 시급합니다.
컴퓨터 사용을 위한 다중 모달 에이전트는 정확한 시각적 기반과 긴 실행 체인이 필요한 기본 동작(클릭, 타이핑, 스크롤)에 전적으로 의존하여 연쇄적 실패와 성능 병목 현상을 초래합니다. 다른 에이전트들은 풍부한 프로그래밍 인터페이스(API, MCP 서버, 도구)를 활용하는 반면, 컴퓨터 사용 에이전트(CUAs)는 이러한 기능과 격리된 상태로 남아 있습니다. 우리는 UltraCUA를 제안하며, 이는 GUI 기본 동작과 고수준 프로그래밍 도구 호출을 원활하게 통합하는 하이브리드 액션을 통해 이러한 격차를 해소하는 기반 모델입니다. 이를 위해 우리의 접근 방식은 네 가지 주요 구성 요소로 이루어져 있습니다: (1) 소프트웨어 문서, 오픈소스 저장소, 코드 생성으로부터 프로그래밍 도구를 확장하는 자동화된 파이프라인; (2) 실제 컴퓨터 사용 시나리오를 아우르는 17,000개 이상의 검증 가능한 작업을 생성하는 합성 데이터 엔진; (3) 저수준 GUI 동작과 고수준 프로그래밍 도구 호출을 모두 포함한 대규모 고품질 하이브리드 액션 궤적 수집; (4) 전략적으로 저수준과 고수준 동작을 교체할 수 있도록 지도 미세 조정과 온라인 강화 학습을 결합한 두 단계 훈련 파이프라인. 7B 및 32B 모델을 사용한 실험은 최신 에이전트 대비 상당한 개선을 보여줍니다. OSWorld에서 UltraCUA 모델은 기본 모델 대비 평균 22%의 상대적 개선을 달성하며, 단계 측면에서 11% 더 빠릅니다. WindowsAgentArena에서의 도메인 외 평가에서는 우리 모델이 21.7%의 성공률을 달성하며, Windows 데이터로 훈련된 베이스라인을 능가합니다. 하이브리드 액션 메커니즘은 오류 전파를 줄이면서 실행 효율성을 유지하는 데 있어 핵심적인 역할을 입증했습니다.
정보가 기하급수적으로 증가함에 따라 기업들은 비정형 데이터를 일관적이고 실행 가능한 통찰로 전환해야 하는 압박을 점점 더 받고 있습니다. 자율 에이전트는 유망한 가능성을 보여주지만, 도메인 특유의 미묘한 차이, 의도 정렬, 그리고 기업 통합에 있어 종종 어려움을 겪습니다. 우리는 Enterprise Deep Research(EDR)를 제안합니다. 이는 (1) 적응형 쿼리 분해를 위한 마스터 플래닝 에이전트, (2) 네 가지 특화 검색 에이전트(일반, 학술, GitHub, LinkedIn), (3) NL2SQL, 파일 분석, 기업 워크플로우를 지원하는 확장 가능한 MCP 기반 도구 생태계, (4) 데이터 기반 통찰을 위한 시각화 에이전트, 그리고 (5) 지식 격차를 탐지하고 연구 방향을 업데이트하는 반사 메커니즘(옵션으로 인간의 지휘 가이드 포함)을 통합한 다중 에이전트 시스템입니다. 이러한 구성 요소는 자동화된 보고서 생성, 실시간 스트리밍, 원활한 기업 배포를 가능하게 하며, 내부 데이터셋에서 검증되었습니다. DeepResearch Bench 및 DeepConsult을 포함한 개방형 벤치마크에서 EDR은 인간의 개입 없이도 최첨단 에이전트 시스템을 능가하는 성능을 보여줍니다. 우리는 다중 에이전트 추론 애플리케이션 연구를 발전시키기 위해 EDR 프레임워크와 벤치마크 궤적을 공개합니다. 코드: https://github.com/SalesforceAIResearch/enterprise-deep-research 데이터셋: https://huggingface.co/datasets/Salesforce/EDR-200
지식 기반 시각 질의응답(KB-VQA)은 시각 언어 모델(VLMs)이 시각적 이해와 외부 지식 검색을 통합할 것을 요구합니다. 검색 증강 생성(RAG)이 지식베이스 질의를 결합하여 이 작업에서 상당한 진전을 이루었음에도 불구하고, 여전히 다중모드 질의의 품질과 검색 결과의 관련성에 어려움을 겪고 있습니다. 이러한 문제를 극복하기 위해, 우리는 처리(Processing), 검색(Retrieval), 필터링(Filtering) 단계로 구성된 새로운 3단계 방법론인 Wiki-PRF를 제안합니다. 처리 단계는 정확한 다중모드 정보를 추출하기 위해 시각 도구를 동적으로 호출합니다. 검색 단계는 시각 및 텍스트 특징을 통합하여 다중모드 지식 검색을 달성합니다. 필터링 단계는 검색 결과에 대한 관련성 필터링과 집중을 수행합니다. 이를 위해, 우리는 강화 학습 방식으로 정답 정확도와 형식 일관성을 보상 신호로 사용하여 훈련된 시각 언어 모델을 도입합니다. 이는 모델의 추론 능력, 정확한 질의를 위한 도구 호출, 그리고 관련 없는 내용의 필터링을 강화합니다. 벤치마크 데이터셋(E-VQA 및 InfoSeek)에 대한 실험은 답변 품질에서 상당한 개선(36.0 및 42.8)을 보여주며, 최첨단 성능을 달성합니다. 코드는 https://github.com/cqu-student/Wiki-PRF에서 확인할 수 있습니다.
OpenAI-o1 및 DeepSeek-R1과 같은 대형 언어 모델(LLMs)은 강력한 추론 능력을 보여주고 있다. LLM의 능력을 더욱 향상시키기 위해, 최근의 에이전트 시스템(예: Deep Research)은 웹 상호작용을 LLM 추론에 통합하여 불확실성을 완화하고 잠재적 오류를 줄이고 있다. 그러나 기존 연구는 주로 추론 성능에 초점을 맞추고 있으며, 종종 에이전트 시스템의 효율성을 간과하고 있다. 본 연구에서는 웹 상호작용 에이전트 시스템에서의 효율성 병목 현상을 식별하기 위한 포괄적인 실증 연구를 제시한다. 종단 간 지연 시간을 LLM API 지연 시간과 웹 환경 지연 시간이라는 두 가지 주요 구성 요소로 분해한다. 15개의 모델과 5개의 제공자를 대상으로 한 포괄적인 실증 연구를 통해 API 기반 에이전트 시스템에서의 높은 변동성을 입증한다. 웹 기반 에이전트 시스템에서 웹 환경 지연 시간이 전체 지연 시간의 최대 53.7%까지 기여할 수 있음을 관찰한다. 지연 시간을 개선하기 위해, 웹 환경 오버헤드를 줄일 수 있는 사전 실행(speculative execution)을 강화한 캐싱 프레임워크인 SpecCache를 제안한다. 두 가지 표준 벤치마크에 대한 광범위한 평가 결과, 우리의 접근 방식은 무작위 캐싱 전략에 비해 캐시 적중률을 최대 58배까지 향상시키고, 웹 환경 오버헤드를 최대 3.2배까지 감소시키며, 에이전트 시스템의 성능을 저하시키지 않음을 보여준다.
비전-언어 모델(Vision-and-Language Models, VLMs)은 단일 턴 벤치마크에서 인상적인 성능을 보여주었으나, 실제 응용에서는 더 복잡한 다중 턴 대화가 요구되는 경우가 많다. 기존의 다중 턴 데이터셋(예: MMDU, ConvBench)은 사용자가 경험하는 대화 시나리오의 폭과 깊이를 부분적으로만 반영하고 있다. 본 연구에서는 12개의 인기 있는 VLM 평가 벤치마크에서 도출된 647개의 대화(각각 평균 4턴)로 구성된 새로운 다중 턴 대화 벤치마크인 MultiVerse를 소개한다. 484개의 작업과 484개의 상호작용 목표를 포함한 MultiVerse는 사실적 지식과 인지부터 수학 및 코딩과 같은 고급 추론 작업에 이르기까지 다양한 주제를 다룬다. 강력한 평가를 위해 GPT-4o를 자동 평가자로 활용한 체크리스트 기반 평가 방법을 제안하며, 이는 인지 정확도, 언어적 명확성, 사실적 정확성 등 37개의 주요 측면에서 성능을 측정한다. MultiVerse에서 18개의 VLM을 평가한 결과, 가장 강력한 모델(예: GPT-4o)조차도 복잡한 다중 턴 대화에서 50%의 성공률에 그치는 것으로 나타나 이 데이터셋의 도전적인 특성을 강조한다. 특히, 전체 대화 문맥을 제공하는 것이 더 작거나 약한 모델의 성능을 크게 향상시킨다는 점을 발견했으며, 이는 문맥 학습의 중요성을 강조한다. 우리는 MultiVerse가 VLM의 다중 턴 상호작용 능력을 평가하는 데 있어 중요한 지형을 제공한다고 믿는다.
최근 대규모 추론 모델(LRMs)의 발전으로, 긴 사고의 연쇄(Chain-of-Thought, CoT)를 생성하여 수학 및 코딩과 같은 복잡한 작업에서 놀라운 성능을 달성할 수 있게 되었습니다. 본 논문에서는 LRMs가 프롬프트에 악의적으로 삽입된 관련성 없는 복잡한 작업에 의해 주요 목표에서 벗어나는 현상을 '추론 분산(reasoning distraction)'이라고 명명하고 이를 체계적으로 분석합니다. 다양한 모델과 벤치마크를 대상으로 한 포괄적인 연구를 통해, 최첨단 LRMs조차도 이에 매우 취약하며, 주입된 방해 요소가 작업 정확도를 최대 60%까지 감소시킬 수 있음을 보여줍니다. 또한, 특정 정렬 기술이 이러한 약점을 증폭시킬 수 있으며, 모델이 최종 출력에서는 숨기면서도 추론 과정에서 숨겨진 적대적 지시를 따르는 '은밀한 준수(covert compliance)'를 보일 수 있음을 밝혔습니다. 이러한 위험을 완화하기 위해, 합성 적대적 데이터에 대한 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)을 결합한 훈련 기반 방어 기법을 제안하며, 이를 통해 도전적인 방해 공격에 대한 견고성을 50점 이상 향상시킬 수 있음을 보여줍니다. 우리의 연구 결과는 추론 분산을 LRM 신뢰성에 대한 독특하고 긴급한 위협으로 규정하고, 더 안전하고 신뢰할 수 있는 추론 시스템을 위한 실질적인 단계를 제공합니다.
전문화된 생성 평가 모델의 미세 조정(finetuning)은 훈련 및 테스트 시점에서 확장 가능한 평가에 대한 증가하는 수요를 충족하기 위한 인기 있는 패러다임으로 부상했습니다. 그러나 최근 연구는 주로 강화 학습(RL)과 같은 새로운 방법론을 평가 모델 훈련에 적용하는 데 초점을 맞추며, 대규모 데이터 기반 개발을 피해왔습니다. 본 연구에서는 데이터 확장에 주목하여, 5가지 고유한 평가 작업(쌍별 비교, 단계별 평가, 참조 없는 및 참조 기반 검증, 단일 평점)과 추론 평가에 초점을 맞춘 여러 도메인에 걸친 250만 개의 샘플을 큐레이팅했습니다. 이 데이터를 바탕으로, 우리는 단순한 반복적 거부 샘플링 지도 미세 조정(SFT) 접근법을 사용하여 80억(8B) 및 200억(20B, 활성 36억) 파라미터 평가 모델군인 Foundational Automatic Reasoning Evaluators(FARE)를 훈련시켰습니다. FARE-8B는 더 큰 규모의 RL 훈련 평가 모델에 도전하며, FARE-20B는 오픈소스 평가 모델의 새로운 기준을 세워 700억 이상의 전문화된 평가 모델을 능가했습니다. 정적 벤치마크를 넘어, 우리는 FARE를 실제 작업에서 평가했습니다: 추론 시 리랭커로 사용될 때, FARE-20B는 MATH에서 거의 오라클 수준의 성능을 달성했습니다. RL 훈련에서 검증기로 사용될 때, FARE는 문자열 매칭 검증기 대비 최대 14.1%까지 하류 RL 훈련 모델의 성능을 향상시켰습니다. FARE에서 초기화된 지속적으로 미세 조정된 FARE-Code는 테스트 케이스 품질 평가에서 gpt-oss-20B를 65% 앞섰습니다.
고래-영어 AI 번역기가 있다면, 그것이 제대로 작동하는지 어떻게 검증할 수 있을까요? 동물과 직접 상호작용해야 할까요, 아니면 온도와 같은 객관적 관찰에 의존해야 할까요? 우리는 충분히 복잡한 언어의 경우 상호작용이나 관찰조차 필요하지 않을 수 있다는 이론적 및 개념 증명 실험적 증거를 제시합니다. 영어 출력만으로 번역기를 평가할 수 있다면, 이는 안전성, 윤리성, 비용 측면에서 잠재적 이점을 제공할 수 있습니다. 이는 참조 번역이 없는 상태에서의 기계 번역 품질 평가(MTQE)의 한 사례입니다. 주요 과제 중 하나는 유창하고 그럴듯해 보이는 거짓 번역인 "환각(hallucination)"을 식별하는 것입니다. 우리는 세그먼트별 번역과 고전적인 NLP 셔플 테스트를 함께 사용하여 번역기를 평가할 것을 제안합니다. 이 아이디어는 동물의 의사소통을 차례대로 번역하고, 결과 번역이 순열된 경우보다 더 의미 있는 순서로 나오는 빈도를 평가하는 것입니다. 데이터가 부족한 인간 언어와 인공 언어에 대한 개념 증명 실험은 이 평가 방법론의 잠재적 유용성을 입증합니다. 이러한 인간 언어 실험은 데이터 부족 상황에서 참조 없는 평가 지표를 검증하기 위한 목적으로만 수행되었습니다. 이 지표는 우리 실험에서 사용 가능한 참조 번역 기반의 표준 평가와 높은 상관관계를 보이는 것으로 나타났습니다. 또한 우리는 번역 학습의 초기 단계에서 상호작용이 필요하지 않을 뿐만 아니라 비효율적일 수 있다는 이론적 분석을 수행합니다.
본 연구는 위성 토지 이용 분류를 위한 맞춤형 합성곱 신경망(CNN) 아키텍처를 체계적으로 탐구한 결과를 제시하며, 사전 학습된 모델에 의존하지 않고 EuroSAT 데이터셋에서 97.23%의 테스트 정확도를 달성하였다. 세 가지 점진적인 아키텍처 반복(기본 모델: 94.30%, CBAM 강화 모델: 95.98%, 균형 다중 작업 주의 메커니즘: 97.23%)을 통해 위성 영상 분류에서 발생하는 특정 실패 모드를 식별하고 해결하였다. 본 연구의 주요 기여는 공간적 특징 추출을 위한 좌표 주의(Coordinate Attention)와 스펙트럼 특징 추출을 위한 Squeeze-Excitation 블록을 학습 가능한 융합 파라미터를 통해 통합한 새로운 균형 다중 작업 주의 메커니즘이다. 실험 결과, 이 학습 가능한 파라미터는 알파 값이 약 0.57로 자율적으로 수렴하며, 위성 영상에서 공간적 및 스펙트럼 모달리티의 중요성이 거의 동등함을 보여준다. 과적합과 혼동 패턴 불균형을 해결하기 위해 점진적 DropBlock 정규화(네트워크 깊이에 따라 5-20%)와 클래스 균형 손실 가중치를 적용하였다. 최종 12층 아키텍처는 모든 클래스에서 94.46% 이상의 정확도를 달성하며 Cohen's Kappa 값이 0.9692로 나타났고, 올바른 예측과 잘못된 예측 간의 격차가 24.25%로 신뢰도 보정을 입증하였다. 본 접근법은 외부 데이터 없이도 미세 조정된 ResNet-50(98.57%)의 성능과 1.34% 이내의 차이로 근접한 성능을 달성하여, 도메인 특화 애플리케이션을 위한 체계적인 아키텍처 설계의 효용성을 검증하였다. 전체 코드, 학습된 모델 및 평가 스크립트는 공개적으로 제공된다.
효과적인 에이전트 시스템 설계는 동적이고 불확실한 환경 내에서 에이전트, 도구, 모델의 원활한 구성과 통합을 요구합니다. 기존의 대부분의 방법은 도구나 에이전트 발견을 위해 정적이고 의미론적인 검색 접근법에 의존합니다. 그러나 불완전한 기능 설명과 검색 방법의 한계로 인해 기존 구성 요소의 효과적인 재사용과 구성은 여전히 어려운 과제로 남아 있습니다. 구성 요소 선택은 기능, 비용, 실시간 유용성을 기반으로 결정되지 않아 문제가 발생합니다. 이러한 문제를 해결하기 위해, 우리는 배낭 문제에서 영감을 받은 구조화된 자동화된 에이전트 시스템 구성 프레임워크를 소개합니다. 우리의 프레임워크는 컴포저 에이전트가 성능, 예산 제약, 호환성을 종합적으로 고려하여 최적의 에이전트 구성 요소 집합을 체계적으로 식별, 선택, 조립할 수 있도록 합니다. 후보 구성 요소를 동적으로 테스트하고 실시간으로 그들의 유용성을 모델링함으로써, 우리의 접근 방식은 에이전트 시스템의 조립을 간소화하고 자원의 확장 가능한 재사용을 촉진합니다. Claude 3.5 Sonnet을 사용한 5개의 벤치마킹 데이터셋에 대한 실험적 평가는 우리의 온라인 배낭 기반 컴포저가 기준선 대비 훨씬 낮은 구성 요소 비용으로 더 높은 성공률을 달성하며 파레토 프론티어에 지속적으로 위치함을 보여줍니다. 단일 에이전트 설정에서, 온라인 배낭 컴포저는 검색 기준선 대비 최대 31.6%의 성공률 향상을 보였습니다. 다중 에이전트 시스템에서는 100개 이상의 에이전트 인벤토리에서 에이전트를 선택할 때, 온라인 배낭 컴포저가 성공률을 37%에서 87%로 증가시켰습니다. 이러한 상당한 성능 격차는 우리의 방법이 다양한 도메인과 예산 제약에 걸쳐 강력한 적응성을 가지고 있음을 확인시켜 줍니다.
외관 객체의 다양한 표현 방식(예: 이미지 또는 텍스트)을 사용하여 3D 자산에 외관을 전달하는 것은 게임, 증강 현실, 디지털 콘텐츠 제작과 같은 산업에서의 광범위한 응용 가능성으로 인해 관심을 끌고 있습니다. 그러나 입력 객체와 외관 객체 간의 기하학적 차이가 크면 최신 방법들도 실패하는 경우가 많습니다. 간단한 접근법으로 3D 생성 모델을 직접 적용하는 방법이 있지만, 이는 매력적인 결과를 생성하지 못한다는 것을 우리는 보여줍니다. 대신, 우리는 보편적 가이던스에서 영감을 받은 원칙적인 접근법을 제안합니다. 이미지 또는 텍스트를 조건으로 하는 사전 학습된 정류 흐름(rectified flow) 모델을 기반으로, 우리의 학습이 필요 없는 방법은 샘플링 과정에 주기적으로 가이던스를 추가하여 상호작용합니다. 이 가이던스는 미분 가능한 손실 함수로 모델링될 수 있으며, 우리는 외관을 위한 부분 인식 손실(part-aware loss)과 자기 유사성(self-similarity)을 포함한 두 가지 유형의 가이던스를 실험합니다. 우리의 실험 결과는 이 접근법이 입력 3D 자산에 질감과 기하학적 세부 사항을 성공적으로 전달하며, 질적 및 양적으로 기준선을 능가한다는 것을 보여줍니다. 또한, 전통적인 평가 지표는 이 작업을 평가하는 데 적합하지 않음을 보여줍니다. 이는 지표가 지역적 세부 사항에 초점을 맞추지 못하고, 실측 데이터가 없는 경우 서로 다른 입력을 비교할 수 없기 때문입니다. 따라서 우리는 GPT 기반 시스템을 사용하여 외관 전달 품질을 객관적으로 순위 매기는 방식으로 평가하여, 강력하고 인간과 유사한 평가를 보장합니다. 이는 사용자 연구를 통해 추가로 확인되었습니다. 제시된 시나리오를 넘어, 우리의 방법은 일반적이며 다양한 유형의 확산 모델과 가이던스 함수로 확장될 수 있습니다.
복잡한 추론 작업에서 효과적인 인간-AI 협업은 사용자가 단순히 결과를 받아들이는 것이 아니라 모델의 프로세스를 이해하고 상호작용할 것을 요구합니다. 그러나 Chain-of-Thought(CoT)와 같은 방법론에서 생성되는 단일 텍스트는 실시간 음성화와 강력한 사용자 중단 기능이 부족한 현재의 인터페이스로 인해 이를 방해합니다. 우리는 AsyncVoice Agent를 제안합니다. 이 시스템은 비동기적 아키텍처를 통해 스트리밍 LLM 백엔드와 대화형 음성 프론트엔드를 분리합니다. 이러한 설계는 내레이션과 추론을 병렬로 실행할 수 있게 하여, 사용자가 언제든지 모델의 추론 과정을 중단하고 질문하며 조정할 수 있도록 합니다. 객관적인 벤치마크는 이 접근 방식이 단일 구조의 기준선에 비해 상호작용 지연 시간을 600배 이상 줄이면서도 높은 충실도와 경쟁력 있는 작업 정확도를 보장함을 나타냅니다. 모델의 사고 과정과 양방향 대화를 가능하게 함으로써, AsyncVoice Agent는 고위험 작업을 위한 더 효과적이고 조정 가능하며 신뢰할 수 있는 인간-AI 시스템을 구축하는 새로운 패러다임을 제시합니다.
대규모 언어 모델은 진실성과 아첨 사이의 구조적 절충을 내재화하며, 이는 도움을 주는 행위를 공손한 복종과 혼동하는 보상 최적화 과정에서 발생합니다. 이러한 잠재적 편향, 즉 아첨(sycophancy)은 원칙적 추론보다 사용자와의 동의를 선호하는 형태로 나타납니다. 우리는 이러한 편향을 대화 맥락과 독립적으로 분리하여 정확성과 복종적 편향 간의 긴장을 정밀하게 측정할 수 있는 단일 턴 강제 선택 벤치마크인 Beacon을 소개합니다. 12개의 최신 모델에 대한 평가를 통해 아첨이 안정적인 언어적 및 감정적 하위 편향으로 분해되며, 각각이 모델의 용량에 따라 확장됨을 확인했습니다. 또한, 우리는 이러한 편향을 상반된 방향으로 조절하는 프롬프트 수준과 활성화 수준의 개입 방안을 제안하며, 진실성과 사회적으로 순응적인 판단 사이의 동적 다양체로서 정렬의 내부 기하학을 드러냅니다. Beacon은 아첨을 측정 가능한 규범적 오일반화의 한 형태로 재구성함으로써, 대규모 생성 시스템에서의 정렬 이탈을 연구하고 완화하기 위한 재현 가능한 기반을 제공합니다.
테스트 시간 스케일링(TTS)은 수학 및 코딩과 같은 다양한 작업에서 추론 모델(RMs)의 성능을 향상시켜 왔지만, 기계 번역(MT)에서의 효용성은 아직 충분히 탐구되지 않았습니다. 본 논문은 추론 시간 계산량 증가가 번역 품질을 개선하는지 여부를 조사합니다. 우리는 다중 도메인에 걸친 다양한 MT 벤치마크에서 12개의 RM을 평가하며, 직접 번역, 강제 추론 외삽, 그리고 사후 편집이라는 세 가지 시나리오를 검토합니다. 연구 결과에 따르면, 범용 RM의 경우 TTS는 직접 번역에 대해 제한적이고 일관되지 않은 이점만 제공하며, 성능이 빠르게 정체되는 것으로 나타났습니다. 그러나 도메인 특화 미세 조정을 통해 TTS의 효과가 발휘될 수 있으며, 이는 모델의 추론 과정을 작업 요구 사항에 맞추어 일관된 개선을 이끌어내고, 최적의 자체 결정된 추론 깊이까지 성능을 향상시킵니다. 또한 모델이 자연스러운 중단 지점을 넘어서도록 강제하는 경우 번역 품질이 일관되게 저하되는 것으로 나타났습니다. 반면, TTS는 사후 편집 맥락에서 매우 효과적이며, 자기 수정을 유익한 과정으로 전환하는 데 안정적으로 기여합니다. 이러한 결과는 MT에서 추론 시간 계산의 가치가 일반 모델을 사용한 단일 패스 번역 개선에 있는 것이 아니라, 다단계 자기 수정 워크플로우와 같은 표적 응용 프로그램 및 작업 특화 모델과의 결합에 있음을 시사합니다.
AI 시스템이 발전함에 따라, 우리는 그들과 함께 그리고 그들을 대신하여 결정을 내리는 데 점점 더 의존하게 되었습니다. 이러한 결정이 인간의 가치와 일치하도록 보장하기 위해서는, 그들이 어떤 결정을 내리는지뿐만 아니라 어떻게 그 결정에 이르는지도 이해하는 것이 필수적입니다. 최종 응답과 (부분적으로 투명한) 중간 사고 흔적을 모두 제공하는 추론 언어 모델은 AI의 절차적 추론을 연구할 수 있는 시의적절한 기회를 제공합니다. 객관적으로 정답이 있는 수학 및 코드 문제와 달리, 도덕적 딜레마는 여러 가지 방어 가능한 결론을 허용하기 때문에 과정 중심 평가를 위한 훌륭한 테스트베드입니다. 이를 위해 우리는 MoReBench를 제시합니다: 1,000개의 도덕적 시나리오와 각 시나리오에 대해 전문가들이 추론할 때 포함(또는 피해야)할 필수적인 기준 세트를 짝지은 것입니다. MoReBench에는 도덕적 고려사항 식별, 트레이드오프 평가, 실행 가능한 권장사항 제공 등 23,000개 이상의 기준이 포함되어 있어, AI가 인간에게 도덕적 결정을 조언하는 경우와 자율적으로 도덕적 결정을 내리는 경우를 모두 다룹니다. 별도로, 우리는 MoReBench-Theory를 큐레이션했습니다: AI가 규범 윤리학의 다섯 가지 주요 프레임워크 하에서 추론할 수 있는지 테스트하기 위한 150개의 예시입니다. 우리의 결과는 수학, 코드, 과학적 추론 작업에 대한 스케일링 법칙과 기존 벤치마크가 모델의 도덕적 추론 능력을 예측하는 데 실패한다는 것을 보여줍니다. 또한 모델은 특정 도덕적 프레임워크(예: 벤담의 행동 공리주의와 칸트의 의무론)에 편향을 보이는데, 이는 인기 있는 훈련 패러다임의 부작용일 수 있습니다. 이러한 벤치마크들은 함께 더 안전하고 투명한 AI를 위한 과정 중심 추론 평가를 발전시킵니다.