번역이 포함된 일일 선별된 AI 연구 논문
Deep Research와 같은 웹 에이전트는 매우 도전적인 정보 탐색 문제를 해결할 수 있는 초인적 인지 능력을 입증했습니다. 그러나 대부분의 연구는 주로 텍스트 중심으로 진행되어 실세계의 시각 정보를 간과하고 있습니다. 이로 인해 다중 모달 Deep Research는 텍스트 기반 에이전트에 비해 훨씬 강력한 지각, 논리, 지식 및 더 정교한 도구 사용 능력을 요구하기 때문에 매우 어려운 과제가 되었습니다. 이러한 한계를 해결하기 위해, 우리는 향상된 시각-언어 추론 능력을 갖춘 다중 모달 Deep Research 에이전트인 WebWatcher를 소개합니다. WebWatcher는 고품질의 합성 다중 모달 궤적을 활용하여 효율적인 콜드 스타트 훈련을 수행하고, 다양한 도구를 사용하여 심층 추론을 진행하며, 강화 학습을 통해 일반화 능력을 더욱 향상시킵니다. 다중 모달 에이전트의 능력을 더 잘 평가하기 위해, 우리는 시각 및 텍스트 정보를 모두 포함한 복잡한 정보 검색을 요구하는 BrowseComp 스타일의 벤치마크인 BrowseComp-VL을 제안합니다. 실험 결과는 WebWatcher가 네 가지 도전적인 VQA 벤치마크에서 독점적인 베이스라인, RAG 워크플로우 및 오픈소스 에이전트를 크게 능가함을 보여주며, 이는 복잡한 다중 모달 정보 탐색 과제 해결의 길을 열어줍니다.
단일 이미지 또는 텍스트 프롬프트로부터 탐색 가능한 3D 세계를 생성하는 것은 공간 지능의 핵심 요소입니다. 최근 연구들은 비디오 모델을 활용하여 광범위하고 일반화 가능한 3D 세계 생성을 달성하고 있습니다. 그러나 기존 접근 방식들은 생성된 장면의 범위가 제한되는 문제를 자주 겪습니다. 본 연구에서는 조건부 비디오 생성과 파노라마 3D 재구성을 결합한 광범위한 커버리지를 가진 전방위 탐색 가능 3D 세계 생성을 위해 파노라마 표현을 활용하는 Matrix-3D 프레임워크를 제안합니다. 먼저, 장면 메시 렌더를 조건으로 사용하여 고품질이고 기하학적으로 일관된 장면 비디오 생성을 가능하게 하는 궤적 기반 파노라마 비디오 확산 모델을 학습합니다. 파노라마 장면 비디오를 3D 세계로 변환하기 위해 두 가지 별도의 방법을 제안합니다: (1) 빠른 3D 장면 재구성을 위한 순방향 대형 파노라마 재구성 모델과 (2) 정확하고 세부적인 3D 장면 재구성을 위한 최적화 기반 파이프라인입니다. 효과적인 학습을 위해, 깊이와 궤적 주석이 포함된 116K개의 고품질 정적 파노라마 비디오 시퀀스로 구성된 대규모 합성 데이터셋인 Matrix-Pano 데이터셋도 소개합니다. 광범위한 실험을 통해 제안된 프레임워크가 파노라마 비디오 생성 및 3D 세계 생성에서 최첨단 성능을 달성함을 입증합니다. 자세한 내용은 https://matrix-3d.github.io에서 확인할 수 있습니다.
LLM 기반 에이전트의 최근 발전은 외부 도구를 통합함으로써 복잡하고 지식 집약적인 작업을 처리하는 데 있어 놀라운 능력을 보여주고 있습니다. 다양한 도구 선택 중에서 검색 도구는 방대한 외부 지식에 접근하는 데 핵심적인 역할을 합니다. 그러나 오픈소스 에이전트들은 여전히 전문가 수준의 검색 지능(Search Intelligence), 즉 모호한 쿼리를 해결하고 정확한 검색을 생성하며 결과를 분석하고 철저한 탐색을 수행하는 능력을 달성하는 데 미치지 못하고 있습니다. 기존 접근 방식은 확장성, 효율성, 데이터 품질 측면에서 부족함을 보입니다. 예를 들어, 기존의 온라인 강화학습(RL) 방법에서의 작은 턴 제한(예: <=10)은 복잡한 전략 학습을 제한합니다. 본 논문은 검색 에이전트의 대규모 RL 훈련을 위한 오픈소스 프로젝트인 ASearcher를 소개합니다. 우리의 주요 기여는 다음과 같습니다: (1) 장기적인 검색을 가능하게 하면서도 높은 훈련 효율성을 유지하는 확장 가능한 완전 비동기식 RL 훈련. (2) 고품질이고 도전적인 QA를 자율적으로 합성하여 대규모 QA 데이터셋을 생성하는 프롬프트 기반 LLM 에이전트. RL 훈련을 통해, 우리의 프롬프트 기반 QwQ-32B 에이전트는 xBench와 GAIA에서 각각 46.7%와 20.8%의 Avg@4 성능 향상을 달성했습니다. 특히, 우리의 에이전트는 훈련 시간 동안 40회 이상의 툴 호출과 150k 이상의 출력 토큰을 보이는 극단적인 장기 검색을 보여줍니다. 간단한 에이전트 설계와 외부 LLM 없이, ASearcher-Web-QwQ는 xBench에서 42.1, GAIA에서 52.8의 Avg@4 점수를 달성하여 기존의 오픈소스 32B 에이전트들을 능가합니다. 우리는 모델, 훈련 데이터, 코드를 https://github.com/inclusionAI/ASearcher에서 오픈소스로 공개합니다.
명령어 수행 능력은 최근 대형 언어 모델(LLM) 시대를 촉진시키는 동력이 되었으며, 추론 및 에이전트 행동과 같은 더 고급 기능을 뒷받침하는 기초적인 기술이다. 과제가 점점 더 복잡해짐에 따라 자연어 명령어에 내재된 논리 구조도 점점 더 정교해지고 있다. 그러나 이러한 논리가 풍부한 명령어에 대해 LLM이 얼마나 잘 수행하는지는 아직 충분히 탐구되지 않았다. 본 연구에서는 LogicIFGen과 LogicIFEval을 제안한다. LogicIFGen은 코드 함수에서 검증 가능한 명령어를 생성하기 위한 확장 가능한 자동화 프레임워크로, 조건문, 중첩, 재귀, 함수 호출과 같은 풍부한 논리를 자연스럽게 표현할 수 있다. 또한 복잡한 코드 함수 컬렉션을 선별하고 LogicIFGen을 사용하여 426개의 검증 가능한 논리 풍부한 명령어로 구성된 벤치마크인 LogicIFEval을 구축하였다. 실험 결과, 현재 최첨단 LLM들도 LogicIFEval의 명령어를 올바르게 수행하는 데 어려움을 겪는 것으로 나타났다. 대부분의 LLM은 60% 미만의 명령어만을 수행할 수 있었으며, 이는 명령어 수행 능력에 상당한 결함이 있음을 보여준다. 코드 및 벤치마크: https://github.com/mianzhang/LogicIF
본 논문에서는 단일 참조 캐릭터 이미지와 2D 포즈 시퀀스로부터 동적인 3D 캐릭터(즉, 4D 캐릭터 애니메이션)를 생성할 수 있는 제어 가능하고 일관된 4D 캐릭터 애니메이션 프레임워크인 CharacterShot을 제안합니다. 먼저, 최신 DiT 기반 이미지-투-비디오 모델을 기반으로 강력한 2D 캐릭터 애니메이션 모델을 사전 학습하여, 어떠한 2D 포즈 시퀀스도 제어 신호로 사용할 수 있도록 합니다. 그런 다음, 듀얼-어텐션 모듈과 카메라 사전 정보를 도입하여 애니메이션 모델을 2D에서 3D로 확장함으로써 시공간적 및 공간-뷰 일관성을 갖는 멀티뷰 비디오를 생성합니다. 마지막으로, 이러한 멀티뷰 비디오에 대해 새로운 이웃-제약 4D 가우시안 스플래팅 최적화를 적용하여 연속적이고 안정적인 4D 캐릭터 표현을 얻습니다. 또한, 캐릭터 중심 성능을 향상시키기 위해 다양한 외관과 동작을 가진 13,115개의 고유 캐릭터를 다중 시점에서 렌더링한 대규모 데이터셋 Character4D를 구축했습니다. 새롭게 구축한 벤치마크인 CharacterBench에서의 광범위한 실험을 통해 우리의 접근 방식이 현재 최첨단 방법들을 능가함을 입증합니다. 코드, 모델, 데이터셋은 https://github.com/Jeoyal/CharacterShot에서 공개될 예정입니다.
확산 대형 언어 모델(dLLMs)은 반복적인 노이즈 제거를 통해 텍스트를 생성하지만, 현재의 디코딩 전략은 최종 출력을 선호하여 풍부한 중간 예측 결과를 버리고 있습니다. 본 연구에서는 정답이 중간 과정에서 나타나지만 후속 노이즈 제거 단계에서 덮어쓰이는 '시간적 진동(temporal oscillation)'이라는 중요한 현상을 밝혔습니다. 이 문제를 해결하기 위해, 우리는 시간적 일관성을 활용한 두 가지 상호 보완적인 방법을 제안합니다: 1) 훈련이 필요 없는 테스트 시점 디코딩 전략인 '시간적 자기 일관성 투표(Temporal Self-Consistency Voting)'로, 노이즈 제거 단계 전반에 걸친 예측을 집계하여 가장 일관된 출력을 선택하며; 2) 사후 훈련 방법인 '시간적 일관성 강화(Temporal Consistency Reinforcement)'로, 중간 예측 간의 의미적 안정성을 측정하는 '시간적 의미론적 엔트로피(Temporal Semantic Entropy, TSE)'를 보상 신호로 사용하여 안정적인 생성을 촉진합니다. 여러 벤치마크에서의 실험 결과는 우리의 접근 방식의 효과를 입증합니다. 단독으로 TSE 음의 보상을 사용했을 때, 기존 dLLM 대비 Countdown 데이터셋에서 평균 24.7%의 놀라운 성능 향상을 관찰했습니다. 정확도 보상과 결합했을 때는 GSM8K에서 2.0%, MATH500에서 4.3%, SVAMP에서 6.6%, Countdown에서 25.3%의 절대적 성능 향상을 달성했습니다. 이러한 발견은 dLLM의 시간적 동역학에서 아직 활용되지 않은 잠재력을 강조하며, 이를 활용하기 위한 간단하지만 효과적인 두 가지 도구를 제시합니다.
최근 대규모 추론 모델들은 강력한 수학적 및 코딩 능력을 보여주었으며, 딥 서치는 이러한 추론 능력을 활용하여 도전적인 정보 검색 작업을 수행합니다. 기존의 딥 서치 연구는 일반적으로 로컬 또는 웹 중 단일 지식 소스에 국한되어 있습니다. 그러나 기업들은 종종 로컬 및 웹 코퍼스 모두에 걸쳐 검색 도구를 활용할 수 있는 개인용 딥 서치 시스템을 요구합니다. 다중 검색 도구를 갖춘 에이전트를 평면적 강화 학습(RL)을 사용하여 훈련시키는 것은 간단한 아이디어이지만, 훈련 데이터 효율성이 낮고 복잡한 도구를 제대로 숙달하지 못하는 등의 문제가 있습니다. 이러한 문제를 해결하기 위해, 우리는 계층적 RL로 훈련된 계층적 에이전트 딥 서치 프레임워크인 HierSearch를 제안합니다. 하위 수준에서는 로컬 딥 서치 에이전트와 웹 딥 서치 에이전트가 각각 해당 도메인에서 증거를 검색하도록 훈련됩니다. 상위 수준에서는 플래너 에이전트가 하위 수준 에이전트들을 조율하고 최종 답변을 제공합니다. 또한, 직접적인 답변 복사와 오류 전파를 방지하기 위해, 우리는 하위 수준 에이전트들이 반환한 환각과 관련 없는 증거를 걸러내는 지식 정제기를 설계했습니다. 실험 결과, HierSearch는 평면적 RL에 비해 더 나은 성능을 달성했으며, 일반, 금융, 의료 도메인에 걸친 여섯 가지 벤치마크에서 다양한 딥 서치 및 다중 소스 검색 강화 생성 기준선들을 능가했습니다.
본 논문에서는 연속적인 세부 수준에서 메시 생성이 가능한 새로운 메시 생성 프레임워크인 VertexRegen을 소개한다. 기존의 자기회귀적 방법들은 부분에서 완전한 형태로 메시를 생성하기 때문에 생성의 중간 단계에서 불완전한 구조를 나타낸다. VertexRegen은 점진적 메시(progressive meshes)에서 영감을 받아, 생성 모델을 통해 학습된 에지 축소(edge collapse)의 역과정, 즉 정점 분할(vertex split)로 이 과정을 재구성한다. 실험 결과는 VertexRegen이 최신 기술과 비교할 만한 품질의 메시를 생성하면서도, 어느 단계에서든 중단하여 다양한 세부 수준의 유효한 메시를 생성할 수 있는 유연성을 제공한다는 것을 보여준다.
비전-언어 모델은 다양한 컴퓨터 작업을 자동화할 수 있는 컴퓨터 사용 에이전트(CUA)로서 인상적인 능력을 입증해 왔다. 이러한 모델의 상업적 잠재력이 커짐에 따라, 가장 강력한 CUA 시스템의 중요한 세부 사항은 여전히 공개되지 않고 있다. 이러한 에이전트가 점점 더 디지털 상호작용을 중재하고 우리를 대신하여 중대한 결정을 실행할 것으로 예상됨에 따라, 연구 커뮤니티는 CUA의 능력, 한계 및 위험을 연구하기 위해 공개된 CUA 프레임워크에 접근할 필요가 있다. 이러한 격차를 해소하기 위해, 우리는 CUA 데이터와 기초 모델을 확장하기 위한 포괄적인 오픈소스 프레임워크인 OpenCUA를 제안한다. 우리의 프레임워크는 다음과 같이 구성된다: (1) 인간의 컴퓨터 사용 데모를 원활하게 캡처하는 주석 인프라; (2) 3개의 운영 체제와 200개 이상의 애플리케이션 및 웹사이트를 아우르는 첫 번째 대규모 컴퓨터 사용 작업 데이터셋인 AgentNet; (3) 데모를 상태-행동 쌍으로 변환하고 데이터 규모가 커짐에 따라 견고한 성능 향상을 유지하는 반사적 장기 사고 연쇄(Chain-of-Thought) 추론을 포함하는 확장 가능한 파이프라인. 우리의 종단 간 에이전트 모델은 CUA 벤치마크 전반에서 강력한 성능을 보여준다. 특히, OpenCUA-32B는 OSWorld-Verified에서 평균 34.8%의 성공률을 달성하여 오픈소스 모델 중 새로운 최첨단(SOTA)을 수립하고 OpenAI CUA(GPT-4o)를 능가한다. 추가 분석은 우리의 접근 방식이 다양한 도메인에서 잘 일반화되며 테스트 시간 계산이 증가함에 따라 상당한 이점을 얻는다는 것을 확인한다. 우리는 주석 도구, 데이터셋, 코드 및 모델을 공개하여 추가 CUA 연구를 위한 개방형 기반을 구축한다.
그래픽 사용자 인터페이스(GUI) 그라운딩은 자연어 명령을 정확한 화면 좌표로 매핑하는 작업으로, 자율 GUI 에이전트의 기본적인 기능입니다. 기존 방법들은 광범위한 지도 학습 또는 레이블된 보상을 사용한 강화 학습을 통해 강력한 성능을 달성했지만, 픽셀 수준의 주석 비용과 가용성에 제약을 받고 있습니다. 우리는 모델이 동일한 GUI 요소에 대해 여러 예측을 생성할 때, 공간적 중첩 패턴이 암시적인 신뢰 신호를 제공하여 더 정확한 위치 지정을 유도할 수 있다는 점을 관찰했습니다. 이러한 통찰을 바탕으로, 우리는 GUI-RC(Region Consistency)를 제안합니다. 이는 테스트 시간 스케일링 방법으로, 여러 샘플링된 예측으로부터 공간 투표 그리드를 구성하여 모델이 가장 높은 일치를 보이는 합의 영역을 식별합니다. 추가 학습 없이도 GUI-RC는 ScreenSpot 벤치마크에서 다양한 아키텍처에 걸쳐 정확도를 2-3% 향상시킵니다. 더 나아가, 우리는 GUI-RCPO(Region Consistency Policy Optimization)를 소개합니다. 이는 이러한 일관성 패턴을 테스트 시간 강화 학습을 위한 보상으로 변환합니다. 각 예측이 집단적 합의와 얼마나 잘 일치하는지를 계산함으로써, GUI-RCPO는 추론 중에 레이블이 없는 데이터에서 모델이 출력을 반복적으로 개선할 수 있도록 합니다. 광범위한 실험을 통해 우리의 접근 방식의 일반성을 입증했습니다: GUI-RC는 ScreenSpot-v2에서 Qwen2.5-VL-3B-Instruct의 정확도를 80.11%에서 83.57%로 향상시켰으며, GUI-RCPO는 자기 지도 최적화를 통해 이를 85.14%로 더욱 개선했습니다. 우리의 접근 방식은 GUI 그라운딩을 위한 테스트 시간 스케일링과 테스트 시간 강화 학습의 잠재력을 발굴하여, 더 견고하고 데이터 효율적인 GUI 에이전트를 향한 유망한 길을 제시합니다.
대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 최근 연구에서는 정확도를 유지하면서 계산 비용을 제한하기 위한 명시적인 길이 제어를 도입했습니다. 그러나 기존 접근 방식은 학습 과정에서 탐색에서 압축으로의 자연스러운 진행을 활용하지 못하는 고정 길이 훈련 예산에 의존합니다. 본 연구에서는 Group Relative Policy Optimization(GRPO)을 사용한 길이 제어 추론을 위한 커리큘럼 학습 전략을 제안합니다. 우리의 방법은 충분한 토큰 예산으로 시작하여 훈련 과정에서 점차 이를 줄여나가며, 모델이 먼저 효과적인 해결 전략을 발견한 다음 이를 더 간결한 추론 흔적으로 정제하도록 유도합니다. 우리는 GRPO에 세 가지 신호를 균형 있게 고려하는 보상 함수를 추가합니다: 작업 정확도(검증자 피드백을 통해), 길이 효율성, 그리고 형식 준수(구조적 태그를 통해). GSM8K, MATH500, SVAMP, College Math, GSM+에 대한 실험 결과, 커리큘럼 기반 훈련은 동일한 최종 예산에서 고정 예산 기준선을 일관되게 능가하며, 더 높은 정확도와 상당히 개선된 토큰 효율성을 달성함을 보여줍니다. 또한, 보상 가중치와 감소 스케줄 설계의 영향을 추가로 분석하여, 점진적인 제약이 효율적인 추론 모델 훈련을 위한 강력한 귀납적 편향으로 작용함을 입증합니다. 우리의 코드와 체크포인트는 https://github.com/hammoudhasan/curriculum_grpo에서 공개되었습니다.
오디오 기반 아바타 비디오 생성을 위한 현재의 디퓨전 모델은 자연스러운 오디오 동기화와 신원 일관성을 유지하며 긴 비디오를 합성하는 데 어려움을 겪고 있습니다. 본 논문은 후처리 없이 무한 길이의 고품질 비디오를 합성할 수 있는 최초의 엔드투엔드 비디오 디퓨전 트랜스포머인 StableAvatar를 소개합니다. StableAvatar는 참조 이미지와 오디오를 조건으로 하여 무한 길이 비디오 생성을 가능하게 하는 맞춤형 학습 및 추론 모듈을 통합합니다. 기존 모델이 긴 비디오를 생성하지 못하는 주요 원인은 오디오 모델링에 있다는 것을 관찰했습니다. 기존 모델은 일반적으로 외부 오디오 추출기를 사용하여 오디오 임베딩을 얻은 후 이를 크로스-어텐션을 통해 디퓨전 모델에 직접 주입합니다. 현재의 디퓨전 백본은 오디오 관련 사전 지식이 부족하기 때문에, 이 접근 방식은 비디오 클립 간에 잠재 분포 오차가 누적되어 후속 세그먼트의 잠재 분포가 점차 최적 분포에서 벗어나게 만듭니다. 이를 해결하기 위해 StableAvatar는 시간 단계 인식 오디오 어댑터를 도입하여 오차 누적을 방지합니다. 추론 과정에서는 디퓨전의 진화하는 오디오-잠재 예측을 동적 가이드 신호로 활용하여 오디오 동기화를 더욱 강화하는 새로운 오디오 네이티브 가이던스 메커니즘을 제안합니다. 또한, 무한 길이 비디오의 부드러움을 향상시키기 위해 시간에 따라 잠재를 융합하는 동적 가중 슬라이딩 윈도우 전략을 도입합니다. 벤치마크 실험을 통해 StableAvatar의 효과를 정성적 및 정량적으로 입증했습니다.
텍스트-이미지(T2I) 생성은 디퓨전 모델과 자기회귀 모델을 사용하여 활발히 연구되어 왔습니다. 최근에는 양방향 주의 메커니즘과 병렬 디코딩을 통해 인과적 주의와 자기회귀 디코딩의 고유한 한계를 극복하는 대안으로 마스크드 생성 트랜스포머가 주목받고 있으며, 이를 통해 효율적이고 고품질의 이미지 생성이 가능해졌습니다. 그러나 구성적 T2I 생성은 여전히 어려운 과제로 남아 있습니다. 최첨단 디퓨전 모델조차도 속성을 정확히 결합하고 텍스트-이미지 정렬을 적절히 달성하는 데 실패하는 경우가 많기 때문입니다. 디퓨전 모델은 이 문제에 대해 광범위하게 연구되었지만, 마스크드 생성 트랜스포머도 유사한 한계를 보이면서도 이와 관련된 연구는 아직 이루어지지 않았습니다. 이를 해결하기 위해 우리는 개별 객체를 명확히 표현하는 토큰의 언마스킹을 우선시하기 위해 주의 맵을 활용하는 새로운 학습 불필요 방법인 Unmasking with Contrastive Attention Guidance(UNCAGE)를 제안합니다. UNCAGE는 여러 벤치마크와 메트릭에서 정량적 및 정성적 평가 모두에서 일관되게 성능을 향상시키며, 추론 오버헤드는 무시할 수 있을 정도로 작습니다. 우리의 코드는 https://github.com/furiosa-ai/uncage에서 확인할 수 있습니다.
인도 학술 시험인 JEE(Joint Entrance Examination)에 최적화된 소형 7B 파라미터 수학 추론 모델인 Aryabhata 1.0을 소개합니다. 대형 언어 모델(LLM)의 급속한 발전에도 불구하고, 현재의 모델들은 여전히 교육적 활용에 적합하지 않은 경우가 많습니다. Aryabhata 1.0은 강력한 오픈 웨이트 추론 모델들을 통합한 후, 검증된 사고 연쇄(CoT) 추적 데이터를 기반으로 한 커리큘럼 학습을 통해 지도 미세 조정(SFT)을 거쳐 구축되었습니다. 성능을 더욱 향상시키기 위해, 그룹 상대적 이점 추정과 함께 A2C 목적 함수를 사용한 검증 가능한 보상 강화 학습(RLVR)을 적용하고, 적응형 그룹 크기 조정 및 온도 스케일링과 같은 새로운 탐색 전략을 도입했습니다. 인-분포(JEE Main 2025) 및 아웃-오브-분포(MATH, GSM8K) 벤치마크에서 평가된 Aryabhata는 정확도와 효율성 면에서 기존 모델들을 능가하며, 교육적으로 유용한 단계별 추론을 제공합니다. 우리는 시험 중심의 오픈소스 소형 언어 모델의 발전을 위해 Aryabhata를 기반 모델로 공개합니다. 이는 커뮤니티 피드백을 위한 첫 번째 공개 릴리스입니다(https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 on Hugging Face}); PW는 학생들의 학습 성과를 더욱 개선하기 위해 향후 모델들을 적극적으로 훈련 중입니다.
효율적인 도구 사용은 대규모 언어 모델(LLM)이 환경과 의미 있게 상호작용하기 위해 필수적이다. 그러나 안정적인 훈련 환경 구축과 검증 가능한 보상 메커니즘 설계의 어려움으로 인해, 도구 사용에 특화된 효율적인 강화 학습(RL) 프레임워크의 개발은 제한적이다. 이를 해결하기 위해, 우리는 시나리오 분해, 문서 생성, 기능 통합, 복잡성 조정, 그리고 지역적 배포를 포함한 자동화된 환경 구축 파이프라인을 제안한다. 이는 외부 도구에 의존하지 않으면서도 상세하고 측정 가능한 피드백을 제공하는 고품질의 훈련 환경을 생성할 수 있게 한다. 또한, 도구 사용의 정확성과 작업 실행의 완전성을 평가하는 검증 가능한 보상 메커니즘을 도입한다. 이 메커니즘은 구축된 환경에서 수집된 궤적 데이터와 결합되어 표준 RL 알고리즘과 원활하게 통합되며, 피드백 기반 모델 훈련을 촉진한다. 다양한 규모의 LLM에 대한 실험 결과, 우리의 접근법은 추론 모드나 훈련 알고리즘에 관계없이 모델의 일반적인 능력을 저하시키지 않으면서 도구 사용 성능을 크게 향상시킴을 보여준다. 우리의 분석은 이러한 성능 향상이 모델의 하위 계층 MLP 매개변수 업데이트에 의해 촉진된 문맥 이해와 추론 능력의 개선에서 비롯됨을 시사한다.
효과적인 멀티샷 생성은 목적 지향적이고 영화 같은 전환과 엄격한 시네마틱 연속성을 요구한다. 그러나 현재의 방법들은 기본적인 시각적 일관성을 우선시하며, 매력적인 스토리텔링을 위한 내러티브 흐름을 이끄는 중요한 편집 패턴(예: 샷/리버스 샷, 컷어웨이)을 소홀히 하는 경우가 많다. 이는 시각적으로는 일관성이 있지만 내러티브의 정교함과 진정한 시네마틱 무결성이 부족한 결과물을 낳는다. 이를 해결하기 위해 우리는 Next Shot Generation(NSG)을 소개한다: NSG는 엄격한 시네마틱 연속성을 유지하면서도 전문적인 편집 패턴에 부합하는 고품질의 후속 샷을 합성한다. 우리의 프레임워크인 Cut2Next는 Diffusion Transformer(DiT)를 활용한다. 이는 새로운 Hierarchical Multi-Prompting 전략에 의해 안내되는 인-컨텍스트 튜닝을 사용한다. 이 전략은 Relational Prompts를 사용하여 전체 컨텍스트와 샷 간 편집 스타일을 정의한다. Individual Prompts는 각 샷의 콘텐츠와 시네마토그래피 속성을 지정한다. 이를 통해 Cut2Next는 시네마틱적으로 적절한 다음 샷을 생성하도록 안내된다. 아키텍처 혁신인 Context-Aware Condition Injection(CACI)과 Hierarchical Attention Mask(HAM)는 새로운 파라미터를 도입하지 않고도 이러한 다양한 신호를 통합한다. 우리는 Hierarchical Prompts를 포함한 RawCuts(대규모)와 CuratedCuts(정제된) 데이터셋을 구축하고, 평가를 위한 CutBench를 소개한다. 실험 결과 Cut2Next는 시각적 일관성과 텍스트 충실도에서 우수한 성능을 보였다. 특히, 사용자 연구는 Cut2Next가 의도된 편집 패턴과 전반적인 시네마틱 연속성을 준수하는 데 있어 강한 선호도를 보여주었으며, 이는 고품질, 내러티브적으로 표현력 있고 시네마틱적으로 일관된 후속 샷을 생성하는 능력을 검증한다.
범용적인 물체 파지가 가능한 민첩한 손은 범용 목적의 구체화된 AI 개발에 있어 근본적인 요소입니다. 그러나 기존 방법들은 저수준의 파지 안정성 지표에만 초점을 맞추어, 후속 조작에 중요한 역할을 하는 어포던스 인식 위치 지정 및 인간과 유사한 자세를 간과해 왔습니다. 이러한 한계를 해결하기 위해, 우리는 모션 사전 지식과 객체 어포던스를 내재적으로 이해하는 보편적 파지 정책을 학습하는 두 단계 훈련을 포함한 새로운 프레임워크인 AffordDex를 제안합니다. 첫 번째 단계에서는 인간 손 동작의 대규모 데이터셋을 기반으로 궤적 모방기를 사전 훈련시켜 자연스러운 움직임에 대한 강력한 사전 지식을 심어줍니다. 두 번째 단계에서는 잔차 모듈을 훈련시켜 이러한 일반적인 인간과 유사한 동작을 특정 객체 인스턴스에 맞게 조정합니다. 이 정제 과정은 기능적으로 부적절한 접촉 영역을 식별하는 Negative Affordance-aware Segmentation (NAA) 모듈과, 최종 시각 기반 정책이 높은 성공률을 보장하도록 하는 특권 교사-학생 증류 과정이라는 두 가지 구성 요소에 의해 중요한 지도를 받습니다. 광범위한 실험을 통해 AffordDex가 보편적인 민첩한 파지를 달성할 뿐만 아니라 자세에서도 현저히 인간과 유사하고 접촉 위치에서도 기능적으로 적절함을 입증했습니다. 결과적으로 AffordDex는 기존 객체, 보이지 않는 인스턴스, 심지어 완전히 새로운 카테고리에서도 최첨단 기준선을 크게 능가하는 성능을 보여줍니다.
우리는 파인튜닝이나 특수한 훈련 없이도 로컬에서 실행 가능한 모든 대규모 언어 모델(LLM)이 풀 프레스 디플로매시 게임을 플레이할 수 있도록 하는 최초의 평가 프레임워크를 제시합니다. 이전 연구에서는 디플로매시 게임 상태의 높은 복잡성과 정보 밀도로 인해 최첨단 LLM이나 파인튜닝이 필요했습니다. 이러한 요소와 매치의 높은 변동성이 결합되어 디플로매시는 연구에 적합하지 않은 게임으로 여겨졌습니다. 본 연구에서는 데이터 기반 반복을 통해 텍스트 기반 게임 상태 표현을 최적화하여 240억 파라미터 모델이 파인튜닝 없이도 안정적으로 매치를 완료할 수 있도록 했습니다. 또한, 가설 검증과 통계 분석을 용이하게 하는 도구를 개발하고, 설득, 공격적인 플레이 스타일, 다양한 모델 간 성능에 대한 사례 연구를 제시합니다. 여러 인기 있는 LLM을 대상으로 다양한 실험을 수행한 결과, 더 큰 모델이 가장 우수한 성능을 보였지만, 더 작은 모델도 충분히 플레이할 수 있음을 확인했습니다. 또한, 게임의 중요한 순간을 깊이 있게 반복 분석할 수 있는 실험 프로토콜인 '중요 상태 분석(Critical State Analysis)'을 도입했습니다. 우리의 평가 프레임워크는 파인튜닝의 필요성을 없애 LLM의 전략적 추론 능력을 평가하는 과정을 민주화하며, 이러한 능력이 널리 사용되는 LLM에서 자연스럽게 나타나는 방식에 대한 통찰을 제공합니다. 본 논문의 보충 자료에 코드를 제공하며, 이를 오픈소스로 공개할 예정입니다.
크로스모달 모델의 발전 덕분에 텍스트-비디오 검색(T2VR) 기술이 빠르게 진보하고 있지만, 그 견고성은 여전히 충분히 검증되지 않고 있습니다. 기존의 T2VR 공격은 비디오를 쿼리에서 멀어지게 하여 비디오의 순위를 낮추는 데 초점을 맞추었습니다. 반면, 특정 쿼리에 대해 비디오를 끌어당겨 순위를 높이는 공격은 거의 연구되지 않았습니다. 이러한 공격은 공격자가 더 많은 조회수/클릭수를 얻어 금전적 이익을 얻거나 잘못된 정보를 광범위하게 퍼뜨릴 수 있기 때문에 더 큰 영향을 미칠 수 있습니다. 이를 위해, 우리는 비디오를 적대적으로 홍보하는 최초의 T2VR 공격인 Video Promotion 공격(ViPro)을 제안합니다. 또한, 시각적 및 텍스트 모달리티 간의 더 세밀하고 복잡한 상호작용을 포착하여 블랙박스 전이성을 향상시키기 위한 Modal Refinement(MoRe)를 제안합니다. 포괄적인 실험은 2개의 기존 베이스라인, 3개의 주요 T2VR 모델, 10,000개 이상의 비디오를 포함한 3개의 주요 데이터셋을 대상으로 3가지 시나리오에서 평가되었습니다. 모든 실험은 공격자가 여러 쿼리에 대해 동시에 비디오를 홍보하려는 현실적인 시나리오를 반영하기 위해 다중 타겟 설정에서 수행되었습니다. 또한, 우리의 공격이 방어 및 인지 불가능성 측면에서도 평가되었습니다. 전반적으로, ViPro는 화이트박스/그레이박스/블랙박스 설정에서 각각 평균 30%/10%/4% 이상으로 다른 베이스라인을 능가했습니다. 우리의 연구는 간과된 취약점을 강조하고, 공격의 상한/하한에 대한 정성적 분석을 제공하며, 잠재적인 대응 전략에 대한 통찰을 제공합니다. 코드는 https://github.com/michaeltian108/ViPro에서 공개될 예정입니다.
본 논문은 인코더-디코더 ASR 모델의 디코더에 의해 유도되는 내부 언어 모델을 위한 간단하지만 효과적인 정규화 방법을 제안함으로써, 도메인 내 및 도메인 외 설정에서의 견고성과 일반화 능력을 향상시킨다. 제안된 방법인 DeCRED(Decoder-Centric Regularization in Encoder-Decoder)는 디코더에 보조 분류기를 추가하여 중간 로짓을 통해 다음 토큰 예측을 가능하게 한다. 실험적으로 DeCRED는 11개의 테스트 세트에 대해 내부 LM BPE 퍼플렉서티를 36.6% 상대적으로 감소시켰다. 더 나아가, 이는 7개의 도메인 내 테스트 세트 중 5개와 4개의 도메인 외 테스트 세트 중 3개에서 기준선 대비 실제 WER 개선으로 이어졌으며, 매크로 WER을 각각 6.4%에서 6.3%로, 18.2%에서 16.2%로 감소시켰다. TEDLIUM3에서 DeCRED는 7.0% WER을 달성하여 기준선과 인코더 중심의 InterCTC 정규화를 각각 0.6%와 0.5% 앞질렀다. 마지막으로, DeCRED를 OWSM v3.1 및 Whisper-medium과 비교하여 훨씬 적은 데이터와 더 적은 매개변수로 훈련했음에도 불구하고 경쟁력 있는 WER을 보임을 확인하였다.
GitHub Copilot과 같은 AI 코딩 보조 도구들은 소프트웨어 개발을 빠르게 변화시키고 있지만, 특히 사이버보안과 같은 고위험 분야에서 그 안전성은 여전히 불확실하다. 현재의 레드팀 도구들은 고정된 벤치마크나 비현실적인 프롬프트에 의존하여 실제 세계의 취약점을 많이 놓치고 있다. 본 논문에서는 AI 기반 코드 생성 및 보안 지침 시스템의 안전성 결함을 체계적으로 발견하기 위해 설계된 자동화된 에이전트 시스템인 ASTRA를 제안한다. ASTRA는 세 단계로 작동한다: (1) 복잡한 소프트웨어 작업과 알려진 취약점을 모델링하는 구조화된 도메인 특화 지식 그래프를 구축한다; (2) 지식 그래프를 기반으로 각 대상 모델의 입력 공간(공간적 탐색)과 추론 과정(시간적 탐색)을 적응적으로 탐색하여 온라인 취약점 탐사를 수행한다; (3) 모델 정렬을 개선하기 위해 고품질의 위반 유발 사례를 생성한다. 기존 방법과 달리, ASTRA는 개발자가 실제로 요청할 수 있는 현실적인 입력에 초점을 맞추고, 오프라인 추상화 기반 도메인 모델링과 온라인 도메인 지식 그래프 적응을 활용하여 코너 케이스 취약점을 발견한다. 두 가지 주요 평가 도메인에서 ASTRA는 기존 기술보다 11-66% 더 많은 문제를 발견하고, 17% 더 효과적인 정렬 훈련을 이끄는 테스트 케이스를 생성하여 더 안전한 AI 시스템 구축을 위한 실용적 가치를 입증한다.
본 논문에서는 로봇 매니퓰레이션에서 시각운동 정책 학습을 개선하기 위한 명시적 공간 단서를 제공하는 경량화된 시각 보강 기술인 AimBot를 제안합니다. AimBot는 다중 시점 RGB 이미지에 사격선과 조준망을 오버레이하여 엔드 이펙터의 상태를 인코딩하는 보조 시각적 지침을 제공합니다. 이 오버레이는 깊이 이미지, 카메라 외부 파라미터, 그리고 현재 엔드 이펙터 자세로부터 계산되며, 그리퍼와 장면 내 객체 간의 공간적 관계를 명확하게 전달합니다. AimBot는 최소한의 계산 오버헤드(1ms 미만)만 발생시키며, 모델 아키텍처 변경 없이 원본 RGB 이미지를 보강된 이미지로 대체하기만 하면 됩니다. 단순함에도 불구하고, 우리의 실험 결과는 AimBot가 시뮬레이션과 실제 환경에서 다양한 시각운동 정책의 성능을 지속적으로 향상시킴을 보여주며, 공간적으로 기반을 둔 시각적 피드백의 이점을 강조합니다.
대규모 언어 모델(LLMs)은 다양한 분야에서 뛰어난 능력을 보여주었으며, 코드 생성은 주요 관심 분야로 부상하고 있습니다. 코드 생성 능력을 평가하기 위해 수많은 벤치마크가 제안되었지만, 이러한 벤치마크는 몇 가지 중요한 한계에 직면해 있습니다. 첫째, 이들은 종종 수동 주석에 의존하는데, 이는 시간이 많이 소요될 뿐만 아니라 다양한 프로그래밍 언어와 문제 복잡도에 걸쳐 확장하기 어렵습니다. 둘째, 대부분의 기존 벤치마크는 주로 Python에 초점을 맞추고 있으며, 소수의 다국어 벤치마크는 제한된 난이도와 불균등한 언어 분포를 보입니다. 이러한 문제를 해결하기 위해, 우리는 수동 주석 없이도 고난이도의 다국어 코드 생성 데이터셋을 자동으로 생성하는 방법인 AutoCodeGen을 제안합니다. AutoCodeGen은 LLMs를 사용하여 테스트 입력을 생성하고 다국어 샌드박스를 통해 테스트 출력을 얻음으로써 테스트 케이스의 정확성과 완전성을 보장하며, 역순 문제 생성과 다중 필터링 단계를 통해 높은 데이터 품질을 달성합니다. 이 새로운 방법을 사용하여, 우리는 20개의 프로그래밍 언어에 걸쳐 균등하게 분포된 3,920개의 문제로 구성된 대규모 코드 생성 벤치마크인 AutoCodeBench을 소개합니다. 이 벤치마크는 특히 도전적이고 다양하며 실용적인 다국어 작업에서 LLMs를 평가하도록 설계되었습니다. 우리는 AutoCodeBench과 그 간소화 버전인 AutoCodeBench-Lite에서 30개 이상의 주요 오픈소스 및 상용 LLMs를 평가했습니다. 결과는 가장 발전된 LLMs조차도 이러한 작업의 복잡성, 다양성, 다국어 특성에 어려움을 겪는 것을 보여줍니다. 또한, 우리는 기본 모델의 few-shot 코드 생성 능력을 평가하기 위해 특별히 설계된 AutoCodeBench-Complete을 소개합니다. 우리는 AutoCodeBench 시리즈가 가치 있는 자원으로 활용되고, 더 도전적이고 실용적인 다국어 코드 생성 시나리오에 커뮤니티의 관심을 끌기를 바랍니다.
LLM(대형 언어 모델)은 in-context learning(ICL)을 활용하여 기계 번역(MT)에서 우수한 성능을 보이며, 고자원 언어(HRL)로의 번역에서는 지도 학습 모델과도 경쟁력을 보입니다. 그러나 저자원 언어(LRL)로의 번역에서는 뒤처지는 모습을 보입니다. 유사성 검색을 통한 예제 선택과 지도 미세 조정이 도움이 되지만, 이러한 개선은 기존 병렬 데이터셋의 크기, 품질 및 다양성에 의해 제한됩니다. 저자원 기계 번역에서 흔히 사용되는 기술 중 하나는 합성 병렬 데이터 생성이며, 그 중 가장 빈번하게 사용되는 방법은 역번역(backtranslation)입니다. 이는 기존의 타겟 언어 텍스트를 자동으로 소스 언어로 번역하는 방식입니다. 그러나 이 방법은 고품질이고 관련성 높은 타겟 언어 텍스트의 존재를 전제로 하는데, 많은 저자원 언어에서는 이러한 텍스트를 쉽게 구할 수 없습니다. 본 논문에서는 여러 저자원 언어에서 고품질이고 주제가 다양한 데이터를 생성하기 위한 LLM 기반 접근법인 TopXGen을 소개합니다. 이렇게 생성된 데이터는 역번역되어 ICL과 미세 조정을 위한 유용하고 다양한 병렬 텍스트를 생성하는 데 사용될 수 있습니다. 우리의 직관은 LLM이 저자원 언어로 번역하는 데는 어려움을 겪지만, 고자원 언어로 잘 번역할 수 있는 능력과 다국어 지원 기능을 통해 자연스럽고 고품질의 타겟 언어 텍스트를 생성할 수 있으며, 이를 고자원 소스 언어로 잘 번역할 수 있다는 것입니다. 우리는 TopXGen이 미세 조정과 in-context learning 중에 LLM 번역 성능을 크게 향상시킨다는 것을 보여줍니다. 코드와 출력 결과는 https://github.com/ArmelRandy/topxgen에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 능력이 점점 향상되고 있음에도 불구하고, 인터넷 상에서 잘 다루어지지 않는 작업에서 이들이 뛰어난 성과를 보일 것이라고 기대하는 것은 여전히 무리이다. 특히, 특수 프로그래밍 언어와 사설 도메인에서 LLM을 활용하는 것은 여전히 어려운 과제로 남아 있으며, 이는 대부분 해결되지 않은 상태이다. 본 연구에서는 양적 금융에서 널리 사용되지만 Python, C, Java 등의 '주류' 언어에 비해 인터넷 상에서 상대적으로 덜 다루어지는 Q 프로그래밍 언어에 LLM을 적응시키기 위한 포괄적이고 오픈소스인 접근 방식을 제시하여 이러한 격차를 해소하고자 한다. 우리는 Q를 위한 새로운 Leetcode 스타일의 평가 데이터셋을 소개하고, 주요 최첨단 모델들을 이 데이터셋에서 벤치마킹한 후, Qwen-2.5 시리즈를 기반으로 한 추론 및 비추론 모델을 5가지 파라미터 크기(1.5B, 3B, 7B, 14B, 32B)로 사전 학습, 지도 미세 조정, 강화 학습을 통해 학습시켰다. 우리의 최고 모델은 Q 벤치마크에서 59%의 pass@1 정확도를 달성하며, 최고 성능의 최첨단 모델인 Claude Opus-4를 29.5% 앞섰다. 또한, 모든 모델, 심지어 1.5B 모델도 이 작업에서 GPT-4.1을 능가했다. 모델, 코드, 데이터를 공개하는 것 외에도, 우리는 데이터셋 구축, 모델 사전 학습, 지도 미세 조정, 강화 학습에 대한 상세한 청사진을 제공한다. 우리의 방법론은 광범위하게 적용 가능하며, 이러한 기술들이 평가가 부드럽거나 주관적인 신호에 의존할 수 있는 다른 작업들로 어떻게 확장될 수 있는지에 대해 논의한다.
3D 가우시안 스플랫에 대한 스타일 전환 작업은 많은 선행 연구에서 탐구되어 왔지만, 이러한 연구들은 스타일 정보를 통합하거나 스플랫 표현에 대한 특징 추출 네트워크를 최적화하면서 스플랫을 재구성하거나 미세 조정해야 합니다. 우리는 재구성과 최적화 없이 3D 가우시안 스플랫을 스타일화하는 접근 방식을 제안합니다. 이는 스플랫 표현의 암묵적 표면에 걸쳐 그래프 구조를 생성함으로써 이루어집니다. 그런 다음 피드포워드 기반의 표면 스타일화 방법이 사용되고, 이를 장면 내 개별 스플랫으로 다시 보간합니다. 이를 통해 추가적인 학습이나 최적화 없이도 어떤 스타일 이미지와 3D 가우시안 스플랫을 사용할 수 있습니다. 또한 이 방법은 소비자 급 하드웨어에서도 2분 이내의 빠른 스타일화를 가능하게 합니다. 우리는 이 접근 방식이 달성하는 품질 결과를 보여주고, 다른 3D 가우시안 스플랫 스타일 전환 방법과 비교합니다. 코드는 https://github.com/davidmhart/FastSplatStyler에서 공개되어 있습니다.
양자 게임 이론을 실제 하드웨어에서 구현하는 것은 잡음, 디코히어런스, 그리고 제한된 큐비트 연결성으로 인해 어려운 과제이지만, 이러한 실험적 검증은 이론적 예측을 검증하는 데 필수적이다. 본 연구에서는 IBM Quantum의 ibm sherbrooke 초전도 프로세서에서 Eisert-Wilkens-Lewenstein (EWL) 프레임워크 하에 'Battle of the Sexes' 게임을 최초로 완전히 실험적으로 구현하였다. 네 가지 양자 전략(I, H, R(pi/4), R(pi))을 [0, pi] 범위의 31개 얽힘 값 gamma에 대해 각각 2048회의 샷으로 평가하여 이론적 예측과 하드웨어 실행 결과를 직접 비교하였다. 잡음과 변동성을 완화하기 위해, 실시간 토폴로지 및 캘리브레이션 데이터를 기반으로 큐비트 쌍을 동적으로 선택하고 라우팅을 최적화하는 Guided Circuit Mapping (GCM) 방법을 도입하였다. 이론적 모델은 고전적 균형 대비 최대 108%의 보상 개선을 예측하였으며, 하드웨어로 인한 편차에도 불구하고 GCM을 적용한 실험 결과는 3.5%-12%의 상대 오차 범위 내에서 예상된 보상 경향을 유지하였다. 이러한 결과는 전략적 조정에서의 양자적 이점이 현실적인 NISQ(Near-Term Intermediate-Scale Quantum) 조건 하에서도 지속될 수 있음을 보여주며, 다중 에이전트, 경제, 그리고 분산 의사결정 시스템에서 양자 게임 이론의 실용적 응용을 위한 길을 제시한다.
대규모 언어 모델(LLM)의 가중치에 내재된 편향과 고정관념을 이해하는 것은 효과적인 완화 전략을 개발하는 데 있어 중요합니다. 편향된 행동은 종종 미묘하며 의도적으로 유도된 경우에도 분리하기 쉽지 않아 체계적인 분석과 편향 제거가 특히 어려운 과제입니다. 이를 해결하기 위해 우리는 LLM 내의 개념적 연관성을 신뢰성 있게 주입, 분석, 완화할 수 있는 간단하고 비용 효율적이며 일반화 가능한 프레임워크인 BiasGym을 소개합니다. BiasGym은 두 가지 구성 요소로 이루어져 있습니다: BiasInject는 모델을 고정 상태로 유지하면서 토큰 기반 미세 조정을 통해 특정 편향을 모델에 주입하고, BiasScope는 이러한 주입된 신호를 활용하여 편향된 행동을 담당하는 구성 요소를 식별하고 조정합니다. 우리의 방법은 기계적 분석을 위한 일관된 편향 유도를 가능하게 하며, 하위 작업의 성능 저하 없이 표적화된 편향 제거를 지원하고, 훈련 중에 보지 못한 편향에도 일반화됩니다. 우리는 BiasGym이 현실 세계의 고정관념(예: 특정 국가 사람들이 '무모한 운전자'라는 것)을 줄이고 가상의 연관성(예: 특정 국가 사람들이 '푸른 피부'를 가진다는 것)을 탐구하는 데 있어 효과적임을 보여주며, 이는 안전 개입과 해석 가능성 연구 모두에 유용함을 입증합니다.
적혈구(RBC)는 인간 건강에 필수적이며, 정확한 형태학적 분석은 혈액학적 장애 진단에 중요합니다. 기초 모델이 의료 진단에서 유망함에도 불구하고, RBC 분석을 위한 포괄적인 AI 솔루션은 여전히 부족합니다. 우리는 RBC 이미지 분석을 위해 설계된 자기 지도 학습 기초 모델인 RedDino를 제시합니다. RedDino는 DINOv2 자기 지도 학습 프레임워크의 RBC 특화 적응을 사용하며, 다양한 획득 방식과 출처에서 수집된 125만 개의 RBC 이미지로 구성된 데이터셋으로 학습되었습니다. 광범위한 평가를 통해 RedDino가 RBC 형태 분류에서 기존 최첨단 모델을 능가함을 보여줍니다. 선형 탐색 및 최근접 이웃 분류를 포함한 평가를 통해 강력한 특징 표현과 일반화 능력을 확인했습니다. 우리의 주요 기여는 다음과 같습니다: (1) RBC 분석에 맞춤화된 기초 모델, (2) RBC 모델링을 위한 DINOv2 구성 탐색을 위한 절제 연구, (3) 일반화 성능에 대한 상세한 평가. RedDino는 미묘한 형태학적 특징을 포착함으로써 계산 혈액학의 주요 과제를 해결하고, 신뢰할 수 있는 진단 도구 개발을 진전시킵니다. RedDino의 소스 코드와 사전 학습된 모델은 https://github.com/Snarci/RedDino에서 확인할 수 있으며, 사전 학습된 모델은 Hugging Face 컬렉션 https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc에서 다운로드할 수 있습니다.
도시화, 기후 변화, 그리고 농업 스트레스는 정확하고 시의적절한 환경 모니터링에 대한 수요를 증가시키고 있습니다. 지표면 온도(LST)는 이러한 맥락에서 중요한 변수이며, 원격 탐사 위성으로부터 획득됩니다. 그러나 이러한 시스템은 공간 해상도와 시간 해상도 사이의 트레이드오프에 직면해 있습니다. 시공간 융합 방법이 유망한 해결책을 제공하지만, 10m 해상도의 일일 LST 추정을 다룬 연구는 거의 없습니다. 본 연구에서는 Terra MODIS, Landsat 8, 그리고 Sentinel-2의 시공간 융합을 통해 일일 10m LST를 추정하기 위한 약한 감독 생성 네트워크인 WGAST를 제안합니다. WGAST는 이 작업을 위해 설계된 최초의 종단간 딥러닝 프레임워크입니다. 이는 조건부 생성적 적대 네트워크 아키텍처를 채택하며, 생성기는 특징 추출, 융합, LST 재구성, 그리고 노이즈 억제의 네 단계로 구성됩니다. 첫 번째 단계에서는 입력 데이터로부터 다중 수준의 잠재 표현을 추출하기 위해 일련의 인코더를 사용하며, 두 번째 단계에서는 코사인 유사도, 정규화, 그리고 시간적 주의 메커니즘을 사용하여 이러한 특징을 융합합니다. 세 번째 단계에서는 융합된 특징을 고해상도 LST로 디코딩한 후, 가우시안 필터를 사용하여 고주파 노이즈를 억제합니다. 학습은 물리적 평균 원칙에 기반한 약한 감독 전략을 따르며, PatchGAN 판별자에 의해 강화됩니다. 실험 결과, WGAST는 양적 및 질적 평가 모두에서 기존 방법들을 능가하는 성능을 보였습니다. 최고 성능의 베이스라인과 비교하여, WGAST는 평균적으로 RMSE를 17.18% 감소시키고 SSIM을 11.00% 향상시켰습니다. 또한, WGAST는 구름에 의한 LST에 강건하며, 33개의 지상 센서에 대한 검증을 통해 미세 규모의 열 패턴을 효과적으로 포착합니다. 코드는 https://github.com/Sofianebouaziz1/WGAST.git에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 지속적 학습 능력은 인공 일반 지능(AGI)의 발전에 있어 핵심적입니다. 그러나 다양한 도메인에 걸친 지속적 미세 조정(fine-tuning)은 종종 치명적 망각(catastrophic forgetting) 문제를 겪는데, 이는 1) 모델의 일반적 능력이 크게 저하되고, 2) 이전에 학습한 작업에서 성능이 급격히 감소하는 특징을 보입니다. 이러한 두 가지 문제를 단순하면서도 안정적으로 동시에 해결하기 위해, 우리는 일반 샘플 재생(General Sample Replay, GeRe) 프레임워크를 제안합니다. 이 프레임워크는 일반적인 사전 학습 텍스트를 사용하여 효율적인 망각 방지를 달성합니다. GeRe 하에서 가장 널리 사용되는 재생 기반 방법론을 재검토하는 것을 넘어, 우리는 신경 상태(neural states)를 활용하여 임계값 기반 마진(threshold-based margin, TM) 손실을 사용한 개선된 활성화 상태 제약 최적화 방법을 도입했습니다. 이 방법은 재생 학습 동안 활성화 상태의 일관성을 유지합니다. 우리는 사전 수집된 소규모의 일반 재생 샘플 집합만으로도 두 가지 문제를 해결할 수 있음을 최초로 검증했습니다. 즉, 일반 능력을 유지하면서 순차적 작업 전반에 걸쳐 성능을 촉진할 수 있다는 것입니다. 실제로, 전자는 본질적으로 후자를 촉진할 수 있습니다. 통제된 실험을 통해, 우리는 GeRe 프레임워크 하에서 TM을 다양한 재생 전략(바닐라 라벨 피팅, KL 발산을 통한 로짓 모방, L1/L2 손실을 통한 특징 모방 등)과 체계적으로 비교했습니다. 결과는 TM이 일관적으로 성능을 개선하고 더 나은 견고성을 보임을 입증했습니다. 우리의 연구는 LLM의 효율적인 재생을 위한 길을 열어줍니다. 코드와 데이터는 https://github.com/Qznan/GeRe에서 확인할 수 있습니다.
현재 대형 언어 모델(LLMs)을 위한 수학적 추론 벤치마크는 > 90%의 정확도를 달성하며 포화 상태에 접어들고 있으며, 훈련 데이터셋 오염으로 인해 점점 더 신뢰성이 떨어지고 있습니다. 우리는 권위 있는 윌리엄 로웰 퍼트남 수학 경시대회(William Lowell Putnam Mathematical Competition)에서 추출한 522개의 대학 수준 경쟁 문제로 구성된 Putnam-AXIOM 벤치마크와, 변수와 상수를 프로그래밍적으로 변형하여 생성한 100개의 기능적 변형 문제로 구성된 Putnam-AXIOM Variation을 소개합니다. 이 변형 프로토콜은 동일한 난이도의 무한한 스트림의 새로운 문제를 생성하여 오염에 강한 테스트 환경을 제공합니다. 원본 문제셋에서 OpenAI의 o1-preview(평가된 모델 중 가장 강력한 모델)는 41.9%의 정확도를 보였으나, 짝을 이루는 변형 문제셋에서는 정확도가 19.6%(상대적 감소율 46.8%) 하락했습니다. 나머지 18개 모델도 동일한 하락 추세를 보였으며, 그 중 10개 모델은 95% 신뢰 구간이 겹치지 않았습니다. 이러한 격차는 암기 현상을 시사하며 동적 벤치마크의 필요성을 강조합니다. 우리는 "박스형" 정확도 외에도 Teacher-Forced Accuracy(TFA)라는 경량 메트릭을 도입하여 추론 과정을 직접 평가하고 자연어 증명 평가를 자동화합니다. 따라서 Putnam-AXIOM은 LLMs의 고급 수학적 추론 능력을 평가하기 위한 엄격하고 오염에 강한 평가 프레임워크를 제공합니다. 데이터와 평가 코드는 https://github.com/brando90/putnam-axiom에서 공개적으로 이용 가능합니다.
지구 표면은 끊임없이 변화하고 있으며, 이러한 변화를 탐지하는 것은 인간 사회의 다양한 측면에 유익한 통찰을 제공합니다. 전통적인 변화 탐지 방법은 이시점 이미지(bi-temporal images)를 통해 변화를 탐지하는 데 사용되어 왔지만, 이러한 접근 방식은 일반적으로 정확한 해석을 위해 전문가 지식을 요구합니다. 비전문가 사용자들이 변화 정보에 보다 광범위하고 유연하게 접근할 수 있도록 하기 위해, 변화 탐지 시각적 질의응답(Change Detection Visual Question Answering, CDVQA) 작업이 도입되었습니다. 그러나 기존의 CDVQA 방법들은 훈련 및 테스트 데이터셋이 유사한 분포를 공유한다는 가정 하에 개발되었습니다. 이러한 가정은 실제 응용에서는 도메인 이동(domain shift)이 자주 발생하기 때문에 유효하지 않습니다. 본 논문에서는 도메인 이동 문제를 해결하는 데 초점을 맞춰 CDVQA 작업을 재검토합니다. 이를 위해, CDVQA에서의 도메인 일반화 연구를 촉진하기 위해 새로운 다중 모달 및 다중 도메인 데이터셋인 BrightVQA를 소개합니다. 또한, 텍스트 조건 상태 공간 모델(Text-Conditioned State Space Model, TCSSM)이라는 새로운 상태 공간 모델을 제안합니다. TCSSM 프레임워크는 이시점 이미지와 지리적 재해 관련 텍스트 정보를 통합적으로 활용하여 도메인 간 불변 특징을 추출하도록 설계되었습니다. TCSSM에 존재하는 입력 의존 매개변수는 이시점 이미지와 지리적 재해 관련 설명을 모두 사용하여 동적으로 예측되며, 이를 통해 이시점 시각 데이터와 관련 텍스트 설명 간의 정렬을 용이하게 합니다. 제안된 방법을 최신 모델과 비교 평가하기 위해 광범위한 실험을 수행하였으며, 일관되게 우수한 성능을 입증하였습니다. 코드와 데이터셋은 논문 채택 후 https://github.com/Elman295/TCSSM에서 공개될 예정입니다.
예술적 스타일 변환은 컨볼루션 및 트랜스포머 기반 신경망의 발전으로 오랫동안 가능해져 왔다. 대부분의 알고리즘은 전체 이미지에 예술적 스타일 변환을 적용하지만, 개별 사용자는 이미지의 특정 영역에만 스타일 변환을 적용하고자 할 수 있다. 일반적인 관행은 스타일화 후 이미지를 단순히 마스킹하는 것이다. 본 연구는 이러한 접근 방식이 관심 영역의 스타일 특징을 부적절하게 포착하는 경향이 있음을 보여준다. 우리는 관심 영역에만 정확하게 스타일 특징을 적용하는 부분 컨볼루션 기반 스타일 변환 네트워크를 제안한다. 또한, 영역 선택의 불완전성을 고려한 네트워크 내부 블렌딩 기법을 제시한다. 우리는 SA-1B 데이터셋의 예시를 통해 이러한 방법이 시각적 및 정량적으로 스타일화를 개선함을 보여준다. 코드는 https://github.com/davidmhart/StyleTransferMasked에서 공개되어 있다.
파라링구스틱 발성(Paralinguistic vocalizations)—웃음과 호흡과 같은 비언어적 소리뿐만 아니라 "음"과 "오"와 같은 어휘화된 감탄사—은 자연스러운 구어 의사소통에서 필수적인 요소이다. 이러한 단서들은 감정, 의도, 상호작용 신호를 전달하는 데 중요함에도 불구하고, 기존의 자동 음성 인식(ASR) 및 텍스트-음성 변환(TTS) 시스템에서는 대부분 간과되어 왔다. 본 논문에서는 NVSpeech를 소개한다. 이는 데이터셋 구축, ASR 모델링, 제어 가능한 TTS를 포함하여 파라링구스틱 발성의 인식과 합성을 연결하는 통합적이고 확장 가능한 파이프라인이다. (1) 18개의 단어 수준 파라링구스틱 범주로 분류된 48,430개의 인간 발화를 수동으로 주석 처리한 데이터셋을 소개한다. (2) 파라링구스틱 단서를 인라인 디코딩 가능한 토큰(예: "You're so funny [Laughter]")으로 처리하여 어휘적 및 비언어적 전사를 동시에 수행하는 파라링구스틱 인식 ASR 모델을 개발한다. 이 모델은 대규모 코퍼스를 자동으로 주석 처리하는 데 사용되며, 단어 수준 정렬과 파라링구스틱 단서가 포함된 174,179개의 발화(573시간)로 구성된 최초의 대규모 중국어 데이터셋을 생성한다. (3) 인간 주석 및 자동 주석 데이터를 기반으로 제로샷 TTS 모델을 미세 조정하여 파라링구스틱 발성을 명시적으로 제어할 수 있도록 한다. 이를 통해 임의의 토큰 위치에 상황 인식 삽입이 가능하여 인간과 유사한 음성 합성을 달성한다. NVSpeech는 파라링구스틱 발성의 인식과 생성을 통합함으로써, 중국어에서 표현적 음성 모델링을 위한 최초의 개방형 대규모 단어 수준 주석 파이프라인을 제공하며, 확장 가능하고 제어 가능한 방식으로 인식과 합성을 통합한다. 데이터셋 및 오디오 데모는 https://nvspeech170k.github.io/에서 확인할 수 있다.