번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(LLMs)은 질의응답(QA) 작업에서 종종 환각(hallucination)을 일으킨다. 이에 기여하는 주요하면서도 충분히 탐구되지 않은 요인 중 하나는 질문의 시간성(temporality)이다. 즉, 질문이 상시적(evergreen, 시간이 지나도 답변이 변하지 않음)인지, 아니면 가변적(mutable, 답변이 시간에 따라 변함)인지 여부이다. 본 연구에서는 상시적 레이블을 포함한 최초의 다국어 QA 데이터셋인 EverGreenQA를 소개하며, 이를 통해 평가와 훈련을 모두 지원한다. EverGreenQA를 사용하여 12개의 현대 LLMs를 벤치마킹하여 질문의 시간성을 명시적으로(언어화된 판단을 통해) 또는 암묵적으로(불확실성 신호를 통해) 인코딩하는지 평가한다. 또한, 이 작업에서 최첨단(SoTA) 성능을 달성하는 경량 다국어 분류기인 EG-E5를 훈련시킨다. 마지막으로, 상시적 분류의 실용적 유용성을 세 가지 응용 분야에서 입증한다: 자기 지식 추정 개선, QA 데이터셋 필터링, GPT-4o 검색 행동 설명.
단일 RGB 이미지로부터 의미적으로 의미 있고 기하학적으로 구별되는 다중 3D 메시를 동시에 합성하는 최초의 구조화된 3D 생성 모델인 PartCrafter를 소개한다. 기존의 방법들이 단일체 3D 형상을 생성하거나, 즉 이미지를 먼저 분할한 후 각 세그먼트를 재구성하는 두 단계 파이프라인을 따르는 것과 달리, PartCrafter는 사전 분할된 입력에 의존하지 않는 통합적이고 구성적인 생성 아키텍처를 채택한다. 단일 이미지를 조건으로 하여, 다중 3D 부품을 동시에 노이즈 제거함으로써 개별 객체와 복잡한 다중 객체 장면 모두에 대한 부품 인식 생성이 종단 간으로 가능하다. PartCrafter는 전체 객체에 대해 사전 학습된 3D 메시 확산 트랜스포머(DiT)를 기반으로 하여, 사전 학습된 가중치, 인코더 및 디코더를 상속받으며, 두 가지 주요 혁신을 도입한다: (1) 각 3D 부품이 분리된 잠재 토큰 집합으로 표현되는 구성적 잠재 공간; (2) 개별 부품 내부와 모든 부품 간에 구조화된 정보 흐름을 가능하게 하는 계층적 주의 메커니즘으로, 생성 과정에서 전역적 일관성을 보장하면서 부품 수준의 세부 사항을 보존한다. 부품 수준의 감독을 지원하기 위해, 대규모 3D 객체 데이터셋에서 부품 수준의 주석을 추출하여 새로운 데이터셋을 구축하였다. 실험 결과, PartCrafter는 입력 이미지에서 직접 보이지 않는 부품을 포함하여 분해 가능한 3D 메시 생성에서 기존 접근법을 능가하며, 3D 이해와 합성을 위한 부품 인식 생성 사전 지식의 강점을 입증한다. 코드와 학습 데이터는 공개될 예정이다.
다중 모달 대형 언어 모델(MLLMs)은 강화 학습을 통해 복잡한 추론 작업에서 상당한 진전을 이루었으나, 다중 모달 추론 능력을 향상시키기 위해서는 방대한 양의 학습 데이터가 필요하며, 이는 필연적으로 데이터 중복과 상당한 계산 비용을 초래한다는 것이 일반적인 믿음이다. 그러나 더 작은 고가치 데이터셋이 MLLMs의 다중 모달 추론에서 전체 코퍼스와 동등하거나 더 나은 성능을 발휘할 수 있을까? 본 연구에서는 이러한 가정에 도전한다. 우리는 의미 있는 다중 모달 추론이 학습 샘플 중 희소한 부분집합, 즉 인지 샘플(cognitive samples)에 의해 촉발되며, 대다수의 샘플은 미미한 기여를 한다는 핵심 관찰을 바탕으로 한다. 이러한 통찰을 기반으로, 우리는 Reasoning Activation Potential (RAP)이라는 새로운 데이터 선택 패러다임을 제안한다. RAP는 두 가지 상호 보완적인 추정기를 통해 각 샘플이 진정한 다중 모달 추론을 자극할 수 있는 잠재력을 평가하여 인지 샘플을 식별한다: 1) Causal Discrepancy Estimator (CDE)는 잠재 결과 모델 원리를 기반으로 다중 모달 입력과 텍스트 전용 입력 간의 출력을 비교하여 언어 사전 지식에 과도하게 의존하는 샘플을 제거한다; 2) Attention Confidence Estimator (ACE)는 토큰 수준의 자기 주의 메커니즘을 활용하여 중간 추론 단계에서 관련성이 없지만 과도하게 강조된 토큰에 지배되는 샘플을 제외한다. 또한, 우리는 Difficulty-aware Replacement Module (DRM)을 도입하여 사소한 인스턴스를 인지적으로 도전적인 것으로 대체함으로써 견고한 다중 모달 추론을 위한 복잡성을 보장한다. 6개의 데이터셋에서의 실험 결과, 우리의 RAP 방법은 학습 데이터의 9.3%만을 사용하면서도 계산 비용을 43% 이상 절감하며 일관되게 우수한 성능을 달성함을 보여준다. 우리의 코드는 https://github.com/Leo-ssl/RAP에서 확인할 수 있다.
대규모 언어 모델의 도메인 특화 작업 성능을 높이기 위해서는 미세 조정(fine-tuning)이 필수적이지만, 이는 계산 비용이 많이 들고 기술적으로도 어려운 과정입니다. 본 논문은 사전 학습된 모델을 하위 작업에 적응시키기 위해 소수의 매개변수만을 학습하는 유망한 접근 방식인 소프트 프롬프팅(soft prompting)을 활용한 매개변수 효율적 미세 조정에 초점을 맞춥니다. 우리는 입력 토큰에 기반하여 소프트 프롬프트를 생성하고, 각 토큰에 서로 다른 중요도를 부여하는 자기 주의 메커니즘(self-attention mechanism)을 갖춘 새로운 입력 의존적 소프트 프롬프팅 기법(ID-SPAM)을 제안합니다. 우리의 방법은 간단하고 효율적이며, 학습 가능한 매개변수의 수를 적게 유지합니다. 다양한 작업에서 최신 기술과 비교하여 제안된 접근 방식의 장점을 보여주고, 개선된 제로 샷 도메인 전이 능력을 입증합니다.
비전-언어 모델(VLMs)의 급속한 발전에도 불구하고, 현재의 다중모달 추론 벤치마크는 세 가지 주요 측면에서 부족함을 보입니다. 첫째, 이들은 대부분 정적 이미지에 의존하여 실제 세계 환경의 시간적 복잡성을 포착하지 못합니다. 둘째, 이들은 수학적 문제 해결에만 초점을 맞추어 강력한 다중모달 지능을 위해 필요한 추론 능력의 광범위한 스펙트럼 — 추상적, 물리적, 계획, 공간적, 시간적 능력 등 — 을 간과합니다. 셋째, 많은 벤치마크가 빠르게 포화 상태에 이르러 실패 모드를 진단하거나 지속적인 진전을 측정하기에 제한된 여지를 제공합니다. 우리는 MORSE-500(Multimodal Reasoning Stress-test Environment)를 소개합니다. 이는 500개의 완전히 스크립트된 클립으로 구성된 비디오 벤치마크로, 여섯 가지 상호 보완적인 추론 범주에 걸쳐 내장된 질문을 포함합니다. 각 인스턴스는 결정론적 Python 스크립트(Manim, Matplotlib, MoviePy를 통해), 생성형 비디오 모델, 그리고 선별된 실제 영상을 사용하여 프로그래밍 방식으로 생성됩니다. 이 스크립트 기반 설계는 시각적 복잡성, 방해 요소 밀도, 시간적 역학에 대한 세밀한 제어를 가능하게 하여 모델이 개선됨에 따라 난이도를 체계적으로 조정할 수 있게 합니다. 한번 포화되면 더 이상 사용되지 않는 정적 벤치마크와 달리, MORSE-500은 진화하도록 설계되었습니다: 그 제어 가능한 생성 파이프라인은 임의로 어려운 새로운 인스턴스의 생성을 지원하여 차세대 모델의 스트레스 테스트에 이상적으로 적합합니다. 최첨단 시스템 — 당시 가장 강력한 Gemini 2.5 Pro와 OpenAI o3를 포함한 다양한 모델과 강력한 오픈소스 모델 — 을 사용한 초기 실험은 모든 범주에서 상당한 성능 격차를 보여주며, 특히 추상적 및 계획 작업에서 큰 결함을 드러냅니다. 우리는 투명하고 재현 가능하며 미래 지향적인 다중모달 추론 연구를 지원하기 위해 전체 데이터셋, 생성 스크립트, 평가 도구를 공개합니다.
고품질의 대규모 오디오 캡셔닝은 오디오 이해를 발전시키는 데 중요하지만, 현재의 자동화된 방법들은 주로 제한된 단일 모달 또는 피상적인 다중 모달 정보에 의존하기 때문에 미세한 디테일과 문맥적 정확성이 부족한 캡션을 생성하는 경우가 많습니다. 인간의 청각 인식에서 영감을 얻어, 교차 모달 단서를 능숙하게 통합하고 정교한 청각 장면 분석을 수행하는 방식을 본따, 우리는 새로운 두 단계의 자동화 파이프라인을 소개합니다. 이 파이프라인은 먼저 특화된 사전 훈련된 모델을 사용하여 다양한 문맥 단서(예: 음성, 음악, 일반 소리, 그리고 관련 비디오에서의 시각 정보)를 추출합니다. 그런 다음 대형 언어 모델(LLM)이 이러한 풍부한 다중 모달 입력을 종합하여 상세하고 문맥을 고려한 오디오 캡션을 생성합니다. 이 연구의 주요 기여점은 다음과 같습니다: (1) 미세한 오디오 캡션 생성을 위한 확장 가능한 방법 제안; (2) 120만 개의 상세한 캡션과 600만 개의 질문-답변 쌍으로 구성된 새로운 대규모 데이터셋인 FusionAudio; (3) FusionAudio를 사용하여 개발된 향상된 오디오 모델, 특히 우수한 오디오-텍스트 정렬과 명령어 수행 능력을 가진 CLAP 기반 오디오 인코더. 이 논문은 복잡한 오디오 환경에 대한 더 섬세하고 정확한 자동화된 이해의 길을 열어줍니다. 코드와 데이터는 https://github.com/satsuki2486441738/FusionAudio에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 점점 더 강력해지고 있지만, 악의적인 입력으로 인해 모델이 의도된 지시에서 벗어나게 만드는 프롬프트 인젝션 공격에 취약한 상태로 남아 있습니다. 본 논문은 \answerdotai/ModernBERT-large 아키텍처를 기반으로 한 새로운 탐지 모델인 Sentinel(qualifire/prompt-injection-sentinel)을 소개합니다. Sentinel은 ModernBERT의 고급 기능을 활용하고, 오픈소스 및 비공개 컬렉션으로 구성된 광범위하고 다양한 데이터셋에 대한 미세 조정을 통해 최첨단 성능을 달성합니다. 이 데이터셋은 역할 수행 및 지시 하이재킹부터 편향된 콘텐츠 생성 시도에 이르기까지 다양한 공격 유형과 함께, 광범위한 정상 지시를 포함하며, 특히 미묘한 오류 수정과 실제 오분류를 대상으로 한 비공개 데이터셋을 통합합니다. 포괄적이고 미검증된 내부 테스트 세트에서 Sentinel은 평균 정확도 0.987과 F1 점수 0.980을 보여줍니다. 또한, 공개 벤치마크에서 평가할 때 protectai/deberta-v3-base-prompt-injection-v2와 같은 강력한 베이스라인을 지속적으로 능가합니다. 이 연구는 Sentinel의 아키텍처, 세심한 데이터셋 구축, 훈련 방법론, 그리고 우수한 탐지 능력을 강조하는 철저한 평가를 상세히 설명합니다.
오므니모달 언어 모델(OLMs)은 텍스트, 이미지, 비디오, 오디오와 같은 다양한 입력 모달리티를 통합하고 이에 대해 추론하는 동시에 강력한 언어 능력을 유지하는 것을 목표로 합니다. 최근의 발전에도 불구하고, 특히 오픈소스 모델들은 진정한 오므니모달리티와는 거리가 멀어, 훈련된 특정 모달리티 쌍을 넘어 일반화하거나 다중 모달리티 입력을 처리할 때 강력한 성능을 달성하는 데 어려움을 겪고 있습니다. 본 연구에서는 다중 모달리티 모델을 훈련하기 위한 주요 기법인 모달리티 확장의 효과를 살펴보며, 기존의 언어 모델을 대상 도메인 및 언어 데이터에 대해 미세 조정하는 방식을 특히 중점적으로 다룹니다. 구체적으로, 우리는 세 가지 핵심 질문을 탐구합니다: (1) 모달리티 확장이 핵심 언어 능력을 저해하는가? (2) 독립적으로 미세 조정된 모달리티별 모델을 통합하여 오므니모달리티를 달성하는 데 모델 병합이 효과적인가? (3) 순차적 확장에 비해 오므니모달리티 확장이 더 나은 지식 공유와 일반화로 이어지는가? 광범위한 실험을 통해 이러한 트레이드오프를 분석하고, 현재의 접근법을 사용하여 진정한 오므니모달리티를 달성하는 가능성에 대한 통찰을 제공합니다.
본 논문에서는 고해상도 이미지 합성에서 강력한 성능을 달성하는 정규화 흐름(normalizing flows) 기반의 확장 가능한 생성 모델인 STARFlow를 제안한다. STARFlow의 핵심은 정규화 흐름의 표현력과 자기회귀 트랜스포머(Autoregressive Transformers)의 구조적 모델링 능력을 결합한 트랜스포머 자기회귀 흐름(Transformer Autoregressive Flow, TARFlow)이다. 먼저, TARFlow가 연속 분포를 모델링하는 데 있어 이론적으로 보편적임을 입증한다. 이를 바탕으로, 확장성을 크게 향상시키기 위한 몇 가지 핵심적인 아키텍처 및 알고리즘 혁신을 소개한다: (1) 깊은 트랜스포머 블록이 모델의 대부분의 표현 능력을 포착하고, 계산적으로 효율적이면서도 상당히 유익한 몇 개의 얕은 트랜스포머 블록으로 보완되는 깊이-얕음(deep-shallow) 설계; (2) 사전 훈련된 오토인코더의 잠재 공간에서의 모델링으로, 이는 픽셀 수준의 직접적인 모델링보다 더 효과적임을 입증; (3) 샘플 품질을 크게 향상시키는 새로운 가이던스 알고리즘. 특히, 본 모델은 여전히 종단 간(end-to-end) 정규화 흐름으로, 이산화 없이 연속 공간에서 정확한 최대 가능도(maximum likelihood) 학습이 가능하다. STARFlow는 클래스 조건부 및 텍스트 조건부 이미지 생성 작업에서 경쟁력 있는 성능을 달성하며, 샘플 품질에서 최신 확산 모델(diffusion models)에 근접한다. 우리가 아는 한, 이 연구는 이러한 규모와 해상도에서 효과적으로 작동하는 정규화 흐름의 첫 번째 성공적인 사례이다.
효과적인 치료 제공과 정보에 기반한 임상적 결정은 현대 의학과 임상 치료의 핵심 목표입니다. 우리는 최근의 대규모 생성 모델의 발전을 활용하여 임상적 의사결정을 위한 질병 역학 시뮬레이션에 관심을 가지고 있습니다. 이를 위해, 우리는 임상적 결정에 기반하여 미래의 질병 상태를 시각적으로 예측하는 의학 분야 최초의 세계 모델인 Medical World Model(MeWM)을 소개합니다. MeWM은 (i) 정책 모델로 기능하는 시각-언어 모델과 (ii) 역학 모델로서의 종양 생성 모델로 구성됩니다. 정책 모델은 임상 치료와 같은 행동 계획을 생성하고, 역학 모델은 주어진 치료 조건 하에서 종양의 진행 또는 퇴행을 시뮬레이션합니다. 이를 바탕으로, 우리는 시뮬레이션된 치료 후 종양에 생존 분석을 적용하여 치료 효과를 평가하고 최적의 임상 행동 계획을 선택할 수 있는 역동적 역학 모델을 제안합니다. 결과적으로, 제안된 MeWM은 치료 후 종양을 합성하여 질병 역학을 시뮬레이션하며, 방사선 전문의가 평가한 튜링 테스트에서 최첨단 특이성을 보여줍니다. 동시에, 역동적 역학 모델은 모든 지표에서 의학 전용 GPT를 능가하며 개인 맞춤형 치료 프로토콜 최적화에서 우수한 성능을 보입니다. 특히, MeWM은 중재적 의사들의 임상적 의사결정을 개선하여 최적의 TACE 프로토콜 선택에서 F1 점수를 13% 향상시키며, 의학 세계 모델이 두 번째 판독자로 통합될 미래를 열어가고 있습니다.
오디오 인식 대형 언어 모델(ALLM)은 오디오 입력에 포함된 텍스트 및 비텍스트 정보를 이해할 수 있습니다. 본 논문에서는 ALLM을 자동 평가자로 활용하여 연설의 발화 스타일을 평가하는 방법을 탐구합니다. ALLM 평가자를 사용하여 음성 언어 모델(SLM)이 생성한 연설을 두 가지 과제(음성 스타일 지시 따르기 및 역할극)에서 평가합니다. 우리가 고려하는 발화 스타일에는 감정, 음량, 발화 속도, 단어 강조, 음조 조절 및 비언어적 요소가 포함됩니다. 두 가지 과제를 수행하기 위해 네 가지 음성 언어 모델(SLM)을 사용하고, 인간과 ALLM이 SLM의 응답을 평가하도록 합니다. GPT-4o-audio와 Gemini-2.5-pro라는 두 가지 ALLM 평가자를 인간 평가 결과와 비교한 결과, Gemini와 인간 평가자 간의 일치도가 인간 평가자 간의 일치도와 비슷한 수준임을 보여줍니다. 이러한 긍정적인 결과는 ALLM이 SLM을 평가하는 평가자로 사용될 수 있음을 시사합니다. 또한, 현재의 SLM(심지어 GPT-4o-audio도 포함)은 발화 스타일을 제어하고 자연스러운 대화를 생성하는 데 있어 여전히 개선의 여지가 있음을 보여줍니다.
현대 인공지능(AI) 모델, 특히 컴퓨터 비전 및 이미지 생성 작업에 활용되는 확산 기반 모델의 개발은 방법론 측면에서 패러다임 전환을 겪고 있습니다. 기존에는 복잡한 모델 아키텍처와 하이퍼파라미터 최적화를 통해 성능 향상을 추구하는 "모델 중심" 접근법이 주를 이루었으나, 이제는 더욱 세밀한 "데이터 중심" 접근법이 주목받고 있습니다. 이 새로운 프레임워크는 모델 성능의 주요 동인으로서 훈련 데이터의 품질, 구조, 관련성을 강조합니다. 이러한 패러다임 전환을 실현하기 위해, 우리는 약 10,610장의 고품질 인간 평가 사진 이미지와 다층적 주석으로 구성된 DataSeeds.AI 샘플 데이터셋("DSD")을 소개합니다. DSD는 상업용 이미지 데이터셋의 새로운 표준을 제시하기 위해 설계된 기초 컴퓨터 비전 데이터셋입니다. DataSeed.AI의 1억 장 이상의 이미지 카탈로그 중 일부를 대표하는 DSD는 강력한 상업적 및 다중모달 AI 개발에 필요한 확장 가능한 기반을 제공합니다. 이번 심층 탐구적 분석을 통해 우리는 DSD가 특정 모델에서 기존 벤치마크 대비 생성한 정량적 개선 사항을 기록하고, 평가에 사용된 코드와 훈련된 모델을 공개합니다.
세상을 자아 중심적(1인칭) 및 타자 중심적(3인칭) 관점에서 인지하는 것은 인간 인지의 기본이며, 이를 통해 동적 환경에 대한 풍부하고 상호 보완적인 이해가 가능합니다. 최근 몇 년 동안, 기계가 이러한 이중 관점의 시너지 잠재력을 활용하도록 하는 것이 비디오 이해 분야에서 주목할 만한 연구 방향으로 떠오르고 있습니다. 본 조사에서는 타자 중심적 및 자아 중심적 관점에서의 비디오 이해에 대한 포괄적인 리뷰를 제공합니다. 먼저, 자아 중심적 및 타자 중심적 기술을 통합한 실제 응용 사례를 강조하며, 다양한 도메인에서의 잠재적 협력을 전망합니다. 그런 다음, 이러한 응용을 실현하기 위한 주요 연구 과제를 식별합니다. 다음으로, 최근의 발전을 세 가지 주요 연구 방향으로 체계적으로 정리하고 검토합니다: (1) 자아 중심적 데이터를 활용하여 타자 중심적 이해를 강화, (2) 타자 중심적 데이터를 활용하여 자아 중심적 분석을 개선, (3) 두 관점을 통합한 공동 학습 프레임워크. 각 방향에 대해 다양한 작업과 관련 연구를 분석합니다. 또한, 두 관점에서의 연구를 지원하는 벤치마크 데이터셋을 논의하며, 그 범위, 다양성 및 적용 가능성을 평가합니다. 마지막으로, 현재 연구의 한계를 논의하고 유망한 미래 연구 방향을 제안합니다. 두 관점에서의 통찰을 종합함으로써, 우리의 목표는 비디오 이해와 인공지능의 발전을 촉진하여 기계가 인간과 유사한 방식으로 세상을 인지하도록 하는 것입니다. 관련 연구의 GitHub 저장소는 https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision에서 확인할 수 있습니다.
경쟁 프로그래밍은 높은 수준의 추론 난이도와 정확한 정답 피드백으로 인해 대규모 언어 모델(LLM)의 추론 능력을 훈련하고 평가하는 데 있어 핵심 과제로 자리 잡았습니다. 그러나 문제 설명과 해결책과 같은 공개된 문제 데이터는 풍부하지만, 이러한 문제의 테스트 케이스는 얻기 어려운 경우가 많습니다. 따라서 대규모 데이터셋을 구축하기 위해서는 테스트 케이스 생성이 필수적인 작업이며, 테스트 케이스의 품질은 평가의 정확도를 직접적으로 결정합니다. 본 논문에서는 경쟁 프로그래밍 문제를 위한 고품질 테스트 케이스를 생성하는 LLM 기반 에이전트 시스템을 소개합니다. 이 시스템을 CodeContests 데이터셋에 적용하고, 개선된 테스트 케이스를 포함한 새로운 버전인 CodeContests+를 제안합니다. CodeContests+의 테스트 케이스 품질을 평가하기 위해, 먼저 통과/실패 레이블이 달린 172만 건의 제출물을 사용하여 이러한 테스트 케이스의 평가 정확도를 검증했습니다. 그 결과, CodeContests+는 CodeContests에 비해 특히 높은 True Positive Rate(TPR)를 보이며 상당히 높은 정확도를 달성함을 확인했습니다. 이후 LLM 강화 학습(RL) 실험을 통해 테스트 케이스 품질의 개선이 RL에 상당한 이점을 제공한다는 점을 추가로 입증했습니다.
실제 로봇 동작으로부터 정확한 물리 시뮬레이션을 직접 생성하는 것은 안전하고 확장 가능하며 경제적인 로봇 학습에 큰 가치를 지니지만, 여전히 매우 어려운 과제로 남아 있습니다. 실제 로봇 데이터는 가려짐, 노이즈가 있는 카메라 포즈, 동적 장면 요소 등으로 인해 보이지 않는 물체의 기하학적으로 정확하고 사실적인 디지털 트윈을 생성하는 데 방해가 됩니다. 우리는 이러한 모든 문제를 한 번에 해결하는 새로운 실사-시뮬레이션 프레임워크를 소개합니다. 우리의 핵심 통찰은 3D 가우시안 스플래팅의 사실적 렌더링과 물리 시뮬레이션에 적합한 명시적 객체 메쉬를 단일 표현으로 통합한 하이브리드 장면 표현입니다. 우리는 MuJoCo 내에서 미분 가능한 렌더링과 미분 가능한 물리를 활용하여 원시적이고 부정확한 로봇 궤적에서 직접 객체 기하학 및 외관부터 로봇 포즈와 물리적 파라미터까지 모든 장면 구성 요소를 공동으로 개선하는 종단 간 최적화 파이프라인을 제안합니다. 이 통합 최적화를 통해 우리는 고해상도 객체 메쉬 재구성, 사실적인 새로운 뷰 생성, 그리고 주석 없이 로봇 포즈 보정을 동시에 달성할 수 있습니다. 우리는 ALOHA 2 양손 조작기를 사용하여 시뮬레이션과 도전적인 실제 시퀀스에서 우리의 접근 방식의 효과를 입증하며, 더 실용적이고 견고한 실사-시뮬레이션 파이프라인을 가능하게 합니다.
LLM(대형 언어 모델)은 고급 의사결정 지원과 유연한 채팅 어시스턴트를 통해 의료 분야를 혁신할 것으로 기대됩니다. 그러나 LLM은 부정확한 의학 정보를 생성할 가능성이 있습니다. LLM을 고품질 의학 지식에 기반하게 하기 위해, RAG(검색 증강 생성)를 통해 외부 지식을 통합하는 방식이 사용되고 있습니다. 이 방식에서는 구조화되지 않은 의학 지식을 작은 텍스트 조각으로 나누어 선택적으로 검색하고 LLM의 컨텍스트에 통합합니다. 그러나 기존의 RAG 파이프라인은 원시적이고 구조화되지 않은 의학 텍스트에 의존하며, 이는 노이즈가 많고 정제되지 않아 LLM이 효과적으로 활용하기 어려운 경우가 많습니다. 의학 지식을 체계적으로 조직화하여 LLM에 효과적으로 제공할 수 있는 방법론은 일반적으로 부족한 실정입니다. 이러한 문제를 해결하기 위해, 우리는 MIRIAD를 소개합니다. MIRIAD는 5,821,948개의 의학 질문-응답 쌍으로 구성된 대규모 정제된 코퍼스로, 각 쌍은 동료 검토를 거친 의학 문헌의 구절을 기반으로 반자동화된 파이프라인을 통해 재구성되었습니다. 이 파이프라인은 LLM 생성, 필터링, 기반 설정 및 인간 주석을 결합합니다. 기존의 구조화되지 않은 텍스트에 의존하는 의학 코퍼스와 달리, MIRIAD는 웹 규모의 의학 지식을 운영 가능한 질문-응답 형식으로 캡슐화하여 더 목표 지향적인 검색을 가능하게 합니다. 도전적인 의학 질문-응답 벤치마크에서의 실험 결과, MIRIAD를 통해 강화된 LLM은 동일한 소스 코퍼스와 동일한 양의 검색 텍스트를 사용하는 구조화되지 않은 RAG 기준선에 비해 최대 6.7%의 정확도 향상을 보였습니다. 또한, MIRIAD는 LLM의 의학적 환각(허구적 정보 생성) 감지 능력을 22.5%에서 37%까지 향상시켰습니다(F1 점수 증가). 더 나아가, 우리는 MIRIAD-Atlas를 소개합니다. 이는 56개의 의학 분야를 아우르는 MIRIAD의 인터랙티브 맵으로, 임상 사용자가 의학 지식을 시각적으로 탐색, 검색 및 정제할 수 있게 합니다. MIRIAD는 의학 정보 검색기, 강화된 RAG 애플리케이션, 지식 기반 채팅 인터페이스 등 다양한 하위 애플리케이션을 가능하게 하여 궁극적으로 의료 분야에서 더 신뢰할 수 있는 LLM 애플리케이션을 가능케 할 것으로 기대됩니다.
로봇의 조작은 오랫동안 어려운 과제로 여겨져 왔으며, 반면 인간은 컵을 컵걸이에 걸어두는 것과 같은 복잡한 물체 상호작용을 쉽게 수행할 수 있습니다. 이에 대한 주요 이유 중 하나는 로봇에게 조작 기술을 가르치기 위한 대규모이고 통일된 데이터셋의 부재입니다. 현재의 로봇 데이터셋은 단순한 장면 내에서 다양한 동작 공간에 로봇의 동작을 기록하는 경우가 많습니다. 이는 다양한 장면에서 서로 다른 로봇들이 통일되고 견고한 동작 표현을 학습하는 데 방해가 됩니다. 인간이 조작 작업을 이해하는 방식을 관찰해보면, 물체가 3D 공간에서 어떻게 움직여야 하는지를 이해하는 것이 동작을 안내하는 데 중요한 단서임을 알 수 있습니다. 이 단서는 구현체에 구애받지 않으며 인간과 다양한 로봇 모두에게 적합합니다. 이를 바탕으로, 우리는 인간과 로봇의 조작 데이터로부터 3D 흐름 세계 모델을 학습하는 것을 목표로 합니다. 이 모델은 상호작용하는 물체의 미래 움직임을 3D 공간에서 예측하여 조작을 위한 동작 계획을 안내합니다. 구체적으로, 우리는 움직이는 물체 자동 감지 파이프라인을 통해 ManiFlow-110k라는 대규모 3D 광학 흐름 데이터셋을 합성합니다. 비디오 확산 기반의 세계 모델은 이러한 데이터로부터 조작 물리를 학습하고, 언어 지시에 따라 조건화된 3D 광학 흐름 궤적을 생성합니다. 생성된 3D 물체 광학 흐름을 바탕으로, 우리는 흐름-가이드 렌더링 메커니즘을 제안합니다. 이 메커니즘은 예측된 최종 상태를 렌더링하고 GPT-4o를 활용하여 예측된 흐름이 작업 설명과 일치하는지 평가합니다. 이를 통해 로봇은 폐루프 계획 능력을 갖추게 됩니다. 마지막으로, 예측된 3D 광학 흐름을 최적화 정책의 제약 조건으로 고려하여 조작을 위한 일련의 로봇 동작을 결정합니다. 광범위한 실험을 통해 다양한 로봇 조작 작업에서 강력한 일반화 능력과 하드웨어별 훈련 없이도 신뢰할 수 있는 교차 구현체 적응을 입증합니다.
대규모 언어 모델(LLM)의 급속한 발전은 자율적인 다중 에이전트 시스템(MAS) 개발을 촉진하고 있습니다. 그러나 현재의 프레임워크는 유연성, 자원 인식, 모델 다양성, 자율적 도구 생성 등의 측면에서 부족함이 있습니다. 본 논문은 유연성, 자원 효율성, 적응성을 강화한 새로운 MAS 프레임워크인 HASHIRU(Hierarchical Agent System for Hybrid Intelligent Resource Utilization)를 소개합니다. HASHIRU은 작업 요구사항과 자원 제약(비용, 메모리)에 따라 인스턴스화된 전문 "직원" 에이전트를 동적으로 관리하는 "CEO" 에이전트를 특징으로 합니다. 이 하이브리드 지능은 더 작은 로컬 LLM(Ollama를 통해)을 우선적으로 사용하면서도 필요할 경우 외부 API와 더 큰 모델을 유연하게 활용합니다. 고용/해고 비용을 포함한 경제 모델은 팀 안정성과 효율적인 자원 할당을 촉진합니다. 또한, 이 시스템은 자율적인 API 도구 생성 기능과 메모리 기능을 포함하고 있습니다. 학술 논문 리뷰(58% 성공률), 안전성 평가(JailbreakBench 하위 집합에서 100% 성공률), 복잡한 추론(GSM8K: 96% 대 61%; JEEBench: 80% 대 68.3%; SVAMP: 92% 대 84%로 Gemini 2.0 Flash를 능가)과 같은 작업에 대한 평가를 통해 HASHIRU의 능력을 입증했습니다. 사례 연구는 자율적인 비용 모델 생성, 도구 통합, 예산 관리를 통한 자기 개선을 보여줍니다. HASHIRU는 동적 계층적 제어, 자원 인식 하이브리드 지능, 자율적 기능 확장을 통해 더 강력하고 효율적이며 적응 가능한 MAS를 위한 유망한 접근 방식을 제공합니다. 소스 코드와 벤치마크는 각각 https://github.com/HASHIRU-AI/HASHIRU와 https://github.com/HASHIRU-AI/HASHIRUBench에서 확인할 수 있으며, 요청 시 라이브 데모는 https://hashiruagentx-hashiruai.hf.space에서 이용 가능합니다.
대규모 멀티모달 모델(LMMs)은 시각적 인식과 추론 분야에서 인상적인 진전을 이루어 왔습니다. 그러나 시각적으로 모호하거나 의미론적이지 않은 장면 텍스트를 마주할 경우, 이들은 종종 내용을 정확히 파악하고 이해하는 데 어려움을 겪으며, 의미론적으로는 그럴듯하지만 시각적으로는 잘못된 답변을 생성하는 경우가 많습니다. 이를 우리는 '의미론적 환각(semantic hallucination)'이라고 부릅니다. 본 연구에서는 의미론적 환각의 근본적인 원인을 조사하고, 중요한 발견을 확인했습니다: LLM의 Transformer 레이어 중 장면 텍스트 영역에 더 강한 주의를 기울이는 레이어일수록 의미론적 환각을 덜 생성하는 경향이 있습니다. 따라서 우리는 훈련이 필요 없는 의미론적 환각 완화 프레임워크를 제안합니다. 이 프레임워크는 두 가지 핵심 구성 요소로 이루어져 있습니다: (1) 외부 검출기 없이도 잠재적인 텍스트 영역을 식별하는 coarse-to-fine 전략인 ZoomText, 그리고 (2) 환각이 덜 발생하는 레이어의 내부 표현을 적응적으로 활용하여 디코딩을 안내하고, 의미 없는 샘플에 대한 환각 출력을 수정하면서 의미 있는 샘플의 의미론을 보존하는 Grounded Layer Correction. 엄격한 평가를 위해, 우리는 모델의 환각을 탐지하도록 설계된 수동으로 선별된 질문-답변 쌍으로 구성된 1,730개 이상의 샘플을 포함하는 TextHalu-Bench 벤치마크를 소개합니다. 광범위한 실험을 통해 우리의 방법이 의미론적 환각을 효과적으로 완화할 뿐만 아니라, 장면 텍스트 스팟팅 및 이해를 위한 공개 벤치마크에서도 강력한 성능을 달성함을 입증했습니다.
그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)는 공통 입력 접두사를 공유하는 후보 출력들 간의 상대적 비교를 통해 그래디언트를 계산함으로써 정책 학습을 강화한다. 그러나 GRPO는 긴 공유 접두사를 처리할 때 각 그룹 멤버에 대해 중복적으로 인코딩해야 하므로 상당한 계산 오버헤드를 유발한다. 이러한 비효율성은 장문맥 학습 시나리오에서 주요 확장성 병목 현상으로 작용한다. 본 연구에서는 공유 접두사 계산의 중복을 제거하는 효율적인 GRPO 학습 알고리즘인 Prefix Grouper를 제안한다. 특히, 셀프 어텐션을 두 부분으로 재구성함으로써 공유 접두사를 한 번만 인코딩하면서도 완전한 미분 가능성과 엔드투엔드 학습과의 호환성을 유지한다. Prefix Grouper가 표준 GRPO와 학습적으로 동등함을 이론적 및 실험적으로 입증한다: 동일한 순방향 출력과 역방향 그래디언트를 생성하여 최적화 동역학과 최종 정책 성능이 변하지 않음을 보장한다. 실험 결과, Prefix Grouper는 특히 긴 접두사 시나리오에서 학습의 계산 비용을 크게 줄이면서도 일관된 결과를 달성함을 확인하였다. 제안된 방법은 완전히 플러그앤플레이 방식으로, 기존 GRPO 기반 아키텍처와 호환되며 현재의 학습 파이프라인에 드롭인 대체로 원활하게 통합될 수 있다. 구조적 수정 없이 입력 구성과 어텐션 계산에 최소한의 변경만 필요하다. Prefix Grouper는 동일한 계산 예산 내에서 더 큰 그룹 크기를 사용할 수 있게 하여 GRPO의 확장성을 더 복잡한 작업과 더 큰 모델로 향상시킨다. 코드는 https://github.com/johncaged/PrefixGrouper에서 확인할 수 있다.
산업 자산 생애주기 관리를 위한 AI는 복잡한 운영 워크플로우(예: 상태 모니터링, 유지보수 계획 수립, 개입 일정 조정 등)를 자동화하여 인간의 작업 부담을 줄이고 시스템 가동 중단 시간을 최소화하는 것을 목표로 합니다. 기존의 AI/ML 접근 방식은 주로 이러한 문제를 개별적으로 해결하며, 더 넓은 운영 파이프라인 내에서 특정 작업에 초점을 맞추었습니다. 반면, AI 에이전트와 대형 언어 모델(LLMs)의 등장은 새로운 세대의 기회를 제공합니다: 자산 생애주기 전반에 걸친 종단간 자동화를 가능하게 하는 것입니다. 본 논문은 이전에 별도의 전문 지식과 수동 조정이 필요했던 작업을 AI 에이전트가 자율적으로 관리하는 미래를 상상합니다. 이를 위해, 우리는 Industry 4.0 애플리케이션에 맞춤화된 도메인 특화 에이전트의 개발, 오케스트레이션, 평가를 안내하기 위해 설계된 통합 프레임워크 및 환경인 AssetOpsBench를 소개합니다. 우리는 이러한 종합적인 시스템에 대한 주요 요구 사항을 설명하고, 실제 산업 운영을 위해 인지, 추론, 제어를 통합한 에이전트 구축에 대한 실행 가능한 통찰력을 제공합니다. 해당 소프트웨어는 https://github.com/IBM/AssetOpsBench에서 이용 가능합니다.
최근 인공지능(AI) 추론 분야의 발전은 다양한 과제에서 상당한 개선을 이끌어냈습니다. 그러나 이러한 개선이 인간이 이해하고 적용하며 학습할 수 있는 방식으로 모델이 추론을 전달하는 능력, 즉 지식 전이(knowledge transfer)에도 더 나은 결과를 가져오는지에 대한 중요한 의문이 남아 있습니다. 이를 조사하기 위해 우리는 인간-AI 지식 전이 능력을 평가하기 위한 개념적 및 실험적 프레임워크인 '지식 통합 및 전이 평가(Knowledge Integration and Transfer Evaluation, KITE)'를 도입하고, 이를 명시적으로 측정하기 위한 첫 번째 대규모 인간 연구(N=118)를 수행했습니다. 우리의 두 단계 실험 설계에서 인간은 먼저 AI와 함께 문제 해결 전략을 구상한 후, 독립적으로 해결책을 구현함으로써 모델 설명이 인간의 이해에 미치는 영향을 분리하여 분석했습니다. 연구 결과, 모델의 벤치마크 성능이 협업 결과와 상관관계를 보이기는 하지만, 이 관계는 특히 일관성이 없으며 상당한 이상치를 포함하고 있어, 지식 전이를 위해서는 전용 최적화가 필요함을 시사합니다. 우리의 분석은 성공적인 지식 전이를 매개하는 행동 및 전략적 요인들을 식별합니다. 우리는 의사소통적으로 정렬된 모델에 대한 향후 연구를 지원하기 위해 코드, 데이터셋 및 평가 프레임워크를 공개합니다.
정보 추출(Information Extraction, IE) 시스템은 전통적으로 특정 도메인에 한정되어 있어, 전문가 스키마 설계, 데이터 주석 작업, 모델 학습 등 비용이 많이 드는 적응 과정이 필요했습니다. 대형 언어 모델(Large Language Models)이 제로샷 IE에서 유망한 성능을 보여주고 있지만, 라벨 정의가 다른 새로운 도메인에서는 성능이 크게 저하됩니다. 본 논문은 GUIDEX라는 새로운 방법을 소개하며, 이는 도메인별 스키마를 자동으로 정의하고, 가이드라인을 추론하며, 합성적으로 라벨링된 인스턴스를 생성함으로써 도메인 외 일반화를 개선합니다. Llama 3.1을 GUIDEX로 미세 조정한 결과, 7개의 제로샷 개체명 인식(Named Entity Recognition) 벤치마크에서 새로운 최첨단 성능을 달성했습니다. GUIDEX로 학습된 모델은 이전 방법 대비 인간이 라벨링한 데이터 없이도 최대 7 F1 점수를 향상시켰으며, 이를 결합했을 때는 거의 2 F1 점수 더 높은 성능을 보였습니다. GUIDEX로 학습된 모델은 복잡하고 도메인 특화된 주석 스키마에 대한 이해도가 향상되었음을 보여줍니다. 코드, 모델 및 합성 데이터셋은 neilus03.github.io/guidex.com에서 확인할 수 있습니다.
상태 공간 모델(SSMs)은 시퀀스 모델링을 위한 유망한 아키텍처로, 비용이 많이 드는 자기 주의(self-attention)를 선형 순환으로 대체하여 트랜스포머에 대한 대안을 제공합니다. 본 논문에서는 주어진 계산 예산 내에서 SSMs의 성능을 향상시키기 위해 희소화(sparsification)라는 간단하면서도 효과적인 기법을 제안합니다. 우리의 직관은 SSMs의 토큰들이 점진적인 순환 업데이트로 인해 높은 중복성을 가지며, 밀집된 순환 연산이 과거 정보의 전달을 방해한다는 것입니다. 특히, SSMs의 상위 레이어는 전역 정보를 인코딩하므로 더 많은 중복성을 보이는 반면, 하위 레이어는 지역 정보를 인코딩한다는 것을 관찰했습니다. 이를 바탕으로, 우리는 토큰 가지치기(token pruning)를 기반으로 한 SSMs의 계층적 희소화 방법인 Simba를 소개합니다. Simba는 상위 레이어를 하위 레이어보다 더 많이 희소화하여 상위 레이어가 고속도로(highway)처럼 동작하도록 유도합니다. 이를 위해, 우리는 SSMs를 위한 새로운 토큰 가지치기 기준을 제안하며, 이는 지역 순환을 누적하여 토큰의 최종 출력에 대한 전역적 영향을 측정합니다. 우리는 Simba가 동일한 FLOPS를 사용하는 기준 모델인 Mamba보다 다양한 자연어 처리 작업에서 더 나은 성능을 보임을 입증합니다. 또한, 고속도로의 효과를 설명하며, Simba가 효율성을 향상시킬 뿐만 아니라 긴 시퀀스 간의 정보 흐름도 개선함을 보여줍니다. 코드는 https://github.com/woominsong/Simba에서 확인할 수 있습니다.