AI 기반 진단 언어의 교정: MIT가 바꾸고 있는 의료 보고의 신뢰도
의료 영상 판독에서 방사선 전문의들이 사용하는 단어 하나, 문장 하나는 환자의 치료 방향을 결정짓는 중요한 기준이 될 수 있습니다. '가능성 있음(possible)', '의심됨(suspect)', '있을 수 있음(maybe)', '있음(present)', '높은 가능성(highly likely)'과 같은 표현들은 정밀한 수치가 아닌, 포괄적 ‘확률 언어(probabilistic language)’로 해석되며, 의료현장에서는 이러한 표현에 따라 진단과 치료가 달라지곤 합니다.
그렇다면 방사선 전문의는 얼마나 정확하게 이러한 표현을 사용하고 있을까요? 즉, "매우 가능성 있음"이라고 말했을 때 실제로 그러한 병변이 발견될 확률은 어느 정도일까요? MIT의 연구진은 이러한 의문에서 출발해, 의료 임상의들이 사용하는 언어적 확신의 정도와 실제 병리학적 사실 사이의 ‘신뢰도(calibration)’를 측정하고 개선할 수 있는 새로운 방법론을 제시했습니다.
왜 언어 표현의 ‘정확성’이 중요한가?
진단 언어는 단순한 전달 수단을 넘어, 환자의 삶과 직결되는 ‘결정 언어(decision language)’입니다. 예를 들어 방사선과 전문의가 흉부 엑스레이에서 폐렴 의심 소견에 대해 “가능성 있음”이라고 언급하면, 담당 주치의는 후속 CT 촬영 등을 요청할 수 있습니다. 그러나 “높은 가능성”이라고 표현되면, 즉시 항생제 치료와 추가 검사로 이어질 가능성이 높아집니다. 두 경우 모두 환자 치료에 중대한 영향을 미치는데, 표현의 일관성과 신뢰도가 떨어진다면 오진 및 과잉치료 위험성이 커질 수 있습니다.
이처럼 '진단의 언어'는 단순 회화가 아닌, 과학적 근거에 기반한 표현이 되어야 하며, 진단자와 임상의 간의 오해를 줄이기 위한 ‘교정 도구’가 필요합니다. MIT의 이번 연구는 그 해결법을 제시한 획기적인 시도입니다.
MIT의 새로운 보정 프레임워크: 말과 확률을 연결하다
이번 연구는 MIT의 CSAIL(Computer Science and Artificial Intelligence Laboratory) 소속 학자들과 하버드 의대 부속병원 방사선 전문의들이 공동으로 진행했습니다. 연구진은 자연언어 표현에 대한 ‘정확도’와 ‘신뢰도’를 정량적으로 측정하기 위해 새로운 프레임워크를 제안했습니다.
기존의 방법은 AI 시스템에서 사용되는 확률 점수(예: 83% 확률로 폐렴 진단)와 실제 발생률을 비교하여 신뢰도를 측정하였지만, 인간은 이처럼 수치 기반이 아닌 '단어'를 사용합니다. 연구팀은 각 표현(예: 가능성 있음, 매우 가능성 있음 등)이 내포하는 확률 분포를 데이터 기반으로 측정하고, 특정 표현이 실제 얼마나 정확한지를 평가하는 모델을 개발했습니다.
표현의 의미를 확률 분포로 해석하다
연구 핵심은 바로 인간 표현의 '확률 분포(probability distribution)'화입니다. 예를 들어 “가능성 있음(may represent)”이라는 표현을 사용하는 경우, 진단 의사들의 실제 인식은 30%에서 70% 사이로 넓은 분포를 형성합니다. 반대로 “일치됨(consistent with)”이라는 표현은 90-100% 확률로 병변이 존재한다고 판단하는 이들이 많아 좁고 중앙값이 높은 분포를 가집니다.
이러한 분포 기반 해석을 토대로, 연구진은 임상 보고서에서 사용하는 문구의 실제 신뢰도와 특정 질병 진단 간의 상관 관계를 정량화하였습니다. 이는 단순히 단어를 사용하는 빈도가 아니라, 그 단어가 실제 진단 정확도와 얼마나 일치하는지를 측정하는 신뢰도 척도를 제공한 것입니다.
교정은 어떻게 이루어지는가?
연구팀은 이를 기반으로 특정 표현이 과도하게 자신감 있는 경우, 예를 들어 “확실함”이라는 표현이 실제로는 60% 확률밖에 되지 않는 상황을 발견하면, 이를 “높은 가능성 있음”으로 수정 제안하는 최적화 모델을 구축했습니다.
이는 단지 심리적 가이드라인이 아니라, 실시간 임상 환경에서 사용 가능한 ‘언어-확률 매핑 시스템’으로 활용될 수 있습니다. 궁극적으로 의료진이 보다 정확하게 자신감 수준을 표현함으로써, 치료의 방향성을 향상시키는 목적으로 사용됩니다.
진단 대상이 된 질환군별로도 오차 분포가 달랐습니다. 예를 들어 일반적인 질환인 '무기폐(atelectasis)'는 과도한 조심성으로 인해 언급 빈도 대비 실제 진단 확률이 높았고, 감염(infection)처럼 애매한 소견이 많은 경우에는 오히려 과신하는 경향을 보였습니다.
AI 모델, 인간 의사의 언어를 배운다
MIT의 이 연구는 흥미롭게도 인간 의사만을 대상으로 한 것이 아닙니다. 연구진은 동일한 프레임워크를 활용해 AI 언어 모델(ChatGPT, GPT-4 등)의 표현 신뢰도를 진단하고 개선하는 실험도 병행했습니다. 현재 AI는 “확실함”, “분명함” 등의 표현을 남용하며 사용자에게 과도한 신뢰를 유도할 수 있어 다면적 보정이 필요하다는 점이 지적되었습니다.
AI가 인간 수준의 언어 신뢰도를 갖추려면, 표현 수위에 따라 실제 예측 정확성과 얼마나 일치하는지를 스스로 학습하고 조율하는 능력이 필요합니다. 이도 이번 연구 프레임워크의 핵심 활용 분야 중 하나입니다.
향후 연구 방향과 실질적 적용
MIT 연구진은 이번 연구를 흉부 엑스레이에 국한하지 않고, 복부 CT, 뇌 MRI, 심장 초음파 등 다양한 영상 진단 파트로 연구를 확장하고자 합니다. 특히 다기관 협업을 통한 대규모 데이터 확보와 시스템 도입이 중요하며, 의료 현장에서의 실제 수용성과 활용도를 보다 면밀히 검토할 계획입니다.
하버드 의과대학의 아툴 신가레 박사는 "단어 하나가 환자의 치료 경로를 좌우할 수 있는 진단 보고서에서 이번 연구의 언어 보정 시스템은 상당한 혁신적 가치가 있다"고 평가했습니다.
맺음말: 언어는 진단 그 자체
우리는 종종 언어를 정보 전달의 수단으로만 생각하지만, 의료 진단에서는 언어 자체가 ‘결정’이고 ‘진단의 일부’입니다. MIT의 이번 연구는 진단 언어를 과학적으로 해석하고 보정함으로써, 환자 중심의 의료를 더욱 신뢰성 있게 진화시키는 대표 사례로 남게 될 것입니다.
더불어 이 프레임워크는 향후 AI 기반 진단 보조 시스템에 적용되어 인간-기계 협업 진단의 정밀도 향상, 의료 오진 방지, 효율적 자원 활용 등에 기여할 것으로 기대됩니다.
📎 관련 논문 보기: Calibrating Expressions of Certainty
📚 관련 연구팀: MIT Medical Vision Group
💡 연구 발표 학회: ICLR (국제 학습 표현 학회)
🏥 협업병원: Beth Israel Deaconess Medical Center, Massachusetts General Brigham