[교육플러스] 의료 인공지능의 대명사인 ‘왓슨’은 최근 몰락의 길을 걷고 있다. 한 때 인공지능 기술을 통해 여러 질병들이 치료될 수 있다는 믿음을 가진 적이 있다. 그리고 의료인들의 협치를 가능하게 만든 도구로 역할을 해오기도 했다. 그러나 근거기반의학이라고 불리는 의료연구법이 자리잡아가면서 개방적 확률을 기반으로 한 치료보다는 엄밀한 확률적 기반의 의료데이터와 치료 가이드가 필요하게 되었다. 이런 맥락에서 왓슨에 대한 상반된 평가가 나온 과정과 의료에 필요한 데이터 기반 기술의 특징을 간략히 알아보자.

(사진=픽사베이)
(사진=픽사베이)

[교육플러스] 세계 최초의 의료인공지능 기기인 왓슨 포 온콜로지에 대해 알아보겠습니다. 왓슨 포 온콜로지는 의료적 진단(diagnosis)를 해주는 것은 아닙니다. 치료법을 권고하여 의사의 진료를 보조하는 역할을 합니다. ‘진단’과 ‘진료’에는 큰 차이가 있습니다. 의식되는 조직이 암인지 아닌지를 진단하기 위해서는 의심 조직을 떼어내어 조직검사를 해야 합니다.

이 때 왓슨 포 온콜로지에는 병리과에서 시행하는 병리 데이터의 분석을 통한 진단 기능은 포함되어 있지 않습니다. 또한 진료와 진료를 보조하는 것에도 큰 차이가 있습니다. IBM측에서는 ‘왓슨은 의사를 대체하지 않습니다. 의사의 역할을 강화하는 것이 왓슨의 역할이다’는 것입니다.

왓슨은 어떤 일을 하나요?

환자의 진료 기록과 의료 데이터를 바탕으로 가능한 치료법(treatment plan option)을 권고해 주는 것이 왓슨 포 온콜로지의 기능입니다. 예를 들어, 암 환자의 진료기록, 검사 기록, 유전 정보, 수술 가능 여부 등을 입력하면, 이를 기반으로 치료법을 권고해주는 것을 해줍니다.

중요한 것은 치료법을 초록색, 주황색, 빨간색의 3단계로 권고한다는 것인데요. 초록색은 추천하는 치료법, 주황색은 고려할 수 있는 치료법이며, 빨간색은 권고하지 않는 치료법입니다. 또한 각각의 권고된 치료법마다 근거 버튼이 달려 있습니다. 이것을 클릭하면, 왜 이러한 치료법을 권고하는지에 대해서 왓슨이 학습했던 관련 논문, 임상 연구 등의 결과, 가이드라인 등의 근거 자료를 보여주게 됩니다.

왓슨 포 온톨로지 치료법 권고 화면(캡처=송민호)
왓슨 포 온톨로지 치료법 권고 화면(캡처=송민호)

왓슨의 강점은 무엇일까요?

IBM이 주장하는 왓슨의 강점은 매일 같이 쏟아져 나오는 엄청난 분량의 암과 관련된 연구 논문들, 임상시험 결과들을 환자의 치료에 빠르게 반영할 수 있다는 것입니다. IBM에 따르면 2015년 한 해 동안 출판된 종양학 논문은 44,000개인데, 이는 매일 122개의 새로운 논문이 발표된다는 이야기입니다. 이는 10분에 한 편씩 논문을 읽는다고 가정해도, 주말 없이 매일 20시간 이상씩 읽어야만 따라갈 수 있는 양이지요. 심지어 IBM의 자료에는 매일 29시간씩 논문을 읽어야만 따라갈 수 있다고 언급하고 있기도 합니다. 즉 인간의 능력으로는 따라가기에는 이미 불가능한 수준의 연구 결과들이 쏟아진다는 것입니다.

한편 ‘보다 발전된 의학교과서’로 볼 수 있습니다. 왓슨 포 온콜로지의 목적은 진료나 진단, 치료를 직접 하지 않고, 의사를 보조하는 목적입니다. 그러다보니 경력이 부족한 의사들이 모의실습을 하는 과정에서 왓슨이 내어놓은 결과를 직접 환자에게 적용하지 않고, 의사가 그 결과를 검토하고, 참고하여 의사가 치료법을 결정해보는 연습을 해 볼 수 있습니다. 따라서 의료현장보다는 예비 의료인에게 유용한 도구가 될 수 있습니다.

왓슨의 약점은 무엇일까요?

기계학습의 기본적인 원칙은 ‘가비지-인, 가비지-아웃’이다. 즉 좋지 않은 데이터로 학습시키면 좋지 않은 결과가 나오는 것입니다. 훈련시킬 때의 데이터의 양과 질이, 결과적으로 인공지능의 성능을 좌우한다고 해도 과언이 아니겠죠. 왓슨에 입력된 모든 데이터가 검증된 것일리는 없습니다. 즉 의료논문이나 결과물 중에서도 특정 영역에만 의미가 있거나 또는 부실한 내용의 것들도 존재할 수 있습니다. 따라서, 왓슨이 제시하는 의료데이터의 검증 과정이 추가적으로 필요할 것입니다.

국내 의료현장에서는 기대했던 것보다 의사들의 의견과 왓슨의 의견 사이의 의견불일치가 나타났습니다. 예를 들어, 2016년 길병원에서 발표한 자료에 따르면, 2016년 12월 센터 개소 이후부터 2017년 11월까지의 환자 총 557명을 대상으로 진행한 결과, 대장암(결장암) 환자 118명을 대상으로 한 의료진과 왓슨의 '강력 추천' 분야 의견 일치율은 55.9%였고, 병원 측은 후향적 연구 48.9%에 비해 7% 높아진 수치라고 밝힌 바 있습니다. 그런데 4기 위암 환자에 대한 의견 일치율은 40%에 그쳤다고 합니다.

이는 국가별 임상 양상의 차이를 고려하지 못한 결과이기도 합니다. 아무래도 미국 데이터를 기반으로 한 왓슨의 진단이 한국인의 특성에 맞지 않다는 것이죠. 게다가 한국의 의료 상황을 왓슨에 입력하려면 데이터 입력 비용을 추가로 내야 한다는 점, 그리고 기기 운영을 위한 비용을 의료보험에서 제공하지 않는다는 경제적 문제도 큰 약점입니다.

근거기반 의학에서 왓슨은 어떻게 평가될까요?

근거기반의학 EBM(Evidence Based Medicine)은 ‘환자의 문제에 대해 결정을 내릴 때 세심하고 주의 깊게 최신의 의학지식을 적용하는 것이며, 개인의 임상경험과 체계화된 연구에서 얻어진 임상적인 근거들 중에서 최선의 것을 통합하여 개개인의 환자에 적용하는 것’이라고 정의됩니다. 이를 의료 데이터의 영역으로 가져오면 설명할 수 있는 데이터여야 합니다. 즉 특정 질병에 어떠한 약물이 유용한지 그것을 수치로 나타낼 수 있어야 합니다. 그래야만 그 수치를 기반으로 하여 약물을 처방할 수 있을 것입니다.

그런데 약물의 효과가 70~99%로 넓게 범위를 가진다면 이것을 처방하기는 어려울 것입니다. 물론 이렇게 넓은 범위효과가 나타나게 된 배경에는 동양인일 경우 80%, 노인일 경우 98% 등 다양한 환자의 조건에 따라서 다르게 나타날 수 있다는 점이 반영될 수 있을 것입니다. (이는 의학적 설명이 아니라 이해를 돕기 위해 든 예시와 설명입니다.) 이를 왓슨에 적용해 보면, 다음과 같습니다.

왓슨이 지닌 데이터와 기능은 설명가능한 인공지능에 속하지 않습니다. 의료계에서 설명가능한 인공지능이다는 말은 어떤 의료적 결정을 내리든, 그 결론을 내린 근거를 분명하게 설명할 수 있어야 합니다. 즉 특정 암의 치료에 적합한 치료법을 권해줄 때 확률만 나올 뿐 어떤 구체적인 의료행위나 논문 등을 통해서 이를 입증한다는 결과를 얻기는 어렵습니다. 그리고 반대의 치료법이 유용하다는 논문의 인용비율이나 출판비율이 낮아서, 특정 치료법이 외면당할 수 있는 경우도 존재합니다.

정리하면 왓슨이 가진 인공지능 의료의 가능성은 근거중심의학적 관점에서 볼 때는 한계가 있다는 것입니다. 무엇보다도 아직도 다양한 질병에 대한 데이터를 왓슨에 입력해 나가고 있는 과정이기 때문에 특정 질병에 완전 무결한 치료법을 권고하기는 어렵습니다. 따라서 인공지능으로 의료 문제를 완전히 해결해 나가기는 어렵고 하나의 보조도구로서 기능한다고 보는 것이 현재로서는 타당하다고 보여집니다.

송민호 칼럼니스트
송민호 칼럼니스트

송민호는 서울대학교 및 동 대학원을 졸업했다. 해군사관학교 사회인문학처 교수, 한국전자기술연구원 연구원을 거쳐 현재는 서울대 벤처 휴먼디자인랩 대표로 활동하고 있다. 각 분야에 깊은 전문성을 지닌 것으로 평가받고 있다. 또한 기획력과 판단력이 빠르고 정확하며, 추진력이 강한 것이 장점이다. 칼럼니스트로 독자들에게 유익하고 좋은 정보를 제공하는 역할도 활발하게 하고 있다.

키워드

#송민호
저작권자 © 교육플러스 무단전재 및 재배포 금지

관련기사