TIME 내용

TIME
Mental health: Probing the boundaries of AI in healthcare
등록일
2020-05-29

Slowly but surely, automated diagnosis using artificial intelligence (AI) has progressed beyond the realm of science fiction into reality. Researchers, companies and healthcare providers have developed and implemented AI systems to help them examine radiology scans, detect cancer, and identify bacterial infections. There is even an AI-based symptom checker available online. Much like a virtual doctor, it asks you a series of (multiple-choice) questions about your symptoms, and then suggests diagnoses which could explain them.

The common thread between these AI applications is that there is some sort of physical indication, such as anomalies in radiology scans or bacteria in blood samples, which provide hard evidence for the diagnoses that they offer. However, what about a mental health condition like depression, where most of the symptoms experienced are internal and hence unobservable? Is it still possible to apply AI to make automated diagnoses?

Some researchers think so. In the natural language processing (NLP) domain, efforts to identify linguistic cues indicative of depression have yielded promising results. For example, researchers have identified that depressed people use more self-referential thinking, especially first person pronouns, and absolutist words. What is interesting is that these can be grounded in psychological explanations. “Cognitive rigidity” has been empirically linked to depression, suggesting a relationship between the condition and black-and-white thinking (also known as splitting). Self-referential thinking can also be seen as evidence of self-focus, which has also been positively correlated with depression. Other features identified include fillers in speech, though further research has to be done on the relationship between discourse markers and depression. Further research that has been done on other aspects of human behaviour have also found differences in the way people speak. All these suggest that while we might not be able to observe the mental state of a patient directly, we can still detect its behavioural manifestations and make diagnoses based on them.

“There is the possibility of further cultural or gender bias in the datasets”

However, there are some caveats to this research. The most glaring issue, especially for NLP research, is that the findings are in English, and further research might be required to verify if they generalise to other languages. Secondly, there is also the possibility of a self-selection bias. Due to collection methods, many datasets are only able to include people who are aware of their depression and are open about it. For example, a widely-used Twitter dataset identified depressed people by looking for public tweets of diagnoses such as “I have just been diagnosed with depression”. Hence, the findings might not be reflective of all depressed people, but specifically those who have sought help for their illness, and are willing to speak about it publicly. However, it can be argued that the population researchers most wish to target, and who stand to benefit most from an automated mental health tracker are those who, afraid of societal stigma, are unwilling to share that they have been experiencing symptoms.

Finally, there is the possibility of further cultural or gender bias in the datasets. Researchers have found cross-cultural differences in the way people express depression in language, yet very few datasets differentiate between race or nationality. Algorithmic bias is an emerging problem, where AI programs are found not to be the impartial judges we hope for, but to be champions of the same human bias we exhibit. When we train algorithms with flawed data, they not only learn the bits we want them to learn – such as identifying cancer from a radiology scan – but also any bias inherent to the data. This is particularly pertinent for applications in healthcare, where prejudiced AI algorithms might have already cost millions of people the care they needed based on demographic traits. For example, as black people have been historically undertreated in the healthcare system, an algorithm trained on past data too learned to systematically undertreat an entire group of people.

Furthermore, eliminating bias in AI is not always easy. In certain applications, it might be sufficient to curate the data we feed our machines, such that they receive unbiased data and thus (hopefully) are trained to be more impartial. For example, in the previous example, we can tweak the numeric data to assign higher risk scores and hence greater urgency for treatment to black people, to match the scores assigned to white people. However, it is much more difficult to un-bias language, due to the myriad ways this can be propagated – lexically, syntactically, and so on.

“Unscrupulous companies might use it to discriminate between candidates with and without preexisting health conditions when hiring”

Another major obstacle we face when it comes to implementing automated systems for mental health diagnosis centres around privacy. One might envision a continuous monitoring system would provide the most benefits, as it can potentially detect conditions even before one is aware of it. However, would you feel comfortable allowing a browser extension to watch as you type posts on social media or message friends, or a tracker to monitor your everyday behaviour, even in the name of your health? People’s unwillingness to give away even geolocation data, via contact tracing apps, suggests otherwise. Even in Singapore, where trust in the ruling party is high, only about 20% of the population have downloaded the government-released app TraceTogether.

An ad-hoc self-diagnostic tool, similar to the symptoms checker bot from Buoy Health, might be more realistic. However, any tool – whether a tracker or checker – which allows one to diagnose mental health based on the language used by other parties still has enormous potential to be misused. For example, unscrupulous companies might use it to discriminate between candidates with and without preexisting health conditions when hiring. But how would you prove that the diagnosis you seek is for yourself? And how would you help a family member or friend unwilling or unable to enter information themselves, if you are not allowed to seek diagnoses on behalf of others? There are no easy workarounds.

The current difficult global situation has placed the spotlight on mental health. With face-to-face interactions severely restricted across much of the world, many people are cut off from their usual support networks of coworkers, friends, and extended family. Forbes has described mental health as “The Other COVID-19 Crisis”. In these circumstances, the potential benefits for a system which can automatically track mental health and remotely offer support are enormous. However, the data required to make a mental health diagnosis are significantly more sensitive and personal than that required to diagnose physical conditions. Furthermore, possible demographic bias in the underlying research has yet to be addressed. Although initial research in this area is very promising, we are still a long way off from reaping its benefits.

출처: Varsity

정신 건강: 헬스케어에서 인공 지능 (AI)의 잠재성과 한계점
등록일

인공 지능 (AI)을 이용한 건강 진단이 공상 과학 소설의 범위를 넘어 현실에서 가능해졌다. 연구진, 사업체, 건강 관리 제공 업체들이 개발한 AI 시스템을 이용한 방사선 촬영, 암세포 발견, 세균 감염 확인이 가능하다. 인터넷에서 AI에 기반한 질병 증상 확인 프로그램도 찾아볼 수 있다. 가상 의사처럼, 증상에 관해 여러 개의 (객관식) 질문에 대답하면 증상을 설명하는 진단을 받을 수도 있다.

이런 AI를 응용한 프로그램들은 모두 방사선 촬영에서 보이는 이상 징후, 혈액 샘플의 세균 등 신체적인 징후를 구체적인 증거와 데이터를 사용해 진단을 내린다. 그러면 환자가 경험하는 증상이 내면적이고 관찰할 수 없는 우울증과 같은 정신 건강이라면 어떨까? AI를 이용한 자동 진단이 여전히 가능할까?

연구자들 일부는 가능하다고 생각한다. 자연 언어 처리 (natural language processing (NLP)) 도메인을 이용해서 우울증을 반영하는 언어 표현을 확인했을 때의 결과는 긍정적이었다. 예를 들어, 연구자들은 우울증을 앓는 사람이 자신에게 집중하는 사고방식을 더 많이 하며 특히 일인칭 대명사 및 절대적인 단어를 자주 사용하는 것을 알아냈다. 흥미로운 점은 이런 결과를 심리학적인 관점으로 설명할 수 있다는 것이다. “인지적 경직성”은 실질적으로 우울증과 관련이 있으며 우울증 상태와 흑백 논리 (분열이라고도 한다) 사이에 상관관계가 있음을 시사한다. 자신에게 집중하는 사고방식은 우울증과 밀접한 관련이 있는 자기 중심성의 증거로도 볼 수 있다. 우울증과 관련된 기타 언어 표현에는 대화 중 어색함을 채우는 말 (fillers in speech)을 포함하는데, 우울증과 담화 표지 (discourse markers) 사이의 상관관계에 대해서는 추후 연구가 더 필요하다. 질병 징후로 볼 수 있는 다른 유형의 행동에 대한 추가 연구 결과에 따르면, 사람이 말하는 방식의 차이도 징후로 볼 수 있다고 한다. 이런 내용을 종합하면, 환자의 정신 상태를 직접 관찰할 수는 없지만, 행동으로 나타나는 징후를 증거로 진단을 내리는 것이 가능하다.

“연구에서 이용한 데이터에 문화적 편견 또는 성차별이 포함되었을 가능성이 있다”

하지만 이 연구에서 주의할 점이 몇 가지 있다. 특히 자연 언어 처리 (NLP) 연구에서 분명한 문제점은 연구가 영어로 진행되었다는 사실로, 동일한 결과를 다른 언어에도 적용할 수 있는지 알아보는 추가 연구가 필요하다. 둘째로, 자기 선택적 편향 (self-selection bias)의 가능성이 있다. 한정된 자료 수집 방법 때문에, 연구에서 이용한 자료에는 자신이 우울증을 앓고 있으며 그 사실을 감추지 않는 사람들의 자료만 포함되었다. 예를 들어, 광범위하게 이용되는 트위터를 이용한 데이터는 “나는 최근에 우울증 진단을 받았다”와 같은 진단 관련 공개 게시물을 찾아보는 사람들을 우울증을 앓고 있다고 분류했다. 그래서 트위터의 이런 자료는 우울증을 앓는 모든 사람을 반영한다기보다는 자신의 질병을 고치려고 도움을 구하고 공개적으로 이야기를 나눌 의사가 있는 사람들만 반영한다고 볼 수 있다. 하지만 연구자들이 가장 연구하고 싶어 하는 집단 및 자동으로 정신 건강을 진단하는 프로그램 사용으로 가장 혜택을 볼 집단은 사회적 낙인이 두려워서 자신이 정신 질환 증상을 경험하고 있다는 사실을 숨기려고 하는 사람들이다.

마지막으로, 연구에서 이용한 데이터에 문화적 편견과 성차별이 포함되었을 가능성이 있다. 언어에 따라 사람들이 우울증을 표현하는 방법에 문화적인 차이가 있음을 연구자들이 발견했는데도, 인종 또는 국적을 구분한 데이터는 거의 찾아볼 수 없다. 알고리즘 사용에서 나타나는 편향성은 최근 부각되는 문제로, 인공 지능 프로그램이 우리가 기대했던 대로 객관적인 판단을 하기보다는 인간이 가진 편견을 그대로 반영한다는 것이 문제이다. 우리가 결함 있는 자료를 이용해서 알고리즘을 사용하면, 방사선 촬영 사진에서 암을 발견하는 것처럼 우리가 원하는 기능을 학습하는 동시에 자료에 포함된 편향성까지 학습한다. 이런 편향성은 특히 건강 관리에 인공 지능을 사용할 때 나타나서, 인공 지능 알고리즘이 인구 통계학적 특성만 따라서 건강 관리가 필요한 수백만 명을 배제하는 결과를 이미 가져왔을 수도 있다. 예를 들자면, 역사상 흑인들은 건강 관리를 충분히 못 받아왔기 때문에 과거 자료를 이용한 알고리즘을 이용했을 때 특정 집단 전체에게 건강 관리를 충분히 제공하지 못했을 수도 있다.

게다가, 인공 지능 프로그램에서 편향성을 제거하는 작업이 늘 쉽지는 않다. 특정 프로그램에서는, 인공 지능 프로그램에 입력하는 자료를 인간이 정리해서 인공 지능 프로그램이 편향성 없는 자료를 학습한 후 (바라건대) 더 객관적인 작업이 가능하도록 교육할 수도 있다. 위에 예시로 든 경우에서, 흑인 집단의 질병 위험 수치를 높게 입력해서 치료를 더 받을 수 있게 수치 자료를 조정하면, 백인 집단에 지정된 질병 위험 수치와 동일하게 만들 수 있다. 하지만 언어에는 사전적인 표현, 구문적인 표현 등 무수한 표현 방법이 있기 때문에 언어의 편향성을 제거하는 것은 훨씬 더 어려운 작업이다.

“직원 채용 시 기존에 건강 문제 여부로 지원자들을 차별할 수도 있다”

정신 건강 진단에 자동 시스템을 적용하는 과정에서 우리가 경험하는 또 하나의 주요 걸림돌은 사생활 문제이다. 자동 시스템은 사람이 스스로 자각하기 전에 정신 건강 문제를 감지할 수도 있기 때문에, 지속해서 모니터링하는 시스템을 사용하면 그 혜택이 증가할 거라고 기대할 수도 있다. 하지만 아무리 건강을 위한 모니터링이라도 SNS에 글을 올리거나 친구에게 메시지를 보낼 때 실시간으로 지켜보는 웹 프로그램이나 일상생활을 감시하는 추적 프로그램을 편안하게 받아들일 수 있을까? 접촉자 추적 앱 (contact tracing apps)을 통한 지리적 위치 자료 제공도 달가워하지 않는 사람들의 태도를 보면 쉽지 않을 듯하다. 집권당에 대한 신뢰가 높은 싱가포르에서도 정부에서 제공한 TraceTogether 앱을 인구의 20%만 다운받았다.

Buoy Health 사에서 제공하는 진단 확인 봇 (symptoms checker bot) 프로그램과 유사한 임시방편의 자가 진단 도구가 더 현실적일 수도 있다. 하지만 추적 기능이 있든 확인 기능이 있든 상관없이, 다른 나라에서 이용하는 언어에 기반한 정신 건강 진단 도구는 모두 오용될 가능성이 상당히 크다. 예를 들어, 부도덕한 업체는 직원 채용 시 기존에 건강 문제가 있는지의 여부로 지원자들을 차별할 수도 있다. 하지만 개인적인 용도로 진단을 바란다고 어떻게 입증할 수 있을까? 그리고 타인을 대신해서 진단을 받는 게 불가능하다면, 진단에 필요한 정보를 스스로 입력할 수 없거나 입력하기를 거부하는 가족 또는 친구를 어떻게 도울 수 있을까? 쉬운 해결 방안은 없다.

전 세계적으로 어려운 현재 상황 때문에 정신 건강 문제가 부각되었다. 세계적으로 직접 대면하는 교류가 엄격하게 제한되어 많은 사람이 직장 동료, 친구, 가족 및 친척 등과의 관계를 잃은 상황이다. 포브스 (Forbes) 지는 정신 건강 문제를 ”코로나바이러스로 인한 또 하나의 위기”라고 표현했다. 이런 상황에서, 정신 건강을 자동으로 추적하고 원격적인 지원을 제공하는 시스템의 혜택은 잠재적으로 상당하다. 하지만 정신 건강 진단에 필요한 자료는 신체 건강 상태 진단에 필요한 자료에 비해 훨씬 민감하고 개인적이다. 게다가 연구가 기반한 자료에 인구 통계적인 편향성의 위험이 있음을 아직 다루지 않았다. 이 분야의 초기 연구가 아주 유망하기는 하지만 그 혜택을 보기에는 아직 갈 길이 멀다.

출처: Varsity

Next Prev Menu