D¨¦tection des ¨¦v¨¦nements ind¨¦sirables

Utilisation du traitement du langage naturel pour la d¨¦tection des ¨¦v¨¦nements ind¨¦sirables.

Le probl¨¨me

Notre client, une soci¨¦t¨¦ pharmaceutique de premier plan, d¨¦veloppe un algorithme NLP pour la d¨¦tection des ¨¦v¨¦nements ind¨¦sirables (EI) dans les entr¨¦es des m¨¦dias sociaux. Ils visent ¨¤ cat¨¦goriser des entit¨¦s nomm¨¦es pr¨¦d¨¦finies afin d'organiser et de r¨¦pondre aux pr¨¦occupations et aux exp¨¦riences sp¨¦cifiques des patients. Plus de dix mille entr¨¦es sur les r¨¦seaux sociaux devaient ¨ºtre analys¨¦es pour am¨¦liorer l'exp¨¦rience et la sant¨¦ des patients, ainsi que pour r¨¦duire le nombre de faux n¨¦gatifs dans la d¨¦tection des EI. En raison de la nature m¨¦dicale sensible du projet, notre attente globale ¨¦tait d'atteindre une pr¨¦cision de 100?% pour toutes les cat¨¦gorisations et d¨¦tections. Cette approche humaine dans la boucle multiplie par 10 l'¨¦volutivit¨¦ car, contrairement aux pratiques actuelles, l'examen humain n'est requis que lorsque le mod¨¨le d'apprentissage automatique ne parvient pas ¨¤ fournir un r¨¦sultat de classification fiable.

La solution

Le projet a commenc¨¦ par une s¨¦lection efficace d'experts en la mati¨¨re issus de la communaut¨¦ d'un million de personnes de DataForce. Nous avons construit l'¨¦quipe progressivement ¨¤ partir de candidats pr¨¦s¨¦lectionn¨¦s, en s¨¦lectionnant les examinateurs qui avaient une formation en pharmacovigilance. La combinaison d'une supervision experte, d'un processus d'annotation aveugle et de la mise en ?uvre de mesures de qualit¨¦ sp¨¦cifiques telles que le coefficient Kappa de Kohen a permis d'am¨¦liorer rapidement la qualit¨¦. Au fur et ¨¤ mesure que le processus d'annotation se poursuivait, nous avons renforc¨¦ l'¨¦quipe d'annotation pour raccourcir le cycle de livraison. Notre ¨¦quipe a examin¨¦ des milliers de publications sur les r¨¦seaux sociaux en quelques jours.

Pour garantir l'exactitude des annotations et de la cat¨¦gorisation, nous avons effectu¨¦ une annotation en double aveugle sur chaque t?che, suivie de contr?les de qualit¨¦ approfondis. Tous les d¨¦saccords ont ¨¦t¨¦ concili¨¦s par un examinateur qui a propos¨¦ la cat¨¦gorisation finale pour chaque entr¨¦e.

Nous avons rapidement mis en place des commentaires avec l'¨¦quipe au fur et ¨¤ mesure que de nouveaux ensembles de donn¨¦es arrivaient, et mis ¨¤ jour les directives pour refl¨¦ter les cas marginaux et les exp¨¦riences inattendues dans les publications sur les r¨¦seaux sociaux. Notre plateforme d'annotation interne, DataForce, a ¨¦t¨¦ mise ¨¤ jour de mani¨¨re transparente pour s'adapter ¨¤ toutes les modifications du projet et nous a permis de compl¨¦ter l'ensemble de donn¨¦es avec un mod¨¨le ¨¦volutif d'am¨¦lioration constante.

Le client a indiqu¨¦ que ce mod¨¨le humain dans la boucle s'est av¨¦r¨¦ ¨ºtre une option beaucoup plus ¨¦volutive et efficace que la cat¨¦gorisation manuelle traditionnelle.

shutterstock_1202989183

?

?

?