19-11-2021

I stedet for at designe egne algoritmer fra bunden bør kliniske forskere i højere grad genbruge al den data, som allerede er tilgængelig på internettet. Det mener forfatterne bag et nyt review-studie fra Steno Diabetes Center Aarhus og Aarhus Universitet.

Nettet flyder med algoritmer, der er designet til at genkende alt fra planter og dyr til lyden af fugle og musik. Med lidt justering kan algoritmerne blive vigtige værktøjer inden for den kliniske sundhedsforskning. Det er konklusionen i et nyt studie fra Steno Diabetes Center Aarhus og Aarhus Universitet.

Denne artikel er skrevet af ScienceNews. Read this article in English.

Kunstig intelligens og machine learning betragtes ofte som buzzwords inden for forskning i sundhed og sygdom. Med kunstig intelligens kan forskere hitte redde i store datasæt, som ellers er umulige at trække fornuftig information ud af.

Men selvom kliniske forskere er begyndt at benytte machine learning i deres studier, er de slet ikke i nærheden af at tappe ind i det enorme potentiale, som ligger i de mange algoritmer og datasæt, der er tilgængelige kvit og frit på nettet.

I stedet for at designe deres egne smarte algoritmer fra bunden, bør kliniske forskere i højere grad genbruge det, som allerede er tilgængeligt. Det er i hvert fald konklusionen i et nyt studie, der er blevet offentliggjort som preprint i medRxiv.

- Der er i dag et stort gab mellem det, som computervidenskaben kan, og den kliniske forskning. Inden for computervidenskaben taler vi om transfer learning, hvor man genbruger nogle algoritmer, der er blevet udviklet med et andet formål og trænet med den overflod af data, som er tilgængelig på nettet. Det skal i langt højere grad benyttes i den kliniske forskning, hvilket det ikke gør i dag, forklarer en af forskerne bag studiet, ph.d. Adam Hulman fra Steno Diabetes Center Aarhus.

Artiklen i medRxiv er et review, der tager helikopterperspektivet på graden af udnyttelse af transfer learning og det potentiale, som ligger i at udnytte muligheden mere.

Nettet flyder med gode algoritmer

For at forstå, hvad transfer learning er, kan man illustrere det med en algoritme, der er designet til at finde ud af, hvad der er på et billede, eksempelvis om det er en hund eller en kat. Google har lavet sådan en algoritme.

Datalogerne fra Google har designet algoritmen til at lære at kende forskel på de to dyr og præsenteret den for tusindvis af billeder af hunde og katte. Da algoritmen havde identificeret mønstre i data til at kende forskel på hunde og katte, kunne den efterfølgende med meget høj præcision blive præsenteret for et billede af et dyr og sige, om det er det ene eller det andet.

Algoritmerne kan dog udnyttes til meget mere end det. I stedet for at designe deres egne algoritmer med machine learning, kan kliniske forskere låne de frit tilgængelige algoritmer på nettet eller fra hinanden og benytte dem i deres forskning.

Det kan som eksempel være, at algoritmen, der er designet og trænet til at identificere hunde og katte, med små justeringer kan udnyttes til at genkende mønstre i øjnene hos personer med diabetisk øjensygdom for derved at bestemme graden af øjenskade. Det er transfer learning.

- Algoritmerne er designet og trænet til at genkende hverdagsting, men de kan ret let tilpasses til at blive genbrugt i klinisk forskning. Det har man også gjort i nogle år inden for medicinsk billedanalyse, med potentialet er større end det, forklarer Adam Hulman.

Algoritmer kan finde mønstre i mere end billeder

Ofte i klinisk forskning er data ikke målt i billeder, men i eksempelvis excelark og lyd. Det kan være en masse registerdata, tidsseriedata (for eksempel i form af EKG eller fra kontinuerlige glukosemålinger) eller eksempelvis hjertelyd.

I studiet har Adam Hulman sammen med sine kollegaer været på jagt i den videnskabelige litteratur for at finde eksempler på, at det også er muligt at bruge de tilgængelige algoritmer på nettet til at løse den type modelleringsarbejde til perfektion.

Et eksempel, som er med i Adam Hulmans review, er et videnskabeligt studie, hvor forskere har brugt billedgenkendelsesalgoritmer til at klassificere hjertelyd.

Adam Hulman fortæller, at forskerne bag det videnskabelige studie havde gjort to forskellige ting for at analysere på deres datamateriale af hjerteslag.

For det første fandt de en algoritme, der var designet til at genkende 500 til 600 forskellige lyde i YouTube-videoer. Den finjusterede de til at kunne genkende forskelle i hjertelyd for den måde at finde folk med hjertesygdom.

Efterfølgende sammenlignede forskerne modellen med en anden model, hvor de omdannede lyden af hjertets slag til et billede, så de kunne bruge algoritmen, der oprindeligt var designet til at kende forskel på hunde og katte, til at skelne mellem billederne af hjertelyd fra syge og raske personer.

- Der er masser af eksempler på, at forskere har taget nogle frit tilgængelige algoritmer og udnyttet dem i deres kliniske forskning. I vores studier har vi gennemgået flere tusinde abstracts og læst flere hundrede artikler for at samle eksemplerne samt udført noget basal statistisk analyse for at finde ud af, hvor udbredt det er at genbruge eksempelvis Googles algoritmer til billedgenkendelse til at analysere på andet end billeder, siger Adam Hulman.

Vigtigt at samle videnskabelige grene

I reviewet har Adam Hulman sammen med sine kollegaer identificeret i alt 83 videnskabelige artikler, hvor forskere har genbrugt algoritmer fra nettet til deres egen forskning, og hvor data ikke var i form af billeder.

63 pct. af studierne var blevet publiceret mindre end 12 mdr. forinden, hvilket ifølge Adam Hulman peger på, at området er ved at få fart, og at flere og flere kliniske forskere ser potentialet.

Adam Hulman kiggede med sine kollegaer også på, hvem der stod bag de 83 videnskabelige artikler. Her fandt de, at 60 pct. både havde kliniske og tekniske forskere på forfatterlisten, 35 pct. havde kun tekniske forskere på forfatterlisten, og fem pct. havde kun kliniske forskere på forfatterlisten.

- Det peger på, at selvom mange studier har både klinikere og tekniske forskere på forfatterlisten, er der stadig et gab mellem de to forskningsområder, og det er vi nødt til at lukke, så machine learning i den kliniske forskning ikke bare er et buzzword, men noget som klinikerne også forstår, siger Adam Hulman.

Data og kode skal også deles

Et andet aspekt i reviewet er tilgængeligheden af data, mere specifikt den kliniske data.

Inden for datavidenskaben benytter forskere og algoritmeudviklere ofte den data, som er tilgængelig, når de skal udvikle fremtidens algoritmer. Er den tilgængelige data billeder af hunde og katte, benytter de det til at lave deres algoritmer, men er den tilgængelige data patientdata, kan de lige så godt udnytte det, og det kan ifølge Adam Hulman komme de kliniske forskere til gavn.

- Hvis man som datalog skal lave et forskningsprojekt, vil man så benytte frit tilgængelige data eller lukkede data? Svaret er ret simpelt, og derfor er der også behov for en større kultur for åbenhed omkring kliniske data, siger han.

Et tredje aspekt er, at Adam Hulman i sin gennemgang af den videnskabelige litteratur har undersøgt, om de forskere, der har genbrugt algoritmer fra nettet, så også efterfølgende har delt deres egne data, så andre forskere kan få gavn af dem.

Her fandt han, at kun 27 pct. havde valgt at dele koden for den algoritme, som de havde lavet på baggrund af andres forarbejde.

- Der er et stort potentiale i, at forskere bliver bedre til at dele data og algoritmer. Lad os sige, at jeg har udviklet en algoritme til genkendelse af patienter med diabetes. Senere kommer så en anden forsker, som vil studere atleter med diabetes, men han har meget svært ved at få nok data til sine analyser eller den rigtige algoritme til at kigge på tingene. Ved at dele algoritmer bliver det meget lettere for kliniske forskere at lave analyser på subgrupper af eksempelvis patienter, hvor de ikke selv har muligheden for at samle nok data eller udvikle den rette algoritme fra bunden af, forklarer Adam Hulman.

Han fortæller desuden, at reviewet i medRxiv er lavet af tre læger, en matematiker og en statistiker, og at det har været vigtigt for dem, at forskere med forskellige baggrunde har været med i forskningsarbejdet.

 

Bag om studiet