Department of Computer Science

Nyt projekt vil åbne døren til bakteriernes hemmelige verden

Nyt projekt vil åbne døren til bakteriernes hemmelige verden

Verden gemmer på millioner af ukendte bakterier med uudnyttet potentiale. Nu har forskere fra Aalborg Universitet fået 15 mio. kr. til at sætte skub i kortlægningen af dem. Ved at kombinere nye målemetoder med avanceret maskinlæring og datavidenskab er håbet, at forskerne kan udvikle nye metoder, der muliggør kortlægning af alle bakterier i naturen.

Bakterier spiller en afgørende rolle i utallige processer - fra produktion af fødevarer, medicin og biogas, til direkte påvirkning af klimaet.

I dag kender vi arvematerialet (genom) fra ca. 50.000 forskellige arter af bakterier, men da der vurderes at være mellem 10 og 100 mio., er der stort potentiale i at kortlægge endnu flere. For kun hvis vi kender bakteriernes arvemateriale, kan vi udnytte dem til fulde.

Forskere fra Institut for Kemi og Biovidenskab og Institut for Datalogi på Aalborg Universitet har modtaget 15 mio kr. af VILLUM FONDEN til fortsættelsen af et projekt, der netop skal sætte skub i kortlægningen af de ukendte bakterier. Her kombinerer de deres ekspertise inden for biologi, grafdata og maskinlæring i håb om at revolutionere state-of-the-art på området.

Nyt udstyr kan finde bakteriers særlige karakteristika

I spidsen for arbejdet med mikrobiologien står professor Mads Albertsen, der i en årrække har arbejdet med at gensekventere og kortlægge bakterier i den danske natur. En af de helt store udfordringer ved DNA-sekventering er at finde ud af, hvilken bakterie et bestemt stykke DNA stammer fra. I projektet vil Mads Albertsen derfor implementere nyt måleudstyr, der kan identificere særlige karakteristika ved de enkelte genomer. Han forklarer:

- Der er et kæmpe uudnyttet potentiale i naturen, og vores hypotese er, at vi med det nye udstyr kan adskille DNA på nye måder og dermed gøre det nemmere at differentiere forskellige arter af bakterier. Men når vi begynder at bruge disse metoder, genererer vi så meget data, at vi har brug for avanceret datavidenskab til at trække al værdien ud af det.

Maskinlæring er forudsætningen

Derfor har Mads Albertsen allieret sig med professor Katja Hose og professor MSO Thomas Dyhre Nielsen fra Institut for Datalogi. De har begge stor erfaring med at håndtere massive datamængder.

Thomas Dyhre Nielsen forklarer, at maskinlæring er forudsætningen for, at forskerne på baggrund af de enorme mængder biologisk data kan identificere potentielle nye arter:

-  Vi skal udnytte biologernes oplysninger om, hvordan forskellige DNA-fragmenter er relateret, og det bruger vi til at lave en maskinlæringsmodel, der kan bla. kan gruppere arvematerialet i klynger. Det nye er, at vi vil lave endnu bedre og mere nuancerede grupperinger på baggrund af de nye karakteristika, som Mads og hans hold finder.

Udnytte massive datamængder til udforske de mørke pletter

I jagten på flere bakterier bliver en af grundstenene i projektet at kombinere viden om eksisterende bakterier med massive mængder ekstern data.

Foruden tid og sted kan det være informationer om, hvordan vejret har været, da en specifik jordprøve blev taget, karakteristikker af miljøet omkring prøvestedet eller informationer fra eksterne videns- og databaser, ontologier mm. 

Her vil forskerne udnytte vidensgrafer og såkaldte datasøer, der gør det muligt at koble heterogene data og finde nye sammenhænge. Det er Katja Hoses speciale. 

- Hvis vi har et kort over Danmark og ved, hvor specifikke bakterier med særlige karakteristika er fundet, kan vi udnytte den data til at forudsige, hvor man kan forvente at finde andre interessante opdagelser. Vi vil med andre ord udvikle metoder til at udforske ”de mørke pletter”.

Grundlaget for fremtidens forskning

På sigt håber forskerne, at deres nye metoder vil danne grundlag for en komplet database, der indeholder et genom per art. Et vigtigt element bliver at sikre, at det er ikke kun er eksperter, der kan bruge og udnytte den genererede data. 

- Vi skal kunne forklare, hvordan og hvorfor systemet kommer med bestemte svar - hvilken data er blevet brugt, hvor kommer det fra, og hvordan er det blevet håndteret. Hvis brugerne skal stole på et system, er det normalt ikke nok bare at stille en black box til rådighed. Derudover må vi ikke glemme, at data og viden udvikler sig over tid - og det skal systemet også tage højde for, siger Katja Hose. 

Projektet løber i de næste fem år, og da forskerne allerede har samlet over 10.000 prøver fra hele Danmark i regi af projektet MicroFlora Danica, er skinnerne ifølge Mads Albertsen lagt:

– Nu skal vi sætte turbo på udviklingen af nye metoder der vil bringe os meget tættere på en komplet genom-database, der er grundlaget for næsten al forskning, hvor bakterier er involveret.
________________________________________________________________________

Om projektet

Følg projektet her: darkmatter.aau.dk

Kontakt: 

Professor Mads Albertsen
Institut for Kemi og Biovidenskab
Aalborg Universitet
Telefon: 2293 2191
E-mail: ma@bio.aau.dk

Professor Katja Hose 
Institut for Datalogi
Aalborg Universitet
Telefon: 9940 8886
E-mail: khose@cs.aau.dk

Professor MSO Thomas Dyhre Nielsen
Institut for Datalogi
Aalborg Universitet
Telefon: 2980 9026
E-mail: tdn@cs.aau.dk

Pressekontakt: 

Nina Hermansen, 
Mail: ninah@cs.aau.dk
Telefon: 2294 0459

Niels Krogh Søndergaard,
Mail: nks@bio.aau.dk
Telefon: 3166 0080

 

 

Department of Computer Science, Aalborg University

Selma Lagerlöfs Vej 300  ・ 9220 Aalborg East, Denmark 
Telephone: +45 9940 9940  ・ Mail: info@cs.aau.dk

Contact department management