Oprema za analizo velikih količin podatkov z metodami globokega strojnega učenja (DL-Platform)

Splošni podatki

Opis
Oprema za analizo velikih količin podatkov z metodami globokega strojnega učenja
Leto nabave
2022

Paralelni računalniški sistem

Nova oprema bo v okviru programske skupine Analiza biomedicinskih slik in signalov in Laboratorija za slikovne tehnologije (LST) omogočila nove in poglobljene raziskave na področju analize velikih količin medicinskih podatkov. Na primer, za analizo podatkovne baze UK BioBank , ki vključuje 150 TB medicinskih podatkov za več kot 50 tisoč oseb, kot so elektronski zdravstveni karton, MRI slikovne preiskave glave in srca, ipd. Z novo opremo in najnaprednejšimi tehnikami globokega učenja razvijamo in vrednotimo diagnostične in prognostične napovedne modele za najrazličnejša zdravstvena stanja in patologije, tako na osnovi MRI slik kot nestrukturiranih podatkov. Osredotočili smo se na napovedne modele za nevrološke, kardiovaskularne in muskoskeletne bolezni ter različne vrste raka.
Alternativa novi opremi je so-uporaba domačih superračunalniških omrežij, kot je SLING in storitev ponudnikov oblačnih storitev v tujini (Amazon AWS, Google, Oracle, ipd.). Vendar pa prenašanje in hramba medicinskih podatkov v oddaljenem računalniškem centru ali oblaku zaradi varnostnih tveganj pri upravljanju z osebnimi podatki in pogodbenih omejitev, pa tudi zaradi velike količine teh podatkov, ni niti varnostno, niti ekonomsko upravičena.
Metode globokega strojnega učenja so računsko intenzivne in izkazujejo zmogljivosti približno premosorazmerno s količino prostih parametrov (npr. število plasti nevronske mreže) in količino obdelanih učnih podatkov. Še posebej računsko in spominsko zahtevna je analiza večrazsežnih strukturiranih podatkov kot so 3D ali 4D medicinske slike. Za ta namen se uporabljajo masovno paralelni računalniški sistemi. Tovrstni sistemi so za analizo 3D ali 4D medicinskih slik učinkoviti le če imajo pridružene velike količine delovnega spomina, saj konvergenco učenja napovednih modelov iz takih slik kritično določa izbrano številom plasti modela (globina) in število vzorcev v paketu (batch size). Tipična velikost delovnega spomina pri grafičnih procesnih enotah, ki se pogosto uporabljajo za te namene je do 24 GB. Distribucija učenja na več (paralelnih) procesnih enot je programsko lahko zahtevna, njeno učinkovitost pa omejuje hitrost standardnega komunikacijskega vodila. Proizvajalci masovno paralelnih računalniških sistemov so zato v zadnjem času razvili hitra komunikacijska vodila, ki omogočajo združevanje posameznih paralelnih procesnih enot v gruče, ki navzven delujejo kot ena paralelna procesna enota. Posamezni procesni enoti pridruženi delovni spomin je prav tako sklopljen preko istega hitrega vodila, kar navidezno poveča delovni spomin takega sistema. Omenjeni lastnosti takih sistemov zato omogočata učinkovito analizo velikih količin podatkov z metodami globokega strojnega učenja. Nova strojna oprema omogoča navidezni delovni spomin grafičnih procesnih enot v skupni kapaciteti 320 GB. Oprema je bila dobavljena v oktobru 2022 in je bila novembra 2022 že v celoti vključena v tekoče raziskave.

Pomembnejši sestavni sklopi

  1. Ena enota strežnika Supermicro AS-2124GQ s komponentami

    1. dve računski procesni enoti AMD EPYC™ 7453, vsaka z 28 jedri

    2. 512 GB delovnega pomnilnika PC4-25600 DRR4 ECC

    3. dva NVMe SSD diska s kapaciteto 3,84TB na vodilu PCIe 4.0 x4

    4. štiri grafične procesne enote NVIDIA® A100 SXM4 GPU 80GB povezane z NVLink vodilom

    5. dva Ethernet mrežna priključka Intel X550-T2 z nazivno pasovno širino 10 GB/s

    6. dva redundatna napajalnika, vsak 2200W

Dostop do opreme

Dostop do opreme je mogoč izključno po predhodnem dogovoru in v času, ko oprema ni zasedena z izvajanjem tekočih raziskav.

Cenik

Cena uporabe sistema je odvisna od zahtevnosti priprave. Informativna cena uporabe opreme z operaterjem znaša 200 EUR/uro.

Projekti

AI-ProMiS
Umetnointeligenčno napovedovanje napredovanja prizadetosti pri bolezni multiple skleroze (AI ProMiS) Študija neposredno obravnava kritično neizpolnjeno potrebo po zanesljivih prognostičnih dejavnikih, ki temeljijo na MR slikah glave posameznega bolnika za spremljanje napredovanja MS in napovedovanje njenega prihodnjega poteka glede na oceno EDSS. Napovedni modeli temeljijo na analizi MRI slike s postopki globokega strojnega učenja.
J2-3059
Sprotno prilagajanje načrta protonske in radioterapije (ARRS J2-3059) Dva glavna cilja sta (1) razviti in prospektivno validirati postopke za načrtovanje obsevanja in (2) integrirati razvita orodja v sprotno prilagodljivi delovni proces radioterapije in izvesti njegovo validacijo v prospektivni klinični študiji raka glave in vratu ter raka prostate bolnike. Glavni izziv je velika računska zahtevnost postopkov analize planirnih CT in MR slik ter pozicionirnih CBCT slik ter časovna izvedbe do 5 minut.
J2-2500
Analiza medicinskih slik s strojnim učenjem za napovedovanje poteka možganskih bolezni in učinkovitosti terapije (ARRS J2-2500) Končni cilj je razviti, integrirati in prospektivno validirati sistem za podporo odločanju za obvladovanje možganskih bolezni, kot npr. bolezni multiple skleroze. Sistem temelji na najsodobnejših modelih napovedovanja zmogljivosti sistema pa vrednotimo z uporabo rutinskih, standardnih slik MR iz vseh večjih MR centrov po Sloveniji.