De hoeveelheid data die moderne wetenschappelijke instrumenten genereren, groeit sneller dan de kloksnelheid van individuele processorcores. Waar in de jaren negentig een enkele meting een beheersbare dataset opleverde, produceren huidige hoge-resolutie massaspectrometers gigabytes aan data per experiment. Deze groei maakt het noodzakelijk om verwerkingssoftware aan te passen aan de architectuur van hedendaagse computerhardware.

De oplossing ligt niet in snellere individuele processorcores, maar in het gelijktijdig inzetten van meerdere cores. Moderne desktopprocessors bevatten routinematig acht, twaalf of zestien cores. Serversystemen gaan nog verder met tientallen cores per processor. Om deze rekenkracht te benutten, moet software expliciet worden ontworpen voor parallelle verwerking, een concept dat wordt aangeduid als multi-threading.

Wat is multi-threading?

Bij multi-threading wordt een verwerkingstaak opgedeeld in kleinere deeltaken die gelijktijdig door verschillende processorcores worden uitgevoerd. In de context van massaspectrometriedata-analyse zijn veel bewerkingen inherent parallelliseerbaar. De basislijncorrectie van honderd databestanden kan bijvoorbeeld worden verdeeld over tien cores, waarbij elke core tien bestanden verwerkt. Het eindresultaat is identiek aan sequentiële verwerking, maar de benodigde tijd is een fractie van het origineel.

Niet alle verwerkingsstappen zijn even goed parallelliseerbaar. De uitlijningsstap, waarbij alle datasets onderling worden vergeleken, heeft een inherent serieel component: het referentiesample moet eerst volledig zijn verwerkt voordat de overige samples ermee kunnen worden vergeleken. Desondanks zijn er binnen deze stap deeloperaties die wel parallel kunnen worden uitgevoerd.

Prestatieverbeteringen in de praktijk

De impact van multi-threading op de verwerkingssnelheid varieert per stap en per dataset. Bij basislijncorrectie en piekdetectie, taken die per databestand onafhankelijk worden uitgevoerd, is de versnelling vrijwel lineair met het aantal beschikbare cores. In gepubliceerde benchmarks is een snelheidsverbetering van 8 tot 19 keer gerapporteerd voor deze stappen bij gebruik van een processor met meerdere cores.

Voor de uitlijningsstap liggen de verbeteringen typisch tussen de 5 en 10 keer, afhankelijk van de datasetgrootte en de complexiteit van de retentietijdverschuivingen. De publicatie van Lommen en Kools in Metabolomics (2012) documenteert deze prestatieverbeteringen gedetailleerd voor verschillende hardware configuraties.

Geheugen als bottleneck

Multi-threading alleen is niet voldoende voor optimale prestaties. Bij parallelle verwerking worden meerdere datasets tegelijkertijd in het werkgeheugen geladen. Elke actieve thread heeft geheugen nodig voor de data die het verwerkt, wat betekent dat het totale geheugengebruik evenredig toeneemt met het aantal gelijktijdige threads. Een vuistregel van twee gigabyte werkgeheugen per actieve processorkern biedt voldoende ruimte voor de meeste LC-MS en GC-MS datasets.

Wanneer het beschikbare werkgeheugen onvoldoende is, moet het besturingssysteem data tijdelijk naar de harde schijf schrijven (swapping), wat de verwerkingssnelheid dramatisch verlaagt. Het gebruik van een SSD in plaats van een traditionele harde schijf verzacht dit probleem, maar het vermijden van geheugentekort blijft de meest effectieve strategie.

Opslagsnelheid

Een vaak onderschatte factor bij de verwerkingssnelheid is de snelheid van het opslagmedium. Massaspectrometriedata-analyse is I/O-intensief: grote bestanden moeten worden gelezen, tussenresultaten worden weggeschreven, en de uiteindelijke uitvoerbestanden worden opgeslagen. De overstap van conventionele harde schijven naar SSD's, en recenter naar PCIe-gebaseerde NVMe-schijven, levert substantile prestatieverbetering op, met name bij de basislijncorrectiestap waar grote hoeveelheden data sequentieel worden gelezen.

De combinatie van voldoende werkgeheugen, snelle opslag en een processor met meerdere cores maakt het momenteel mogelijk om datasets die voorheen uren verwerkingstijd vergden, in minuten te verwerken. Voor laboratoria die routinematig grote aantallen monsters analyseren, vertaalt deze versnelling zich direct in een hogere doorvoer en kortere doorlooptijden.

Multi-threading en moderne hardware bij data-intensieve analyses

Wat is multi-threading?

Prestatieverbeteringen in de praktijk

Geheugen als bottleneck

Opslagsnelheid