Wat is data science?

Onze levens worden gemeten, in kaart gebracht en digitaal vastgelegd - letterlijk van geboorte tot dood. Of we nu iets posten op social media, de prognose op onze telefoon checken, een medische ingreep ondergaan, een zoekterm ingeven in Google, of wekelijks boodschappen doen, digitale bits catalogiseren onze acties. Het is een constante, nooit eindigende verzameling gegevens, gegenereerd door en over menselijk gedrag. En dit krast slechts het oppervlak.

Stel je een kolkende oceaan van gegevens voor die afkomstig zijn van slimme olievelden die zijn uitgerust met sensoren die realtime gegevens produceren over alles, van de productie van putkoppen tot de prestaties van booreilanden, de duizenden satellieten die informatie teruggeven aan hun aardse handlers over alles van veranderende omgevingsomstandigheden tot posities van alle olietankers in de wereld.

Het resultaat is een enorm gegevens universum dat elke dag groeit met een snelheid van 2,5 biljoen bytes. En al die gegevens (big data) worden verzameld met het uiteindelijke doel om te worden georganiseerd, geanalyseerd en een doel toegewezen.

‍

Big data is onze nieuwe valuta, en data science gaat over hoe we er gebruik van maken. Data science gaat over het graven in de verste uithoeken van data, het ordenen en begrijpen van het proces, vervolgens wat we ervan kunnen leren, en natuurlijk deze kennis toepassen.

Terwijl we een steeds groter wordende berg met gegevens verzamelen en beheren, stelt de toepassing van data science ons in staat om alles beter te begrijpen - van menselijk gedrag en markttrends tot genetica en biologische systemen, tot de tot nu toe onzichtbare deeltjes die verantwoordelijk zijn voor atoom massa.

‍

Inzicht in het data science proces

Kosteneffectieve gegevensopslag en schaalbare verwerking van data hebben organisaties de mogelijkheid gegeven om grote hoeveelheden gegevens te verwerven, op te slaan en te verwerken.

Maar wat dan? Het verzamelen van al die gegevens heeft weinig tot geen zin zonder de capaciteit om er inzichten uit te halen - inzichten die in gang kunnen worden gezet om commerciële, sociale, wetenschappelijke en ecologische doelen te bereiken.

De kern van data science is het proces om data om te zetten in actie.

Data scientisten gebruiken een aantal tools, processen en technologieën om big data om te zetten in unieke inzichten, die vervolgens door besluitvormers worden gebruikt om verandering te initiëren, of het nu in een zakelijke, sociale, ecologische of wetenschappelijke context is. Met andere woorden, de inzichten die zijn verkregen uit data science leiden tot bruikbare informatie op basis van voorspellende modellen van wat zou kunnen zijn in plaats van alleen maar een blik te werpen op wat er in het verleden al is gebeurd.

Of het nu in de publieke of private sector is, organisaties bouwen hun data science vaardigheden in de loop van de tijd op.

Het evolutionaire proces van data science begint met een organisatie die wordt overspoeld door data en zoekt naar antwoorden op lastige vragen; vragen die extreem beperkt kunnen zijn in hun reikwijdte, of algemeen genoeg om gegevens uit schijnbaar verschillende bronnen op te nemen.

Hoe kunnen we ons productieproces verbeteren om een beter product te produceren? Hoe kunnen we toekomstige ziekte-uitbraken beter voorspellen met behulp van de realtime uitwisseling van klinische gezondheidsinformatie? Kunnen we een model maken om een nauwkeurige heropname kans voor patiënten met congestief hartfalen te bepalen?

Data science is altijd een proces met meerdere stappen dat gebruikmaakt van big data en de tools en processen waarmee het wordt opgeschoond, georganiseerd en toegankelijke betekenis krijgt door middel van visuele representatie.

‍

Het data science-proces is onderverdeeld in een aantal fasen:

1. Verwerven: de gegevens verkrijgen

2. Bereid je voor: manipuleer de gegevens om aan de analytische behoeften te voldoen

3. Analyseren: verken de gegevens

4. Handelen: zet de gegevens om in acties

‍

Binnen het data science-proces zijn er een aantal substappen, waaronder:

Het bedrijfsresultaat definiëren en ervoor zorgen dat de modelleringsoutput praktisch en uitvoerbaar is vanuit een zakelijk perspectief;
Het beoordelen van de momenteel beschikbare data en de hoeveelheid data die nodig is om het model te ontwikkelen (datamining);
De juiste ontwikkeltools of technologieën selecteren, afhankelijk van het volume, de snelheid en de verscheidenheid aan gegevens;
Gegevens verzamelen en bronnen identificeren;
Problemen met gegevenskwaliteit identificeren en oplossen.

‍

Zodra aan het data science proces is voldaan, kunnen data scientisten ervoor kiezen om:

Publiceer of deel de resultaten met collega's voor peer review;
Integreer het model in een rapport of dashboard binnen de organisatie om zakelijke beslissingen te nemen;
Implementeer het model in productie.

‍

De waarde van data science

Data scientists hebben nu de mogelijkheid om schijnbaar niet-gerelateerde datasets te koppelen die mogelijk geen relevante connectie hebben die bij het eerste onderzoek duidelijk is. Hierdoor kunnen ze nog meer inzichten uit hun data-assets halen. Data scientists hebben ook tal van creatieve benaderingen aangenomen om de gegevens zo te visualiseren dat ze nuttig zijn bij het nemen van strategische beslissingen.

Data science heeft een diepgaande invloed op alles, van zakelijke beslissingen tot nationale veiligheid tot welke consumentenproducten we kopen. Het beïnvloedt de detailhandelsmarkten, lost dilemma's voor de volksgezondheid op en zoekt zelfs oplossingen voor de oorzakelijke factoren achter sociale onrust.

De waarde van data science kan nog niet volledig worden gekwantificeerd. Wel kunnen we voorbeelden geven van het toepassen van data science.

Een goed voorbeeld hiervan is de zorg. Er zijn talloze voordelen voor de samenleving in termen van verbeterde gezondheidsresultaten voor de bevolking.

Deloitte schat dat de efficiëntie die wordt behaald door gebruiksscenario's van data science en machine learning alleen al in Europa tussen de 380.000 en 403.000 levens kan redden. Data science en machine learning kunnen worden geïntegreerd in het hele traject van de patiënt, van preventie en vroege detectie tot diagnose, tot behandeling en zorgbeheer.

Aangezien de gezondheidszorg voortdurend vooruitgaat door digitalisering en digitale transformatie, is het een van de best uitgeruste industrieën geworden om het gebruik van data science en machine learning te maximaliseren.

Tegenwoordig is de zorgsector rijp voor machine learning en data science vanwege het grote volume aan gegevens in de gezondheidszorg en de vele toepasselijke use-cases voor resultaten op het gebied van de volksgezondheid. Volgens Statista is de hoeveelheid gegevens die jaarlijks in de wereldwijde gezondheidszorg wordt gegenereerd ongeveer 2.314 exabyte (1 exabyte = 1B gigabyte), wat een 15x toename betekent van de hoeveelheid gegevens die in de wereldwijde gezondheidszorg wordt gegenereerd sinds 2013.

Wat data science zo waardevol maakt, is dat het bereik ervan geen grenzen kent.

Een aantal voorbeelden van data science in beweging zijn:

Een aantal bedrijven zoals Netflix en Amazon gebruiken 'aanbevelingsengines' om 'watch-next'-suggesties te doen op basis van de eerdere interesses van hun klanten.
Retailers gebruiken algoritmen op basis van big data om het aankoopgedrag van klanten te volgen en bieden vervolgens speciale kortingen en coupons aan die klanten.
Creditcardmaatschappijen gebruiken datamining om het risico van wanbetaling bij klanten te evalueren door hun koopgedrag te onderzoeken.
Politiediensten wenden zich tot data science om te voorspellen waar en wanneer misdaden het meest waarschijnlijk zullen plaatsvinden en om hun middelen dien overeenkomstig toe te wijzen.
Volksgezondheidsinstanties gebruiken data science om verbanden te vinden tussen luchtkwaliteit en gezondheid, waardoor ze beleidswijzigingen kunnen aanbevelen.
Data science stelt onderzoekers in staat genen te identificeren die in de loop van de menselijke evolutie bekendheid hebben gekregen, wat heeft geleid tot vaccins en andere medische doorbraken.

Volgens alle schattingen bevinden we ons midden in een data revolutie.

Natuurlijk, de hoeveelheid gegevens is zeker revolutionair, maar wat deze tijd in de geschiedenis zo verbazingwekkend maakt, is dat we iets buitengewoons met de gegevens kunnen doen, dankzij verbeterde statistische en computationele methoden.

Met andere woorden, gegevens zelf zijn niet relevant, bruikbaar of interessant, maar wanneer we in staat zijn om in deze steeds groter wordende schat aan informatie te graven en er zin in te krijgen, is het vermogen om levens te verbeteren bijna onmetelijk.‍

opleidingen Development Incompany