Beroep data scientist

Data scientists zoeken en interpreteren rijke gegevensbronnen, beheren grote hoeveelheden gegevens, voegen gegevensbronnen samen, zorgen voor de consistentie van datasets en creëren visualisaties om te helpen gegevens te begrijpen. Zij bouwen wiskundige modellen op basis van data, presenteren en communiceren gegevensinzichten en bevindingen aan specialisten en wetenschappers in hun team en, indien nodig, aan een niet-deskundig publiek, en bevelen manieren aan om de data toe te passen.

Via de uitgebreide beroepskeuzetest kun je zien welke beroepen bij jouw persoonlijkheidsprofiel passen.

Persoonlijkheidstypen

Kennis

  • Querytalen

    Gestandaardiseerde computertalen voor het opvragen van informatie uit een databank en van documenten die de benodigde informatie bevatten.

  • Statistiek

    De studie van statistische theorie, methoden en praktijken zoals verzameling, organisatie, analyse, interpretatie en presentatie van gegevens. Het heeft betrekking op alle aspecten van gegevens, met inbegrip van de planning van de gegevensverzameling wat betreft het ontwerp van enquêtes en experimenten om werkgerelateerde activiteiten te voorspellen en te plannen.

  • Gegevensmodellen

    De technieken en de bestaande systemen voor de structurering van de gegevenselementen en de onderlinge verbanden daartussen, alsook de methoden voor de interpretatie van de gegevensstructuren en -verhoudingen.

  • Informatie-indeling

    De indeling van de informatie in categorieën en het aantonen van de relatie tussen de gegevens voor een aantal duidelijk omschreven doeleinden.

  • Gegevensextractie

    De technieken en methoden die worden gebruikt om informatie uit ongestructureerde of semigestructureerde digitale documenten en bronnen te verkrijgen en te extraheren.

  • Online analytische verwerking

    De online-instrumenten die multidimensionale gegevens analyseren, aggregeren en presenteren, zodat gebruikers interactief en selectief gegevens kunnen extraheren en bekijken vanuit specifieke invalshoeken.

  • Querytaal voor resource description framework

    De querytalen zoals SPARQL, voor het ophalen en manipuleren van de gegevens die zijn opgeslagen in Resource Description Framework format (RDF).

  • Datamining

    De methoden van kunstmatige intelligentie, machinaal leren, statistiek en databanken die worden gebruikt om inhoud uit een dataset te extraheren.

  • Technieken voor visuele presentatie

    De technieken voor visuele weergave en interactie, waaronder histogrammen, strooiingsdiagrammen, 3D-oppervlakdiagrammen, boomdiagrammen en diagrammen met parallelle coördinaten, die kunnen worden gebruikt om abstracte numerieke en niet-numerieke gegevens te presenteren om mensen meer inzicht in deze gegevens te bieden.

Vaardigheden

  • Analytische wiskundige berekeningen uitvoeren

    Wiskundige methoden toepassen en gebruik maken van de berekeningstechnologieën om analyses uit te voeren en oplossingen voor specifieke problemen te bedenken.

  • Systemen voor gegevensverzameling beheren

    Ontwikkelen en beheren van methoden en strategieën om de kwaliteit van de gegevens en de statistische efficiëntie bij het verzamelen van gegevens te maximaliseren, om ervoor te zorgen dat de verzamelde gegevens geoptimaliseerd worden voor verdere verwerking.

  • Processen voor gegevenskwaliteit implementeren

    Toepassen van kwaliteitsanalyse-, validerings- en verificatietechnieken op gegevens om de integriteit van de gegevens te controleren.

  • Aanbevelingssystemen bouwen

    Aanbevelingensystemen bouwen op basis van grote datasets, waarbij programmeertalen of computerhulpmiddelen worden gebruikt om een subklasse te vormen van het informatiefiltersysteem waarmee de rating of de voorkeur wordt voorspeld die de gebruiker aan een item geeft.

  • Analyseresultaten rapporteren

    Onderzoeksdocumenten opstellen of presentaties geven om de resultaten van een uitgevoerd onderzoeks- en analyseproject te rapporteren, met vermelding van de analyseprocedures en -methoden die tot de resultaten hebben geleid, alsmede mogelijke interpretaties van de resultaten.

  • ICT-gegevens verzamelen

    Verzamelen van gegevens door zoek- en bemonsteringsmethoden te ontwerpen en toe te passen.

  • Toepassingen ontwikkelen voor gegevensverwerking

    Creëren van software op maat voor de verwerking van gegevens door de juiste programmeertaal voor de computer te selecteren en te gebruiken, zodat een ICT-systeem de gevraagde output kan produceren op basis van de verwachte input.

  • Visuele gegevenspresentatie bieden

    Visuele voorstellingen van gegevens maken, bijvoorbeeld in de vorm van grafieken of diagrammen, voor een beter begrip.

  • Steekproefgegevens behandelen

    Verzamelen en selecteren van gegevens van een populatie via een statistische of andere gedefinieerde procedure.

  • Gegevens normaliseren

    Het beperken van de gegevens tot hun accurate basisvorm (normale formulieren) om die resultaten te bereiken als minimalisering van de afhankelijkheid, eliminatie van redundantie, vergroting van de consistentie.

  • Databaseschema ontwerpen

    Ontwerpen van een databaseschema door de regels van het Related Database Management System (RDBMS) te volgen om een logisch georganiseerde groep voorwerpen zoals tabellen, kolommen en processen op te zetten.

  • Aan gegevensopschoning doen

    Het opsporen en corrigeren van corrupte bestanden van datasets, ervoor zorgen dat de gegevens volgens de richtsnoeren gestructureerd worden en blijven.

  • Actuele gegevens interpreteren

    Gegevens analyseren die verkregen werden uit bronnen zoals marktgegevens, wetenschappelijke documenten, eisen van klanten en vragenlijsten die actueel zijn om de ontwikkeling en innovatie binnen expertisedomeinen te beoordelen.

  • Gegevensprocessen vaststellen

    Gebruik maken van ICT-instrumenten om wiskundige, algoritmische of andere gegevensverwerkingsprocessen toepassen om informatie te genereren.

Optionele kennis en vaardigheden

datamining uitvoeren business intelligence n1ql ict-gegevensarchitectuur beheren xquery criteria voor gegevenskwaliteit definiëren ongestructureerde gegevens beoordeling van kwaliteit van gegevens ict-gegevens integreren mdx sparql ldap linq gegevens beheren gegevensmodellen creëren ict-gegevensclassificatie beheren

Source: Sisyphus ODB