Ce mandat est effectué en mode TÉLÉTRAVAIL. Ce mandat est d’une durée de 36 mois.
Activités :
Participer aux travaux de conception, de mise en place et de validation du nouvel écosystème informationnel ;
Concevoir, construire et maintenir des pipelines de données évolutifs en utilisant Python, Airflow et Kubernetes ;
Intégrer des données provenant de multiples API et bases de données PostgreSQL pour créer une plateforme de données unifiée ;
Optimiser les processus ETL/ELT existants traitant des téraoctets de données de collaboration scientifique ;
Construire des modèles de données robustes qui supportent les besoins opérationnels et l’analytique avancée ;
Développer l’infrastructure pour le support de pipelines ML et l’ingénierie de fonctionnalités ;
Assurer la qualité, la fiabilité et la sécurité des données à travers tous les pipelines ;
Implémenter la surveillance, la journalisation et les alertes pour la santé des pipelines de données ;
Collaborer avec les équipes produit et ingénierie pour comprendre les besoins en données et livrer des solutions ;
Documenter les architectures de données, les flux de travail et les meilleures pratiques ;
Collaborer avec des scientifiques de données, des analystes et d’autres intervenants pour répondre à leurs besoins en matière d’infrastructure de données ;
Déterminer et mettre en œuvre des améliorations aux processus, comme l’automatisation des processus manuels et l’optimisation de la livraison des données ;
Préparer les données pour la modélisation prédictive et prescriptive ;
Analyser les exigences opérationnelles et les traduire en spécifications techniques ;
Repérer et résoudre les problèmes liés aux processus de données.
Biens livrables :
Rapports de conception et architecture des pipelines de données : description technique des flux d’ingestion, transformation et chargement (ETL) ;
Rapports de qualité des données : résultats des contrôles de cohérence, nettoyage et validation des données sources et cibles ;
Rapports de performance des systèmes de stockage et base de données: temps de réponse, occupation des ressources, optimisation ;
Rapports sur la santé et l’observabilité des pipelines : alertes, incidents, disponibilité et fiabilité des processus automatisés ;
Rapports d’analyse des métadonnées : suivi des changements, impact des modifications sur les jeux de données et indicateurs ;
Rapports de gouvernance et conformité : contrôle des accès, classification des données sensibles, respect des normes réglementaires;
Rapports d’intégration de données : cartographie des sources utilisées, volumes traités, fréquence de mise à jour ;
Rapports sur l’automatisation des workflows et déploiement (CI/CD) : état des déploiements, tests et validation des scripts ;
Rapports d’assistance aux équipes métiers : documentation sur les modèles de données, formation sur les outils et remontée des besoins ;
Rapports d’amélioration continue : recommandations pour optimiser les processus existants, intégration de nouveaux outils et technologies.
Exigences :
Être titulaire d’un baccalauréat en statistique, mathématiques, physique, science des données, informatique, ingénierie, intelligence artificielle, géomatique, science économique ou tout autre diplôme universitaire comprenant l’analyse quantitative et statistique ;
Avoir cumulé, au cours des trois (3) dernières années, 330 jours-personne à titre de conseiller ETL, optimisation de bases de données, assurance qualité et scalabilité pour des équipes analytiques, à l’exclusion des mandats comme scientifiques de données, analyste de données ou expert BI, dans un environnement organisationnel comparable à celui du client;
Avoir réalisé deux (2) mandats d’une durée minimale de 90 jours-personne chacun, incluant la mise en production de solutions ML intégrant des outils propres aux équipes de valorisation de données tels que: Python, SQL, Git, Spark, et DevOps dans des environnements organisationnels comparables à celui du client;
Avoir contribué, dans les trois (3) dernières années, au recueil et à la rédaction de besoins d’affaires sur au moins 20 jours-personne dans un environnement comparable à celui du client ;
Détenir une certification reconnue, validant les compétences professionnelles de conseiller en ingénierie de données, délivrée par un fournisseur infonuagique ou une entreprise dont le partenariat avec un fournisseur infonuagique est vérifiable (AWS, Azure, Databricks, GCP) et fournir le lien vérifiable de certification confirmant sa validité.