Interests: Network analytics, Graph Databases, GIS (spatial) Analytics, Fraud Detection, Data visualisation, Data Sciences, Data quality, Email reliability, Social Media.
Publications
-
Le web scraping : utile pour l’eGov ?
Le web scraping, parfois appelé web crawling ou web harvesting, reprend toutes les techniques d’extraction de contenu sur des sites web, au moyen d’outils (scripts, programmes, plugins…) dans le but de son utilisation dans un autre contexte. Cette extraction se fera sans que des outils dédiés aient été proposés par les propriétaires du site web,
-
Webscraping for Analytics
Présentation donnée lors du webinaire “Webscraping – by Smals Research” du 30/06/2020. Le Web scraping/crawling/harvesting est un technique d’extraction de contenu sur des sites web, au moyen de scripts/programmes, dans le but de son utilisation dans un autre contexte. L’utilisation de web scraping est très large, avec relativement peu de contraintes. Dans sa présentation, Vandy
-
Géocodage : contourner les lacunes d’OpenStreetMap (partie 2)
Dans notre article précédent, nous présentions les difficultés que nous avons rencontrées dans notre tentative de géocoder (convertir une adresse en coordonnées géographiques, et standardiser cette adresse) avec Nominatim, le géocodeur d’OpenStreetMap. Nous avons aussi évoqué qu’en modifiant légèrement les adresses que Nominatim n’avait par reconnues, elles le devenaient. Nous avons considéré un ensemble de
-
Géocodage : contourner les lacunes d’OpenStreetMap (partie 1)
Pour divers clients, nous avons été à la recherche d’une solution permettant de nettoyer (standardiser) des adresses postales, principalement en Belgique. Nous avions besoin d’une solution « on-premise », idéalement en Open-Source. Nous avons voulu construire une solution basée sur OpenStreetMap, qui permettait de rencontrer ces deux contraintes. Mais il s’est vite avéré qu’OpenStreetMap n’était
-
Data quality : mesurer la similarité interne
Dans notre article précédent, nous présentons une méthode permettant de mesurer et visualiser l’importance des valeurs rares dans une liste de données où l’on s’attend à une grande redondance, souvent signes d’un problème de qualité. La méthode en question se basait uniquement sur un comptage des occurrences des valeurs, sans du tout en examiner le
-
Scrapy – web scraping framework
Scrapy est un framework écrit en (et pour) Python permettant de faire du web-crawling (ou web-scraping), c’est-à-dire de l’extraction automatique de contenu à partir de pages web. Une grande partie du travail du web-crawling est gérée automatiquement par le framework. Pour des cas simples mais réalistes, le code (Python) à écrire peut se limiter à
-
Data Quality : mesurer les valeurs rares
Des données, à partir du moment où elles vivent et sont alimentées, souffrent presque systématiquement de problèmes de qualité. Le domaine de la Qualité des données (Data Quality) est vaste, très actif tant dans le monde académique qu’industriel. Il y a bien évidemment des aspects méthodologiques (améliorer les processus pour que les données qui rentrent
-
Sept (bonnes) raisons d’utiliser une Graph Database
Ces dernières années, les bases de données orientées graphes (ou Graph DB, présentées dans nos blogs précédents [1, 2]), et plus généralement les bases de données NoSQL, ont énormément gagné en popularité et en visibilité. Pour preuve, Neo4j, le leader actuel du marché des Graph Databases, apparaît depuis 2014 dans le “Magic Quadrant for Operational
-
Jupyter Notebook – Environnement interactif de programmation
Jupyter Notebook, projet Open Source issu de IPython, est une application web destiné à offrir un environnement interactif dans plusieurs dizaines de langages de programmation (dont, à l’origine, Julia, Python et R, d’où le nom JuPyteR), particulièrement adapté à l’analyse de données (data science). Contrairement à la programmation traditionnelle (séquentielle), où on exécute un programme
-
Le marché du travail salarié en Belgique : une analyse réseau (partie 3/3)
Dans le premier article de notre série consacrée à l’analyse réseau du marché du travail en Belgique, nous avons présenté les données constituant le graphe (ou réseau) de Dimona, sur lequel se base cette série de trois articles, et montré quelques métriques, permettant par exemple d’évaluer le nombre de personnes actives à un moment donné,
Keywords:
analytics annexe_category Artificial intelligence big data blockchain BPM chatbot cloud computing cost cutting cryptography data center data quality development EDA egov Event GIS Knowledge Graph Machine Learning methodology Mobile Natural Language Processing NLP Open Source PaaS Privacy Productivity quantum computing Security software design





