Les fonctions R sont souvent gourmandes en mémoire vive. Ceci représente un défi important lors du traitement et de la modélisation de données massives. Lors de cette présentation, nous exposerons les stratégies utilisées pour manipuler un réseau social criminel dynamique de 181 615 individus arrêtés sur une période de huit ans. Nous aborderons premièrement l’opérationnalisation des mesures de la structure réseau supra dyadique, soit l’influence de la composition des interconnexions telles la centralité et la transitivité, réalisées à l’aide du package reshape2. Ensuite, nous aborderons l’analyse qui porte sur la récurrence temporelle des liens du réseau. Puisque les données sont censurées à droite, des modèles à risques proportionnels incluant des variables dynamiques furent privilégiés et réalisés à l’aide du package survival. Ces modèles considèrent la dépendance entre les observations (tant dyadique que temporelle). Étant donnée la taille des données dynamiques (10 809 140 points de mesures), un modèle utilisant l’ensemble de l’échantillon était trop exigeant en mémoire vive et en temps de calcul. Nous avons donc favorisé des itérations de sous-échantillonnage. Les modèles furent exécutés sur chacun des sous-échantillons en parallèle sur un super-ordinateur. Par la suite, les coefficients de chacun de ses modèles itérés furent regroupées (pooled) pour l’interprétation des résultats. Une discussion portera sur le fait qu’aucune stratégie optimale n’a pu être mise en place, sinon celle du compromis.
- Cet Atelier ou Conférence est passé