Projet de datavisualisation: Les différents cinémas de France
Table des matières
- Avant-Propos
- Première datavisualisation : Les différents types de profil au Cinéma selon les zones géographiques (Flourish)
- Deuxième datavisualisation à l’aide d’une carte (Datawrapper): l’évolution des entrées au Cinéma
- Troisième datavisualisation : Comparaison de données
- Quatrième datavisualisation : Comparaison entre Flourish et Rawgraphs
- Cinquième datavisualisation avec Wikidata Query Service
- Conclusion
1. Avant-Propos et jeu de donnée
Les données utilisées pour ce travail d’analyse et de visualisation de données ont été récupérées sur le site data.gouv.fr. Elles proviennent du Centre nationale du cinéma et de l’image animée (CNC) qui, comme toutes les autres institutions nationales et collectivités françaises, se doit de rendre ses données publiques. En l’occurrence, la CNC a effectué, par l’intermédiaire de partenaires, une étude de fréquentation des salles de cinéma et a ainsi pu récolté un certain nombre d’informations sur les personnes ayant assisté à une projection de film dans un cinéma en France. Ainsi, ce corpus de données se révèle être une mine d’or pour quiconque souhaiterait étudier les pratiques culturelles des Français en matière de cinéma, ou encore qui chercherait à établir un “profil-type” d’usager de cinémas. Telle est ainsi l’ambition de ce travail, qui permettra de faire ressortir les constantes comme les exceptions en matière de fréquentation de salles de cinéma françaises, en mettant l’accent sur des éléments d’interprétation et d’explication afin de contextualiser ce jeu de données.
Le jeu de données utilisé comme unique source de ce travail est facilement téléchargeable à l’adresse suivante : https://www.data.gouv.fr/fr/datasets/etablissements-cinematographiques/. Il s’agit d’un fichier Excel répartissant plusieurs colonnes sur l’emplacements, le nom l’adresse, la commune des cinémas. Et j’ai alimenté mon jeu de donnée avec un autre qui est téléchargeable à l’adresse suivante: https://public.opendatasoft.com/explore/dataset/cnc-public-des-films/information/?flg=fr&disjunctive.categorie. Dans mon jeux de donnée, j’ai supprimé les colonnes suivantes : la colonne “genre” dans le jeu de données principales car elles ne renvoyait qu’aux termes “Fixes”. Et la colonne “catégorie Art et Essai” et “label Art et Essai” car il y avait énormément de manque d’informations, et “films Art et Essai”. En effet, les informations ne correspondaient pas à mes recherches.
Visualisation des données
Pour visualiser ces données, il a fallu faire les modifications nécessaire sur le fichier csv. Cela a pu se faire grâce à openrefine et ainsi pouvoir passer à l’étape suivante, la visualisation des données grâce aux différents outils vu en cours.
2. Première datavisualisation : Les différents types de profil au Cinéma selon les zones géographiques (Flourish)
Afin de pouvoir faire ce visuel, nous avons décidé d’utiliser le graphique “Char type Bars”. Cela permet de faire une comparaison entre différentes variables.
A travers cette visualisation, nous avons pu voir le nombre de films programmés et inédits selon la région administrative et la population de la commune. Nous pouvons en déduire que le Top 5 des cinémas où il y a le plus de programmations ce sont les suivants: MEGA CGR, PATHE, REX, UGC CINE CITY et GAUMONT. Et dès que l’on cible une autre région, nous pouvons voir que le classement change car les goûts des établissemnet de cinémas diffère d’une région à l’autre.
3. Deuxième datavisualisation à l’aide d’une carte (Datawrapper) : l’évolution des entrées au Cinéma
Par la suite, nous avons pensé qu’il serait nécessaire de visualiser les différents cinémas de France selon leurs régions avec une carte ainsi que l’évolution des entrées.
La carte a été choisi avec les régions de 2018. Pour pouvoir faire cette datavisualisation, il a fallu faire des modifications au niveau des données des régions car elles n’étaient pas conforme au format des régions de la carte sélectionnée. Il a fallu par expemple ajouter un trait d’union entre deux régions lorsque c’était nécessaire. Et après cette modification, nous avons pu avoir le résultat suivant.
Cette datavisualisation permet de montrer l’évolution des entrées au cinéma entre la période de 2019 à 2020. Les noms des cinémas sur la carte correspondent aux cinémas qui ont eu le plus grand nombre d’entrées. Lorsque l’on pose notre curseur sur les évolutions d’entrées, on peut voir qu’il y a eu des évolutions d’entrées dans les régions eux extrémités de la France, puis il y a eu une forte évolution en Ile-de-France avec le cinéma Kinepolis Servon et en Nouvelle-Aquitaine avec le Grand Club. Donc, cela nous permet de voir les cinémas qui sont les plus rentable.
4. Troisième datavisualisation : Comparaison de données
Il me manquait des données d’actualité, c’est pour cela que les données des Box-Office (l’échelle de succès d’après le montant des recettes) en France durant les années 2021 et 2022 ont été trouvées sur Wikipédia. Cependant les données de l’année 2021 ne sont pas complètent car nous étions en période de crise sanitaire et les cinémas étaient fermés durant une période. Ainsi à cause de la pandémie de covid19 plusieurs films ont vu leur date de sortie repoussées. Voici ci dessous une comparaison de données à l’aide d’une story sur Flourish. En passant sur le donut, nous pouvons voir le titre du film, son classement et le succès qu’il a eu.
5. Quatrième datavisualisation : Comparaison entre Flourish et Rawgraphs
Nous nous sommes focalisés sur le jeu de donnée visant les publics des films. A travers cette visualisation, nous pouvons voir les différents types de profils qui se rendent au cinéma. Les différents profils sont réparties dans différentes catégories à savoir les hommes, les enfants, les occasionnels, les adultes, les autres régions ect. L’axe des abscices renvoit aux années et l’axe des ordonnées renvoit au pourcentage. Nous pouvons remarqués que entre 60% et 80%, ce sont les personnes “des Autres régions” qui se rendent le plus au cinéma. La jauge de couleur permet de se repérer au niveau des catégories. Chaque catégorie se voit attribuer une couleur qui lui est propre.
Il s’agit d’une visualisation différente mais qui nous rassure dans notre précèdente analyse. En effet, cette fois-ci les résultats sont sous forme de graphique avec en axe des abscisse, les catégories de personnes qui partent au cinéma et en axe des ordonnées les valeurs coresspondante. Nous avons juste une rendu qui n’est pas le même mais nous retrouvons toujours le même résultat. Par contre, les catégories des personnes ne s’affichait pas bien c’est-à-dire qu’on avait pas d’espace entre eux. Je n’ai pas réussi à changer cela.
6. Cinquième datavisualisation avec Wikidata Query Service
1. Datavisualisation des films sortis en 2022
Avec l’aide d’une requête Wikidata, nous avons pu voir tous les films qui sont sortis durant l’année 2022. Pour cela, il a fallu ajouter un filtre qui a permis d’indiquer la date que l’ont souhaité rechercher. Le filtre permet de rendre le résultat plus sélectif et nous allons droit au but de notre recherche.
SELECT DISTINCT ?item ?itemLabel WHERE {
?item wdt:P31 wd:Q11424;
wdt:P577 ?pubdate.
FILTER((?pubdate >= "2022-01-01T00:00:00Z"^^xsd:dateTime) && (?pubdate <= "2022-12-31T00:00:00Z"^^xsd:dateTime))
SERVICE wikibase:label { bd:serviceParam wikibase:language "fr,en". }
}
2) Datavisualisation des films réalisés par Georges Lucas
Grâce à cette requête, nous pouvons visualiser tout les films réalisés par Georges Lucas avec un visuel en mode graphe.
#defaultView:Graph
SELECT ?item ?itemLabel (MIN(?date) AS ?firstReleased) ?_image
WHERE {
?item wdt:P161 wd:Q38222;
wdt:P577 ?date
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
OPTIONAL { ?item wdt:P18 ?_image. }
} GROUP BY ?item ?itemLabel ?_image
ORDER BY (?date)
7. Conclusion
Ce projet m’a permis de pratiquer et de créer des datavisualisations sur le sujet des cinémas. Cependant, il y a eu des cas où pour faire des visualisations, je n’ai pas pu utiliser un modèle car mes données étaient trop volumineuses et le rendu n’était pas compréhensible. C’est pour cela que j’ai décidé de choisir ceux qui allait mettre au mieux en avant mon projet. J’ai préféré utiliser openrefine à OpenOffice pour pouvoir faire des modifications sur mes jeux de donnée. Sur Openoffice, je ne pouvais pas enregistrer mon fichier au format csv, il fallait obligatoirement l’enregister en odt sinon les colonnes se décaler. Concernant la réalisation du projet, cela a été très intéressant et très instructif. En effet, cela m’a permis de manipuler les différents outils de datavisualisation. Le seul désavantage c’est qu’on ne peut pas avoir une datavisualisation du premier coup, il faut pratiquer sur les différents outils afin de trouver celui qui nous convient le mieux. J’étais très loin d’imaginer que j’aurais pu faire tous cela grâce aux différents outils que nous avons manipulé en cours.