La collecte automatisée de données sur internet est un sujet juridique de plus en plus fréquent, porté par l'essor du data mining, du big data et de l'intelligence artificielle.

Propriété et protection des données des sites internet

Les données figurant sur un site internet appartiennent à son propriétaire, à la personne l'ayant autorisé à les publier, ou aux utilisateurs les ayant mises en ligne. Ces personnes sont titulaires de droits d'auteur sur leur contenu (sous réserve d'originalité) et du droit sui generis des producteurs de bases de données (sous réserve d'investissement substantiel). Le droit d'auteur protège l'expression du contenu et sa mise en forme. Le droit sui generis protège les données elles-mêmes (structure, organisation logique). La mise à disposition en accès libre ne limite pas le degré de protection.

Indexation et droit d'auteur

L'indexation de données par un crawler est généralement considérée comme une simple prestation technique, favorable au site indexé en lui permettant d'attirer du trafic. La jurisprudence française a confirmé que cette indexation ne constitue pas une contrefaçon (TGI Paris, Adenclassified, 1er février 2011). La Cour d'appel de Paris (SAIF c/ Google, 26 janvier 2011) a précisé que les sites disposent de moyens pour s'opposer à l'indexation via le fichier robots.txt. Il n'est donc pas nécessaire de demander une autorisation spécifique pour indexer des données.

Extraction pour réutilisation : un régime plus strict

La collecte de données pour réutilisation est différente. Les articles L342-1 et L342-2 du Code de la propriété intellectuelle interdisent l'extraction substantielle et la réutilisation du contenu d'une base de données protégée. Si l'extraction porte sur une partie qualitativement ou quantitativement substantielle, elle est constitutive d'un acte de contrefaçon. Pour extraire et réutiliser des données, il faut obtenir une autorisation préalable du producteur, qui donne généralement lieu à un contrat. Si l'extraction n'est pas substantielle et non répétée, elle peut être admise, mais le caractère substantiel s'évalue au cas par cas.

CGU des sites et données personnelles

Les conditions d'utilisation des sites peuvent interdire explicitement l'extraction ou l'indexation de leur base de données, de manière contractuelle. Le non-respect de ces CGU peut être sanctionné. Si les données collectées sont des données personnelles (issues de réseaux sociaux par exemple), le RGPD impose l'obtention du consentement ou une autre base légale pour le traitement. Pour approfondir, consultez l'article sur la conformité RGPD des contrats. Pour une vue d'ensemble, consultez les services de propriété intellectuelle.

Conclusion

Le web crawling est légal dans son principe, mais encadré. L'indexation simple ne constitue pas une contrefaçon, mais l'extraction substantielle de bases de données et la collecte non autorisée de données personnelles sont illégales. Si vous avez des questions sur la légalité de vos pratiques de collecte, prenez rendez-vous.

Nos autres ressources


Blog image
Frais de sortie SaaS : ce que le Data Act change pour les entreprises clientes

Le Data Act encadre strictement les pénalités de résiliation SaaS. Frais autorisés, frais interdits, calendrier de suppression : ce qu'il faut savoir.

Blog image
Résilier un contrat SaaS grâce au Data Act : guide pratique pour les entreprises

Votre entreprise est bloquée dans un contrat SaaS ? Le Data Act ouvre un droit de résiliation pour changer de prestataire. Conditions, procédure, pièges à éviter.

Avançons ensemble pour accélérer votre activité