La collecte automatisée de données sur internet est un sujet juridique de plus en plus fréquent, porté par l'essor du data mining, du big data et de l'intelligence artificielle.
Les données figurant sur un site internet appartiennent à son propriétaire, à la personne l'ayant autorisé à les publier, ou aux utilisateurs les ayant mises en ligne. Ces personnes sont titulaires de droits d'auteur sur leur contenu (sous réserve d'originalité) et du droit sui generis des producteurs de bases de données (sous réserve d'investissement substantiel). Le droit d'auteur protège l'expression du contenu et sa mise en forme. Le droit sui generis protège les données elles-mêmes (structure, organisation logique). La mise à disposition en accès libre ne limite pas le degré de protection.
L'indexation de données par un crawler est généralement considérée comme une simple prestation technique, favorable au site indexé en lui permettant d'attirer du trafic. La jurisprudence française a confirmé que cette indexation ne constitue pas une contrefaçon (TGI Paris, Adenclassified, 1er février 2011). La Cour d'appel de Paris (SAIF c/ Google, 26 janvier 2011) a précisé que les sites disposent de moyens pour s'opposer à l'indexation via le fichier robots.txt. Il n'est donc pas nécessaire de demander une autorisation spécifique pour indexer des données.
La collecte de données pour réutilisation est différente. Les articles L342-1 et L342-2 du Code de la propriété intellectuelle interdisent l'extraction substantielle et la réutilisation du contenu d'une base de données protégée. Si l'extraction porte sur une partie qualitativement ou quantitativement substantielle, elle est constitutive d'un acte de contrefaçon. Pour extraire et réutiliser des données, il faut obtenir une autorisation préalable du producteur, qui donne généralement lieu à un contrat. Si l'extraction n'est pas substantielle et non répétée, elle peut être admise, mais le caractère substantiel s'évalue au cas par cas.
Les conditions d'utilisation des sites peuvent interdire explicitement l'extraction ou l'indexation de leur base de données, de manière contractuelle. Le non-respect de ces CGU peut être sanctionné. Si les données collectées sont des données personnelles (issues de réseaux sociaux par exemple), le RGPD impose l'obtention du consentement ou une autre base légale pour le traitement. Pour approfondir, consultez l'article sur la conformité RGPD des contrats. Pour une vue d'ensemble, consultez les services de propriété intellectuelle.
Le web crawling est légal dans son principe, mais encadré. L'indexation simple ne constitue pas une contrefaçon, mais l'extraction substantielle de bases de données et la collecte non autorisée de données personnelles sont illégales. Si vous avez des questions sur la légalité de vos pratiques de collecte, prenez rendez-vous.


Le Data Act encadre strictement les pénalités de résiliation SaaS. Frais autorisés, frais interdits, calendrier de suppression : ce qu'il faut savoir.

Votre entreprise est bloquée dans un contrat SaaS ? Le Data Act ouvre un droit de résiliation pour changer de prestataire. Conditions, procédure, pièges à éviter.
Avançons ensemble pour accélérer votre activité