Machine de retour - Wayback Machine

Un Article De Wikipédia, L'Encyclopédie Libre

Pin
Send
Share
Send

Machine de retour
Texte stylisé disant:
Capture d'écran
20151221 Internet Archive Wayback Machine.png
Visualisation des archives wikipedia.org sur Wayback Machine (décembre 2015)
Type de site
Archiver
Zone servieÀ l'échelle mondiale (sauf Chine et Russie)
PropriétaireArchives Internet
URLla toile.archiver.org Modifiez ceci sur Wikidata
InscriptionOptionnel
Lancé24 octobre 2001; Il y a 19 ans (2001-10-24)[1][2]
Statut actuelactif
Écrit enJava, Python

Le Machine de retour est un numérique archiver de la World Wide Web, fondée par le Archives Internet, une bibliothèque à but non lucratif basée à San Francisco. Il permet à l'utilisateur de «remonter le temps» et de voir à quoi ressemblaient les sites Web dans le passé. Ses fondateurs, Brewster Kahle et Bruce Gilliat, a développé la Wayback Machine avec l'intention de fournir «un accès universel à toutes les connaissances» en préservant les copies archivées de pages Web obsolètes.

Depuis son lancement en 2001, plus de 463 milliards de pages ont été ajoutées à l'archive. Le service a également suscité une controverse sur la question de savoir si la création de pages archivées sans l'autorisation du propriétaire constitue violation de copyright dans certaines juridictions.

Histoire

Archives Internet fondateurs Brewster Kahle et Bruce Gilliat a lancé la Wayback Machine en 2001 pour résoudre le problème de la disparition du contenu du site Web chaque fois qu'il est modifié ou arrêté.[3] Le service permet aux utilisateurs de voir les versions archivées de les pages Web à travers le temps, que l'archive appelle un «index tridimensionnel».[4] Kahle et Gilliat ont créé la machine dans l'espoir d'archiver l'intégralité de l'Internet et de fournir «un accès universel à toutes les connaissances».[5]

Le nom Machine de retour a été choisi comme référence à une fiction voyage dans le temps appareil, le "Machine de retour"(prononcé chemin de retour), utilisé par les personnages Monsieur Peabody et Sherman dans le dessin animé Le spectacle Rocky et Bullwinkle des années 1960.[6][7] Dans l'un des segments de composant du dessin animé, L'histoire improbable de Peabody, les personnages utilisaient régulièrement la machine pour assister, participer et souvent modifier des événements célèbres de l'histoire.

La Wayback Machine a commencé l'archivage mis en cache pages web en mai 1996,[8][9] dans le but de rendre le service public cinq ans plus tard.[10] De 1996 à 2001, les informations ont été conservées sur bande numérique, Kahle permettant parfois aux chercheurs et aux scientifiques de puiser dans le maladroit base de données.[11] Lorsque l'archive a atteint son cinquième anniversaire en 2001, elle a été dévoilée et ouverte au public lors d'une cérémonie à la Université de Californie, Berkeley.[12] Au moment du lancement de la Wayback Machine, elle contenait déjà plus de 10 milliards de pages archivées.[13]

Aujourd'hui, les données sont stockées sur le grand groupe de Linux nœuds.[5] Il revisite et archive occasionnellement de nouvelles versions de sites Web (voir détails techniques ci-dessous).[14] Les sites peuvent également être capturés manuellement en saisissant un site Web URL dans le champ de recherche, à condition que le site Web permette à la Wayback Machine de «l'explorer» et d'enregistrer les données.[10]Le 30 octobre 2020, la Wayback Machine a commencé à vérifier le contenu.[15]

Détails techniques

Le logiciel a été développé pour "ramper" le Web et télécharger toutes les pages du World Wide Web accessibles au public, le Gopher hiérarchie, la Netnews (Usenet) système de tableau d'affichage et logiciel téléchargeable.[16] Les informations collectées par ces "robots d'exploration" n'incluent pas toutes les informations disponibles sur Internet, car une grande partie des données est restreinte par l'éditeur ou stockée dans des bases de données non accessibles. Pour surmonter les incohérences dans les sites Web partiellement mis en cache, Archive-It.org a été développé en 2005 par Internet Archive afin de permettre aux institutions et aux créateurs de contenu de récolter et de conserver volontairement des collections de contenu numérique et de créer des archives numériques.[17]

Les analyses proviennent de diverses sources, certaines importées de tiers et d'autres générées en interne par l'archive.[14] Par exemple, les analyses sont apportées par le Fondation Sloan et Alexa, analyses exécutées par IA pour le compte de NARA et le Fondation de la mémoire Internet, miroirs de Exploration commune.[14] Les "Worldwide Web Crawls" sont en cours depuis 2010 et capturent le Web mondial.[14][18]

La fréquence des captures instantanées varie selon le site Web.[14] Les sites Web des «explorations Web mondiales» sont inclus dans une «liste d'exploration», le site étant archivé une fois par exploration.[14] Une analyse peut prendre des mois, voire des années, selon la taille.[14] Par exemple, "Wide Crawl Number 13" a commencé le 9 janvier 2015 et s'est terminé le 11 juillet 2016.[19] Cependant, il peut y avoir plusieurs analyses en cours à tout moment et un site peut être inclus dans plusieurs listes d'analyse, de sorte que la fréquence à laquelle un site est analysé varie considérablement.[14]

Depuis octobre 2019, les utilisateurs sont limité à 5 demandes d'archivage et d'extraction par minute.[Pourquoi?]

Capacité de stockage et croissance

Au fur et à mesure que la technologie s'est développée au fil des ans, la capacité de stockage de la Wayback Machine a augmenté. En 2003, après seulement deux ans d'accès public, la Wayback Machine se développait à un rythme de 12 téraoctets / mois. Les données sont stockées sur PetaBox des systèmes de rack conçus sur mesure par le personnel d'Internet Archive. Le premier rack de 100 To est devenu pleinement opérationnel en juin 2004, même s'il est rapidement devenu évident qu'il aurait besoin de beaucoup plus de stockage que cela.[20][21]

Internet Archive a migré son architecture de stockage personnalisée vers Stockage ouvert Sun en 2009, et héberge un nouveau centre de données dans un Centre de données modulaire Sun sur Microsystèmes Sun«Campus de Californie.[22] À partir de 2009, la Wayback Machine contenait environ trois pétaoctets de données et augmentait à un rythme de 100 téraoctets chaque mois.[23]

Une nouvelle version améliorée de Wayback Machine, avec une interface mise à jour et un index plus récent du contenu archivé, a été mise à disposition pour des tests publics en 2011.[24] En mars de cette année, il a été dit sur le forum Wayback Machine que "la version bêta de la nouvelle Wayback Machine a un index plus complet et à jour de tous les matériaux explorés jusqu'en 2010, et continuera d'être mise à jour régulièrement. L'index La conduite de la Wayback Machine classique n'a qu'un peu de matériel après 2008, et aucune autre mise à jour de l'index n'est prévue, car elle sera progressivement supprimée cette année. "[25] Toujours en 2011, Internet Archive a installé sa sixième paire de racks PetaBox, ce qui a augmenté la capacité de stockage de la Wayback Machine de 700 téraoctets.[26]

En janvier 2013, la société a annoncé une étape révolutionnaire de 240 milliards d'URL.[27]

En octobre 2013, la société a introduit la fonction «Enregistrer une page»[28][29] qui permet à tout internaute d'archiver le contenu d'une URL, et génère rapidement un lien permanent contrairement au précédent liveweb fonctionnalité.

C'est devenu une menace d'abus de la part du service pour hébergement de binaires malveillants.[30][31]

En décembre 2014, la Wayback Machine contenait 435 milliard pages Web — près de neuf pétaoctets de données et augmentait d'environ 20 téraoctets par semaine.[13][32][33]

À partir de juillet 2016, la Wayback Machine contiendrait environ 15 pétaoctets de données.[34]

En septembre 2018, la Wayback Machine contenait plus de 25 pétaoctets de données.[35][36]

Croissance de la machine Wayback[37][38]
Wayback Machine par annéePages archivées (milliards)
2005
40
2008
85
2012
150
2013
373
2014
400
2015
452

Politique d'exclusion de site Web

Historiquement, Wayback Machine a respecté le norme d'exclusion des robots (robots.txt) pour déterminer si un site Web serait exploré; ou si elles sont déjà explorées, si ses archives seraient visibles publiquement. Les propriétaires de sites Web avaient la possibilité de refuser Wayback Machine en utilisant le fichier robots.txt. Il a appliqué rétroactivement les règles du fichier robots.txt; si un site bloquait les archives Internet, toutes les pages précédemment archivées du domaine étaient également immédiatement rendues indisponibles. En outre, Internet Archive a déclaré que "Parfois, le propriétaire d'un site Web nous contactera directement et nous demandera d'arrêter d'explorer ou d'archiver un site. Nous nous conformons à ces demandes."[39] En outre, le site Web indique: "Les archives Internet ne sont pas intéressées à préserver ou à offrir l'accès à des sites Web ou à d'autres documents Internet de personnes qui ne veulent pas que leurs documents figurent dans la collection."[40][41]

Le 17 avril 2017, des rapports ont fait surface de sites qui avaient disparu et sont devenus domaines parqués qui utilisaient robots.txt pour s'exclure des moteurs de recherche, ce qui les a exclus par inadvertance de Wayback Machine.[42] L'archive Internet a changé la politique pour exiger maintenant une demande d'exclusion explicite pour la supprimer de Wayback Machine.[43]

Politique d'archivage d'Oakland

La politique d'exclusion rétroactive de Wayback repose en partie sur Recommandations pour la gestion des demandes de suppression et la préservation de l'intégrité archivistique publié par la School of Information Management and Systems à Université de Californie, Berkeley en 2002, qui donne à un propriétaire de site Web le droit de bloquer l'accès aux archives du site.[44] Wayback s'est conformé à cette politique pour éviter des litiges coûteux.[45]

La politique d'exclusion rétroactive de Wayback a commencé à s'assouplir en 2017, lorsqu'elle a cessé d'honorer le fichier robots.txt sur les sites Web du gouvernement américain et de l'armée pour l'exploration et l'affichage de pages Web. Depuis avril 2017, Wayback ignore plus largement le fichier robots.txt, pas seulement pour les sites Web du gouvernement américain.[46][47][48][49]

Les usages

Depuis son lancement public en 2001, la Wayback Machine a été étudiée par des chercheurs à la fois pour la façon dont elle stocke et collecte les données ainsi que pour les pages réelles contenues dans ses archives. En 2013, les chercheurs avaient écrit environ 350 articles sur la Wayback Machine, principalement dans les domaines des technologies de l'information, de la bibliothéconomie et des sciences sociales. Les chercheurs en sciences sociales ont utilisé la Wayback Machine pour analyser comment le développement de sites Web du milieu des années 1990 à nos jours a affecté la croissance de l'entreprise.[13]

Lorsque la Wayback Machine archive une page, elle inclut généralement la plupart des liens hypertexte, gardant ces liens actifs alors qu'ils auraient tout aussi facilement pu être rompus par l'instabilité d'Internet. Des chercheurs indiens ont étudié l'efficacité de la capacité de la Wayback Machine à enregistrer des hyperliens dans des publications savantes en ligne et ont constaté qu'elle en sauvait un peu plus de la moitié.[50]

"Les journalistes utilisent la Wayback Machine pour afficher des sites Web morts, des reportages datés et des modifications du contenu du site Web. Son contenu a été utilisé pour tenir les politiciens responsables et exposer les mensonges du champ de bataille."[51] En 2014, une page de médias sociaux archivée de Igor Girkin, un chef rebelle séparatiste en Ukraine, l'a montré se vantant que ses troupes avaient abattu un avion militaire ukrainien présumé avant qu'on ne sache que l'avion était en fait un avion à réaction civil de la Malaysian Airlines (Vol 17 de Malaysia Airlines), après quoi il a supprimé le poste et a accusé l'armée ukrainienne d'avoir abattu l'avion.[51][52] En 2017, le Marche pour la science provient d'une discussion sur reddit qui indiquait que quelqu'un avait visité Archive.org et découvert que toutes les références à changement climatique avait été supprimé du site Web de la Maison Blanche. En réponse, un utilisateur a commenté: "Il doit y avoir une marche des scientifiques sur Washington".[53][54][55]

En outre, le site est largement utilisé pour la vérification, donnant accès à des références et à la création de contenu par Éditeurs Wikipédia.[56]

En septembre 2020, un partenariat a été annoncé avec Cloudflare d'archiver automatiquement les sites Web servis via son service «Always Online», ce qui lui permettra également de diriger les utilisateurs vers sa copie du site s'il ne parvient pas à atteindre l'hébergeur d'origine.[57]

Limites

En 2014, il y avait un décalage de six mois entre le moment où un site Web était exploré et celui où il devenait disponible pour consultation dans Wayback Machine.[58] Actuellement, le temps de latence est de 3 à 10 heures.[59] La Wayback Machine n'offre que des fonctionnalités de recherche limitées. Sa fonction «Recherche sur site» permet aux utilisateurs de trouver un site en se basant sur des mots décrivant le site, plutôt que sur des mots trouvés sur les pages Web elles-mêmes.[60]

La Wayback Machine n'inclut pas toutes les pages Web jamais créées en raison des limitations de son robot d'exploration. La Wayback Machine ne peut pas archiver complètement des pages Web contenant des fonctionnalités interactives telles que des plates-formes Flash et des formulaires écrits en JavaScript et applications Web progressives, car ces fonctions nécessitent une interaction avec le site Web hôte. Cela signifie que, depuis juin 2013, la Wayback Machine n'a pas été en mesure d'afficher les commentaires YouTube lors de l'enregistrement des pages YouTube, car, selon l'équipe d'archivage, les commentaires ne sont plus «chargés dans la page elle-même».[61] Le robot d'exploration Web de Wayback Machine a du mal à extraire tout ce qui n'est pas codé en HTML ou dans l'une de ses variantes, ce qui peut souvent entraîner des liens hypertexte rompus et des images manquantes. Pour cette raison, le robot d'exploration Web ne peut pas archiver des "pages orphelines" qui ne contiennent aucun lien vers d'autres pages.[60][62] Le robot d'exploration de Wayback Machine ne suit qu'un nombre prédéterminé d'hyperliens en fonction d'une limite de profondeur prédéfinie, de sorte qu'il ne peut pas archiver tous les hyperliens sur chaque page.[18]

À partir d'avril 2018, les membres du personnel administratif de l'équipe d'archives de Wayback Machine ont appliqué la règle du quart de mois, en supprimant occasionnellement des intervalles de temps de 23 jours ou 39 jours (3/4 et 5/4 d'un mois, respectivement), afin de réduire la taille de la file d'attente.[citation requise]

En preuve légale

Litige civil

Netbula LLC contre Chordiant Software Inc.

Dans un cas de 2009, Netbula, LLC contre Chordiant Software Inc., le défendeur Chordiant a déposé une requête pour contraindre Netbula à désactiver le robots.txt fichier sur son site Web qui obligeait Wayback Machine à supprimer rétroactivement l'accès aux versions précédentes des pages qu'il avait archivées à partir du site de Netbula, pages qui, selon Chordiant, étayeraient sa thèse.[63]

Netbula s'est opposé à la requête au motif que les défendeurs demandaient de modifier le site Web de Netbula et qu'ils auraient dû assigner directement Internet Archive pour les pages.[64] Cependant, un employé d'Internet Archive a déposé une déclaration sous serment soutenant la requête de Chordiant, déclarant qu'il ne pouvait pas produire les pages Web par tout autre moyen «sans charge, dépense et perturbation considérables de ses opérations».[63]

Le juge magistrat Howard Lloyd du district nord de la Californie, division de San Jose, a rejeté les arguments de Netbula et leur a ordonné de désactiver temporairement le blocage du fichier robots.txt afin de permettre à Chordiant de récupérer les pages archivées recherchées.[63]

Telewizja Polska

Dans une affaire d'octobre 2004, Telewizja Polska USA, Inc. v. Satellite Echostar, N ° 02 C 3293, 65 Fed. R. Evid. Serv. 673 (N.D. Ill. 15 octobre 2004), un plaideur a tenté d'utiliser les archives de Wayback Machine comme source de preuve recevable, peut-être pour la première fois. Telewizja Polska est le fournisseur de TVP Polonia et EchoStar exploite le Dish Network. Avant le procès, EchoStar a indiqué son intention de proposer des instantanés Wayback Machine comme preuve du contenu passé du site Web de Telewizja Polska. Telewizja Polska a présenté une motion en limine pour supprimer les instantanés en raison de ouï-dire et source non authentifiée, mais le juge Arlander Keys a rejeté l'affirmation de Telewizja Polska sur les ouï-dire et a rejeté la requête de TVP en limine pour exclure la preuve au procès.[65][66] Au procès, cependant, le juge du tribunal de district Ronald Guzman, le juge de première instance, a infirmé les conclusions de Magistrate Keys et a conclu que ni l'affidavit de l'employé d'Internet Archive ni les pages sous-jacentes (c'est-à-dire le site Web de Telewizja Polska) n'étaient admissibles en preuve. Le juge Guzman a estimé que l'affidavit de l'employé contenait à la fois des ouï-dire et des déclarations à l'appui non concluantes, et que la prétendue page Web, les imprimés n'étaient pas auto-authentifiés.[67][68]

Droit des brevets

À condition que certaines exigences supplémentaires soient remplies (par exemple, fournir une déclaration faisant autorité de l'archiviste), le Office des brevets des États-Unis et le Office européen des brevets acceptera les tampons dateurs des archives Internet comme preuve du moment où une page Web donnée était accessible au public. Ces dates sont utilisées pour déterminer si une page Web est disponible en tant que art antérieur par exemple lors de l'examen d'une demande de brevet.[69]

Limitations d'utilité

Il existe des limites techniques à l'archivage d'un site Web et, par conséquent, il est possible pour les parties opposées à un litige d'utiliser à mauvais escient les résultats fournis par les archives du site Web. Ce problème peut être exacerbé par la pratique consistant à soumettre des captures d'écran de pages Web dans des plaintes, des réponses ou des rapports de témoins experts lorsque les liens sous-jacents ne sont pas exposés et peuvent donc contenir des erreurs. Par exemple, les archives telles que Wayback Machine ne remplissent pas de formulaires et n'incluent donc pas le contenu de non-Reposant bases de données e-commerce dans leurs archives.[70]

Statut légal

En Europe, la Wayback Machine pourrait être interprétée comme une violation droits d'auteur lois. Seul le créateur de contenu peut décider où son contenu est publié ou dupliqué, de sorte que l'archive devrait supprimer des pages de son système à la demande du créateur.[71] Les politiques d'exclusion de la Wayback Machine se trouvent dans la section FAQ du site.[72]

Problèmes juridiques concernant le contenu archivé

Un certain nombre de poursuites ont été intentées contre Internet Archive spécifiquement pour ses efforts d'archivage Wayback Machine.

Scientologie

À la fin de 2002, Internet Archive a supprimé divers sites qui critiquaient Scientologie de la Wayback Machine.[73] Un message d'erreur indiquait que c'était en réponse à une "demande du propriétaire du site".[74] Plus tard, il a été précisé que les avocats du Église de Scientologie avait exigé le retrait et que les propriétaires du site ne voulaient pas que leur matériel soit enlevé.[75]

Healthcare Advocates, Inc.

En 2003, Harding Earley Follmer & Frailey ont défendu un client d'un litige de marque en utilisant la Wayback Machine d'Archive. Les avocats ont pu démontrer que les réclamations formulées par le plaignant n'étaient pas valides, sur la base du contenu de leur site Web datant de plusieurs années auparavant. Le plaignant, Healthcare Advocates, a ensuite modifié sa plainte pour inclure les archives Internet, accusant l'organisation de violation du droit d'auteur ainsi que de violations du DMCA et le Loi sur la fraude et les abus informatiques. Les avocats de la santé ont affirmé que, depuis qu'ils avaient installé un robots.txt fichier sur leur site Web, même si après le dépôt de la plainte initiale, les archives auraient dû supprimer toutes les copies précédentes du site Web du demandeur de Wayback Machine, cependant, certains éléments ont continué à être visibles publiquement sur Wayback.[76] Le procès a été réglé à l'amiable, après que Wayback ait réglé le problème.[77]

Suzanne Shell

Activiste Suzanne Shell a intenté une action en décembre 2005, exigeant qu'Internet Archive lui verse 100 000 dollars pour l'archivage de son site Web profane-justice.org entre 1999 et 2004.[78][79] Internet Archive a déposé un jugement déclaratoire action dans le Tribunal de district des États-Unis pour le district nord de la Californie le 20 janvier 2006, demandant une décision judiciaire selon laquelle Internet Archive n'a pas violé droits d'auteur. Shell a répondu et a apporté un contre-costume contre Internet Archive pour l'archivage de son site, qui, selon elle, est en violation de son conditions d'utilisation.[80] Le 13 février 2007, un juge de la Tribunal de district des États-Unis pour le district du Colorado a rejeté toutes les demandes reconventionnelles sauf rupture de contrat.[79] L'Internet Archive n'a pas bougé pour ignorer violation de copyright affirme Shell en raison de ses activités de copie, qui iraient également de l'avant.[81]

Le 25 avril 2007, Internet Archive et Suzanne Shell ont annoncé conjointement le règlement de leur action en justice.[78] L'Internet Archive a déclaré que "... n'a aucun intérêt à inclure des éléments dans la Wayback Machine de personnes qui ne souhaitent pas que leur contenu Web soit archivé. Nous reconnaissons que Mme Shell a un droit d'auteur valide et exécutoire sur son site Web et nous regrettons que l'inclusion de son site Web dans Wayback Machine a donné lieu à ce litige. " Shell a déclaré: "Je respecte la valeur historique de l'objectif d'Internet Archive. Je n'ai jamais eu l'intention d'interférer avec cet objectif ni de lui nuire."[82]

Daniel Davydiuk

Entre 2013 et 2016, un acteur pornographique nommé Daniel Davydiuk a tenté de supprimer des images archivées de lui-même des archives de Wayback Machine, d'abord en envoyant plusieurs Demandes DMCA aux archives, puis en faisant appel au Cour fédérale du Canada.[83][84][85]

Censure et autres menaces

Archive.org est actuellement bloqué en Chine.[86][87] Après l'interdiction de l'organisation terroriste État islamique, les archives Internet ont été bloqué dans son intégralité en Russie en tant qu'animateur d'une vidéo de sensibilisation de cette organisation, pendant une courte période en 2015-2016.[51][88][89][a besoin de mise à jour] Depuis 2016, le site Web est de retour, disponible dans son intégralité, bien que des lobbyistes commerciaux locaux poursuivent les archives Internet devant un tribunal local pour l'interdire pour des raisons de droit d'auteur.[90]

Alison Macrina, directeur du Library Freedom Project, note que "si les bibliothécaires attachent une grande importance à la vie privée des individus, nous nous opposons également fermement à la censure".[51]

Il existe de rares cas connus où l'accès en ligne à un contenu qui «pour rien» a mis des personnes en danger a été désactivé par le site Web.[51]

Les autres menaces comprennent les catastrophes naturelles,[91] destruction (à distance ou physique),[92] manipulation du contenu de l'archive (voir aussi: cyber-attaque, sauvegarde), lois problématiques sur le droit d'auteur[93] et surveillance des utilisateurs du site.[94]

Kevin Vaughan soupçonne qu'à long terme de plusieurs générations "presque rien" survivra de manière utile, déclarant: "Si nous avons une continuité dans notre civilisation technologique" par laquelle "une grande partie des données brutes resteront trouvables et consultables. ".[95]

Dans un article de réflexion sur la préservation des connaissances humaines, L'Atlantique a fait remarquer que les archives Internet, qui se décrivent comme étant conçues pour le long terme,[96] "travaille avec acharnement pour capturer les données avant qu'elles ne disparaissent sans aucune infrastructure à long terme à proprement parler."[97]

Voir également

Les références

  1. ^ "WayBackMachine.org WHOIS, DNS et informations de domaine - DomainTools". QUI EST. Récupéré 13 mars, 2016.
  2. ^ "InternetArchive.org WHOIS, DNS et informations de domaine - DomainTools". QUI EST. Récupéré 13 mars, 2016.
  3. ^ Notess, Greg R. (mars-avril 2002). "La Machine Wayback: l'Archive du Web". En ligne. 26: 59–61 - via EBSCOhost.
  4. ^ "La machine de retour", Questions fréquemment posées, archivé de l'original le 18 septembre 2018, récupéré 18 septembre 2018
  5. ^ une b "20 000 disques durs en mission | Blogs d'archives Internet". blog.archive.org. 25 octobre 2016. Archivé de l'original le 20 octobre 2018. Récupéré 15 octobre 2018.
  6. ^ Green, Heather (28 février 2002). "Une bibliothèque aussi grande que le monde". BusinessWeek. Archivé de l'original le 20 décembre 2011.
  7. ^ Tong, Judy (8 septembre 2002). "Partie responsable - Brewster Kahle; Une bibliothèque du Web, sur le Web". New York Times. Archivé de l'original le 20 février 2011. Récupéré 15 août, 2011.
  8. ^ "MTV Online: Page principale - Wayback Machine". Machine de retour. 12 mai 1996. Archivé de l'original le 12 mai 1996. Récupéré 17 juillet 2020.
  9. ^ "Guide Infoseek - Wayback Machine". Machine de retour. 12 mai 1996. Archivé de l'original le 12 mai 1996. Récupéré 16 décembre 2016.
  10. ^ une b "Internet Archive: Wayback Machine". archive.org. Archivé de l'original le 3 janvier 2014. Récupéré 15 octobre 2018.
  11. ^ Cook, John (1er novembre 2001). «Le site Web vous ramène dans l’histoire d’Internet». Seattle Post-Intelligencer. Archivé de l'original le 12 août 2014. Récupéré 15 août, 2011.
  12. ^ Mayfield, Kendra (28 octobre 2001). «Wayback retourne sur le Web». Filaire. Archivé de l'original le 16 octobre 2017. Récupéré 16 octobre 2017.
  13. ^ une b c Arora, Sanjay K .; Li, Yin; Youtie, Jan; Shapira, Philip (5 mai 2015). "Utiliser la machine à remonter le temps pour exploiter des sites Web en sciences sociales: une ressource méthodologique". Journal de l'Association pour la science et la technologie de l'information. 67 (8): 1904–1915. est ce que je:10.1002 / asi.23503. ISSN 2330-1635.
  14. ^ une b c e F g h Kalev Leetaru (28 janvier 2016). "Les archives Internet ont 20 ans: un regard dans les coulisses sur l'archivage du Web". Forbes. Archivé de l'original le 16 octobre 2017. Récupéré 16 octobre 2017.
  15. ^ http://blog.archive.org/2020/10/30/fact-checks-and-context-for-wayback-machine-pages/
  16. ^ Kahle, Brewster. "Archiver Internet". Scientific American - Numéro de mars 1997. Archivé de l'original le 3 avril 2012. Récupéré 19 août 2011.
  17. ^ Jeff Kaplan (27 octobre 2014). "Archive-It: explorer le Web ensemble". Blogs d'archives Internet. Archivé de l'original le 12 octobre 2017. Récupéré 16 octobre 2017.
  18. ^ une b "Analyses Web dans le monde entier". Archives Internet. Archivé de l'original le 19 octobre 2017. Récupéré 16 octobre 2017.
  19. ^ "Wide Crawl Number 13". Archives Internet. Archivé de l'original le 19 octobre 2017. Récupéré 16 octobre 2017.
  20. ^ "Internet Archive: Petabox". archive.org. Récupéré 25 octobre 2018.
  21. ^ Kanellos, Michael (29 juillet 2005). "Grand stockage à bas prix". CNET News.com. Archivé de l'original le 3 avril 2007. Récupéré 29 juillet 2007.
  22. ^ "Internet Archive et Sun Microsystems créent une histoire vivante de l'Internet". Microsystèmes Sun. 25 mars 2009. Archivé de l'original le 26 mars 2009. Récupéré 27 mars 2009.
  23. ^ Mearian, Lucas (19 mars 2009). "Internet Archive va dévoiler un énorme centre de données Wayback Machine". Computerworld.com. Archivé de l'original le 23 mars 2009. Récupéré 22 Mars, 2009.
  24. ^ "Machine Wayback mise à jour dans les tests bêta". Archivé de l'original le 23 août 2011. Récupéré 19 août 2011.
  25. ^ "Beta Wayback Machine, dans le forum". Archivé de l'original le 17 avril 2014. Récupéré 16 avril 2014.
  26. ^ "Forums Internet Archive: la 6e paire de racks est mise en service: plus de 2 Po d'espace de données utilisé". archive.org. Archivé de l'original le 24 octobre 2016. Récupéré 25 octobre 2018.
  27. ^ "Wayback Machine: maintenant avec 240 000 000 000 d'URL | Blogs d'archives Internet". 9 janvier 2013. Archivé de l'original le 14 avril 2014. Récupéré 16 avril 2014.
  28. ^ Rossi, Alexis (25 octobre 2013). "Réparer les liens brisés sur Internet". archive.org. San Francisco, Californie, États-Unis: Équipe des collections, Internet Archive. Archivé de l'original le 7 novembre 2014. Récupéré 25 mars, 2015. Nous avons ajouté la possibilité d'archiver une page instantanément et de récupérer une URL permanente pour cette page dans Wayback Machine. Ce service permet à quiconque - éditeurs de wikipedia, universitaires, juristes, étudiants ou cuisiniers à domicile comme moi - de créer une URL stable pour citer, partager ou mettre en signet toute information à laquelle il souhaite avoir accès à l'avenir.
  29. ^ "La nouvelle Internet Archive Wayback Machine maintenant en ligne". www.digitaljournal.com. 23 octobre 2013.
  30. ^ L'équipe VirusTotal (25 mars 2015). «Informations d'adresse IP 207.241.226.190». virustotal.com. Dublin 2, Irlande: VirusTotal. Archivé de l'original le 14 juillet 2014. Récupéré 25 mars, 2015. 25/03/2015: Les dernières URL hébergées dans cette adresse IP ont été détectées par au moins un analyseur d'URL ou un ensemble de données d'URL malveillants. ...2/62 25/03/2015 16:14:12 [URL complète expurgée] /Renegotifying_TLS.pdf ... 1/62 25/03/2015 04:46:34 [URL complète expurgée] /CBLightSetup.exeCS1 maint: emplacement (lien)
  31. ^ Avis fourni par Google (25 mars 2015). "Page de diagnostic de la navigation sécurisée pour archive.org". google.com/safebrowsing. Mountain View, Californie, États-Unis. Archivé de l'original le 6 avril 2015. Récupéré 25 mars, 2015. 25/03/2015: Une partie de ce site a été répertoriée pour activité suspecte 138 fois au cours des 90 derniers jours. ... Que s'est-il passé lorsque Google a visité ce site? ... Sur les 42410 pages testées sur ce site au cours des 90 derniers jours, 450 page (s) a (ont) généré le téléchargement et l'installation de programmes malveillants sans l'autorisation de l'internaute. Google a visité ce site pour la dernière fois le 25/03/2015 et un contenu suspect a été détecté sur ce site pour la dernière fois le 25/03/2015. ... Les logiciels malveillants incluent 169 chevaux de Troie, 126 virus, 43 portes dérobées.
  32. ^ "Questions fréquemment posées sur les archives Internet". Archivé de l'original le 21 octobre 2009. Récupéré 17 janvier 2015.
  33. ^ "Questions fréquemment posées sur les archives Internet". 18 décembre 2014. Archivé de l'original le 18 décembre 2014. Récupéré 13 décembre 2018.
  34. ^ "La manipulation des mégadonnées peut-elle changer la façon dont le monde pense?". Le National. Archivé de l'original le 12 janvier 2017. Récupéré 14 mai 2017.
  35. ^ Crockett, Zachary (28 septembre 2018). "Inside Wayback Machine, la capsule temporelle d'Internet". L'agitation. Archivé de l'original le 2 octobre 2018. Récupéré 26 octobre 2018.
  36. ^ Heffernan, Virginie (18 septembre 2018). "Les choses se cassent et se dégradent sur Internet - C'est une bonne chose". FILAIRE. Archivé de l'original le 25 septembre 2018. Récupéré 26 octobre 2018.
  37. ^ michelle (9 mai 2014). "Wayback Machine atteint 400 000 000 000!". Archives Internet. Archivé de l'original le 26 août 2014. Récupéré 25 mars, 2015.
  38. ^ "Internet Archive Wayback Machine". Archives Internet. Archivé de l'original le 13 février 2015. Récupéré 25 mars, 2015.
  39. ^ "Certains sites ne sont pas disponibles en raison de Robots.txt ou d'autres exclusions". Archivé de l'original le 15 avril 2011.
  40. ^ "Questions fréquemment posées sur les archives Internet". Archivé de l'original le 17 avril 2014.
  41. ^ Cox, Joseph (22 mai 2018). "The Wayback Machine supprime les preuves de logiciels malveillants vendus aux harceleurs". Archivé de l'original le 23 mai 2018. Récupéré 23 mai 2018.
  42. ^ "Les robots.txt destinés aux moteurs de recherche ne fonctionnent pas bien pour les archives Web". Archives Internet. 17 avril 2017. Récupéré 29 juin 2019.
  43. ^ https://help.archive.org/hc/en-us/articles/360004651732-Using-The-Wayback-Machine
  44. ^ "Recommandations pour la gestion des demandes de suppression et la préservation de l'intégrité archivistique". Université de Californie. 14 décembre 2002. Archivé de l'original le 18 septembre 2017. Récupéré 14 septembre 2017.
  45. ^ "Suppression rétroactive du fichier robots.txt des anciennes explorations AKA Oakland Archive Policy". Archives Internet. 7 juillet 2014. Archivé de l'original le 10 octobre 2017. Récupéré 14 septembre 2017.
  46. ^ Mark Graham (17 avril 2017). "Les robots.txt destinés aux moteurs de recherche ne fonctionnent pas bien pour les archives Web". Blogs d'archives Internet. Archivé de l'original le 17 avril 2017. Récupéré 16 avril 2017.
  47. ^ "Archivierung des Internets: Internet Archive ignoriert künftig robots.txt" (en allemand). heise en ligne. Archivé de l'original le 27 avril 2017. Récupéré 14 mai 2017.
  48. ^ "Suchmaschinen: Internet Archive va künftig Robots.txt-Einträge ignorieren - Golem.de" (en allemand). Archivé de l'original le 19 juin 2017. Récupéré 14 mai 2017.
  49. ^ "Internet Archive ignorera les fichiers robots.txt pour conserver la précision de l'historique". Tendances numériques. 24 avril 2017. Archivé de l'original le 16 mai 2017. Récupéré 14 mai 2017.
  50. ^ Sampath Kumar, B.T .; Prithviraj, K.R. (21 octobre 2014). "Apporter la vie à la mort: le rôle de Wayback Machine dans la récupération des URL disparues". Journal des sciences de l'information. 41 (1): 71–81. est ce que je:10.1177/0165551514552752. ISSN 0165-5515. S2CID 28320982.
  51. ^ une b c e "Wayback Machine ne censurera pas les archives pour le goût, déclare le réalisateur après que l'article sur les Jeux Olympiques a été nettoyé". Archivé de l'original le 6 janvier 2017. Récupéré 14 mai 2017.
  52. ^ Lépore, Jill (26 janvier 2015). "Ce que le Web a dit hier". Le new yorker. Archivé de l'original le 25 janvier 2015. Récupéré 14 mai 2017.
  53. ^ "La Marche pour la Science a commencé avec la" ligne jetable "de cette personne sur Reddit". Washington Post. Archivé de l'original le 23 avril 2017. Récupéré 23 avril 2017.
  54. ^ "Les scientifiques vont-ils marcher sur Washington?". Le Washington Post. Archivé de l'original le 31 janvier 2017. Récupéré 31 janvier 2017.
  55. ^ Foley, Katherine Ellen. "La Marche mondiale pour la science a commencé avec un seul fil Reddit". Quartz. Archivé de l'original le 24 avril 2017. Récupéré 23 avril 2017.
  56. ^ http://blog.archive.org/2018/10/01/more-than-9-million-broken-links-on-wikipedia-are-now-rescued
  57. ^ Graham, Mark (17 septembre 2020). "Cloudflare et la Wayback Machine, unissent leurs forces pour un Web plus fiable". Blogs d'archives Internet. Récupéré 17 septembre, 2020.
  58. ^ "Questions fréquemment posées sur les archives Internet". Archives Internet. 2 avril 2014. Archivé de l'original le 2 avril 2014. Récupéré 23 novembre 2018.
  59. ^ "Questions fréquemment posées sur les archives Internet". archive.org. Récupéré 23 novembre 2018.
  60. ^ une b Bates, Mary Ellen (2002). "La machine de retour". En ligne. 26: 80 - via EBSCOhost.
  61. ^ "YouTube - Archiveteam". archiveteam.org. Récupéré 6 août 2020.
  62. ^ "Questions fréquemment posées sur les archives Internet". archive.org. Archivé de l'original le 20 avril 2013. Récupéré 18 octobre 2018.
  63. ^ une b c Lloyd, Howard (octobre 2009). "Ordre de désactivation de Robots.txt" (PDF). Archivé de l'original (PDF) le 8 août 2019. Récupéré 15 octobre 2009.
  64. ^ Cortes, Antonio (octobre 2009). "Motion s'opposant à la suppression de Robots.txt". Archivé de l'original le 27 octobre 2010. Récupéré 15 octobre 2009.
  65. ^ Gelman, Lauren (17 novembre 2004). "Les instantanés de la page Web d'Internet Archive jugés recevables comme preuve". Paquets. 2 (3). Archivé de l'original le 30 avril 2011. Récupéré 4 janvier 2007.
  66. ^ Howell, Beryl A. (février 2006). "Prouver l'historique Web: comment utiliser les archives Internet" (PDF). Journal of Internet Law: 3–9. Archivé de l'original (PDF) le 5 juillet 2010. Récupéré 6 août 2008.
  67. ^ "Recherche de preuves dans des lieux virtuels Admissibilité des preuves sur Internet". Archivé à partir de l'original le 1 juillet 2019. Récupéré 14 juin 2020.
  68. ^ Levitt, Carole A .; Rosch, Mark E. (2010). Trouvez des informations comme un pro: Exploitez les ressources publiques disponibles sur Internet pour la recherche d'investigation, Tom 1. Association du Barreau américain. 194–196. ISBN 978-1-60442-890-2. Récupéré 14 juin 2020.
  69. ^ Wynn W. Coggins (automne 2002). "Art antérieur dans le domaine des brevets de méthodes commerciales - Quand un document électronique est-il une publication imprimée à des fins de l'art antérieur?". USPTO. Archivé de l'original le 21 septembre 2012. Récupéré 15 août, 2012.
  70. ^ "Démystifier la Wayback Machine". Archivé de l'original le 29 juin 2010.
  71. ^ Bahr, Martin (2002). "The Wayback Machine und Google Cache - eine Verletzung deutschen Urheberrechts?". JurPC (en allemand): 9. est ce que je:10.7328 / jurpcb / 20021719. Archivé de l'original le 23 août 2009.
  72. ^ "FAQ sur les archives Internet". Archivé de l'original le 17 avril 2014. Récupéré 16 avril 2014.
  73. ^ Bowman, Lisa M (24 septembre 2002). "Les archives du Net font taire le critique de Scientologie". CNET News.com. Archivé de l'original le 15 mai 2012. Récupéré 4 janvier 2007.
  74. ^ Jeff (23 septembre 2002). "exclusions de la Wayback Machine" (Blog). Forum de Wayback Machine. Archives Internet. Archivé de l'original le 11 février 2007. Récupéré 4 janvier 2007. L'auteur et la date indiquent l'ouverture du fil de discussion du forum.
  75. ^ Miller, Ernest. "Sherman, installe la machine de retour pour la Scientologie". LawMeme. École de droit de Yale. Archivé de l'original (Blog) le 16 novembre 2012. Récupéré 4 janvier 2007.
  76. ^ Dye, Jessica (2005). "Site Web poursuivi pour voyage controversé dans le passé d'Internet". Contenu. 28. 11: 8–9.
  77. ^ Bangeman, Eric (31 août 2006). "Internet Archive règle le procès contre la machine de retour". Ars Technica. Archivé de l'original le 5 novembre 2007. Récupéré 29 novembre 2007.
  78. ^ une b Archives Internet contre Shell, 505 F.Supp.2d 755 sur justia.com, 1: 2006cv01726 (Tribunal de district du Colorado 31 août 2006) («'Accord de règlement du 25 avril 2007 annoncé.' Dépôt 65, 2007-04-30: '... par conséquent ORDONNÉ que cette affaire soit REJETÉE AVEC PRÉJUDICE ...'»).
  79. ^ une b Babcock, Lewis T., juge en chef (13 février 2007). "Archives Internet contre Shell Action civile n ° 06cv01726LTBCBS " (PDF). Archivé (PDF) de l'original le 25 janvier 2014. Récupéré 25 mars, 2015. 1) la requête d'Internet Archive pour rejeter la demande reconventionnelle de Shell pour conversion et vol civil (deuxième cause d'action) est ACCORDÉE, 2) la motion d'Internet Archive pour rejeter la demande reconventionnelle de Shell pour rupture de contrat (troisième cause d'action) est REFUSÉE; 3) La requête d'Internet Archive pour rejeter la demande reconventionnelle de Shell pour racket en vertu de RICO et COCCA (quatrième cause d'action) est ACCORDÉE.
  80. ^ Claburn, Thomas (16 mars 2007). "Une femme du Colorado demande que les robots d'exploration du Web passent des contrats". New York, NY, États-Unis: InformationWeek, UBM Tech, UBM LLC. Archivé de l'original le 4 septembre 2014. Récupéré 25 mars, 2015. Les ordinateurs peuvent conclure des contrats au nom de personnes. La loi uniforme sur les transactions électroniques (UETA) stipule qu'un `` contrat peut être formé par l'interaction d'agents électroniques des parties, même si aucun individu n'était au courant ou n'a examiné les actions des agents électroniques ou les termes et accords qui en résultent ''.
  81. ^ Samson, Martin H., Phillips Nizer LLP (2007). «Internet Archive c. Suzanne Shell». internetlibrary.com. Bibliothèque Internet de droit et décisions judiciaires. Archivé de l'original le 3 août 2014. Récupéré 25 mars, 2015. Plus important encore, a estimé le tribunal, la simple copie par Internet Archive du site de Shell et son affichage dans sa base de données ne constituaient pas l'exercice requis de la domination et du contrôle sur les biens du défendeur. Fait important, a noté le tribunal, la défenderesse a toujours possédé et exploité son propre site. La Cour a déclaré: `` Shell n'a pas allégué de faits montrant qu'Internet Archive exerçait une domination ou un contrôle sur son site Web, car la plainte de Shell indique explicitement qu'elle continuait à posséder et à exploiter le site Web pendant qu'il était archivé sur la machine Wayback. Shell n'identifie aucune autorité soutenant l'idée que la copie de documents est en soi une privation d'utilisation suffisante pour prendre en charge la conversion. À l'inverse, de nombreux circuits ont déterminé que ce n'était pas le cas ».
  82. ^ brasseur (25 avril 2007). "Internet Archive et Suzanne Shell règlent le procès". archive.org. Denver, CO, États-Unis: Internet Archive. Archivé de l'original le 5 décembre 2010. Récupéré 25 mars, 2015. Les deux parties regrettent sincèrement toute agitation que le procès a pu causer à l'autre. Ni Internet Archive ni Mme Shell ne tolèrent toute conduite qui aurait pu causer un préjudice à l'une ou l'autre des parties en raison de l'attention du public à ce procès. Les parties ne se sont pas livrées à une telle conduite et demandent que la réponse publique à la résolution à l'amiable de ce litige soit conforme à leur souhait qu'aucun autre préjudice ou trouble ne soit causé à l'une ou l'autre des parties.
  83. ^ Stobbe, Richard (5 décembre 2014). "Implications du droit d'auteur d'un" droit à l'oubli "? Ou comment supprimer les archives Internet". Mondaq. Récupéré 8 mars 2019.
  84. ^ McVeigh, Glennys (16 octobre 2014). Philpott, James; Weissman, Adam; Bucholz, Ren; Bouilloires, Brent; Pearl, Aaron (éd.). «Davydiuk c. Internet Archive Canada, 2014 CF 944». CanLII. Fédération des ordres professionnels de juristes du Canada. Récupéré 8 mars 2019.
  85. ^ Southcott, Richard F. (30 novembre 2016). Philpott, John; Alton, Alex; Bucholz, Ren (éd.). «Davydiuk c. Internet Archive Canada et Internet Archive, 2016 CF 1313 (CanLII)». CanLII. Ottawa, Ontario: Fédération des ordres professionnels de juristes du Canada. Récupéré 8 mars 2019.
  86. ^ Conger, Kate. "Sauvegarde de l'histoire d'Internet au Canada pour le sauver de Trump". TechCrunch. Archivé de l'original le 27 décembre 2016. Récupéré 14 mai 2017.
  87. ^ "Où trouver ce qui a disparu en ligne, et bien plus encore: les archives Internet". Public Radio International. Archivé de l'original le 28 mars 2017. Récupéré 14 mai 2017.
  88. ^ Chirgwin, Richard. "Il n'y a pas de retour en Russie: Poutine bloque Archive.org". Archivé de l'original le 7 octobre 2016. Récupéré 14 mai 2017.
  89. ^ "La Russie ne reviendra pas, bloque les archives Internet". Tendances numériques. 26 juin 2015. Archivé de l'original le 17 avril 2016. Récupéré 14 mai 2017.
  90. ^ "В России разблокирован крупнейший интернет-архив". Российская газета (en russe). Récupéré 18 octobre 2020.
  91. ^ "Aidez-nous à garder les archives libres, accessibles et privées pour le lecteur | Blogs d'archives Internet". 29 novembre 2016. Archivé de l'original le 21 mai 2017. Récupéré 14 mai 2017.
  92. ^ https://www.engadget.com/2013-11-07-wayback-machine-internet-archive-fire.html
  93. ^ "Internet Archive: les modifications proposées au DMCA nous feraient" Censurer le Web"". Consommateur. 7 juin 2016. Archivé de l'original le 11 novembre 2016. Récupéré 14 mai 2017.
  94. ^ Herbe, Ulrich. "Die Trump-Angst grassiert" (en allemand). heise en ligne. Archivé de l'original le 7 décembre 2016. Récupéré 14 mai 2017.
  95. ^ LaFrance, Adrienne. "L'âge sombre d'Internet". L'Atlantique. Archivé de l'original le 7 mai 2017. Récupéré 14 mai 2017.
  96. ^ "Tout Internet sera archivé au Canada pour le protéger de Trump". Carte mère. 29 novembre 2016. Archivé de l'original le 16 mai 2017. Récupéré 14 mai 2017.
  97. ^ LaFrance, Adrienne (3 juin 2016). "La peur humaine de la connaissance totale". L'Atlantique. Archivé de l'original le 2 décembre 2016. Récupéré 14 mai 2017.

Liens externes

Pin
Send
Share
Send