A preservação de dados digitais: o projeto Internet Archive

Fonte: Internet Archive

O desejo de preservar o conhecimento humano e torná-lo disponível para todos, surgiu em tempos remotos e perdura até tempos atuas. A título de exemplo a Biblioteca de Alexandria, que na antiguidade reuniu um grande acervo documental e na atualidade é guardiã do maior arquivo de documentos produzidos digitalmente. Assim, considerando grande volume de informações produzidas com a popularização da Internet na década de 1990, e o fato de que essas informações, na sua maioria, tem curto tempo de vida útil, visto que muitas são abandonadas e/ou descontinuadas, suscitou a preocupação em preservar essas informações, e favorecer o livre acesso. Surgiu, nesse sentido, diversos projetos, sendo o maior deles o Internet Archive. Dentre os diversos programas (projetos) mantidos pelo Internet Archive, destaca-se o WaybackMachine, uma ferramenta responsável por capturar e arquivar toda página web veiculada na Internet desde sua popularização, grande parte desse arquivo se encontra na Biblioteca de Alexandria.A Internet Archive diz respeito a uma organização sem fins lucrativos dedicada a manter um arquivo de recursos multimídia, como: páginas web, software, filmes, livros, imagens e áudio. Foi Fundada por Brewster Kahle em 1996 e se localiza em São Francisco, Califórnia.

Os programas desenvolvidos pela Internet Archive tem parcerias com mais de 450 bibliotecas espalhadas pelo mundo e diversas organizações afins, dentre eles:

OpenLibrary.org – composto por dois grandes momentos:

1) A biblioteca livre, digital, com mais de 2 milhões de eBooks que podem ser lidos em um navegador ou baixados para leitura off-line.

2) Um projeto único para construir uma página web para cada livro já publicado. Mais de 20 milhões de livros já tem uma página no OpenLibrary.org .

É um projeto Open – o software é aberto, os dados são abertos, a documentação está aberta, e o site é aberto. Qualquer pessoa pode participar deste projeto, seja um bibliotecário que deseja adicionar registros de livros digitalizados para o seu catálogo local, um amante dos livros que quer ter certeza que seus favoritos são bem representados, um leitor que quer encontrar um bom livro para ler de graça, ou um programador que quer construir algo novo em cima desses dados.

Serviços de Digitalização

Internet Archive pode digitalizar suas coleções e fornecer acesso aberto e gratuito, armazenamento permanente, downloads ilimitados, e gerenciamento de arquivos. Internet Archive digitalizou mais de 600 milhões de páginas com parceiros que vão desde a Biblioteca do Congresso e a Smithsonian até a New York Public Library, Harvard e MIT.

Arquivo software

O Arquivo Software é projetado para preservar e dar acesso a todos os títulos de software raro ou difícil de encontrar, disponibilizados, legalmente para download e para informações básicas sobre esses títulos. A coleção inclui uma ampla gama de materiais relacionados com software, incluindo shareware, freeware, notícias, vídeo releases sobre títulos de software, previews e promoções. O arquivo possui variados gêneros de jogos.

The Open Content Alliance

The Open Content Alliance (OCA) é um esforço colaborativo de organizações culturais, tecnológicas, sem fins lucrativos e organizações não-governamentais de todo o mundo que ajuda a construir um arquivo permanente de material de texto e multimídia digitalizado multilíngue. Um arquivo do material está disponível no site da Internet Archive e através de Yahoo! e outros motores de busca e sites.

Archive-It

Primeiro implantado em 2006, Archive-It é um serviço de subscrição de arquivamento da web que ajuda as organizações a coletar, construir e preservar coleções de conteúdo digital. Através de uma aplicação web amigável, os usuário Archive-It parceiros podem coletar, catalogar e gerenciar suas coleções arquivadas, acessar e pesquisar textos completos, bem como seus patronos. O conteúdo é organizado e armazenado nos centros de dados da Internet Archive. Mais de 240 organizações parceiras em 46 estados americanos e 15 países utilizam atualmente Archive-It, incluindo arquivos estaduais e bibliotecas, bibliotecas de universidades, instituições federais, museus, ONGs e bibliotecas públicas.

BookServer

O projeto BookServer fornece uma arquitetura aberta para vending, empréstimo e distribuição de livros pela Internet. Construído em padrões abertos, o modelo BookServer permite uma ampla rede de editores, livreiros, bibliotecas e outras para fazer seus catálogos de livros, no sentido de disponibilizá-los diretamente aos leitores, através de seus laptops, notebooks, netbooks, tablets, celulares, ou dispositivos de leitura dedicados.

Petabox

O PetaBox foi customizado pela equipe do Internet Archive para armazenar com segurança e processar um PetaByte (um milhão de GigaBytes) de informação. O objetivo era fazer um sistema de armazenamento de baixa potência, de alta densidade, fácil de escalar e manter, e de baixo custo. PetaBoxes estão agora em uso em grandes instituições acadêmicas e agências governamentais. A Internet Archive possui mais de 10 PetaBytes de tecnologia de armazenamento PetaBox e está se expandindo de forma constante.

Educação

Recursos Educativos, contendo centenas de cursos gratuitos, palestras de vídeo e materiais complementares de universidades dos Estados Unidos e da China.

Bookmobile

O Bookmobile é uma biblioteca digital móvel capaz de baixar livros de domínio público da Internet via satélite e imprimi-los a qualquer hora, em qualquer lugar, para qualquer um. O Bookmobile tem viajado pelos Estados Unidos, e as versões construídas e utilizadas no Egito e Uganda.

Redes abertas comunitárias

Projeto comunitário Redes da Internet Archive oferece acesso de alta velocidade à Internet com e sem fio para os moradores de San Francisco. O projeto evoluiu muito desde a sua criação em 1997, e atualmente trabalha com a cidade e o condado de San Francisco, fornece gratuitamente, internet de alta velocidade para moradores de baixa renda de San Francisco.

301Works.org

301Works.org é um serviço independente para o arquivamento e mapeamentos de URL.

WaybackMachine

Arquivo da Web da Internet Archive, lançado em 1996, contém mais de 2 PetaBytes de dados compactados, ou mais de 435 bilhões de captações da web, mais de 200 milhões de sites, em mais de 40 idiomas. Atualmente o acervo da Internet Archive, em números, possui 279 bilhões de páginas da web, 11 milhões de livros e textos, 4 milhões de gravações de áudio (incluindo 160 mil concertos ao vivo), 3 milhões de vídeos (incluindo 1 milhão de programas de televisão) 1 milhão de imagens e 100.000 programas de software.

Apesar de todo o esforço da Internet Archive em preservar as informações veiculadas através da Internet, barreiras burocráticas impostas por alguns países, como o Brasil, por exemplo, que ainda não tem uma política voltada para a questão bem definida, nem todas as informações foram capturadas através do WaybackMachine. Além disso, a questão do direito autoral, que também representa um empecilho ao desenvolvimento do projeto.

Assim, milhões de dados foram perdidos, principalmente no que tange à questão das redes sociais. Como por exemplo, o Geocities, que na década de 1990 era um dos mais acessados em escala mundial, foi descontinuado em 2009, onde quase tudo se perdeu, encontra-se apenas alguns resquícios, nos arquivos da Internet Archive, da sua existência. Da mesma forma o Orkut que ficou no ar entre 2004 e 2011, onde muito do cotidiano dos usuários era registrado, como as informações que envolveram as questões econômicas, sociais, políticas e culturais daquele período, como por exemplo a ascensão da classe C, dramas pessoais e outros, hoje é inacessível.

Enfim, o WaybackMachine captura dados abertos, o que o impede de capturar dados veiculados, por exemplo, na mais acessada rede social da atualidade: o Facebook, por se tratar de dados privados, pessoais. E pode está sujeita ao mesmo destino das que vieram antes e muito será perdido.

Fonte: https://archive.org/

otaviosena
otaviosena
Artigos: 1

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *