Etapas de digitalização de documentos para fazer via crowdsourcing

Etapas de digitalização de documentos para fazer via crowdsourcing

Imagine a seguinte situação: sua empresa precisa digitalizar centenas de papéis, milhares de documentos. Esse processo facilita (e muito) a pesquisa e localização de informações, permite armazenamento seguro em servidores e poupa espaço físico. Perfeito, não? Mas, e o trabalho para fazer tudo isso? É um tipo de serviço delicado e que leva um considerável tempo para ser realizado. A digitalização de documentos não é apenas digitalizar uma folha e salvar a imagem no computador. Essa é apenas uma etapa do processo todo. Gráficas e bureaus oferecem esse tipo de serviço. Porém, até eles podem terceirizar algumas etapas para entregar um resultado mais rápido e de melhor qualidade. Quer saber como? Via crowdsourcing!

Digitalização de documentos com microtarefas

É possível colocar na Internet tarefas simples para uma quantidade enorme de profissionais liberais realizarem simultaneamente. Vamos dar um exemplo (dentre vários) em etapas para você entender como as várias etapas podem ser feitas por diferentes empresas e pessoas:

  1. Uma empresa quer digitalizar todo seu acervo de papéis para armazenamento e rápida procura de informações. Essa empresa irá enviar os documentos à uma gráfica, provavelmente.
  2. A gráfica ou bureau recebe os documentos. Vamos imaginar que é uma quantidade enorme de papéis, um arquivo que enche uma sala grande inteira. Nesse caso, várias gráficas (parceiras) podem receber uma parte dos documentos e começar, simultaneamente, o processo de digitalização. Ou seja, várias entidades ajudando a completar o trabalho de uma empresa, que é conceito de crowdsourcing.
  3. A partir daí, esses arquivos digitais são transformados em imagens. Muitas vezes a digitalização rápida e em grande escala produz uma imagem nítida e reta. Então, designers entram em ação para deixar a imagem com fundo branco real e corrigir folhas tortas e sem foco. Novamente, cada parte do acervo pode ser enviado a diferentes profissionais para trabalho simultâneo.
  4. Agora entra a etapa do OCR, tecnologia ótica que reconhece os caracteres de uma imagem e transcorre em arquivos de texto. Constantemente essa tecnologia vem sendo aprimorada. Surgiu em 1953 pela IBM, mas até hoje ela não é perfeita. Justamente por conta de ruídos no processo de digitalização e tipografia do texto. Programas de computador podem ler todas as páginas digitalizadas e salvá-las em um documento editável, como um .doc. Novamente, é possível economizar tempo nessa etapa através do crowdsourcing.
  5. O texto salvo pelo OCR possivelmente terá falhas em sua página. Então, é necessário uma revisão, comparando com a imagem digitalizada. Isso pode ser feito por um time de revisores que recebem ambos os arquivos e já corrigem todo o português necessário.
  6. Por fim, todos esses arquivos devem ser classificados por ordem cronológica e segmento e colocados em um servidor, que pode ser local ou terceirizado na nuvem.

Uma outra alternativa para esse processo é a criação de programas onde voluntários podem participar. É o que a Biblioteca Nacional da Finlândia resolveu fazer. Ela possui milhões de páginas e conta, hoje, com mais de 25 mil voluntários. Mas o que ela fez? Produziu um jogo onde as pessoas devem escrever a palavra que aparece na tela. O programa captava a resposta e aos poucos formava todo o livro digitalizado. Um outro jogo mostra duas palavras digitalizadas e o jogador deve dizer se elas são iguais ou não. Além disso, o projeto Captcha combina um passo de segurança com a digitalização de acervos públicos também. Em uma operação na Internet, você já deve ter passado por ele. Ele te mostra duas palavras em forma de imagem. O programa conhece uma delas, portanto se você digita-la corretamente passará pelo nível de segurança e, automaticamente, o programa entende que você também digitou a segunda corretamente. Assim, ele envia os caracteres dessa imagem para dentro do projeto de digitalização. Bem legal, não? Ganhe dinheiro executando tarefas simples pela Internet. Crowdsourcing é isso! Estude o que dá muito trabalho (tempo + dinheiro) para sua empresa e terceirize. E você, que etapas de digitalização de documentos você pode fazer via crowdsourcing? Conte para a gente nos comentários abaixo! Imagem: OpenSource.com via Flickr Creative Commons.

Submit a Comment

O seu endereço de e-mail não será publicado.