Proteção contra cópia de conteúdo de blogs
May 17, 2007 on 12:38 am | In SEO, pressdelete, rss, web20 | No CommentsAssisti hoje a uma discussão sobre o uso de ferramentas para reproduzir posts de um conjunto de blogs em um outro, automaticamente. A intenção nem era fazer blog scraping, a abominável prática de roubar conteúdo alheio para aumentar a relevância de seu site, mas agregar posts de vários blogs “irmãos” sob uma única home. Vão testar o RSStoBlog, um programa vendido num site pra lá de tosco, para ver se resolve. Depois eu conto o resultado.
Mas o assunto me lembrou um selo que observei dias atrás num blog americano: “Page protected by Copyscape. Do not copy”. Tratei de pesquisar o tal de Copyscape e descobri que é uma ferramenta de busca de conteúdo plagiado. Você fornece a URL do seu site e ele faz uma busca pelo seu texto, dedurando os possíveis plagiadores. O serviço gratuito é limitado a 20 buscas por mês e retorna apenas quatro resultados para cada, mas já dá para ver como funciona.
Testei com este blog mesmo e os resultados de fato eram cópias do meu conteúdo. Duas oficiais, nos sites de onde reproduzo minhas próprias colunas, e duas cópias indevidas desses mesmos sites. Na versão paga (US$ 0,05 por busca, comprados em créditos pré-pagos), dá para automatizar as buscas, receber alertas de cópia e manter um registro das providências tomadas em cada caso.
Só que o serviço, na verdade, não previne nada – apenas ajuda a descobrir as cópias, coisa que se pode fazer direto no Google, com um pouco mais de trabalho. O efeito preventivo somente existirá se os banners tiverem alguma influência psicológica/moral sobre o copiador em potencial. Será que alguém deixa de plagiar um site só por causa de um aviso desses, ou isso não assusta ninguém?
Os sites de notícias sabem usar RSS?
May 8, 2007 on 12:59 pm | In midia, pressdelete, rss, web20 | No CommentsO International Center for Media and the public Agenda fez um estudo sobre a oferta de RSS de quase 20 sites jornalísticos internacionais. Confira a pontuação de cada um deles em quatro quesitos e uma análise dos resultados do trabalho.
O maior problema parece ter sido o envio apenas de conteúdo produzido pela equipe do próprio site, mas não o originado em agências de notícias. Deve ser por questões contratuais, mas eu insisto no argumento que já usei em algumas negociações: se o RSS é um arquivo XML publicado no mesmo lugar que as páginas “comuns” de um site, não há, tecnicamente, “envio” de conteúdo. É o agregador que vai lá buscar uma página web e entrega pro usuário, como se fosse um browser. Não vejo porque quererem licenciar isso em separado.
Em tempo: acho que os maiores erros de implementação de RSS são a falta de um XLST que torne os XMLs “human-readable”, deixando exposto aquele código que dá ao usuário iniciante a sensação de que o site “deu erro”; e os links dos selinhos “XML” para um índice geral de feeds com a explicação do recurso, e não para o feed em questão.
Powered by WordPress with Pool theme design by Borja Fernandez.
Entries and comments feeds.
Valid XHTML and CSS. ^Top^