MATRIX
Nivel 2
- 65
- 67
Si tienes un blog, publicas artículos en tu sitio o gestionas un portal de noticias, corres el riesgo de que un día alguien robe tu contenido.
Ocurre constantemente: los ladrones copian contenidos para publicarlos tal cual, o bien los reescriben para que parezcan nuevos.
Pero por si esto no es suficiente, puede pasar que la copia te supere en los resultados de búsqueda. De modo que el ladrón no sólo se adjudica el mérito por tu trabajo, sino que encima se lleva el tráfico con él.
El motivo más común por el que esto ocurre es que el contenido copiado se ha indexado antes que el tuyo. Otras veces, el buscador asume que la fuente original es el sitio de mayor autoridad.
¿Cómo te proteges?
Bien, no puedes cambiar el funcionamiento de Google, pero sí prevenir sus errores. En este post te explico cómo obtener el crédito por tus contenidos, además de enseñarte a detectar el robo, bloquearlo y gestionarlo. Sólo tienes que seguir los pasos siguientes.
1. Retrasa la publicación del feed
Aunque el feed RSS es un medio fabuloso para distribuir tus contenidos, es también la fuente de la que beben los scrapers. Sólo por si no lo sabes, un scraper es un software robot que extrae la información de tu feed para publicarla en otros sitios.
Normalmente no tendrás problemas si tu página se indexa en primer lugar. Pero si por alguna razón la copia del scraper llega antes a los índices de búsqueda, tus posibilidades de rankear van a ser escasas por tratarse de contenido duplicado.
Un método para evitar esto consiste en retrasar la publicación del feed. Por ejemplo, 10 minutos de retardo. De esta forma das tiempo al buscador para indexar tus contenidos antes que cualquier pueda consumirlos por RSS.
Implementar el retraso en el feed es sencillo. Si usas WordPress sólo tienes que pegar el siguiente código en el archivo functions.php. La cantidad de tiempo viene determinada por la variable &wait:
function retrasar_feed($where) {
global $wpdb;
if ( is_feed() ) {
$now = gmdate(‘Y-m-d H:i:s’);
$wait = ’10’;
$device = ‘MINUTE’;
$where .= ” AND TIMESTAMPDIFF($device, $wpdb->posts.post_date_gmt, ‘$now’) > $wait “;
}
return $where;
}
add_filter(‘posts_where’, ‘retrasar_feed’);
Si prefieres no tocar código en tu sitio, puedes usar un plugin como RSS Manager.
2. Renombra el sitemap
Una forma de extraer el contenido de tu sitio consiste en usar el mapa del sitio como punto de partida y seguir los enlaces. Dado que el propósito de un Sitemap es señalar todas las páginas indexables del sitio, es uno de los métodos más sencillos de acceder al contenido que te importa.
Afortunadamente hay una forma de evitar que alguien encuentre tu Sitemap, y es tan sencilla como cambiarle el nombre. Porque quizá no lo sepas, pero no necesitas que el mapa del sitio se llame “sitemap”, sino que puedes darle el nombre que quieras.
Una vez lo hayas renombrado a tu gusto, evita reflejarlo en el archivo robots.txt, ya que cualquiera podría verlo. En su lugar puedes dejar un sitemap de pega y subir el bueno al buscador con las Herramientas para webmasters.
3. Añade un enlace a la fuente
Lo que es una buena idea (además de una práctica SEO recomendable) es salpicar tus contenidos con enlaces internos. Así, aunque no puedas evitar que copien tu contenido, al menos podrás conseguir algo de tráfico para tu sitio.
No obstante, hay algo más importante que poner enlaces a páginas internas, y es incluir un enlace a la página original. El motivo es sencillo: Google considera esta señal como un indicador fiable de la fuente del contenido.
Puedes añadir el enlace de dos maneras:
4. Envía la página al buscador
Si tienes un sitio nuevo Google va a tardar mucho en indexar cada nueva página. Te voy a explicar un método para acelerar el proceso.
Nada más publicar, haz lo siguiente:
5. Crea alertas en Google
Una vez has publicado tu entrada, puedes detectar copias robadas mediante las Alertas de Google. Cada vez que el buscador encuentre una copia, te enviará un email.
Para ello, configura el servicio como sigue:
6. Usa Copyscape Premium
Otra forma de detectar copias de tu contenido es mediante CopyScape. La versión gratuita permite introducir una URL de tu sitio para buscar duplicados a lo largo y ancho de la Web.
El problema es que cuando tienes un sitio con cientos o miles de páginas esta función se queda corta. Afortunadamente hay una versión capaz de analizar el sitio entero de un plumazo.
Entre otras funciones, CopyScape Premium permite:
7. Bloquea a los scrapers
Los scrapers se sirven de tu feed RSS para copiar tus contenidos. Pero si averiguas sus IPs puedes impedirles el acceso en tu servidor.
Para ello, inserta el siguiente código en el archivo .htaccess:
Order allow, deny
Deny from 192.0.2.1/24
Allow from all
En el ejemplo, cada vez que un visitante trate de acceder a tu servidor desde la IP 192.0.2.1/24, será bloqueado.
Ahora bien, hay un par de situaciones en las que este método no funciona. La primera es cuando usas un servicio como Feedburner, ya que los scrapers acceden a otro servidor. Y la segunda es cuando los scrapers operan desde una IP diferente al dominio donde publican el contenido. Así que no es infalible.
8. Emplea CloudFlare
La tecnología de CloudFlare no sólo sirve para acelerar tu sitio, sino también para protegerlo. Funciona a modo de proxy inverso, situándose entre tus visitantes y tu hosting como una capa adicional de seguridad.
Cada vez que alguien solicita una página de tu sitio, CloudFlare realiza un análisis en base a varias características, como la dirección IP del visitante, los recursos solicitados, la carga que supone al servidor, la frecuencia de las peticiones, etc. Si el visitante resulta ser malicioso (p.e. un scraper, un hacker o un spammer), lo bloquea antes de que ni siquiera pueda acceder al servidor.
Para usar CloudFlare no necesitas hacer ningún tipo de cambio en el sitio. De hecho, puedes mantener el mismo proveedor de hosting. Lo único que tienes que hacer es configurar las DNS de tu dominio para que apunten a sus servidores. Aquí tienes una guía paso a paso.
9. Gestiona la situación
Si has seguido los consejos que te he dado hasta ahora, tu contenido estará mucho más seguro que antes. Sin embargo, queda una cuestión pendiente: ¿qué haces con el contenido que ya te han robado?
Bien, puedes hacer un par de cosas:
Por otro lado, es bueno pensar que si alguien está robando tus contenidos es porque merecen la pena. Obviamente no es la mejor manera de recibir el cumplido, pero al menos es una señal de que lo estás haciendo bien, ¿no crees?
¿Qué otros métodos usas para combatir el robo de contenidos?
Ocurre constantemente: los ladrones copian contenidos para publicarlos tal cual, o bien los reescriben para que parezcan nuevos.
Pero por si esto no es suficiente, puede pasar que la copia te supere en los resultados de búsqueda. De modo que el ladrón no sólo se adjudica el mérito por tu trabajo, sino que encima se lleva el tráfico con él.
El motivo más común por el que esto ocurre es que el contenido copiado se ha indexado antes que el tuyo. Otras veces, el buscador asume que la fuente original es el sitio de mayor autoridad.
¿Cómo te proteges?
Bien, no puedes cambiar el funcionamiento de Google, pero sí prevenir sus errores. En este post te explico cómo obtener el crédito por tus contenidos, además de enseñarte a detectar el robo, bloquearlo y gestionarlo. Sólo tienes que seguir los pasos siguientes.
1. Retrasa la publicación del feed
Aunque el feed RSS es un medio fabuloso para distribuir tus contenidos, es también la fuente de la que beben los scrapers. Sólo por si no lo sabes, un scraper es un software robot que extrae la información de tu feed para publicarla en otros sitios.
Normalmente no tendrás problemas si tu página se indexa en primer lugar. Pero si por alguna razón la copia del scraper llega antes a los índices de búsqueda, tus posibilidades de rankear van a ser escasas por tratarse de contenido duplicado.
Un método para evitar esto consiste en retrasar la publicación del feed. Por ejemplo, 10 minutos de retardo. De esta forma das tiempo al buscador para indexar tus contenidos antes que cualquier pueda consumirlos por RSS.
Implementar el retraso en el feed es sencillo. Si usas WordPress sólo tienes que pegar el siguiente código en el archivo functions.php. La cantidad de tiempo viene determinada por la variable &wait:
function retrasar_feed($where) {
global $wpdb;
if ( is_feed() ) {
$now = gmdate(‘Y-m-d H:i:s’);
$wait = ’10’;
$device = ‘MINUTE’;
$where .= ” AND TIMESTAMPDIFF($device, $wpdb->posts.post_date_gmt, ‘$now’) > $wait “;
}
return $where;
}
add_filter(‘posts_where’, ‘retrasar_feed’);
Si prefieres no tocar código en tu sitio, puedes usar un plugin como RSS Manager.
2. Renombra el sitemap
Una forma de extraer el contenido de tu sitio consiste en usar el mapa del sitio como punto de partida y seguir los enlaces. Dado que el propósito de un Sitemap es señalar todas las páginas indexables del sitio, es uno de los métodos más sencillos de acceder al contenido que te importa.
Afortunadamente hay una forma de evitar que alguien encuentre tu Sitemap, y es tan sencilla como cambiarle el nombre. Porque quizá no lo sepas, pero no necesitas que el mapa del sitio se llame “sitemap”, sino que puedes darle el nombre que quieras.
Una vez lo hayas renombrado a tu gusto, evita reflejarlo en el archivo robots.txt, ya que cualquiera podría verlo. En su lugar puedes dejar un sitemap de pega y subir el bueno al buscador con las Herramientas para webmasters.
3. Añade un enlace a la fuente
Lo que es una buena idea (además de una práctica SEO recomendable) es salpicar tus contenidos con enlaces internos. Así, aunque no puedas evitar que copien tu contenido, al menos podrás conseguir algo de tráfico para tu sitio.
No obstante, hay algo más importante que poner enlaces a páginas internas, y es incluir un enlace a la página original. El motivo es sencillo: Google considera esta señal como un indicador fiable de la fuente del contenido.
Puedes añadir el enlace de dos maneras:
- En el feed RSS – Dado que los scrapers suelen robar contenido de ahí, puedes obtener el crédito añadiendo un enlace al final del artículo en el feed. Yoast incluye esta función en su plugin WordPress SEO, pero si usas otro plugin de SEO o Génesis no hay problema, también tienes el plugin RSS footer.
- Al copiar y pegar – Tynt auto-inserta un enlace cuando alguien copia y pega texto desde tu sitio, lo que puede animar al usuario a citar la fuente. Además, ofrece estadísticas interesantes sobre el número de copias realizadas, los enlaces ganados y el tráfico generado.
4. Envía la página al buscador
Si tienes un sitio nuevo Google va a tardar mucho en indexar cada nueva página. Te voy a explicar un método para acelerar el proceso.
Nada más publicar, haz lo siguiente:
- Accede a las Herramientas para webmasters de Google
- Dirígete al menú Rastreo > Explorar como Google
- Introduce la URI del post y pulsa en Obtener
- Para terminar, envía al índice la página
5. Crea alertas en Google
Una vez has publicado tu entrada, puedes detectar copias robadas mediante las Alertas de Google. Cada vez que el buscador encuentre una copia, te enviará un email.
Para ello, configura el servicio como sigue:
- Consulta – Introduce el título del post entre comillas. Si quieres estar más seguro, puedes crear algunas variantes para fragmentos del post. También entre comillas.
- Tipo de resultado – Te interesa cubrirlos todos.
- Frecuencia – Cuando se produzca, para poder actuar cuanto antes.
- Cantidad – Todos los resultados.
6. Usa Copyscape Premium
Otra forma de detectar copias de tu contenido es mediante CopyScape. La versión gratuita permite introducir una URL de tu sitio para buscar duplicados a lo largo y ancho de la Web.
El problema es que cuando tienes un sitio con cientos o miles de páginas esta función se queda corta. Afortunadamente hay una versión capaz de analizar el sitio entero de un plumazo.
Entre otras funciones, CopyScape Premium permite:
- Comprobar todo el sitio – La búsqueda por lotes o batch search busca copias de hasta 10.000 páginas de tu sitio en una única operación.
- Comparar el contenido – Cuando se da un positivo, tienes la posibilidad de ver la comparación palabra por palabra, resaltando las coincidencias en color.
- Gestionar casos de plagio – También puedes hacer el seguimiento de cada uno de los casos de plagio encontrados.
- Excluir ciertas páginas – Tanto si publicas el mismo contenido en varias páginas de tu propiedad como si tienes permiso para reutilizar contenidos, puedes filtrar múltiples sitios para que no sean tenidos en cuenta.
7. Bloquea a los scrapers
Los scrapers se sirven de tu feed RSS para copiar tus contenidos. Pero si averiguas sus IPs puedes impedirles el acceso en tu servidor.
Para ello, inserta el siguiente código en el archivo .htaccess:
Order allow, deny
Deny from 192.0.2.1/24
Allow from all
En el ejemplo, cada vez que un visitante trate de acceder a tu servidor desde la IP 192.0.2.1/24, será bloqueado.
Ahora bien, hay un par de situaciones en las que este método no funciona. La primera es cuando usas un servicio como Feedburner, ya que los scrapers acceden a otro servidor. Y la segunda es cuando los scrapers operan desde una IP diferente al dominio donde publican el contenido. Así que no es infalible.
8. Emplea CloudFlare
La tecnología de CloudFlare no sólo sirve para acelerar tu sitio, sino también para protegerlo. Funciona a modo de proxy inverso, situándose entre tus visitantes y tu hosting como una capa adicional de seguridad.
Cada vez que alguien solicita una página de tu sitio, CloudFlare realiza un análisis en base a varias características, como la dirección IP del visitante, los recursos solicitados, la carga que supone al servidor, la frecuencia de las peticiones, etc. Si el visitante resulta ser malicioso (p.e. un scraper, un hacker o un spammer), lo bloquea antes de que ni siquiera pueda acceder al servidor.
Para usar CloudFlare no necesitas hacer ningún tipo de cambio en el sitio. De hecho, puedes mantener el mismo proveedor de hosting. Lo único que tienes que hacer es configurar las DNS de tu dominio para que apunten a sus servidores. Aquí tienes una guía paso a paso.
9. Gestiona la situación
Si has seguido los consejos que te he dado hasta ahora, tu contenido estará mucho más seguro que antes. Sin embargo, queda una cuestión pendiente: ¿qué haces con el contenido que ya te han robado?
Bien, puedes hacer un par de cosas:
- Establecer contacto – Este debería ser siempre el primer paso. Si no consigues que eliminen el contenido, intenta obtener al menos un enlace al artículo original. De esta forma será más fácil que tanto Google como los usuarios puedan identificar al autor real del contenido.
- Solicitar la eliminación del resultado – Cuando la comunicación falla otra opción es pedir a Google que elimine el contenido de sus resultados. Si además resulta que el contenido copiado te rebasa en los rankings, puedes enviar un reporte de contenido copiado. Éste último no eliminará el resultado, pero ayudará al buscador a mejorar la detección de copias.
Por otro lado, es bueno pensar que si alguien está robando tus contenidos es porque merecen la pena. Obviamente no es la mejor manera de recibir el cumplido, pero al menos es una señal de que lo estás haciendo bien, ¿no crees?
¿Qué otros métodos usas para combatir el robo de contenidos?