Jak pobrać stronę jako googlebot?

Paź 01
2012

W trakcie tworzenia serwisu, bądź jego późniejszej optymalizacji może zajść uzasadniona potrzeba, aby pobrać naszą stronę jako Googlebot. Potrzeba ta zachodzi, ponieważ roboty sieciowe widzą nasz kod źródłowy nieco inaczej, niż zwykły użytkownik. Roboty nie potrafią wykonywać zaawansowanych instrukcji JavaScript, ani odczytywać treści z plików flashowych. Pobranie strony jako Googlebot może okazać się także przydatne, kiedy wymieniamy się linkami SEO z jakąś stroną. Sprawdzenie takiej strony pomoże nam ocenić, czy wymieniany link jest widoczny dla robota, a co za tym idzie, wartościowy pod kątem pozycjonowania.

 

Rozpoznajemy robota sieciowego Google

Przygotujmy stronę, która będzie wyświetlać pewien tekst. Dodatkowo, dodajmy do niej skrypt napisany w PHP, który po wykryciu Googlebota wyświetli dodatkową treść. Rozpoznania dokonamy w najprostszy możliwy sposób, analizując nagłówek User Agent klienta odwiedzającego naszą stronę.

<!DOCTYPE html>
<html>
<head>
	<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
	<title>Strona testowa dla Googlebota</title>
</head>
<body>
 
<p>
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumyeirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diamvoluptua. At vero eos et accusam et justo duo dolores et
</p>
 
<?php
$userager = $_SERVER['HTTP_USER_AGENT'];
$array = array("Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)", "Googlebot/2.1 (+http://www.googlebot.com/bot.html)", "Googlebot/2.1 (+http://www.google.com/bot.html)");
 
if(in_array($userager, $array)) {
	echo "<p>Tekst widziany tylko dla Googlebota</p>";
}
?>
 
</body>
</html>

 

Oszukujemy system

Do odczytania ukrytej dla zwykłych śmiertelników treści użyjemy biblioteki cURL, podając jako nagłówek User Agent jeden z nagłówków, którymi posługuje się Googlebot.

<?php
$curl = curl_init();
curl_setopt_array(
    $curl, 
    array(
        CURLOPT_URL        => 'http://example.com',
        CURLOPT_RETURNTRANSFER    => TRUE,
        CURLOPT_COOKIEFILE    => '/tmp/gb.cookie',
        CURLOPT_COOKIEJAR    => '/tmp/gb.cookie',
        CURLOPT_USERAGENT    => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'
    )
);
$wynik = curl_exec($curl);
echo $wynik;
curl_close($curl);
?>

Po uruchomieniu powyższego skryptu, do zmiennej $wynik zostanie przypisana zawartość strony, z ukrytym początkowo tekstem.

 

Metoda niedoskonała

Należy pamiętać, że Googlebot posługuje się specyficznymi adresami IP oraz przypisanymi do nich hostami. Co za tym idzie, nie zawsze uda nam się pod niego podszyć, jeśli dana strona weryfikuje i te dane. Jednak w celu prostej analizy naszej witryny pod kątem SEO ta metoda w zupełności powinna nam wystarczyć.

66.249.64.13 – crawl-66-249-64-13.googlebot.com

66.249.64.14 – crawl-66-249-64-14.googlebot.com

[…]

 

Droga na skróty

Osoby mniej cierpliwe, które nie chcą posługiwać się skryptem, mogą zainteresować się dodatkiem do przeglądarki, który w locie zmienia używany przez nas nagłówek User Agent. Przykładem może być tutaj User Agent Switcher.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *