wordpress SEO之搜索引擎蜘蛛抓取信息记录插件代码

2016-08-28 zhangli 0 0 阅读需要2-5分钟

  国内使用wordpress做博客程序的是主流,包括我的博客也是使用wordpress的,作为一个SEO控怎么能不安装一些SEO的插件,同时 又怎么会不关注搜索引擎蜘蛛在网站上的爬行抓取 情况呢?每天使用光年SEO日志分析系统查看我们网日志中蜘蛛的爬行情况是一件比较麻烦的事情,所以看到网上有搜索引擎蜘蛛抓取信息记录代码,就果断的安装在自己的wordpress博客中了。

wordpress搜索引擎蜘蛛抓取信息记录插件代码安装方法:

  找到您wordpress系统当前使用模板力的模板中的函数functions.php里,直接将下面的代码贴到你functions.php文件里最后一个?(问号)后面就行了;

<?php

//自动分析蜘蛛
make_log_file();
function make_log_file(){
        //log文件名
	$filename = 'mylogs.txt';
        //去除rc-ajax评论以及cron机制访问记录
	if(strstr($_SERVER["REQUEST_URI"],"rc-ajax")== false
		&& strstr($_SERVER["REQUEST_URI"],"wp-cron.php")== false ) {
		$word .= date('mdHis',$_SERVER['REQUEST_TIME'] + 3600*8) . " ";
                //访问页面
		$word .= $_SERVER["REQUEST_URI"] ." ";
                //协议
		$word .= $_SERVER['SERVER_PROTOCOL'] ." ";
                //方法,POST OR GET
		$word .= $_SERVER['REQUEST_METHOD'] . " ";
		//$word .= $_SERVER['HTTP_ACCEPT'] . " ";
                //获得浏览器信息
		$word .= getbrowser(). " ";
                //传递参数
		$word .= "[". $_SERVER['QUERY_STRING'] . "] ";
                //跳转地址
		$word .= $_SERVER['HTTP_REFERER'] . " ";
                //获取IP
		$word .= getIP() . " ";
		$word .= "\n";
		$fh = fopen($filename, "a");
		fwrite($fh, $word);
		fclose($fh);
	}
}
//获取IP地址,网上现成代码
function getIP() //get ip address
    {
        if (getenv('HTTP_CLIENT_IP'))
        {
            $ip = getenv('HTTP_CLIENT_IP');
        }
        else if (getenv('HTTP_X_FORWARDED_FOR'))
        {
            $ip = getenv('HTTP_X_FORWARDED_FOR');
        }
        else if (getenv('REMOTE_ADDR'))
        {
            $ip = getenv('REMOTE_ADDR');
        }
        else
        {
            $ip = $_SERVER['REMOTE_ADDR'];
        }
        return $ip;
    }
//获取浏览器信息,移动端,平板电脑数据还未加上。
 function getbrowser()
    {
        $Agent = $_SERVER['HTTP_USER_AGENT'];
        $browser = '';
        $browserver = '';

        if(ereg('Mozilla', $Agent) && ereg('Chrome', $Agent))
        {
            $temp = explode('(', $Agent);
            $Part = $temp[2];
            $temp = explode('/', $Part);
            $browserver = $temp[1];
            $temp = explode(' ', $browserver);
            $browserver = $temp[0];
            $browserver = $browserver;
            $browser = 'Chrome';
        }
		if(ereg('Mozilla', $Agent) && ereg('Firefox', $Agent))
        {
            $temp = explode('(', $Agent);
            $Part = $temp[1];
            $temp = explode('/', $Part);
            $browserver = $temp[2];
            $temp = explode(' ', $browserver);
            $browserver = $temp[0];
            $browserver = $browserver;
            $browser = 'Firefox';
        }
        if(ereg('Mozilla', $Agent) && ereg('Opera', $Agent))
        {
            $temp = explode('(', $Agent);
            $Part = $temp[1];
            $temp = explode(')', $Part);
            $browserver = $temp[1];
            $temp = explode(' ', $browserver);
            $browserver = $temp[2];
            $browserver = $browserver;
            $browser = 'Opera';
        }
        if(ereg('Mozilla', $Agent) && ereg('MSIE', $Agent))
        {
            $temp = explode('(', $Agent);
            $Part = $temp[1];
            $temp = explode(';', $Part);
            $Part = $temp[1];
            $temp = explode(' ', $Part);
            $browserver = $temp[2];
            $browserver = $browserver;
            $browser = 'Internet Explorer';
        }
        if($browser != '')
        {
            $browseinfo = $browser.' '.$browserver;
        }
        else
        {
            $browseinfo = $_SERVER['HTTP_USER_AGENT'];
        }
        return $browseinfo;
    }



function get_spider_log($atts) {
	extract(shortcode_atts(array(
    'text' => 'yes'),$atts));
	$fh = fopen(site_url() ."/mylogs.txt", "r");
	$contents = "";
	    while(!feof($fh)){
        $contents .= fread($fh, 8080);
    }
    fclose($fh);
	$str = "";
	$showtime=date("md");
	if($text == "yes") {
		$str.= "当天蜘蛛爬行记录:";
		$str.= "<div style='background-color:#33A1C9;color:white;text-align:center;'>以下为国内常用蜘蛛。</div>";
	}
	$mytmp = array();
	//google
	$google = 0;
	if($text == "yes")
		$str.= "<a href=http://www.google.com/bot.html target=_blank>Google Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"Googlebot\/",$text);
	$google += $mytmp[0];
	$str.= $mytmp[1];
	$mytmp = show_spider_result($showtime,$contents,"Googlebot-Image\/",$text);
	$google += $mytmp[0];
	$str.= $mytmp[1];
	$mytmp = show_spider_result($showtime,$contents,"Googlebot-Mobile\/",$text);
	$google += $mytmp[0];
	$str.= $mytmp[1];
	$mytmp = show_spider_result($showtime,$contents,"Feedfetcher-Google",$text);
	$google += $mytmp[0];
	$str.= $mytmp[1];

	// baidu
	$baidu = 0;
	if($text == "yes")
		$str.= "<br><a href=http://www.baidu.com/search/spider.html target=_blank>Baidu Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"Baiduspider\/",$text);
	$baidu += $mytmp[0];
	$str.= $mytmp[1];
	$mytmp = show_spider_result($showtime,$contents,"Baiduspider-image",$text);
	$baidu += $mytmp[0];
	$str.= $mytmp[1];

	//bing
	$bing = 0;
	if($text == "yes")
		$str.= "<br><a href=http://www.bing.com/bingbot.htm target=_blank>bingbot Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"bingbot\/",$text);
	$bing += $mytmp[0];
	$str.= $mytmp[1];
	$mytmp = show_spider_result($showtime,$contents,"msnbot-media\/",$text);
	$bing += $mytmp[0];
	$str.= $mytmp[1];

	//sogou
	$sogou = 0;
	if($text == "yes")
		$str.= "<br><a href=http://www.sogou.com/docs/help/webmasters.htm#07 target=_blank>Sogou Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"Sogou web spider\/",$text);
	$sogou += $mytmp[0];
	$str.= $mytmp[1];

	//soso
	$soso = 0;
	if($text == "yes")
		$str.= "<br><a href=http://help.soso.com/webspider.htm target=_blank>Soso Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"Sosospider\/",$text);
	$soso += $mytmp[0];
	$str.= $mytmp[1];

	if($text == "yes")
		$str.= "<div style='background-color:#FA8072;color:white;text-align:center;'>以下为垃圾蜘蛛,可屏蔽抓取。</div>";
	//jike
	$else = 0;
	if($text == "yes")
		$str.= "<a href=http://shoulu.jike.com/spider.html target=_blank>Jike Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"JikeSpider",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	//easou
	if($text == "yes")
		$str.= "<br><a href=http://www.easou.com/search/spider.html target=_blank>Easou Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"EasouSpider",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	//yisou
	if($text == "yes")
		$str.= "<br>YisouSpider:";
	$mytmp = show_spider_result($showtime,$contents,"YisouSpider",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	if($text == "yes")
		$str.= "<br><a href=http://yandex.com/bots target=_blank>YandexBot Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"YandexBot\/",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	if($text == "yes")
		$str.= "<br><a href=http://go.mail.ru/help/robots target=_blank>Mail.RU Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"Mail.RU_Bot\/",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	if($text == "yes")
		$str.= "<br><a href=http://www.acoon.de/robot.asp target=_blank>AcoonBot Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"AcoonBot\/",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	if($text == "yes")
		$str.= "<br><a href=http://www.exabot.com/go/robot target=_blank>Exabot Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"Exabot\/",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	if($text == "yes")
		$str.= "<br><a href=http://www.seoprofiler.com/bot target=_blank>spbot Spider</a>: ";
	$mytmp = show_spider_result($showtime,$contents,"spbot\/",$text);
	$else += $mytmp[0];
	$str.= $mytmp[1];

	$str.= draw_canvas($google,$baidu,$bing,$sogou,$soso,$else);
	return $str;
}
function show_spider_result($time,$contents,$str,$text){
	$count = array();
	$count[0] = preg_match_all("/".$time."\d*\s\/\S*\s.*".$str."/",$contents,$mymatches);
	if($text == "yes") {
		$str = preg_replace("{\\\/}","",$str);
		$count[1].= "<br> 蜘蛛类型=>".$str.": 爬行次数=".$count[0];
		if($count[0] >0) {
			$tmp = substr($mymatches[0][$count[0]-1],4,6);
			$tmp = substr($tmp,0,2) .":" . substr($tmp,2,2) .":" .substr($tmp,4,2) ;
			$count[1].= " 最后爬行时间:". $tmp;
		}
	}
	return $count;
}
function draw_canvas($google,$baidu,$bing,$sogou,$soso,$else){
	$tmp = $google + $baidu + $bing + $sogou + $soso + $else;
	if($tmp == 0) {
		return "<br><br>数据不足,无法生成分析图。<br><br>";
	}
	$google2 = $google*100/$tmp;
	$baidu2 = $baidu*100/$tmp;
	$bing2 = $bing*100/$tmp;
	$sogou2 = $sogou*100/$tmp;
	$soso2 = $soso*100/$tmp;
	$else2 = $else*100/$tmp;
	$str.= "<br><div style='border-top: 1px solid #e6e6e6;'><br>
	<div style='float:left;width:150px;border-width:1px;border-style:groove;padding:15px;'><b>蜘蛛爬行分析图:</b><br>";
	$str.= "日期:" . date("Y-m-d");
	$str.= "<br>蜘蛛一共爬行". $tmp . "次:<br>";
	$str.= "<li><span style='color:#33A1C9;'>google:". $google ."次(". intval($google2) ."%)</span></li>";
	$str.= "<li><span style='color:#0033ff;'>baidu:". $baidu ."次(". intval($baidu2) ."%)</span></li>";
	$str.= "<li><span style='color:#872657;'>bing:". $bing ."次(". intval($bing2) ."%)</span></li>";
	$str.= "<li><span style='color:#FF9912;'>sogou:". $sogou ."次(". intval($sogou2) ."%)</span></li>";
	$str.= "<li><span style='color:#FF6347;'>soso:". $soso ."次(". intval($soso2) ."%)</span></li>";
	$str.= "<li><span style='color:#55aa00;'>else:". $else ."次(". (100 - intval($google2) - intval($baidu2) - intval($bing2) - intval($sogou2) - intval($soso2)) ."%)</span></li></div>";
	$str.=	"<img src = 'http://chart.apis.google.com/chart?cht=p3&chco=33A1C9,0033ff,872657,FF9912,FF6347,55aa00&chd=t:".$google2 .",".$baidu2.",".$bing2.",".$sogou2.",".$soso2.",".$else2."&chs=400x200&chl=google|baidu|bing|sogou|soso|else' /></div><br>";
	return $str;
}
add_shortcode('spiderlogs','get_spider_log');

//自动分析蜘蛛结束

?>

然后在wordprees中新建一个页面,在页面正文中写入代码{spiderlogs} (前面的大括号改成中括号) 就行了,然后就可以看到向我的wordpress一样的搜索引擎蜘蛛爬行记录了!

  • 《百度搜索页面质量标准》

    为了帮助广大开发者们生产优质的内容页面,获得更多搜索用户的青睐,我们特地发布了《百度搜索页面质量标准》,对优质内容标准进行了重新定义。并基于优质内容的特征,拆解不同的场景和资源类型,给出了更加详细具体的页面质量标准。开发者们可以通过标准不断丰富自己的内容,优化页面质量,获得更多权益。

  • 免费网站seo在线工具网址大全

    为了做网站优化更加方便,特别收集了下面这些在线优化工具,有了他们可以更好的辅助你做好网站优化工作。关键字挖掘工具: (1)5118在线关键字挖掘工具需要注册,免费版本智能挖掘100

  • 百度优化之品牌主页的排名弱于品牌介绍页面干货分析

    我有一个网站网站里每个品牌都有品牌主页(品牌关键字锚文本指向的页面),品牌介绍,品牌导购,品牌图片,品牌视频,品牌网店,品牌产品,品牌专柜,品牌网店,品牌真假,这些页面所有的标题title都是品牌名开头的,但是我发现大量品牌词排名最好的页面往往都是出现在品牌介绍页面里,少量会出现在品牌主页里。

  • Google搜索Your page is not mobile-friendly问题分析和解决方案

    Your page is not mobile-friendly。  个人的行业门户网站美容仪之家在百度里面site:www.imeirongyi.com后,google的搜索结果提示如下图所示,所有页面搜索结果页面下面都有

  • 百度和360搜索引擎智能摘要

      现在的搜索引擎在搜索后会有各种形式的信息展现方式,如下图,而要获得这些智能 的摘要方式,自然需要提交不同的文件,目前百度和360已经开放了,今天我们就要介绍下这个智能摘要

  • 搜索引擎提交XML网站地图方法和地址大全

    作为网站来说为了更好的被搜索引擎抓取所有页面地址,同时能让搜索引擎在第一时间就获取新的页面,那么向搜索引擎提交网站地图是非常的重要的,我们就来总结下国内常用的搜索引擎提交XML网站地图的方法。

  • 火车头采集器标签内容替换功能

    火车头常规的有一个内容替换功能,就是设定好一个个要替换和被替换的词,程序会帮你去替换,但是其实还有更高级的标签替换功能:

  • 火车头采集器7.6版本自动退出的解决方法

    解决火车头采集器7.6版本自动退出的解决方法,核心原因是它有一个自动连接远程服务器校验的功能,所以当它无法叫研究会自动关闭。

  • SEO工具之firefox优化SEO插件

    章力下面介绍一些firefox优化SEO插件,firefox不但是做网站的好工具,也是做优化的好工具,它跟WordPress一样,拥有非常丰富的插件与扩展,只要你能想到的功能,就有人能够帮你实现。

  • REL NOFOLLOW标签用法和含义

    什么是rel nofollow标签呢?如何使用rel nofollow标签?Google发现超链接中含有该属性(“rel=nofollow”),这类链接不会被作为某站点在搜索结果排名中的评价依据

  • 如何博客养站 打造高质量博客外链

      博客养站是广大SEOer中较为常用且投入低廉的一种操作手段,博客养站的原理也很简单,就是利用博客给网站输送高质量且稳定的外链和锚文本链接,以期达到影响搜索引擎排名的效

  • 百度排名优化关键字优化方案

      最近看了一些大型网站的优化技术,研究了一下,发现确实厉害所有关键字都是百度第2(百度自家产品有啊第1),非常稳定,,所以也想实战一下他们的优化方案的效果如何,是否能使用在中

  • 《百度搜索页面质量标准》

    为了帮助广大开发者们生产优质的内容页面,获得更多搜索用户的青睐,我们特地发布了《百度搜索页面质量标准》,对优质内容标准进行了重新定义。并基于优质内容的特征,拆解不同的场景和资源类型,给出了更加详细具体的页面质量标准。开发者们可以通过标准不断丰富自己的内容,优化页面质量,获得更多权益。

  • 百度优化之品牌主页的排名弱于品牌介绍页面干货分析

    我有一个网站网站里每个品牌都有品牌主页(品牌关键字锚文本指向的页面),品牌介绍,品牌导购,品牌图片,品牌视频,品牌网店,品牌产品,品牌专柜,品牌网店,品牌真假,这些页面所有的标题title都是品牌名开头的,但是我发现大量品牌词排名最好的页面往往都是出现在品牌介绍页面里,少量会出现在品牌主页里。

  • 网站URL优化技巧域名、结构、相关性

      网站URL的优化也是网站优化中的一部分,网站优化就是要掌握和优化好网站的每个细节,这样才能最后获得最好的优化结果。但是想在很多朋友在优化中 都忽视了这一点URL的优化,

  • 如何提高网站权重的要素

      网站权重是什么呢,我们又该如何提高网站权重,它的要素又在那里呢?  章力认为提高网站权重大小其实多数时候都是可以人为控制的,侧重点在于页面的链接!针对与一个网站来说

  • 如何做好网站反向链接技巧和注意事项

      反向链接,对于做seo的人来说做是在网站推广时经常谈的一个话题,好的反向链接可以让你的网站有很好的排名,同时可以改变很多东西。章力对网站排名研究的比较多,趁着这个机会,

  • 免费网站seo在线工具网址大全

    为了做网站优化更加方便,特别收集了下面这些在线优化工具,有了他们可以更好的辅助你做好网站优化工作。关键字挖掘工具: (1)5118在线关键字挖掘工具需要注册,免费版本智能挖掘100

  • 如何来选择和分析关键词

      他们有最快的方式来决定什么样的关键词是我们需要的关键词。介绍下章力是怎么样选择关键词的,怎么选择具有转化率的关键字? 首先我们来明白什么是关键词,关键词分几类。

  • 如何交换好的友情链接和二级域名的探讨

      最近一段时间一直交换链接为主,在交换链接的时候发现国内有那么多的SEOER可真的让人揪心,什么原因呢,每次去拿不是www.的域名网站去交换链接,等到往往的是一个答复,二级域名

  • 博客修改标题关键字排名报告分析

      不知不觉距离之前“博客修改标题描述冲击区域SEO关键字” 已经5天时间,时间很快的,前2天搜索现在网站的新标题发现网站还没有任何排名,今天搜索了相关的关键字,发

  • REL NOFOLLOW标签用法和含义

    什么是rel nofollow标签呢?如何使用rel nofollow标签?Google发现超链接中含有该属性(“rel=nofollow”),这类链接不会被作为某站点在搜索结果排名中的评价依据

  • SEO在网站推广中的作用 如何做好SEO

    章力分享一下这种神奇的网站推广方式:搜索引擎优化 SEO。

  • 2010年8月百度排名算法调整

    2010年8月百度排名算法大调整2010年8月12日下午,章力总结了的新走向。百度排名算法调整的主要方向有以下几个地方:

TOP