为什么每种流量统计工具报告中的数据都不同?

九月 3rd, 2009 | 没有评论 | 发布于 网站流量分析
  1. 监测工具原理(Tracking Tools Methodology)不同。

    • 数据获取方式不同。

        服务器日志分析工具,是通过解析服务器日志进行网站访问数据获取。如AwStats、Webtrends、CO ,或者国产逆火等;代码嵌入分析工具,是通过在网页中加入Javascript代码,运行后向监测工具服务器发送带请求,服务器从而获取访问数据。如Google Analytics、Yahoo统计、Omniture,国内常用的站长统计、百度统计、51la等等。
      后者现在业界更为常见,两者的数据获取方式不同会造成统计数据的差异。比如:

        访问者输入www.g.cn发送访问请求,会经过一系列步骤:
      ①DNS解析 –>② 获得服务器IP –>③ 向服务器发送请求 –> ④服务器返回认证 –> ⑤开始下载页面数据 –> ⑤下载中和浏览器解析中 –> ⑤数据下载结束。

        服务器在获得“③用户发送请求”后,就会生成一条日志,日志分析工具就是对海量的日志记录进行分析。不同的服务器系统日志格式不同。常见的IIS记录,形如:

      2009-04-17 02:04:52 W3SVC9218140 61.191.191.183 GET /default.asp – 80 – 203.208.60.19 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 200 0 0

        后者监测工具是直到“⑤下载中和浏览器解析中”阶段才开始生效。Javascript程序运行后会向服务器发送请求。有的是请求1×1象素Gif图片,如Google Analytics;有的是请求htm页面,如国产老牌统计软件CNZZ是请求http://219.232.241.164/stat.htm。共同之处是,请求都带有了访问者的各种参数,监测服务器通过截取参数获取数据。形如:

      http://www.google-analytics.com/__utm.gif?utmwv=1&utmn=970846480
      &utmcs=utf-8&utmsr=1680×1050&utmsc=32-bit&utmul=en-us&utmje=1
      &utmfl=9.0&utmcn=1&utmhn=www.gmodules.com&utmr=http://ectend.com/
      &utmp=/translate_my_page_gadget&utmac=UA-10000-1&utmcc=__utma
      %3D123692957.37202895.1245037832.1251034440.1251471692.21%3B%2B
      __utmb%3D123692957%3B%2B__utmc%3D123692957%3B%2B__utmz
      %3D123692957.1251471692.21.21.utmccn%3D(referral)%7Cutmcs
      r%3Dectend.com%7Cutmcct%3D%2F%7Cutmcmd%3Dreferral%3B%2B

        即使同样是代码嵌入分析工具,也会有很多因素造成数据差异,下面还有更多说明。

    • 用户端缓存机制不同。

        某个访问是新访还是回访?这需要将用户的信息“唯一化”地写入Cookie文件中,缓存在用户端浏览器指定目录。这里存在有第一方Cookie第三方Cookie之分。虽然市面上绝大部分监测工作都是使用第一方Cookie,但不排除仍有些小型公司产品使用第三方Cookie。 第三方Cookie容易被用户浏览器屏蔽,获取的数据不够准确,且保密性差。
      有人会好奇地问,Cookie里到底写了什么?那我就贴个内容简单的第一方Cookie示例,满足你的好奇心。这是百度统计的Cookie内容,文件名administrator@hm.baidu(不要问我内容代表什么,我也不知道,要看百度开发人员对ID号的定义):

      HMACCOUNT
      D3020343DB851C59
      hm.baidu.com/
      2147484672
      2350186496
      32111674
      1314491424
      30025681
      *

    • 监测工具分析方式不同

        监测工具获取了大量访问的行为数据后,就开始一系列的统计分析。

      • 度量定义不同  在网站分析领域中涉及到很多度量,如Unique Visitor,Visit,Pageview,Time on Site,Bounce Rate等等。由于行业暂时还不是非常成熟,有些度量虽然有Web Analytics Association(WAA)、IAB等专业机构的定义,但仍未被标准化地广泛使用。在国内还涉及一些中文翻译标准化的问题,有造成对度量定义混淆的情况。
        从我个人的经验,迄今为止,国内外最无定义分歧的度量就是Pageview(PV)。至于Visit(Session,或访问,或访问数),是有分歧的:有的认为Visit的有效期为30分钟,有的认为1小时。更别提复杂的度量Bounce Rate的定义之争呢。
      • IP校验数据库不同  访问者的IP是被监测工具获取了,但IP对应的实际地理位置数据库却不是全球通用的。IP地址数据库是时刻变化的,无权威发布机构,所以不同工具的统计报告中,地理区域划分数据也会有一定的差异。
      • 过滤与限制功能  我们知道Google Analytics有丰富的过滤功能,如过滤某个IP段,过滤操作系统为Linux的访问。不同的监测工具也有类似的功能。这些功能一旦开启,设置的不同也会造成数据的差异。
  2. 监测代码部署(Tracking Code Implementation)方式不同。

    • 监测代码部署的位置。

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      <html>
      <head>
      -
      Infomation For this page
      -
      </head>
      <body>
      -
      Content of This Page
      -
      Hello
      -
      </body>
      </html>

        上面示例了一个页面的结构,监测代码可以部署在第3-12行之间的任何位置。但是放置的越前,监测代码越早被运行,监测的数据越多;放置的越后,监测的数据越少,有时甚至还会因为页面中的JavaScript出错,而导致监测代码失效。

    • 监测代码的冲突。

        有时由于同一页面中两种监测代码间,或者监测代码与页面本身的JavaScript之间,有函数名、变量名等的冲突,会造成监测代码的失效,或者监测不准。

    • 监测代码的正确性与完整性。

        专业的网站分析过程中对监测代码进行定制是必不可少的,代码的定制会造成统计结果的个性化,但同时也会有定制出错的风险。这些情况的发生,会造成监测数据的差异。

  3. 用户端设置(Client – End Settings)不同。

    • 浏览器功能设置

        浏览器种类很多,功能也不尽相同。但都具有基本的Cookie屏蔽功能,有的还支持图片、Flash、JavaScript的屏蔽功能,甚至还有的能对网页代码的关键字进行屏蔽。这些屏蔽技术的应用,会造成监测数据的差异。比如,屏蔽网页代码中的关键字“ga.js”,那么就会造成对Google Analytics的屏蔽。又比如,某浏览器禁止运行网页中的JavaScript,那么代码嵌入式监测工具将会全部失效。

    • 网络访问类型

        现在上网方式多样化,除了电脑上网外,用户还可以用Wii上网,可以用手机或其它手持终端上网。这些访问形式多种多样,可能是基于WAP的,可能是不支持Cookie的浏览器……不同的监测工具,对这些多种多样访问形式的支持是不尽相同。现阶段,个人观点认为Omniture在这方面最为先进,支持的访问形式最多。

        另外,搜索引擎的蜘蛛,或者一些特别网站发起的请求也会造成对页面的访问。一般的监测工具都会忽略掉这一块的流量。

    • 网络传输影响

        最后,我能想到的另外一种可能是网络传输过程中的差错,如网络丢包。还有一种情况,URL太长导致参数被截断的情况也并不少见。微软的权威解释,IE的url最大长度是2083个字节,可以用于GET传递数据的长度是2048个字节。

    • 文章转载自http://www.chinawebanalytics.cn/?p=884#more-884
    • 作者说的比较全面,补充一点:JS方式的统计永远是少于实际流量的,毕竟会有很多访客只看了页面的一部分,甚至于刚打开页面就关掉了,而JS统计代码通常是部署于页面下部的。

SNS网站生存状态分析

十一月 13th, 2008 | 没有评论 | 发布于 网站流量分析

好的域名至关重要

  kaixin.com这个域名落在千橡手里,我想应该是开心网后悔至今的。

  但是,随着雅虎关系的低调亮相,既新浪之后的有一个门户网站进军SNS,在这样满眼的红海之中,有一个被过滤广告于跳水的运动员加入进来的时候,人们在报以无数的掌声的同时,也将目光进行了转移:

  SNS的盈利模式,到底几何

  刚刚看过一个文章,其中提到:

  “从媒体的报道可以得知,“雅虎关系”并不是孤立的,而是整合了中国雅虎的部分资源,这也是雅虎对SNS的独特定位。“雅虎关系”是一个实名制的交互关系平台,与其互补的是雅虎口碑这个生活信息平台。试想,人们通过“雅虎关系”认识并结交了新被过滤广告,然后通过人际关系互动了解的喜好和生活状态。举个最简单的例子,小王通过“雅虎关系”认识了小张,并了解了小张经常去哪张咖啡馆消费,然后小王借助雅虎口碑查一下小张经常光顾的咖啡馆的详细信息和评价,从而决定是否去消费。就这样,雅虎不仅深化了SNS的功能,还实现交易。对于雅虎来说,有了交易就有了盈利。

更多 »

让您的PHP网站速度更快。

九月 3rd, 2008 | 没有评论 | 发布于 网站流量分析

1、使用GZip

  在每一个PHP页面顶部加入以下代码:

<?php ob_start(”ob_gzhandler”);?>

  使用该代码后服务器会压缩所有需要传送到客户端的代码,并在浏览器中进行解压,从而使网站运行速度加快。这一功能还可以节省网站空间的流量。

2、不要滥用Javascript和Ajax

  只在需要的时候才使用Javascript和Ajax,千万不要滥用它们。有些网站使用了太多不必要的Ajax动画,或使用Ajax来加载无用的部分。这样一来Javascript文件就会变得很大,而实际上却有很多其他方案来实现这些功能。

更多 »

网上视频广告效果的评测

七月 23rd, 2008 | 没有评论 | 发布于 网站流量分析

译自 Web Traffic Analysis, 感谢原作者!

极少数公司在互联网视频领域能够提供视频广告绩效评测的解决方案,只有少数几家能做到这一点,例如Visible Measures, NedStat, TubeMogul, Divinity Metrics,以及备受质疑的Omniture, Unica, WebTrends, ComScore, 和Neilsen NetRatings

下面是我的一些看法:

在2007年年末,DVBES(Video Barometer Executive Survey)指出超过80%的媒体和娱乐业管理层都相信追踪、测量以及监控互联网视频内容是实现基础性盈利的关键。这并不让人吃惊,因为精确的衡量(在 线视频内容)能为决策制定和提升商业绩效提供非常有益的信息,因此比以往任何时候都更趋主流并更受重视。而可能让管理层吃惊的是,对互联网视频效果的测量 一般只能聚焦于自己站点上的视频内容本身,而无法对自己站点外的同样视频进行测量。对于网站分析工具而言,它能够提供一个非常直接的方法,告诉你人们在你 的站点上如何享受在线视频的服务,以及如何与之互动。但是由于视频可以被用户传播并在其他站点分享,或是通过社会媒体推广,因此视频的消费行为完全可能分 布在更多的站点上,而这些则是无法被网站分析工具测量到的。基于受众普查的调研技术能够大致获得在其他站点上的视频消费和分布情况,但却又不能提供更深入的在你的站点上的监测。对于在你的站点之上的视频的消费、互动以及传播的监测可以分为下面两个类目:

更多 »

Tags: ,

”Bounce Rate”应该成为一个关键度量

七月 23rd, 2008 | 没有评论 | 发布于 网站流量分析

转自http://www.chinawebanalytics.cn

From Longmarch.chinalytics.com, by Florian Pihs

这个博客最常提到的一些主题,会聚焦在一些对于任何在线营销(网络营销)和网站主都会非常在意的一些度量之上,并且 会解释它们如何和在线营销相联系,尤其是在中国。可能在后面的博客中,不会有一个安排的非常特殊的顺序,但我打算覆盖那些最重要,尤其是在中国尤为重要的 那些度量。

第一个纳入我视野的是”Bounce Rate“(蹦失率)。网站分析协会(Web Analytics Association)定义(defines)Bounce Rate = Single Page Visits / Entry Pages(单PV的Visits / 进入页面)。即,测量有多少个Visits进入网站的第一个页面(即进入页面,Entry Page)后,不再进入其他的页面,即单一页面的访问数量(Single Page Visits)。或者用网络营销的语言:你的Landing Page对用户而言,是否足够有趣到吸引他们采取一些行动(即,点击页面上的链接)。

现在,为什么Bounce Rate对于在线营销如此重要呢?在传统的媒体广告中,我们分析电视排行、媒体传播和其他一些评测方法来分析有多少人接触到我们的广告。然后,我们用调查 的方式去了解广告有没有突破各种媒体的噪音,有没有有效的影响到受众。更多的时候,这也正是我们在中国做在线营销时所用的方法。我们先是测量广告页面被显 示的次数(Impressions),接着测量广告条或者搜索引擎关键词的点击数(Click)和点击通过率(Click Through Rates),再接着我们对受众进行有关于品牌偏好的调研……。经常(在中国则是”大多数时候”)被完全忽略的是,究竟用户在点击横幅广告 (Banner)后做了些什么!既然这正是使网络广告区别于传统广告之处,也是与传统广告相比,最独一无二之处,因此不研究它真是一个完完全全的浪费!

一旦一个访问者(Visitor) 点击了我们的广告,我们知道他对我们传达的信息是感兴趣的。更好的是,他在点击之后,会进入到一个我们能够100%控制的环境中。这是一个我们能够真正把 品牌概念影响到访问者/用户/潜在客户的地方。这个环境能够增加他们的品牌认知、品牌偏好,甚至让他们直接购买我们的产品或是服务。

Bounce Rate告诉你,你对于上面的这个优势利用的如何,而不仅仅只是将网络广告作为一个漂亮的新的信息渠道。答案是,在中国,在这个时期,很遗憾,我们做的非 常非常差。我在与我的客户、朋友和行业专家的讨论中,他们都告诉我中国的在线营销的Bounce Rate介于90%~99%之间。好的营销活动能够接近90%,但很少有低于90%的。但在美国,平均的Bounce Rate接近于60%。这表明,2007年中国60亿到70亿元人民币的网络广告营销费用,有至少55亿元打了水漂。换句话说,如果我们能够接近美国的数 字,我们就能够至少300%的提高我们的在线营销效果。

这当然是一个值得我们我们思考的数字。另外,还有一些其他因素可以帮助解释中国的高的”离谱”的Bounce Rate。

  • 中国的很多网民还很难从网上已经提供的相关信息中分辨出哪些内容是他们感兴趣的。
  • 登陆页(Landing Page)可能已经包含了所有访问者感兴趣的信息,因此他/她不再需要继续点击了。
  • 有时来自访问者的访问只是点击一个下载链接,而这个点击没有被计数,因此被算成了一个Bounce。

对于每一个广告主而言,理解Bounce Rate本身,理解它与营销目标的达成有何种关联,以及与竞争对手的Bounce Rate又有何种关联,都是非常关键的。因此,现在对亲爱的读者,有一个问题,你的网络营销的Bounce Rate是多少,你又如何去减小它?

Tags: ,

用Sitescanga轻松搞定Google Analytics!

七月 23rd, 2008 | 没有评论 | 发布于 网站流量分析

当你们在网站中加入了Google Analytics的js 代码,你确信一切都OK了吗?

当然,最简单的方法是直接从GA的状态说明中查找是否Tracking Status正常,但这不过是一个粗略的办法,它并不能告诉你网站上所有的链接都被正常索引正确追踪了。

因此,我推荐你试试Sitescanga, 这是一个帮助你检测网站是否正确安装GA code,且网站是否被GA准确监测到的很实用的工具。使用方法很简单,你甚至不需要注册,只需要提交你添加过GA Code的网站地址和你的Email即可。之后(可能要等待一天半天的,因为你前面很多人提交了他们的页面,Sitescanga只能一个一个来),它会 给你一封信,告诉你你的网站分析报告的链接,点击链接,出现的页面将展现你的网站被GA监测的情况,如果想了解细节,还有一个Excel的CSV文件可以 下载,告诉你是否网站所有页面都被监测到了。

更多 »

Tags:

搜索引擎Robot会被Google Analytics追踪吗?

七月 23rd, 2008 | 没有评论 | 发布于 网站流量分析

转自http://www.chinawebanalytics.cn

Tenly前几天问起我,Google Analytics的流量统计中,是否包含了对搜索引擎的Robot(或者蜘蛛,或者Crawler)的访问。我确实曾经想过这个问题,当时我简单的认为,Google Analytics或者其他的工具会把这部分流量计算进去。

事实上,这个观点是错误的,WA工具会自动屏蔽掉这部分流量,以免污染实际Visitor的访问,因此在GA上不会看到Robot的访问情况。

不过Tenly的期望是,能够从这些工具中看到对于Robot的访问,因为他对SEO非常关注,而Robot访问的情况,一定程度上能够帮助他了解SEO的效果如何。

有没有朋友了解这个问题?给我一些建议吧!

融海咨询的CTO程实给我们了一个非常准确的回答,非常棒!
“Hi, Sidney,
WebTrends有专门针对Spider(或Robot)的报告,因为WebTrends可以将Web Server的原始日志作为数据源,对其进行分析获取相应的信息。
除此之外,WebTrends还可以提供服务器端错误(HTTP CODE 5xx系列错误),客户端错误(HTTP CODE 4xx系列错误),页面无法找到(404错误)等其他来源于Web Server原始日志的报告。
以上报告需要客户购买安装了WebTrends产品。
当采用在页面中嵌码收集日志时(例如On-Demand Service)是无法获取该类报告的,其他分析工具(如Google Analytics)因为只有页面中嵌码一种日志来源,因此均不能提供该类报告。

WebTrends的序列号到期了,不能用了,郁闷。

Tags: ,

CPM大于CPC的分析

七月 23rd, 2008 | 没有评论 | 发布于 网站流量分析

这个题目注定了不会是个长文,但是我认为讨论它是有意义的,因为我们在实践过程中,有时候说不定会为它迷惑。

CPM是Cost Per 1,000 Impressions;CPC是Cost Per Click。如果CTR(CTR:Click Through Rate,点击通过率,或称点击率,计算方法很简单——CTR=Click/Impression)情况比较好,那么CPM完全有可能大于CPC。

现在,我们来看看CPM在什么情况下会大于CPC。当然,我们只需要通过一点点简单的数学换算就能得到我们想要的结果。

更多 »

Tags: ,

评测流量来源(Traffic Source)的策略

十月 22nd, 2007 | 没有评论 | 发布于 网站流量分析

翻译自Tips on Visually Measuring Your Traffic Sources,原作者: Mike Sukmanowsky

衡量你网站最大数量或者质量最好的流量从何而来,是一个网站分析师能做的最基本最重要(也是最简单)的事情。但是,很多情况是,许多网站分析师的网站流量来源报告(traffic sources report)常常看上去是下面的样子:

如果你足够老练,你可能会用饼图做出一个图形化的报告:

更多 »

Tags: ,

Time on page和Time on site

九月 20th, 2007 | 没有评论 | 发布于 网站流量分析

本文译自Avinash的博客文章:Standard Metrics Revisited: #4 : Time on Page & Time on Site

翻译这个文章是很有意义的,因为Avinash的这篇文章精辟的讲解了二者的含义和区别。其中Time on page指访问在页面上的停留时间;Time on site则指访问在网站上的停留时间。下面是译文。最后感谢亲爱的Avinash!

尽管我使用Time on page和Time on site作为网站分析的基本度量(metrics)已经有很长时间了,但直到此刻我才真正了解到它们到底是如何被测量出来的。

这真是个重要时刻!

当然,最有效最精确的了解每一个访问网站的visit的时间长度的方法是:给每一个visitor身上加装RFID标签(RFID标签是一种无 线识别技术,我们最常见的应用是北京市政交通一卡通,译者注),而且要求每个visitor在浏览我们网页的开始和结束的时候都必须在识读设备上刷这个标 签。这将能够让我们精确的知道访问时间的长度。

可是我们不可能做到!这——多么令人失望啊!!

哈哈,只是个玩笑罢了!

不过,说真的,我发现极少有人知道网站访问的平均时间(Average Time on Site)是怎么计算出来的。

更多 »

Tags: ,