| Home | About |
13Apr

网站分析的历史(二)

No comments

上会书说到2000年前后人们对传统的基于服务器日志的网站分析方法产生了怀疑,那么问题究竟在哪呢?

问题一:ISP提供的缓存页面。

对于被大量请求的页面,ISP会直接提供其缓存的该页给用户,以减轻压力节约带宽。但这样一来,用户的访问只发生在ISP的服务器上,并不会访问到目标网站的服务器,那么你的服务器日志就无法记录到这部分数据。

问题二:机器人

随着搜索引擎以及其他一些信息检索工具的日益普及,大量的机器人游荡于网站之间,他们会在你的服务器日志上留下非用户访问记录,而所有这些记录都会被计入统计指标的计算中。你可能会说,这不算问题,可以把这些机器人的记录过滤掉,但是请注意并不是所有机器人都有名有姓,毕竟还是有相当数量的机器人无法得到识别(或者出于某种目的故意隐藏身份),同时新的机器人还在不断涌现。

问题三: 确认唯一访客(unique visitor)

随着互联网的普及,动态IP大量运用,还有代理服务器的使用都对传统的基于IP确定用户身份的方法带来了挑战。虽然也曾尝试过基于IP和用户代理(user agent,一般指浏览器和操作系统)的组合来区分是否唯一访客,效果也不尽人意,你可以想象一下,一个公司的IP是唯一的,通常公司内所有操作系统和浏览器也都是统一安装的,那么你怎么区分是这家公司的张三还是李四访问了你的网站?不管这家公司有多少人都会被视为同一个用户。

问题四:ajax

不仅仅是ajax,在追求与用户互动的今天,越来越多的用户与网站的交互行为都是发生在客户端的,由浏览器执行,根本无需向服务器端请求,所以服务器日志对此无能为力。

面对这些问题,网站分析工具的生产商并没有束手无策,他们引进了JavaScript标签(JavaScript tags)。什么是JavaScript标签?如果你用过google analytics之类的网站分析工具就很好解释了。就是它提供给你的那一小段代码,需要添加到所有你需要监控的网页中去。当网页被加载时,这段代码调用程序记录信息,并发送给专门的数据收集服务器,从而完成记录。

JavaScript文件易于维护,灵活,而且方便数据收集工作的外包(因为数据数据收集服务器和产品服务器是相互独立的),降低了维护成本。虽然它也并不完美,但相对于基于服务器日志的传统方法还是迈进了一大步。(待续)

Categories: 网站分析

Sunday, April 13th, 2008 at 7:02 am and is filed under 网站分析. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

Leave a reply