SEO博客

关注搜索引擎,SEO,网络营销,网站运营,程序&代码以及Web2.0

[置顶] SEO博客提供的SEO/SEM相关服务

Google网页排名背后的技术

  搜索排名的核心技术源自已有50年历史的学术课题Information Retrieval (IR),IR 技术使用统计学原理对文字的使用频率等属性进行研究并对结果进行排名。建立在IR 理论上的 Google搜索同时借助链接,网页结构等等技术形成独特的搜索技术。

  理解网页多年来在网络爬虫与索引系统上投入巨资,因此,Google 拥有非常庞大并且是最新的网页索引,除此之外,Google 还使用一些最新技术提高索引质量,比如,他们开发了一种技术,可以在字面意思之外理解一个网页所表达的重要概念,人们使用意大利语言搜索"galleria sprovieri londra",会找到伦敦的Sprovieri Gallery,尽管Sprovieri Gallery 主页上既没有London,也没有Londra 字样。在美国,人们搜索 "cool tech pc vancouver, wa",会找到 www.cooltechpc.com,然而www.cooltechpc.com 的主页上没有任何文字表明他们位于 Vancouver。其它技术包括,区分一个网页中的重要或非重要文字,以及网页内容的新鲜度。

  理解语义可以通过用户提供的几个搜索关键词,理解用户的真实意图。他们在拼写纠正,词义,以及概念分析方面处于非常领先的位置。很多人都或多或少体验过Google 的拼写纠正功能,比如搜索"kofee annan",Google 会问你搜索的是否"kofi annan",然而,当有人搜索"kofee beans",Google 会纠正成"coffee beans"。(Google 事实上已经在尝试语义技术 - 译者)词义是Google 尝试理解查询语义的基础,也是Google 遇到的最大难题。一些在人看来显而易见的东西,机器却很难自动处理。用户并不想对使用什么词汇进行查询而费神,人们甚至压根不知道该使用什么进行查询。在这种时候,Google 的词义系统便可以发挥作用,词义系统可以对查询语句进行非常复杂的修正,比如,查询"Dr Zhivago" 的时候,Google 知道Dr 代表Doctor,而查询"Rodeo Dr" 的时候,Dr 代表Drive。用户搜索"back bumper repair" 的时候,结果是rear bumper repair,而搜索"Ramstein ab",Google能够将ab 理解成Air Base,"b&b ab" 会理解为Alberta 的Bed and Breakfasts 。Google 将这种词义理解系统发展到上百种不同语言。

  在搜索排名中使用的另一项技术是概念识别,该技术可以对查询的内容进行概念识别,比如,我们查询"new york times square church",Google知道我们实际上查询的是纽约时代广场上的那座著名教堂,而不是纽约时报中的某篇文章。概念识别技术并不止这些,Google 还对其进行加强以正确地识别语义,比如,搜索"PC and its impact on people",事实上是搜索计算机对社会的影响。Google 的搜索分析算法中这类技术比比皆是,而且面向几乎所有语言。

  理解用户尝试理解用户的目的是为用户返回他们真正需要的结果,而不是他们在搜索语句中所说的东西。该技术基于一个世界级的本地化系统,外加先进的个性化技术,以及各种用户意图识别技术。

  对本地结果的重视体现在他们的本地化工作中。同样一个查询语句在不同国家会返回不同结果,比如,查询"bank]"在,美国返回的是银行,而英国则可能是Bank Fashion 的服装连锁店,或者英国的银行,而在其它英语国家,如澳大利亚,加拿大,新西兰,南非,返回的则应仍旧是当地的银行。如果你在一些非英语国家查询这个词,象埃及,以色列,日本,俄罗斯,沙特,瑞士,返回的结果将更有趣。就象 Football 在美国和英国表示不同的运动项目一样,同一个词在不同国家查询的结果可能截然不同。

  个性化查询是Google另一项先进搜索技术,一个已经登录的用户,如果开通了Web History 服务,随着他查询时间的增长,Google 会根据他的查询历史,自动调整返回的结果,比如,一个经常查询 Football 相关话题的人,会逐渐从Google 得到更多足球相关的结果。如果你青睐某个购物站返回的结果,在以后的查询中,会从那个购物站得到更多结果。

  在返回用户真正想要的结果方面的另一个例子是,假如你搜索 "chevrolet magnum",我们知道 Magnum 不是Chevrolet 产的,是 Dodge 产的,Google 会自动返回dodge magnum 的结果。还有一个例子,有人搜索 "bangalore",不仅返回Bangalore 这个城市的主页,而且返回Bangalore 的地图,以及一些与Bangalore市景,交通相关的视频,这些视频会让你有身临其境的感觉。

        这是Google 工程师Amit Singhal 发表在Google 官方博客的一篇文章,讲述了Google 搜索排名背后的一些技术,涉及到Google 对网页,对语义,对用户意图的理解。

原文地址:http://googleblog.blogspot.com/2008/07/technologies-behind-google-ranking.html

中文SEO—成败就在一夜之间

早上起来,一开电脑,SEO圈就在讨论百度“砍人”的事情,大多门户站点都被砍掉了几百万页,有一个很搞笑的朋友,直接从18万降低到了18页,结果让人哭笑不得。

大概统计了下,一夜之间,百度对各大门户(B2B,分类信息,IT产品站,金融界)等都进行了大扫荡,“砍人”不计其数,从三四百万页到几千万页都有,貌似收录越多的,砍掉的越多,以前收录很少的,反而有点增加了,有些朋友的个人小站可能会有所增加。百度高级搜索一下昨天的收录还是在进行的,不过砍掉的貌似更多,不知道是不是被前端时间的Mp3官司搞混了头,或者被“木马点击器”撞了一下腰,就这么一刀砍下去,生灵涂炭,荒尸遍野!

不过,关键字排名貌似没有太大的波动,基本还都在当页(如果以前有排名的页面被砍掉了,那么这块损失可能就会比较大)。昨日的流量还都正常,好坏就看今天一天的统计结果了,百度确实很牛逼,可以高高站点梯子上说“看,你们都是这么弱小,我随便轻轻一下,你们都要怕我三分”,中文站,没办法,很多对搜索流量依赖很大,除了社区类或者SNS之类的,资讯类和一些品牌相对较弱的站点,搜索流量还是占据主导位置的。

正所谓,一夜成佛,一夜成魔。

也谈云计算(cloud computing)

最近登录很多博客都可能看到一个词“云计算”,英文叫“cloud computing”,Google几个月前提出的这个概念,最近在业内吵得沸沸扬扬,订阅的几个博客天天都有什么云计算,云云云计算等狗屁东东。云计算这下又走红了,这部也得像名人靠齐,那天晚上第一反应就是注册几个云计算的米,于是鼓动某某人去注册了几个,留着等卖百万,这个中奖几率好像比买彩票还低。

为了怕别人说我这人落伍,赶不上潮流,不合群,枫林今天也谈谈关于云计算的文字,赶赶时髦,捧捧场!

到底什么是云计算呢?

专业一点的回答是:云计算是依靠强大的计算能力,使得成千上万的终端用户不担心所使用的计算技术和接入的方式等都能够进行有效的依靠网络连接起来的硬件平台的计算能力来实施多种应用。

枫林这种俗人来回答,就是撇一堆什么破硬件,胡乱捣腾,你可以不用知道他们是怎么结合的,这对家伙大的就像一朵朵云堆积起来,就能完成一些复杂的计算过程,有极强的计算能力。

那么云计算是怎么来的?我们为什么又需要云计算?

卢博士写的很好,我这里抄袭过来,与大家分享下:

1. 云计算的前身是grid computing ,说起grid computing 可能知道的人就很多了,就是传统的网格计算。网格计算就是将一个计算分割成片段,提交到网络系统上的各个计算机上(格点),工作做好进行汇总完成。比较流行的软件例如globe bus + afs(提供存储映射服务)。不过grid一般都是用在学术界,例如cern的几个实验都采用了大规模的grid计算,例如进行新粒子的发现,需要处理t级别的数据,单台计算机的运算和存储显然是不可能完成的,因此就必须使用网格计算了。

2. 云计算有实实在在的例子么?很幸运,我们还可以找到几个:google appengine,Amazon的S3+EC2系统都是云计算的雏形。

3. 云计算的基础是什么?最基本的需求:存储+处理器,当然,要支持无数的应用请求并负责保证存储和计算的性能,这两方面都是挑战。

4. 我自己能够搭建一个云计算环境么?当然可以,我们可以利用开源的项目来搭建一个云计算环境:你可以利用hadoop+hbase+php(包装API)也许就实现一个简单的云计算环境。

5. 有没有更简单的例子?也许一个分布式的邮件系统就是一个云计算的雏形:计算分布在各个节点上,应用(邮件收发)通过一个统一的平台来处理,也算是符合云计算的定义了,不过只能支持最简单的一种固定应用。

6. 有没有复杂一点的例子?google的云计算的逻辑关系:gfs 实现存储,bigtable 实现结构化、半结构化数据存储,map/reduce 实现将分布在各个节点上的计算和merage起来,剩下的就是进行job的管理器,管理工作的提交和触发,然后就是我们看到的appengine了。

7. 应该关注哪些软件?hadoop 项目应该是一个比较有前途的一个,当然powerset在hadoop之上的Hbase应该是一个更接近能够替代简单database的应用。

8.我们为什么需要云计算?很简单,企业的雄心+个人电脑性能进展缓慢+我们处在数据指数膨胀的年代。当我们在google上提交一个搜索的时候,会有成千上万的计算机被卷入这一个简单的一个查询过程中,未来的计算越来越庞大,到了我们干脆说“云”来替代其中的一切细节的时候。

9. 云计算平台的下一步呢?云计算api的标准化也许是一个最需要进行竞争的,可惜基础的技术平台的完善还需要时日,而且云计算未来也许会是免费的,这个遵从“竞争导致利润下降”的原则,难度不是么?当更多的云计算平台出现的时候,然而跑在云上的应用却没有那么多,当然免费的午餐就会来。

10. 还有更有趣的么?当然,你可以提供一个云计算,利用google,amazon的云计算包含在你自己的云计算里,然后提供一个统一的api,或者也许未来的云计算会整合在一个,云里雾里,成为一个超大的云计算平台,那个时候,也许自己家的电脑也可以接入云计算平台成为其中的一个计算的提供者。这个听起来很有意思,不过13年前就已经存在了,那个分布在全球电脑上的寻找外星et的屏保就是一个云计算的平台,如果他们该行做云计算的话,估计能够盖过google和amazon。

狗办事不放心

 偶得一机会,Sogou Site一下bus.58.com,得下图:

这第二位面子也太大了吧,site:bus.58.com竟然出现blog.tom.com的页面,这还是头一次见到,现在看来Site出来的这375 个网页是有水分的了,至少应该减一吧,搜狗你要忽悠人,也麻烦把这个页面排到后面去啊,不要让我Site一下就看到了,狗鼻子虽灵(Back Link和Sogou Rank更新的都非常快),但是办事确实很真不放心(Site结果有水分)。

另外百度月经期对我爱XB的收录现在也下降了,基本在6000多页了,这下看来还比较正常了,在这里祝贺百度顺利度过一次经期。

现在好像很多时候也不能单纯的相信自己的眼睛了。

唉!人骗人,狗骗人,人骗狗,啥世道嘛!

哲人说:

东西街,南北走。

出门看见人咬狗。

拿起狗来打砖头。

又怕砖头咬了手。

呜呼呜呼哉!

PS:6月11日,再次Sogou Site一下bus.58.com发现该页面已经删除。有时候,狗还是很听话的。

百度INDEX被震烂了

偶然百度指数一下“四川地震”:

看来,百度指数关键时刻也瘫痪了,百度应该多打几个抗震柱了。

同样,中国移动也需要好好修理修理,不能关键时刻老掉链子,平时闲聊的时候,信号比谁都好。

除了四川地震,四川,四川地图,四川绵阳地图等词搜索引擎中用户关注量,明显提升。

SEO应该行动了!

 

谷歌中国紧急启动“地震形势图”

与过年时推出“春运交通图”一样,Google连夜晚赶制了地震形势图,看看官方博客的报道:

5 月 12 日下午,中国四川汶川发生了强度达 7.8 级的地震。谷歌中国已于地震当天夜里紧急启动了“地震形势图”,让大家可以看到四川汶川当地的地理位置以及全国各地最新的抗震救灾情况,并找到提供捐赠的链接。我们的员工将随时在此图上更新最新消息与进展:

    


此外,你还可以通过如下操作,在 Google Earth 上看到汶川所在的地理位置:

直接下载美国地质调查局地震危害项目网站上的本次地震的位置地标:http://earthquake.usgs.gov/eqcenter/recenteqsww/Quakes/us2008ryan.kml

或通过如下步骤:
1.在谷歌地图上搜索汶川, 或打开上述“地震形势图”;
2.选择保存到“我的地图”(你需要 Google 账号才可以保存);
3.点击地图上方的 KML 链接,你将可以下载一个Google Earth (谷歌地球)的地标文件。 如果你已经有Google Earth 软件, 双击这个KML文件,你将可以直接把它在Google Earth中打开,这样你就可以看到如下的地理位置的标注,并通过推进拉出的方式,了解它的具体方位、周边地形、与全国其他城市的距离等:

    


同时,你还可以在这个网址下载该网站提供的英文的地震新情况 Google Earth 地标http://earthquake.usgs.gov/eqcenter/catalogs/eqs7day-age.kmz (你同样需要有Google Earth 软件才可以查看这个地标)。它拥有实时更新功能,将随时告诉你最新地震的地理位置、震级等等。勾选左侧操作面板中“Places” 下面 Earthquake 文件夹内的“shakemap”选项,你将可以看到根据地震强度所显示的不同颜色的各地震级和影响范围,如下图所示:

    


    


上述美国地质调查局地震危害项目网站,是最快报告全球地震最新情况的专业网站之一。你可以通过谷歌翻译产品,直接用中文查看浏览该网站。虽然机器的自动翻译水准大概在高中生水平,基本数据如经纬度位置、震源深度等都是可以参考的。

我们会随时关注最新进展,并尽量提供最完备的地理信息。

它是性饥渴,又是性冷淡

有感情的朗读下面小诗:

它——经常月经不调,面色发黄。(百度经常毫无规律,收录和排名)

它——不可捉摸,见异思迁。(百度典型的吃水就忘挖井人)

它——阴险狡诈,视才如命。(利用竞价压榨企业和站长)

它——喜欢玩虐待,有的时候很用力,有的时候却显得很吃力。(心情不好了就K你的站,然后给你打电话。更新有的时候及其缓慢,甚至有段时间传言服务器不够用?)

它表现症状:近期收录严重异常。

患者: 我爱XB(虽然名字是带色的,但是网站绝对的正经),名字主要是为了色诱狼友。

拍片:(仪器:HyperSnap 6)

记录回放:4月底枫林经过两天怀胎,生了个娃娃叫“我爱XB”,这个孩子有个特点,就是采用当今最先进的转基因工程,试管婴儿技术产生,同时也采用当今最卑鄙下流的Copy和采集技术,由于血缘关系,目标锁定在土豆,酷6,迅雷身上,每天去抽他们的血来增肥自己,计划进展的很顺利,最近体重紧逼65公斤。

医生:由HyperSnap6拍片再结合记录回放,该站生于4月底,但是在5月初尤其是8-10号左右收录数直达120000页,这可能是某些站点几年也无法达到的,这个免费电影站却在不到10天完成了,实属怪胎。

分析病因:

主要分为外因和内因,外因是主要是因为百度在长期的性冷淡之后,突然来了次性饥渴所致;内因也许是由于http://www.5ixb.com/allmovie.html也许是由于服务器,也许是由于目录结构也许是由于域名年纪大(都是猜测罢了),排除外链多的可能性。

PS:www.5ixb.com是个命苦娃,小小年纪就被百度搞了个大肚子,这以后可怎么见人呢,唉~

搜索引擎开始抵制家乐福

大概是在26号晚-27号,枫林观察到家乐福从各大搜索引擎中逐渐消失。

现在Google中文,Yahoo中国,有道,搜狗,中搜,SOSO等已经将家乐福的信息完全屏蔽。百度搜索‘家乐福’也只剩下三条负面搜索结果。

目前观察到中文搜索这块能检索到家乐福信息的有live.com,不过国外的一些搜索引擎像altavista,alltheweb等依然有家乐福的搜索结果。

同时我们从这次行动中又看到了哪些搜索引擎更加本土化,更加适合中国国情。

笔者发现Google,雅虎中国等外来搜索,或者叫国际化搜索引擎,直接将家乐福,及其相关的词语完全屏蔽,比如搜索“抵制家乐福”,也会出现0信息。

而做的比较好的则是中国本土的搜索引擎,百度和搜狗搜索“抵制家乐福”还是有很多搜索结果的,因为这段时间关注“抵制家乐福”行动的人还是有的,既然这种需求对于国人来说是存在的,搜索引擎则应该考虑网民的搜索习惯和关注方向了。

不过总体来说,搜索引擎本次爱国活动是值得赞赏的,继续关注搜索,关注生活!

PS:4月28下午17:40分左右,网友oxygen提醒,Google已经将家乐福这个词解除,而抵制家乐福依然处于屏蔽状态,原因未知,不过打开这些页面,没有两天内收录的文章。不过想一想也明白,只要该词相关的信息不与中国的法律相抵触,Google完全可以将这些词解除屏蔽,至于Google是不是为了凑凑热闹,将家乐福屏蔽几个小时,原因未知了,我们继续关注,报道。

搜索引擎也过愚人节

 愚人节,我们看看搜索引擎是怎么玩的

百度一下“SEO博客”,显示如下:

不是我小时候欠这个黑客钱,而是我欠李彦宏一毛钱。

百度一下“SEO”,枫林这个博客在第二页,显示如下:

PS:百度对站点的是有规律,不过从这个结果来看,某关键字排在前面,该页面更新的速率也是最快的,注意我这里只说该页面而不是整个站点。尽管,上面两幅图片更新时间都是4月1日,我想应该更新SEO博客这个词早于SEO这个词吧,因为那个被黑的页面是枫林愚人节与网友做的一个小游戏而已,放上去大约4-5个小时就去掉了,看来百度对SEO博客的更新速率还是蛮快的。^_^

王通的站点复活了,王先生又要兴奋了。

点石的排名下来了,难道是因为百度给点石加的这个“SEO”的缘故?

title中突然莫名其妙的多出个SEO来,打开点石首页,可从来没有加多SEO哦。

谷歌平时不怎么照顾枫林,在愚人节这天,枫林被照顾了,更新的奇快,比百度更新的还彻底,短短的几个小时之内,不管你搜什么找到SEO博客,都有这个“小时候欠他一毛钱”的提示,看我这记性,小时候,不但欠了李彦宏一毛钱,还欠了佩奇一毛钱,唉,现在跟我算利息来了。

再来解剖下百度:

1、在SERP页面底部相关搜索这块,更多相关搜索没了,不过百度吝啬,枫林不吝啬,提供一个地址,输入你想要的词就可以看到更多相关搜索了:http://d.baidu.com/rs.php

2、百度指数屏蔽了很多词的指数,你看到一些没有指数的词,那不一定没流量。

来评析下中国SEO现状:

关注SEO圈的菜鸟越来越多,枫林轻易不说谁菜,但是这次真的是菜,太没水准了,百度index里面搜下“SEO优化”,真是服了,竟然会有1000多关注量,我想我还是解释一下“SEO优化”吧,这个词本来就是错的,现在更是错的一塌糊涂,SEO本来就是搜索引擎优化,SEO优化就变成“搜索引擎优化优化”,这样我就想起佛山街头的“士多店”了,士多本来就有店的意思,再加个店字,就是关键字堆积了。想起某个文人的一句话“这个词有用,但是不能乱用”枫林再补充一句“更不能滥用”。

给大家留个思考题,欢迎评论。

问题:假如有天搜索引擎排名改成随机的规则,做关键字排名的SEO们将何去何从?

谷歌改版啦,类似韩文Google

早上一打开浏览器就看见谷歌改版了,用户体验是好了些,不过左上角的那些文字链接跟现在的小图标链接有重复。有点画蛇添足的感觉,本身页面高度就不高,没有必要在这么一个集中的区域连续出现两次相同的链接单元。

现在的谷歌搜索框底部出现七色圆点,当鼠标移动到该处的时候,弹出各类搜索产品的logo。

另外我们注意到在底部出现了一个口号“新的一天从 Google 开始”。

这是改版后的谷歌:

而在韩文Google中早就使用了这种表现形式,不过正如枫林所说,韩文Google左上角并没有文字链接了。起色圆点的排列顺序也不同。链接的产品也不同,这也是Google本土化的需要吧,我们在韩文Google可以看到Gmail,Youtube等链接,在搜索框顶部看到用Google各个产品logo组合而成的筛选条件。

韩文Google截图:

分页:[«]1[2][3][4][5][6][7][»]

日历

<< 2008-7 >>

Sun

Mon

Tue

Wed

Thu

Fri

Sat

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

Tags

Powered By Z-Blog 1.8 Devo Build 80108

Copyright SEO博客 Some Rights Reserved.