<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>上海SEO &#187; 百度</title>
	<atom:link href="http://www.cndozz.com/mytags/%e7%99%be%e5%ba%a6/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.cndozz.com</link>
	<description>又一个 WordPress 博客</description>
	<lastBuildDate>Mon, 02 Nov 2009 03:30:15 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.4</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<xhtml:meta xmlns:xhtml="http://www.w3.org/1999/xhtml" name="robots" content="noindex" />
		<item>
		<title>百度分词算法详解</title>
		<link>http://www.cndozz.com/article/baidu-word-segmentation-algorithm/</link>
		<comments>http://www.cndozz.com/article/baidu-word-segmentation-algorithm/#comments</comments>
		<pubDate>Tue, 21 Aug 2007 03:54:57 +0000</pubDate>
		<dc:creator>Chris</dc:creator>
				<category><![CDATA[SEO分享]]></category>
		<category><![CDATA[搜索引擎算法]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://herbashow.cn/?p=180</guid>
		<description><![CDATA[今天无意中读到的，网上转载很多了，不过还是忍不住在转载一番，不过原文就找不到了，读得有点累，但是多少有点启发了，推荐一下... ]]></description>
			<content:encoded><![CDATA[<p>今天无意中读到的，网上转载很多了，不过还是忍不住在转载一番，不过原文就找不到了，读得有点累，但是多少有点启发了，推荐一下。</p>
<p><strong>查询处理以及分词技术</strong></p>
<p>随 着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为 普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为技术人员，会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起，又一次向 人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。</p>
<p>但是，如何设计一个高效的搜 索引擎？我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点，比如查询处理，排序算法，页面抓取算 法，CACHE机制，ANTI-SPAM等等。这些技术细节，作为商业公司的搜索引擎服务提供商比如百度，GOOGLE等是不会公之于众的。我们可以将现 有的搜索引擎看作一个黑盒，通过向黑盒提交输入，判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。</p>
<p>查询处理与分词是一个中文搜索引擎必不可少的工作，而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。那么我们就来看看百度到底采用了哪些所谓的核心技术。</p>
<p>我们分两个部分来讲述：查询处理/中文分词。</p>
<p><strong>一、查询处理</strong></p>
<p>用户向搜索引擎提交查询，搜索引擎一般在接受到用户查询后要做一些处理，然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢？</p>
<p>1、假设用户提交了不只一个查询串，比如“信息检索 理论 工具”。那么搜索引擎首先做的是根据分隔符比如空格，标点符号，将查询串分割成若干子查询串，比如上面的查询就会被解析为：&lt;信息检索，理论，工具&gt;三个子字符串；这个道理简单，我们接着往下看。</p>
<p>2、 假设提交的查询有重复的内容，搜索引擎怎么处理呢？比如查询“理论 工具理论”，百度是将重复的字符串当作只出现过一次，也就是处理成等价的“理论工具”，而GOOGLE显然是没有进行归并，而是将重复查询子串的权重增大 进行处理。那么是如何得出这个结论的呢？我们可以将“理论工具”提交给百度，返回341,000篇文档，大致看看第一页的返回内容。</p>
<p>OK。 继续，我们提交查询“理论 工具理论”，在看看返回结果，仍然是那么多返回文档，当然这个不能说明太多问题，那看看第一页返回结果的排序，看出来了吗？顺序完全没有变化，而 GOOGLE 则排序有些变动，这说明百度是将重复的查询归并成一个处理的，而且字符串之间的先后出现顺序基本不予考虑（GOOGLE是考虑了这个顺序关系的）。</p>
<p>3、 假设提交的中文查询包含英文单词，搜索引擎是怎么处理的？比如查询”电影BT下载”，百度的方法是将中文字符串中的英文当作一个整体保留，并以此为断点将 中文切分开，这样上述的查询就切为&lt;电影，BT，下载&gt;，不论中间的英文是否一个字典里能查到的单词也好，还是随机的字符也好，都会当作一个 整体来对待。至于为什么，你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字，也是如此办理。</p>
<p>到目前为止，一切很简单，也很清楚，百度怎么处理用户查询的呢？归纳如下：首先根据分割符号将查询分开，然后看看是否有重复的字符串，如果有，就抛弃多余的，只保留一个，接着判断是否有英文或者数字，如果有的话，把英文或者数字当作一个整体保留并把前后的中文切开。</p>
<p>接着该干什么呢？该考虑分词的问题了。</p>
<p><strong>二、中文分词</strong></p>
<p>首先，讲讲百度的分词时机或者条件问题，是否是个中文字符串百度就拿来切一下呢？非也，要想被百度的分词程序荣幸的切割一下也是要讲条件的，哪能是个字符串就切割啊？你当百度是卖锯条的么？</p>
<p>那么什么样的字符串才满足被切割的条件呢？简单说来，如果字符串只包含小于等于3个中文字符的话，那就保留不动，当字符串长度大于4个中文字符的时候，百度的分词程序才出马大干快上，把这个字符串肢解掉。</p>
<p>怎 么证明呢？我们向百度提交“电影下载”，看看返回结果中标为红字的地方，不难看出来，查询已经被切割成&lt;电影，下载&gt;两个单词了，说明分词程 序已经开工了，如果是比4个中文字符更长的字符串，那分词程序就更不客气了，一定大卸八块而后快。我们来看看三个字符的情况，提交查询“当然择”，看起来 这个查询不伦不类，那是因为我希望看到这个字符串被切分为&lt;当然，择&gt;，返回结果365篇相关页面，翻到最后一页，发现标红的关键字都是” 当然择”连续出现的情况，好像没有切分，但是还不确定，那么再提交人工分好的查询“当然择”看看，返回结果1，090，000篇，基本上可以确定没有进行 分词了，当然另外一种解释是：对于三个字符先切分，然后将切分后的结果当作一个短语查询，这样看到的效果和没有切分是相似的。</p>
<p>但是我倾向于 判断百度对于少于3个字符的串没有切分，奥卡姆不是说了么“如无必要，勿增实体”，干吗做无用功呢。那么如果没有切分，会有一个随之而来的问题，怎么从索 引库里面提取未切分的字符串呢？这牵扯到索引的问题，我觉得百度应该采取了两套索引机制，一种是按照单词索引，一种是按照N-GRAM索引，至于索引的具 体问题，以后在详细论述。</p>
<p>下面我们看看百度是采取的何种分词算法，现在分词算法已经算是比较成熟了，有简单的有复杂的，比如正向最大匹 配，反向最大匹配，双向最大匹配，语言模型方法，最短路径算法等等，有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点 的是：判断一个分词系统好不好，关键看两点，一个是消除歧义能力；一个是词典未登录词的识别比如人名，地名，机构名等。</p>
<p>那么百度用的是什么方法？我的判断是用双向最大匹配算法。至于怎么推理得出的，让我们一步步来看。当然，这里首先有个假设，百度不会采取比较复杂的算法，因为考虑到速度问题。</p>
<p>我 们提交一个查询“毛泽东北京华烟云”，又一个不知所云的查询，尽管不知所云但是自有它的道理，我想看看百度的分词是如何消歧以及是否有词典未登录词的识别 的功能，如果是正向最大匹配算法的话，那么输出应该是：”毛泽东/北京/华/烟云”，如果是反向最大匹配算法的话，那么输出应该是：”毛/泽/东北/京华 烟云”，我们看看百度的分词结果：”毛泽东/北/京华烟云”，一个很奇怪的输出，跟我们的期望相差较多，但是从中我们可以获得如下信息：百度分词可以识别 人名，也可以识别”京华烟云”，这说明有词典未登录词的识别的功能，我们可以假设分词过程分为两个阶段：第一阶段，先查找一个特殊词典，这个词典包含一些 人名，部分地名以及一些普通词典没有的新词，这样首先将”毛泽东”解析出来，剩下了字符串”北京华烟云”，而”北/京华烟云”，可以看作是反向最大匹配的 分词结果。这样基本说得通。为了证明这一点，我们提交查询”发毛泽东北”，我们期望两种分词结果，一个是正向最大匹配&lt;发毛，泽，东北&gt;，一 个是上述假设的结果&lt;发，毛泽东，北&gt;，事实上百度输出是第二种情况，这样基本能确定百度分词采取了至少两个词典，一个是普通词典，一个是专 用词典（人名等）。而且是专用词典先切分，然后将剩余的片断交由普通词典来切分。</p>
<p>继续测验，提交查询“古巴比伦理”，如果是正向最大匹 配，那么结果应该是&lt;古巴比伦，理&gt;，如果是反向最大匹配，那么结果应该是 &lt;古巴，比，伦理&gt;，事实上百度的分词结果是&lt;古巴比伦，理&gt;，从这个例子看，好像用了正向最大匹配算法；此外还有一些例子表明 好像是使用正向最大匹配的；但是且慢，我们看这个查询“北京华烟云”，正向最大匹配期望的结果是&lt;北京，华，烟云&gt;，而反向最大匹配期望的结 果是 &lt;北，京华烟云&gt;，事实上百度输出的是后者，这说明可能采用的反向最大匹配；从这点我们可以猜测百度采用的是双向最大匹配分词算法，如果正向 和反向匹配分词结果一致当然好办，直接输出即可；但是如果两者不一致，正向匹配一种结果，反向匹配一种结果，此时该如何是好呢？</p>
<p>从上面两个 例子看，在这种情况下，百度采取最短路径方法，也就是切分的片断越少越好，比如&lt;古巴，比，伦理&gt;和&lt;古巴比伦，理&gt;相比选择后 者，&lt;北京，华，烟云&gt;和&lt;北，京华烟云&gt;相比选择后者。还有类似的一些例子，这样基本可以解释这些输出结果。</p>
<p>但是仍然遗留的问题是：如果正向反向分词不一致，而且最短路径也相同，那怎么办？输出正向的还是反向的结果？<br />
我 们再来看一个例子。提交查询“遥远古古巴比伦”，这个查询被百度切分为&lt;遥远，古古，巴比伦&gt;，说明词典里面有”巴比伦”，但是是否有”古巴 比伦”这个词汇不确定，此时看不出是正向切分还是反向切分得出的结果，换查询为“遥远古巴比伦”，此时被切分为“遥远/古巴比伦”，这说明词典里面有”古 巴比伦”这个词汇，这说明了“遥远古古巴比伦”是正向最大匹配的结果。那为什么“遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢，百度的可能 选择是这种情况下选择单字少的那组切分结果。</p>
<p>当然还可以继续追问：如果切分后单字也一样多，那怎么办？最后看一个例子，查询“王强大小：”，百度将其切分为“王/强大/小”，是正向切分的结果，如果是反向的会被切分为“王/强/大小”，这说明有歧义而且单字也相同则选择正向切分结果。</p>
<p>OK，看到这里可能头已经有些晕了，最后总结一下百度的分词算法，当然里面还是有猜测的成分，算法如下：</p>
<p>首 先查询专用词典（人名，部分地名等），将专有名称切出，剩下的部分采取双向分词策略，如果两者切分结果相同，说明没有歧义，直接输出分词结果。如果不一 致，则输出最短路径的那个结果，如果长度相同，则选择单字词少的那一组切分结果。如果单字也相同，则选择正向分词结果。</p>
<p>百度一直宣传自 己在中文处理方面的优势，从上面看，分词算法并无特殊之处，消歧效果并不理想，即使百度采取比上述分词算法复杂些的算法也难以说成是优势，如果说百度有优 势的话，唯一的优势就是那个很大的专用词典，这个专用词典登录了人名（比如大长今），称谓（比如老太太），部分地名（比如阿联酋等），估计百度采用学术界 公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词，逐渐扩充这个专门词典。如果这就是优势的话，那么这个优势能够保持多久就是个很明显 的问题。</p>
<p><strong>Spelling Checker拼写检查错误提示(以及拼音提示功能)</strong> </p>
<p>拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的.</p>
<p>我们分析拼写检查系统关注以下几个问题:</p>
<p>(1)系统如何判断用户的输入是有可能发生错误的查询呢? <br />
(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢? </p>
<p>那 么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误 提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的 检索词汇.</p>
<p>那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询&#8221; 制才&#8221;,百度提供的提示词汇为: “:制裁 质材纸材&#8221;,都是同 音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材&#8221;,另外还有一 个标注拼音程序,现在能够看到的基本流程是: 用户输入&#8221; 制才&#8221;,查词典,发现没有这个词汇,OK,启动标注拼音程序,将&#8221; 制才&#8221;标注为拼音&#8221;zhi cai&#8221;,然后查找同音词词典,发现同音词&#8221; 制裁,质材,纸材&#8221;,那么提示用户可能的正确拼写.</p>
<p>整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都 作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,选择其中几个输出.怎么证明这一 点?我们看看拼音&#8221;liu li&#8221;的同音词,紫光输入法提示同音词汇有&#8221; 流丽 流离 琉璃流利&#8221;4个,我们看看百度返回几个,输入&#8221;流厉&#8221;作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,百度提示: &#8221; 琉璃刘丽 刘莉 &#8220;,这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?</p>
<p>我能够猜测到的方法是对于用户查询LOG进行统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索&#8221;琉璃&#8221;次数比其它的都要高些,次之是&#8221; 刘丽&#8221;,再次是&#8221; 刘莉&#8221;,看来大家都喜欢查询自己或者认识的人的名字.</p>
<p>另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词条?是否包含一字词? 这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?</p>
<p>反正只要是汉字就能在词表里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询 &#8220;中城药&#8221;百度错误提示:&#8221;中成药&#8221;,修改查询为&#8221;重城药&#8221;,还是提示&#8221;中成药&#8221; ,再次修改查询 &#8220;重城要&#8221;,百度依然提示&#8221;中成药&#8221;. 那么4字词汇呢?</p>
<p>百度还是会给你提示的,下面是个例子: <br />
输入:静华烟云 提示 京华烟云 <br />
输入:静话烟云 提示 京华烟云 <br />
输入:静话阎晕 提示 京华烟云</p>
<p>那 么更长的词汇是否提 示呢?也提示,比如我输入: &#8220;落花世界有风军&#8221;,这个查询是什么意思,估计读过古诗的都知道,看看百度的提示&#8221;落花时节又逢君&#8221;,这说明什么?说明同音词词典包含不同长度的同音词信 息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的.</p>
<p>但是,如果用户输入的 查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就罢工了,比如输入查询&#8221;哀体&#8221;,百度提示&#8221;艾提 挨踢&#8221;,但是.输入为 &#8220;我 哀体 &#8220;,则没有任何错误提示.</p>
<p>还 有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我们来看看百度的一个标注拼音的错误,在看这个错误 前先看看对于多音字百度是怎么提示错误的,我们输入查询&#8221;俱长&#8221;,百度提示&#8221;剧场 局长&#8221;, “俱长&#8221;的拼音有两个:&#8221;ju zhang /ju chang&#8221; ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询&#8221;剧常&#8221;,百度 提示&#8221;:剧场局长&#8221;,提示为&#8221;剧场&#8221;当然好解释,因为是同音字,但是为什么 &#8220;局长&#8221;也会被提示呢?这说明百度的同音字词典有错误,说明在&#8221;ju chang&#8221;这个词条里面包含&#8221;局长&#8221;这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?</p>
<p>说明百度的同音词典是自动生成的,而且没有人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个词典的词条来标注音节的,</p>
<p>所 以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注. 当然还有另外一种解释,就是&#8221;局长&#8221;是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人&#8221;zh&#8221;和 &#8220;ch&#8221;等前后鼻音分不清么,那么是这样的么?我们继续测试到底是何种情况.是百度有错误还是这是百度的先进的算法?</p>
<p>我们考虑词汇&#8221;长 大 &#8220;,故意错误输入为&#8221;赃大&#8221;,如果百度考虑到了前后鼻音的问题,那么应该会提示&#8221;长大&#8221;,但是百度提示是&#8221;藏大&#8221;.这说明什么?说明百度并没有考虑前后鼻 音问题,根本就是系统错 误. 我们输入查询&#8221;悬赏&#8221;,故意将之错误输入为&#8221;悬桑&#8221;,没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们输入&#8221;:经 常&#8221;,故意改为后鼻音 &#8220;经缠&#8221;,百度提示为&#8221;经产 经忏&#8221;,还是没有考虑后鼻音.这基本可以确定是百度系统的错误导致.</p>
<p>根据以上推 导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式形成同音词词典.这样的同音词词典显然包含着很多错误.</p>
<p>最后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查询&#8221;china&#8221;,不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜.变换一下查询&#8221;chine&#8221;,会更加意外惊喜的给我们提示&#8221;china&#8221;吗?</p>
<p>百 度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典呢,让我们来实验一下,搜索&#8221;rongji&#8221;, 百度提示&#8221; 榕基 溶剂 容积&#8221;,OK,换个中文查询&#8221;容机&#8221;,百度提示&#8221; 榕基溶剂容积&#8221;,看来使用的是同一套同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说 中那个百度的&#8221;事实上是一个无比强大的拼音输入法&#8221;的拼音提示功能么?</p>
<p><strong>最后让我们总结归纳一下百度的拼写检查系统:</strong> <br />
后台作业: <br />
(1) 前面的文章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中的每个 词条,然后标注拼音,如果是多音字则把多个音都标上,比如&#8221;长大&#8221;,会被标注为&#8221;zhang da/chang da&#8221;两个词条. <br />
(2)通过标注完的 词条,建立同音词词典,比如上面的&#8221;长大&#8221;,会有两个词条: zhang daà长大&#8221; , chang daà长大. <br />
(3)利用用户查询LOG频率信息给予每个 中文词条一个权重; <br />
(4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大; </p>
<p>拼写 检查: <br />
(1)用户输入查询,如果是多个子字符串,不作拼写检查; <br />
(2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查; <br />
(3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注; <br />
(4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br />
(5)如果发现有词条,则按照顺序输出权重比较大的几个提 示结果; </p>
<p>拼音提示: <br />
(1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示; <br />
(2)如果 发现有词条,则按照顺序输出权重比较大的几个提示结果;</p>
<p>上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.</p>
<p><strong>那么以前的分析有什么漏洞呢?</strong><br />
我 们推导百度分词有反向最大匹配的依据是百度将&#8221;北京华烟云&#8221;分词为&lt;北,京华烟云&gt;,从这里看好像采用了反向最大匹配,因为正向最大匹配的结 果应该是&lt;北京,华,烟云&gt;,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典,一 个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的&#8221;北京华烟云&#8221;之所以被切分成&lt;北,京华烟云&gt;,另 外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出&#8221;京华烟云&#8221;,剩下&#8221;北&#8221;,没什么好切分的,所以输出&lt;北,京华烟 云&gt;.</p>
<p>这里只是假设,那么是否确实&#8221;京华烟云&#8221;在专有词典呢?我们再看一个例子&#8221;山东北京华烟云&#8221;,百度切分的结果是&lt;山 东,北,京华烟云 &gt;,如果&#8221;京华烟云&#8221;在普通词典,如果是反向切分,那么结果应该是&lt;山,东北,京华烟云&gt;,如果是正向切分应该是&lt;山东,北京, 华,烟云&gt;,无论如何都分不出&lt;山东,北,京华烟云&gt;.这说明什么?<br />
说明&#8221;京华烟云&#8221;是在那个专有词典,所以先切分出&#8221;京华烟 云&#8221;,然后剩下的&#8221;山东北&#8221;交由普通词典切分,明显是正向最大匹配的结果输出&lt;山东,北&gt;.当然按照我们在第一篇文章的算法推导&#8221;山东北&#8221;的 切分也会得出&lt;山东,北&gt;的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便 的方法了.所以初步判断百度采取的是正向最大匹配.</p>
<p>我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面 不能出现相对特殊的词汇,构筑查询&#8221;天才能量级&#8221;,这里应该没有专有词典出现过的词汇,百度切分为&lt;天才,能量,级&gt;,看来是正向最大匹配的 结果.另外,如果所有查询词汇都出现在专有词典,那么采取的是何种方法?这样首先就得保证词汇都出现在专有词典,这么保证这一点呢?</p>
<p>我们构 造查询&#8221;铺陈晓东方&#8221;,百度切分为&lt;铺,陈晓东,方&gt;,可以看出 &#8220;陈晓东&#8221;是在专有词典的所以先切分出来.另外一个例子 &#8220;山东京城&#8221;,百度切分为&lt;山东,京城&gt;,说明&#8221;东京&#8221;是在普通词典的.OK,构造查询&#8221;陈晓东京华烟云&#8221;,通过前面分析可以看出两个词汇都 在专有词典里面,百度切分为&lt;陈晓东,京华烟云&gt;,说明对于专有词典词汇也是采取正向最大匹配或者双向最大匹配.那么使用反向最大匹配了吗? 构造查询例子&#8221;陈晓东方不败&#8221;,首先我们肯定&#8221;陈晓东&#8221;和&#8221;东方不败&#8221;都是在专有词典出现的,如果是正向切分,那么应该是&lt;陈晓东,方,不败 &gt;或者&lt;陈晓东,方,不,败&gt;如果是反向切分则是&lt;陈,晓,东方不败&gt;,可以看出百度的切分是&lt;陈晓东,方,不败 &gt;或者&lt;陈晓东,方,不,败&gt;,说明采用的是正向最大匹配.通过分析,百度的词典不包含&#8221;不败&#8221;这个单词,所以实际上百度的切分结果是 &lt;陈晓东,方,不,败&gt;,很明显这和我们以前推导的算法是有矛盾的,所以以前的分析算法确实有问题,所以结论是百度采取的是正向最大匹配算 法.</p>
<p><strong>重新归纳一下百度的分词算法系统</strong>:首先用专有词典采用最大正向匹配分词,切分出部分结果,剩余没有切分交给普通词典,同样采取正向最大匹配分词,最后输出结果.</p>
<p>另外,GOOGLE也是采用正向最大匹配分词算法,不过好像没有那个专用词典,所以很多专名都被切碎了.</p>
<p>从这点讲,GOOGLE在中文词典构建上比百度差些,还需要加把子力气才行,不过这也不是什么多难的事.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cndozz.com/article/baidu-word-segmentation-algorithm/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>SEO跟踪报告：三大搜索引擎对原创的判断（二）</title>
		<link>http://www.cndozz.com/article/seo-tracking-report-the-three-major-search-engines-to-determine-original-2/</link>
		<comments>http://www.cndozz.com/article/seo-tracking-report-the-three-major-search-engines-to-determine-original-2/#comments</comments>
		<pubDate>Mon, 25 Jun 2007 03:37:55 +0000</pubDate>
		<dc:creator>Chris</dc:creator>
				<category><![CDATA[SEO分享]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[yahoo]]></category>
		<category><![CDATA[百度]]></category>
		<category><![CDATA[网站排名]]></category>

		<guid isPermaLink="false">http://herbashow.cn/?p=172</guid>
		<description><![CDATA[差不多3个月前，我留意到自己原创文章在百度中的排名几乎找不到，于是写了SEO跟踪报告：三大搜索引擎对原创的判断，这几天，在百度上搜索一下，自己的文章终于在第一位了，虽然时间比... ]]></description>
			<content:encoded><![CDATA[<p>差不多3个月前，我留意到自己原创文章在百度中的排名几乎找不到，于是写了<a href="http://www.cndozz.com/article/seo-tracking-report-the-three-major-search-engines-to-determine-original/" target="_blank">SEO跟踪报告：三大搜索引擎对原创的判断</a>，这几天，在百度上搜索一下，自己的文章终于在第一位了，虽然时间比较长，但最终结果还是比较欣慰的。</p>
<p>日期：6月25日<br />
 关键词：49个影响网站排名的因素（完整版）<br />
 google排名：第1位<br />
 百度排名：第1位 <br />
 yahoo排名：第2位</p>
<p>关键词：49个影响网站排名的因素<br />
 google排名：第1位<br />
 百度排名：第1位<br />
 yahoo排名：第1位</p>
<p>关键词：影响网站排名的因素（完整版）<br />
 google排名：第1位<br />
 百度排名：第1位<br />
 yahoo排名：第1位</p>
<p>关键词：影响网站排名的因素<br />
 google排名：第1位<br />
 百度排名：第1位<br />
 yahoo排名：第1位</p>
<p>小结：总体来说还是比较不错的，具体原因可能是反向链接的增长，当初记录的时候反链只有25个，现在已经增加到了238个，反链应该可以帮助搜索引擎判断文章的原出处，这个我相信是必然的，三大搜索引擎中，雅虎和GOOGLE还比较好，我的<a href="http://www.cndozz.com/article/google-ranking-factors/" target="_blank">SEO精华之Google排名因素详解</a>目前在百度中还是找不到……</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cndozz.com/article/seo-tracking-report-the-three-major-search-engines-to-determine-original-2/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>百度教程之如何提高用户体验（全）</title>
		<link>http://www.cndozz.com/article/baidu-tutorial-of-how-to-improve-the-user-experience/</link>
		<comments>http://www.cndozz.com/article/baidu-tutorial-of-how-to-improve-the-user-experience/#comments</comments>
		<pubDate>Mon, 02 Apr 2007 03:15:24 +0000</pubDate>
		<dc:creator>Chris</dc:creator>
				<category><![CDATA[用户体验]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://herbashow.cn/?p=147</guid>
		<description><![CDATA[百度一下，关于“用户体验”一词的页面超过了1,880,000篇。如何有效提升用户体验成为摆在所有产品设计者面前的重要问题……在2007年1月31日举办的百度先锋论坛上，百度首席设计师、用户体... ]]></description>
			<content:encoded><![CDATA[<p><span>一、被忽视的用户体验设计本质</span></p>
<p>百度首席设计师 用户体验部总监 郭宇演讲中</p>
<p><img class="alignnone size-full wp-image-148" title="guo1" src="http://www.cndozz.com/wp-content/uploads/2009/09/guo1.gif" alt="guo1" /></p>
<p><strong>设计师不等于美工</strong></p>
<p>设计无所不在，但大多数企业不知道如何使用它。现代设计进入中国大概是二十多年的时间，而在国外，尤其在美国在欧洲，大概有一百年的历史。二十多年前中国 是没有人讲用户体验这个词的。那个时代讲究技术和美术的结合，叫技术美学。一个产品，只要功能好，样式好看，就OK。二十多年后，这个概念在大多数企业还 没有发生改变，大多企业的高层也不理解什么叫设计，认为设计师就是一个美工。设计师本身也没有去提标准，自身的思维也只是停留在美工这个角度上。设计的潜 力，远远没有发挥出来。</p>
<p>设计师的本质并不光是把PPT做得很漂亮。在企业中，设计师应该拥有独特解决问题的能力，可以去模拟未来发展的事情。</p>
<p>比如，在50年代的时候，在美国问任何一个人，家电设计应是什么样子？所有人都会说，家电必须放在一个柜子里面，必须跟家具是一样的。而日本人却发现，其 实家电应该有它自己独特的一个东西，它有金属的外观，很轻巧，很好用。日本人的设计理念，使他们一举占领了市场。这说明，设计师要做一些创新的东西，用户 的一些潜在的思维慢慢会被引导。</p>
<p>设计师比较特别并经常使用的三种作法：观察、模拟和讲故事。</p>
<p>通过观察用户的行为，发现用户有一些什么困难，有什么潜在的机会，去发生改变，发现灵感，灵感变成产品，最终给用户去用。而不是传统的市场调研的方法，去问卷调查，把猜想可能是A和B的做法，只是让用户选择，然后确认一下。</p>
<p>模拟就是把潜在的、新的产品模拟出来，用户在使用过程中，设计师进一步观察，发现问题，触发灵感，去改造概念。这样做出来的产品上线之后，会更好、更接近于用户的需求。</p>
<p>设计师还可以讲很好的故事，去说服公司高层去做一些新的产品。</p>
<p>设计思维是一种以人为本的创新。从人的体验的角度去考虑，怎么去创造人的价值。设计本应首先考虑用户，其次是商业，而大多数企业恰恰相反。先考虑怎么赚钱，怎么去增加流量，而真正没有从用户的角度去思考。</p>
<p><strong>用户体验——创新三动力之一</strong></p>
<p>商业创新通常有三大动力：商业模式、技术、用户体验。</p>
<p>戴尔实现一种商业模式的创新。他把电脑完全用直销的模式去卖，所以价格可以做得很低，成为世界上第一大电脑销售商。</p>
<p>Intel完成了技术的创新，每8个月可以让CPU速度增加一倍，价格减一半，所以他统治着电脑领域几十年。</p>
<p>用户体验则是第三种创新，这种创新可以给企业带来巨大的发展。苹果五年前推出IPOD时，市场上已经有很多MP3播放器产品。IPOD本身没有什么特殊的 功能，也就是播放，倒歌，但是苹果在用户体验方面做了很好的创新，东西非常好用，很简单。IPOD要加功能，可以加得很多比如说要删除一个歌，比如可以买 歌买电影。但当时苹果要节约成本，用户也不需要。IPOD满足了用户简易、简单的体验。视觉上，IP0D白色的透明材料，在那个年代已经把用户体验做到了 极致，也因此吸引了大批顾客。</p>
<p><span>二、如何管理用户体验设计</span></p>
<p><strong>用户体验设计管理金字塔：</strong></p>
<p><strong><img class="alignnone size-full wp-image-149" title="jinzita" src="http://www.cndozz.com/wp-content/uploads/2009/09/jinzita.gif" alt="jinzita" /><br />
 </strong></p>
<p>用户体验设计目标是什么？最重要的是要让产品有用，这个有用是指用户的需求。苹果90年代出来第一款PDA手机，叫牛顿，是非常失败的一个案例。在那个年代，其实很多人并没有PDA的需求，苹果把90％以上的投资放到他1％的市场份额上，所以失败势在必然。</p>
<p>其次是易用，这非常关键。不容易使用的产品，也是没用的。市场上手机有一百五十多种品牌，每一个手机有一两百种功能，当用户买到这个手机的时候，他不知道 怎么去用，一百多个功能他真的可能用的就五、六个功能。当他不理解这个产品对他有什么用，他可能就不会花钱去买这个手机。产品要让用户一看就知道怎么去 用，而不要去读说明书。这也是设计的一个方向。</p>
<p>设计的下一个方向就是友好。最早的时候，加入百度联盟，百度批准后，发这样一个邮件：百度已经批准你加入百度的联盟。批准，这个语调让人非常非常难受。所以现在说：祝贺你成为百度联盟的会员。文字上的这种感觉也是用户体验的一个细节。</p>
<p>视觉设计的目的其实是要传递一种信息，是让产品产生一种吸引力。是这种吸引力让用户觉得这个产品可爱。“苹果”这个产品其实就有这样一个概念，就是能够让用户在视觉上受到吸引，爱上这个产品。视觉能创造出用户黏度。</p>
<p>前四者做好，就融会贯通上升到品牌。这个时候去做市场推广，可以做很好的事情。前四个基础没做好，推广越多，用户用得不好，他会马上走，而且永远不会再来。他还会告诉另外一个人说这个东西很难用。</p>
<p>用户体验设计经常犯的错误是，直接开发直接上线。很多人说，互联网作为一个实验室，我一上线就可以知道结果了。这当然也是一个正确的理念。但是在上线之前 有太多的错误，那么就会大大地影响事态结局。一开始的时候就能很准确地作出一些判断，作出一些取舍，在互联网这个实验室里，才能够做得更好。</p>
<p><strong>用户需求是根本，但用户需求不一定是功能</strong></p>
<p>百度在半年前推出空间，从功能上来说它比较其他同类产品没有什么特别大的变化，就是三个最基本的功能：上传文章，上传图片，交友。这三个功能，所有博客都 有做，而且有更多的功能。但是那个时候，大部分的博客，不管是CSP还是门户网站，都不能解决一个问题：速度。性能很不稳定，文章上传了，可能登录就进不 去了，可能上传的东西没了。其实用户最基本的需求，就是速度和稳定性。百度虽然才做博客，但百度有很大的平台，有很多的服务器，有很大的流量，完全可以从 稳定性和速度上把这两个用户体验做好，其次再做一些功能。很难用的产品注定会失败的，这个是非常关键的。</p>
<p>百度的搜索，可以用五个字归纳：快准全新稳。每一个字可以分解成很多小项，跟所有的搜索引擎PK，每一个字后面都代表着一种用户体验。一个博客一推出来就 有几百个链接，几十种功能，很多网站说我可以这样做，国外都是这样做的，像MYSPACE做得很成功，我就把它照搬过来。但是很多中国用户其实跟美国用户 是不一样的，中国70％的人是30岁以下的，以娱乐为主，而不是信息搜索为主。而美国是70％是30岁以上的，非常成熟和理性的这一类。很多功能拿到中 国，中国人是不会用的。这就是你增加越多的功能，你就越增加产品的复杂性。</p>
<p><strong>怎么完成易用性这个任务</strong></p>
<p>百度就有一个专门做易用性这样的团队，每天请各种用户来做各种各样的调研。</p>
<p>特别提出，不要忽视文字的力量。当年的EBAY，注册一个EBAY的帐户，第一步第二步第三步。第三步，原来是这样说的：“你只要在你的邮件确认一下你就 成功了”。这样一句话，很长。但是用户不是一个一个字去读，他是扫描，他一眼扫过去，他的意向可能就是成功了。把成功两个字记住他就走掉了，不会再去确认 这个邮件了。EBAY后来改成五个大字，叫“快要成功了”。五个大字，非常大。有户一看，我没有成功，我要做什么事，下面写邮件。所以几个字就让EBAY 提升了10％到20％的注册率，相当于每天给他带来一百万的最终价值。</p>
<p><strong>怎么能让用户爱上你的产品</strong></p>
<p>可以通过视觉去改善，去提供一种感觉。这就是为什么百度和Google要做节日LOGO的原因，因为搜索这个产品也是太普通了。节日的时候做做LOGO，用户产生一种感觉、情感，黏度会更好。这一类的东西我们都可以从视觉上去提高。</p>
<p>百度节日LOGO：</p>
<p><img class="alignnone size-full wp-image-150" title="logo_bf" src="http://www.cndozz.com/wp-content/uploads/2009/09/logo_bf.gif" alt="logo_bf" width="560" height="48" /></p>
<p><strong>用户体验是一个多背景的梯形团队</strong></p>
<p>为什么多背景呢？首先你要了解用户的需求，这不是很容易的事情。先要从社会学，人类学，心理学角度大量研究。然后需要技术人员去模拟UI的技术或者是后台 的技术。视觉体验，又要从工业设计这个角度去看。这些事都要不同背景不同类型的人去做。同时还要分工程师，产品经理。甚至一些公司高层、市场部的人都要在 一起工作。为什么说是梯型呢？因为第一要了解各个专业的人，他们知道些什么东西，你怎么跟他们合作；第二就是更专业。两方面都要去共同发展。这样整个联系 在一起，就变成一个完整团队。</p>
<p>另外一点很重要，UE设计并非由用户体验部来设计。百度成立用户体验部，是因为用户体验部可以协助其他部门更专业、更系统地去做用户体验这件事。</p>
<p>百度每天几亿的流量，稍微做一点改变，就可以得到很大的提升。比如说百度搜索结果的摘要，你加两个字或者是减两个字可能就影响到一百万的收入。百度首页上 之前的一句话叫“把百度设为首页”，最早是“设百度为首页”，就改一个字，每天会增加几千个以上的点击量。用户体验部要做的是指挥，而不是独自做专业的 事，要让所有的人一起来思考问题，是跟其他部门在一起工作，提供给其他部门更专业更系统的用户体验信息，协助所有的人员来做这个事情。</p>
<p><span>三、怎样在细节中改善用户体验</span></p>
<p><strong>关注用户体验的细节</strong></p>
<p>用户体验调研远不应只是简单的你问我答。细节往往藏于用户说、做、想、感觉等各个具体行为之中——</p>
<p>说：传统的市场调研方式，设计一个问卷，问用户喜不喜欢这个产品，或者给用户几种案，问用户喜欢哪一种，这就是说。</p>
<p>做：这是比说更好的数据。看用户做什么。甚至不要说，从他的行为已经发现了很多问题。人类学，设计学，心理学都是做这件事。人类学家费晓东，专门在中国的 一个农村观察了60年。60年的变化，解放前，解放后，观察某个人的行为过程，他就得到这个人行为演变的规律。这种调研方式最近十年来已经被引进到设计里 面去——设计一些场景，让用户去用，然后去看他做些什么。</p>
<p>想：用户到底在想什么？他看到一个产品，上面可能功能很多，他可能脑瓜去想我不会用，我不知道怎么用，但是这只是他的想法，没有表达出来。怎么能够了解这 种想法呢？让他一边想一边去说。激发他去说。比如为一个网页做调研的时候，就让用户想这个链接认为会到什么地方去。用户认为的地方可能跟网页点过去的初级 设计页面是不一样的，这就形成一个用户的数据。</p>
<p>感觉：一个网站是很土还是很酷还是很贴心？这种感觉有一百种形容词，怎么能够把它真正发掘出来？这是细分人视觉的很重要的一个调研方式。</p>
<p>脚：用户是用他的脚来投票的，非常简单的道理，你的产品不好，他就走掉了。</p>
<p><strong>从细节中洞察</strong></p>
<p>很多人做了很多调研，形成很多数据。但是问题在于没有形成洞察。就是你不知道从这个数据里面去挖出一些信息形成设计标准。</p>
<p>怎么从数据中得到一种洞察？这也不是一件很容易的事情。比如说在厨房里做调研，可能有两种，一种是看主人怎么去用电饭煲，这个过程，可能得到的结果是一个 更好的电饭煲。这是针对产品的调研。另外一种是花两个小时，观察主人从切菜到洗菜，到煮菜，到吃完饭，怎么去洗这些碗，这整个过程，发现各种各样存在的问 题，也得到一个结论，这个结果是一个更好的，新一代的厨房用品，而这个跟电饭煲可能没有关系。</p>
<p><strong>跨国公司为什么在中国容易做不好</strong></p>
<p>很多大型跨国公司在海外市场都会遇上挫折，也是细节所决定。</p>
<p>NBA非常重视中国市场。他们把所有NBA的页面、新闻、各种各样的数据全部翻译成中文给中国用户去用，他们也请一些球星来，在中国办各种活动。</p>
<p>但是他们忽略了什么？比如说用户要看一场球赛，自然需要一个赛程表，NBA给的是：第一，美国的电视台，对中国的有户，美国电视台没有任何意义；第二，美 国的时间，中国时间是半夜。所以仅仅把所有东西翻译过来是不够的，要针对中国需求，很实在的去发现一些他们需要的东西，让他真正去用。NBA可用性上面有 问题，更不要说易用性的问题。很多跨国公司，只是把外面产品汉化过来，而没有去考虑细节问题。这跟技术没有关系，跟很有钱也没有关系。就是这些细节做不 好，用户用脚投票，走掉了，不会再来了。</p>
<p><span>四、百度对于用户体验，是如何实践的</span></p>
<p><strong>前馈与反馈</strong></p>
<p>上线之前百度要做调研，去发现用户自己没有说出来的一种需求，这就叫前馈。有一家公司叫OXO，他们发现当时所有的人家，厨房用具的把手抓起来都很不舒 服，不是很圆滑，是金属的，抓起来手感不好，于是OXO把所有的厨房用具的手柄都做得很大，塑胶的，螺纹的，抓着很舒服。OXO的这种“把手”申请了专 利，别人卖20美分刮苹果刀这类的小东西，他们就可以卖五美金。</p>
<p>出一个产品给用户用，用户发邮件给你，或者他点击，或者他告诉你这个产品好不好用。这是反馈。有一个酒店，他们发现很多商务人员去酒店的时候，经常要在大 堂里开一个小会议，因为房间里不够大。大堂并不是给他们开这种小会用的，酒店就去专门调查这些人的需求，做一些模拟的环境，让大堂迅速可以变成几个小会议 中心，所有的商务人士，都往里面挤，这家酒店就把这个市场抓住了。</p>
<p><strong>先做减法再做加法</strong></p>
<p>国外的东西百度不会照搬过来，百度空间就三个基本需求，写文章，放照片，交友。其他的功能如留言版、视频什么的以后慢慢加上去，加一个看一个的效果，看点击量，看用户反馈，喜欢就再往上加。稳定性，速度，是非常最关键的。别的根据用户需求加减。</p>
<p><strong>结构化地整合信息</strong></p>
<p>为什么做MP3搜索？因为百度发现搜索TOP，前十位，永远都有MP3。做这样一个搜索很自然。就像EBAY当年卖汽车一样，发现很多人已经在其他网站里 面卖汽车的，我做肯定会成功的，因为已有庞大的用户基础。互联网其实是信息的整合，我们就是在把不同类别的信息整合起来，这也就是一种垂直搜索的模式。</p>
<p><strong>维护用户真实选择的结果</strong></p>
<p>MP3 页面中“MP3榜单家庭”榜单不放在首页。如果把榜单放在首页，用户自然去点击，点击越多越不真实。百度把它隐藏起来，完全是真实数据做出来的。所以很多唱片公司以百度的榜单来作为他们专辑或者选歌手的一个量化标准，这成了他们市场的一个标杆。</p>
<p><strong>弥补缺省，创造资源</strong></p>
<p>“百度知道”推出来一年多时间，已经解决了一千多万个问题。为什么做“知道”呢？第一，很多信息在网络中是没有的。第二，很多人喜欢用智能语言来提问，比 如说鸡蛋不应该跟什么放在一起。用户想用关键词搜索的时候，往往并不知道用什么关键词来查找想要的信息。第三，很多关键词搜索结果往往大相径庭，比如说搜 索“苹果”，出来的结果可能是水果也可能是电脑。搜索引擎没法判断用户的真实意图是什么，所以正确答案埋没在几千万个答案里面，用户不知道真正的答案。</p>
<p>“百度知道”推出后，一切变得非常简单。只要提出任何一个问题，五分钟之内，一定会有人给你回答。每天知道可以解决将近五万个问题，可以想像，两天就可以 看到一本《十万个为什么》。而每一个答案，通过投票，最佳答案就沉淀在里面，成为网络上搜索的结果。所以百度知道是搜索的一个非常好的补充。</p>
<p><strong>创造工具，更要创造规则</strong></p>
<p>如果要建立一个搜索社区，不仅仅是设计工具，还要设计规则。</p>
<p>比如积分制度、专家团。如百度知道，有人会问，用户为什么要给你回答问题，能得到什么好处呢？而社区的用户讲究的不是达到多少现实利益，更多的是成就感。 给用户奖励积分，评选最佳答案，用户回答问题分数提高，成就感很好，晚上不睡觉也必须要回答几十个问题。这种感觉就是一种规则，就是我们创造一种社区的规 则。所以规则和工具很重要，能够让社区有良性的发展。</p>
<p><strong>不去干扰、阻挡交流</strong></p>
<p>百度贴吧之所以能够发展壮大，关键是不用注册，不用找分类。你只要输入任何一个词，一点搜索，你就可以到目标区里面讨论，没有门槛的设计非常重要。贴吧的目的是让用户去交流，注册用户不重要，分类也不重要，不要去干扰，去阻挡他们进入这个讨论区。</p>
<p><strong>关注用户需求，量多成产品</strong></p>
<p>为什么要做音乐掌门人？因为很多人已经在贴吧都讨论，不管是摇滚歌曲还是歌手都有。这些信息跟用户的行为有关，积到一定的量，用户需求明显，产品自然诞 生。百度百科也是一样，很多人在知道里面去讨论，说某个词不懂，类似情况达到一定量，百度就关注到了用户这个需求，百科诞生。“某个词”发展到现在，估计 已经有六七十万词条，不断地积累。这是开放的辞典，就是任何字，任何词条都可以不断去改，总是有几十个人在一起去编同一类词，所以用户可以更方便的找到准 确的信息。</p>
<p><strong>适应用户，而不是去改变用户</strong></p>
<p>“百度空间，稳定快速，先减后加。这是去适应用户的过程，而不是说要去改变用户，用户的习惯是没有办法改变的。</p>
<p>2006年百度交给华尔街的年报上，封面是一针一线，封底是《清明上河图》。专注一针一线的细节，就是一副宏伟的《清明上河图》——这就是提升用户体验设计的真正力量。</p>
<p><img class="alignnone size-full wp-image-151" title="qming" src="http://www.cndozz.com/wp-content/uploads/2009/09/qming.gif" alt="qming" width="591" height="409" /></p>
<p>转自：百度联盟志</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cndozz.com/article/baidu-tutorial-of-how-to-improve-the-user-experience/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>SEO跟踪报告：三大搜索引擎对原创的判断</title>
		<link>http://www.cndozz.com/article/seo-tracking-report-the-three-major-search-engines-to-determine-original/</link>
		<comments>http://www.cndozz.com/article/seo-tracking-report-the-three-major-search-engines-to-determine-original/#comments</comments>
		<pubDate>Thu, 22 Mar 2007 02:47:19 +0000</pubDate>
		<dc:creator>Chris</dc:creator>
				<category><![CDATA[SEO分享]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[yahoo]]></category>
		<category><![CDATA[百度]]></category>

		<guid isPermaLink="false">http://herbashow.cn/?p=140</guid>
		<description><![CDATA[去年年底写了一篇《49个影响网站排名的因素（完整版）》，记得曾几何时，以这个关键词搜索，这篇文章的GOOGLE、百度第一位都是我的原创页面，今天无意中搜索了一下，发现GOOGLE上还在，百... ]]></description>
			<content:encoded><![CDATA[<p>去年年底写了一篇《<a href="http://www.cndozz.com/article/49-factors-affect-ranking/" target="_blank">49个影响网站排名的因素（完整版）</a>》，记得曾几何时，以这个关键词搜索，这篇文章的GOOGLE、百度第一位都是我的原创页面，今天无意中搜索了一下，发现GOOGLE上还在，百度上到第10页也找不到这个页。</p>
<p>文章上有我原创页的链接，可以观察到大部分转载都将此链接去掉了，照我原来的思路，转载文章中包含原文的链接，虽然短时间内搜索引擎可能因为信任度的关系，会把一些优秀老站放在前面，但经过时间的推移，搜索引擎应该可以判断出原创归属。</p>
<p>去掉“49个”或者去掉“（完整版）”排名又完全不一样了，有点兴趣看看变化会怎么样，跟踪报导一下。</p>
<p>日期：3月22日<br />
关键词：49个影响网站排名的因素（完整版）<br />
google排名：第1位<br />
百度排名：第40位   （是本博客的栏目页<a href="http://www.cndozz.com/blog/post/seo.html">http://www.cndozz.com/blog/post/seo.html</a>，原创页面在前10页没找到）<br />
yahoo排名：第1位</p>
<p>关键词：49个影响网站排名的因素<br />
google排名：前10页没有找到<br />
百度排名：第57位   （是本博客的栏目页<a href="http://www.cndozz.com/blog/post/seo.html"><span style="color: #800080;">http://www.cndozz.com/blog/post/seo.html</span></a>，原创页面在前10页没找到）<br />
yahoo排名：第2位</p>
<p>关键词：影响网站排名的因素（完整版）<br />
google排名：第2位<br />
百度排名：第59位   （是本博客的栏目页<a href="http://www.cndozz.com/blog/post/seo.html"><span style="color: #800080;">http://www.cndozz.com/blog/post/seo.html</span></a>，原创页面在前10页没找到）<br />
yahoo排名：第3位</p>
<p>小 结：google，yahoo中排在我前面的都是非常优秀的站，可以理解；我的原创页在百度中找不到，这个就不知道为什么了，用“49个影响网站排名的因 素（完整版）”作为关键字搜索结果google是11800项，百度是3830项，yahoo是4460项，说明传播得还是比较广泛的，再用yahoo查 询我原创页的反向链接，却只有区区25个，可怜啊~</p>
<p>过段时间再看看会怎么样……</p>
]]></content:encoded>
			<wfw:commentRss>http://www.cndozz.com/article/seo-tracking-report-the-three-major-search-engines-to-determine-original/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
