无觅网络:1+1>2 / 2010-12-16


自从2月底推出无觅网的第一版到现在已接近10个月了,今日借推出无觅网络这产品给用户交代一下无觅想走的路。

无觅的理念是想让互联网变得更聪明、更个性化,而去实现这理念的基础是 “1 + 1 > 2″。

1 + 1 为何大于2?

笔者读研的时候第一次接触到推荐系统是来自导师介绍的一篇文章叫“Collaborative Filtering…”,中文翻译成协同过滤。当时的第一反应是诧异,推荐是多给你些你感兴趣的信息,怎么成了过滤了?后来理解到推荐你感兴趣的信息其实 就是过滤掉你不感兴趣的信息,只是角度不一样而已。但真正留在笔者脑海里的是协同过滤这背后的意义,很多东西单独存在的时候并没多大用途,合并起来却能产 生新的价值,这么简单的道理原来也能应用在算法里。协同过滤法的原理非常简单,就是基于人有相似、物有相近,要推荐书给你,只需找到与你口味相近的人,把 他们喜欢看的书而你还没看过的推荐给你,很大可能性你也会喜欢(因为你们口味相近)。两个兴趣相似的读者,各自点了一篇他们感兴趣的文章,这两个点击单独 存在可能都已没有用,但合并起来却能给对方推荐。单个神经元(neuron)起不了什么作用,但无数个神经元有意义地连接在一起就成了我们的大脑了。日常 生活中类似的例子比比皆是,这看似简单的逻辑成了无觅的灵魂:公司名字为“二木”,推荐算法采用了协同过滤,及今日要推出的基于网站互连的无觅网络。

从相关文章插件说起

无觅几个月前研发了一款相关文章插件,深受站长的喜爱,国内很多知名的博客都在使用。相关文章插件至今存在已非常多年了,随便在wordpress 上搜一下也有几百个,无觅为何要再重新做一次呢?最根本的原因是插件有其限制性,创新的空间很小(这里的插件指的是一般附属在博客框架如 wordpress、zblog等等的插件)。

常见的做法

相关文章插件最常见的做法就是依赖文章的标签(Tag),标签一样意味着两篇文章在某程度上的相关性,越多一样的标签就越相关。这很容易理解,算法 也很简单,一般对网站服务器不会造成太大的压力。基于类似的想法,有些插件也考虑了文章类别、内容、时间等等,但这些都有一个相同的致命点。

弊端

一般插件的算法处理都是在插件端完成,这意味着插件运行的速度得非常快,否则便会影响网页的加载速度,这也是大部分站长不喜欢装太多插件的主要原 因,以免影响速度。这么一来,相关文章的创新就给大大的局限了。这里指出一些相关文章可以改善的地方,但因为插件环境受限而难以实现。

1. 引入行为数据将有助读者发现更多好文章。行为数据指的是那些你经常在淘宝或亚马逊看到的“买了这个也买了那个,或看了这个也看那个“的功能。推荐系统里最经典的协同过滤法因需要处理时间比较长,一般插件难以实现。

2. 文章的标签权重可能不一样,一篇文章有多个标签,但可能里面的某个标签才真正代表这篇文章的主题,如能辨别出不容标签的权重将有助找到更相关的文章。

3. 处理图片、视频等繁重的工作通常耗时较久,难以直接在插件端完成。

4. 或许以后的相关文章不再局限于相关文章了,而是推荐,是用户感兴趣的但未必跟正在看的相关。又或许相关文章不再局限于站内的,而可以是互联网上的任何一篇相关的文章。


云端相关文章插件

或许有人会认为这种改善可以带来的价值很有限,可能不值得去做。但当初Google开始做搜索的时候,搜索行业也不被看好。为了可以脱离一般插件的受限,无觅采取了云计算的模式:

插件端的主要工作就是发个请求给无觅服务器,然后返回相关文章。这种做法一来不会对网站主的服务器造成任何压力,二来给了无觅很大的空间去创新。无 觅可以进行任何复杂的算法去计算相关度,做需时较久的图像视频处理,只需把结果缓存起来就行。国外也有几家采取类似的模式,但对于中文网站文章的相关度总 是强差人意。因为有了创新的空间,无觅相关文章插件现在给网站多带去平均10%-20%的页面访问量。

无觅网络

无觅开发相关文章插件就是为了“无觅网络”,这是一个我们准备了许久的产品,也是一次大胆的实验,希望各个站长都能来参与这次的实验。

何为无觅网络?

无觅网络是由一个个的网站组成,在这个网络里,网站主可向任意网站请求连接,一旦对方通过,连接在一起的网站将共享资源,创造更多的价值。在现阶段,连接的网站将在相关文章里互相显示各自的内容。无觅会确保文章的相关性、交换流量的公平性、防作弊等一系列的技术问题。

这网络有何价值?

读者的角度:阅读不再局限于同一个网站。当读者在某个网站看了”Google打算花60亿收购Groupon”的文章,他有可能接下去想看 “Groupon拒绝了Google收购”,但这篇文章却是在另一个网站上。网站与网站没有连接前,读者会受限于单个网站的信息,连接后信息可以互补。

站长的角度:读者量迅速飙升。假设你的网站有1万个读者,跟另一个网站连接,总读者数就变成2万,跟100个连接,总读者数就变成100万。即使里面会有些重叠的读者,但这种网络效应的规模可以大得让人吃惊。

营销的角度:当过小站长的都知道网站刚起步的时候推广起来有多难,做得最多的就是跟其他网站交换友情链接、互访网站、互送IP、到处留自己网站的链 接等等。最近看到某个网络营销的论坛竟然能在一两个星期一跃而起成了国内头500名的网站,可见站长对此的需求有多高。网站内容的好坏与站长懂不懂营销没 有直接的关系,要站长花这么多精力去做某程度上来讲是一种资源的浪费,过去是因为没有如无觅网络这样的平台,如果能让站长把这些时间省下来直接放在创造更 好的内容上,相信整个互联网都会变得更好。

目前有几家网站受邀请参与这次的实验,截个图看看吧:

一般认为只有大公司才会选择做平台,无觅资源很少,团队也很小,但我们相信 1 + 1 > 2,只要站长与站长联手,依然可以形成一股很强大的力量。在我们准备推出无觅网络的时候,恰巧《连线》杂志创始人凯文·凯利来国接受访问,很喜欢他的一段话:

凯文·凯利:我还是拿蜂群来作比喻,一个蜂群的行为特征,如果从个体的蜜蜂来看是找不到的。但蜂群的整体行为特征又是从许多个个体而来,比如说蜂群拥有的记忆能力,如果我们用某种杠杆衡量蜂群的记忆能力的话,它要比单个的蜜蜂的记忆能力长很长时间。

将来“the one”的这种系统也是类似的,就是说所有的3G也好,手机也好,连成大网络后会浮现出来完全不同的行为特征。这些东西通过单个的手机设备是无法觉察到的。

个体是无意识的,群体在整体的失控中却找到了方向。网络带给这个世界的改变就是这样。

以上部分由:Truman Lam投递,原文链接:http://blog.wumii.com/?p=357

Watsonxu语:我个人觉得无觅网络是一款很棒的产品,个人很喜欢这个产品,从无觅博客相关文章插件出来,我一直都是其第一批试用用户,也应该算是其忠实的用户了,下面简单说一下个人对其喜欢的一些原因:

  • 1.无觅网博客插件本省其实提供的功能并不引人注目,提供了博客相关文章的推荐,并且以缩略图的方式展示文章,其实我一直也在想这样的产品国外已有,推出这样的一个服务价值究竟在什么地方,而现在我发现了其价值,博客站内内容的推荐,推荐的匹配度再高,其价值也就仅仅是一个站长的工具,而基于众多 博客内容之间的推荐,就变得更有意义,他使得博客与博客之间,博客的内容与另外的博客内容之间产生了关系,而这种关系可能将改变目前众多独立博客孤立存在的局面,我觉得可以将其认为是一种基于博客内容的社交网络,每一篇文章都是一个个体。传统博客的关系建立通过友情链接,而现在博客内容之间也产生了关系。友情链接会影响PR,影响搜索引擎中的排名,如果能够建立基于博客内容之间的关系,基于内容的关系以后是否已将会成为搜索引擎的一个重要指标内?
  • 2.基于用户行为改进内容匹配,基于博客建内容的推荐,有一个好处是可以基于用户的点击来逐步的改进相关度,并且通过这种用户行为应该可以逐步的提高匹配度。
  • 3.基于相关内容的内容挖掘,个人觉得基于这样一种博客群中的内容的挖掘会很有价值,和社区的价值类似,其实相关度高的文章可以认为是一个Topic,其有可能基于此对于内容进行重新组织,按照话题的相关度对内容进行组织。

这篇文章刚投递来的时候,我其实为这个文章想了另外一个名字『无觅网络:基于博客群内容的推荐网络』,后来考虑再三还是保留了原来的标题,以保证原投递文章的完整性:)