|
谷歌算法背后:一次搜索請(qǐng)求平均往返2400公里
您當(dāng)前的位置 :中華龍都網(wǎng) >> 新聞中心 來源:新浪科技 | 2012-03-12 09:06:54 |
3月12日早間消息,谷歌(微博)完成一次搜索請(qǐng)求,時(shí)間不足一秒、平均往返距離卻要約2400公里。每天谷歌都有200多項(xiàng)改進(jìn)算法的在線實(shí)驗(yàn),一個(gè)想法要通過多道考驗(yàn)才能付諸執(zhí)行。而在個(gè)性化搜索日益重要的今天,谷歌算法改進(jìn)也面臨著新的挑戰(zhàn)。
來自官方的數(shù)據(jù)顯示,從2003年到現(xiàn)在谷歌搜索已經(jīng)接受超過4500億個(gè)搜索請(qǐng)求。而用戶每天發(fā)出的搜索請(qǐng)求中,有16-20%是全新的關(guān)鍵詞。
一個(gè)基本的搜索過程分這樣幾步:提交搜索請(qǐng)求->發(fā)送->篩選分類->查找索引->選擇網(wǎng)頁(yè)->結(jié)果排名->結(jié)現(xiàn)結(jié)果。谷歌給出的解釋說,一個(gè)請(qǐng)求會(huì)被分發(fā)到數(shù)千個(gè)數(shù)據(jù)中心,然后根據(jù)關(guān)鍵詞進(jìn)行匹配,再根據(jù)數(shù)百個(gè)指標(biāo)對(duì)得到的數(shù)據(jù)進(jìn)行排名。
這個(gè)復(fù)雜的過程通常在一秒內(nèi)完成,但平均每個(gè)谷歌搜索的關(guān)鍵詞往返于用戶電腦和數(shù)據(jù)中心的距離約為2400公里(1500英里)。
“很多人認(rèn)為谷歌已經(jīng)解決了搜索的問題,但是在谷歌看來搜索的發(fā)展才剛剛起步。如果說搜索是一本書,那谷歌才剛寫完了開篇”,谷歌工程總監(jiān)斯考特-霍夫曼(Scott Huffman)在談到搜索時(shí)說,十多年來谷歌搜索的算法一直在不斷改進(jìn)。
每年谷歌搜索結(jié)果都會(huì)改變20-30%左右?;舴蚵闹饕ぷ髦?,就是對(duì)谷歌搜索質(zhì)量進(jìn)行評(píng)估,在他看來這個(gè)過程遠(yuǎn)比外界看到的復(fù)雜。
以去年為例,在眾多的搜索算法改進(jìn)構(gòu)思中,有41831項(xiàng)進(jìn)行了必要性評(píng)估,這其中又有9250項(xiàng)進(jìn)行了小規(guī)模實(shí)驗(yàn),進(jìn)而又有7363項(xiàng)進(jìn)行了在線實(shí)驗(yàn),最終有520多項(xiàng)改進(jìn)被付諸實(shí)施?;舴蚵偨Y(jié)谷歌改進(jìn)算法的方式為:數(shù)據(jù)驅(qū)動(dòng)、實(shí)驗(yàn)評(píng)估。
谷歌搜索平均每時(shí)每刻都有200多項(xiàng)實(shí)驗(yàn)在進(jìn)行;而在評(píng)估的過程中,既會(huì)借助基于統(tǒng)計(jì)學(xué)搭建的模型,還依靠多種語言的獨(dú)立評(píng)估員。
霍夫曼表示谷歌搜索算法近期的主要改進(jìn),可以歸納為三個(gè)方面。
·新鮮度算法調(diào)整:在某些情況下,谷歌需要為用戶提供最新搜索結(jié)果,比如即時(shí)新聞、定期發(fā)生的重大事件以及內(nèi)容頻繁更新的話題等。如果搜索“奧運(yùn)會(huì)”,用戶會(huì)得到與即將舉辦的倫敦奧運(yùn)會(huì)相關(guān)的最新搜索結(jié)果,而非關(guān)于1984年奧運(yùn)會(huì)的陳舊信息。
·優(yōu)質(zhì)網(wǎng)站算法調(diào)整:這對(duì)包含原始信息、研究調(diào)查、深度報(bào)道、精準(zhǔn)分析等內(nèi)容的高質(zhì)量網(wǎng)站十分有利,提高了它們?cè)谒阉鹘Y(jié)果中的排名。
·頁(yè)面布局算法調(diào)整:這一改進(jìn)關(guān)注用戶在點(diǎn)擊搜索結(jié)果后所看到的網(wǎng)頁(yè)布局,提升網(wǎng)頁(yè)信息的豐富程度 ,提高信息容易被搜索到的網(wǎng)頁(yè)的排名。
除此以外,谷歌還計(jì)劃將更多社交、移動(dòng)、位置等信息元素,更好的與搜索進(jìn)行整合。這一方面會(huì)讓搜索結(jié)果更加的個(gè)性化,但同時(shí)也給谷歌帶來新的難題:如何衡量并提升越來越個(gè)性化的搜索結(jié)果。此前的實(shí)驗(yàn)方式必須有所調(diào)整。
霍夫曼對(duì)此解釋說,對(duì)于受個(gè)性化影響較大的因素,谷歌會(huì)采用更多的在線實(shí)驗(yàn)方式進(jìn)行考察。例如考察一個(gè)用戶的跳轉(zhuǎn)和停留時(shí)間,通過統(tǒng)計(jì)模型對(duì)相關(guān)數(shù)據(jù)進(jìn)行分析、判斷。此外,還會(huì)在得到允許的情況下獲取評(píng)估員的個(gè)人信息,并據(jù)此改進(jìn)搜索結(jié)果。
“新的算法改進(jìn)想法往往是在解決問題時(shí)產(chǎn)生的”,霍夫曼說,目前谷歌在搜索算法開發(fā)上投入的時(shí)間,已經(jīng)超過1000人工年。
掃碼二維碼關(guān)注周口日?qǐng)?bào)官方微信
縣市新聞