歡迎來到上海仝薪網絡科技有限公司官網,上海網站建設公司上海網站制作公司微信網站上海競價托管公司
咨詢,就免費贈送域名與服務器,咨詢熱線:13761675098當前位置: 競價外包 > 建站知識 > 網站建設知識 >
聯系我們
電話咨詢:13761675098
E-mail:[email protected]
地址: 上海市金園一路1118弄

今日頭條算法原理(全文)

作者/整理:admin 來源:互聯網 2018-01-19

注:本文主要分享了今日頭條推薦系統概覽以及內容分析、用戶標簽、評估分析,內容安全等原理。

今天,算法分發已經是信息平臺、搜索引擎、瀏覽器、社交軟件等幾乎所有軟件的標配,但同時,算法也開始面臨質疑、挑戰和誤解。今日頭條的推薦算法,從 2012 年 9 月第一版開發運行至今,已經經過四次大的調整和修改。

今日頭條委托資深算法架構師曹歡歡博士,公開今日頭條的算法原理,以期推動整個行業問診算法、建言算法;通過讓算法透明,來消除各界對算法的誤解,并逐步推動整個行業讓算法更好的造福社會。

作者:曹歡歡博士,今日頭條資深算法架構師

以下為《今日頭條算法原理》全文:

今日頭條資深算法架構師曹歡歡:

本次分享將主要介紹今日頭條推薦系統概覽以及內容分析、用戶標簽、評估分析,內容安全等原理。

一、系統概覽

推薦系統,如果用形式化的方式去描述實際上是擬合一個用戶對內容滿意度的函數,這個函數需要輸入三個維度的變量。

  • 第一個維度是內容。頭條現在已經是一個綜合內容平臺,圖文、視頻、UGC小視頻、問答、微頭條,每種內容有很多自己的特征,需要考慮怎樣提取不同內容類型的特征做好推薦。

  • 第二個維度是用戶特征。包括各種興趣標簽,職業、年齡、性別等,還有很多模型刻劃出的隱式用戶興趣等。

  • 第三個維度是環境特征。這是移動互聯網時代推薦的特點,用戶隨時隨地移動,在工作場合、通勤、旅游等不同的場景,信息偏好有所偏移。

結合三方面的維度,模型會給出一個預估,即推測推薦內容在這一場景下對這一用戶是否合適。

這里還有一個問題,如何引入無法直接衡量的目標?

推薦模型中,點擊率、閱讀時間、點贊、評論、轉發包括點贊都是可以量化的目標,能夠用模型直接擬合做預估,看線上提升情況可以知道做的好不好。但一個大體量的推薦系統,服務用戶眾多,不能完全由指標評估,引入數據指標以外的要素也很重要。

比如廣告和特型內容頻控。像問答卡片就是比較特殊的內容形式,其推薦的目標不完全是讓用戶瀏覽,還要考慮吸引用戶回答為社區貢獻內容。這些內容和普通內容如何混排,怎樣控制頻控都需要考慮。

此外,平臺出于內容生態和社會責任的考量,像低俗內容的打壓,標題黨、低質內容的打壓,重要新聞的置頂、加權、強插,低級別賬號內容降權都是算法本身無法完成,需要進一步對內容進行干預。

下面我將簡單介紹在上述算法目標的基礎上如何對其實現。

前面提到的公式y = F(Xi ,Xu ,Xc),是一個很經典的監督學習問題。可實現的方法有很多,比如傳統的協同過濾模型,監督學習算法Logistic Regression模型,基于深度學習的模型,Factorization Machine和GBDT等。

一個優秀的工業級推薦系統需要非常靈活的算法實驗平臺,可以支持多種算法組合,包括模型結構調整。因為很難有一套通用的模型架構適用于所有的推薦場景。現在很流行將LR和DNN結合,前幾年Facebook也將LR和GBDT算法做結合。今日頭條旗下幾款產品都在沿用同一套強大的算法推薦系統,但根據業務場景不同,模型架構會有所調整。

模型之后再看一下典型的推薦特征,主要有四類特征會對推薦起到比較重要的作用。

重庆时时彩官方网站app