Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz

拿出手機
掃一掃

查看: 145|回復: 0

美圖個性化推薦的探索與實踐

[複製鏈接]

44

主題

0

帖子

8

積分

新手上路

Rank: 1

積分
8
發表於 2018-6-26 04:05:55 | 顯示全部樓層 |閱讀模式

點擊關注 美圖技術 ,置頂公衆号
美圖最新技術解讀,不容錯過
互聯網技術将我們帶入了信息爆炸的時代,面對海量的信息,一方面用戶難以迅速發現自己感興趣的信息,另一方面長尾信息得不到曝光。


爲了解決這些問題,個性化推薦系統應運而生。美圖擁有海量用戶的同時積累了海量圖片與視頻,通過推薦系統有效建立了用戶與内容的連接,大幅度提升産品的用戶體驗。


在美圖互聯網技術沙龍中美圖技術專家蔡淇森分享了美圖技術團隊在個性化推薦上的實踐與探索,希望對打開本篇文章的你有所啓發。


美圖互聯網技術沙龍第十期報名啓動,點擊底部“閱讀原文”免費報名。


概覽
随着大數據時代的到來,美圖在個性化推薦方面也做了長時間的探索和積累,個性化推薦的目标是連接用戶與内容、提升用戶體驗和優化内容生态。爲了實現以上目标,算法需要理解内容,了解平台上可用于推薦的内容;同時也要理解用戶,了解用戶的興趣愛好,從而進行精準推薦。


目前美圖個性化推薦主要應用于美拍APP,應用場景有以下三個:

  • 場景一:美拍直播,實時的在線個性化排序業務;
  • 場景二:美拍熱門(即美拍首頁),典型的Feed流産品,用戶可在熱門Feed流中不斷翻頁滾動,探索和消費自己可能感興趣的内容;
  • 場景三:播放詳情頁下的“猜你喜歡”模塊,用于推薦相似視頻。


在長時間的實踐中,我們總結出精準推薦的三個要點,分别是理解内容、理解用戶,在這兩個基礎上從而實現精準的内容推薦。



理解内容
什麽是理解内容呢?其主要特征有哪些?


理解内容,即内容的特征提取。美拍APP的内容是短視頻,其特征可分爲四部分:



  • 基礎特征,即視頻的時長、分辨率、标簽等基礎屬性;
  • 視覺特征,即通過視覺算法,對人物的性别、顔值、年齡、身高,對視頻的場景、對象等進行識别;
  • 文本特征,美拍短視頻有封面文字、标題、評論等文本信息,可以通過這些文本信息進行文本挖掘,提取一些關鍵字、topic、情感極性等文本特征;
  • 交互特征,是用戶與内容進行行爲交互的産物,用戶可以對某些内容進行點贊、評論、分享、播放等行爲,通過對這些交互數據進行統計分析得到交互特征。


理解用戶
對内容有一定理解之後,則要進一步理解用戶,從而連接用戶與内容。理解用戶就是我們常說的用戶畫像建設,建設用戶畫像需要了解用戶的自然屬性,如用戶的性别、年齡、所在城市;社會屬性,如職業、婚姻狀況等;除了自然屬性之外我們最重要的是了解用戶的興趣屬性,興趣屬性不僅僅限于本平台,比如我們除了了解用戶在平台上的興趣和偏好,也要盡可能去探索用戶在平台之外的興趣愛好(打遊戲、逛淘寶等)。



推薦流程
基于對内容和用戶的理解可進行精準推薦。美圖的推薦流程分爲如下三個階段:

  • 召回階段:推薦的本質是給不同的用戶提供不同的内容排序。美拍APP上有數十億個短視頻,面對如此龐大的量級我們無法對用戶計算所有内容的排序。通過統計召回、簡單模型、圖計算等篩選方式将内容的數量級降到幾千至幾百之後可以得到初步的推薦結果;
  • 預估階段:利用機器學習模型、結合超高維度和精細化的特征,以“用戶-情境-物品”三個維度聯合建模,得到預估模型,再對不同的目标進行預估;
  • 排序階段:在對目标進行預估之後,要對内容進行排序,從而決定可觸達用戶的排序。排序階段會結合新穎性、多樣性、準确性三個方面進行綜合排序,最終将推薦結果呈現給用戶。


在召回階段,我們已經實施了基于熱度、趨勢、協同過濾、用戶畫像、内容、情境和社交關系等一系列召回方式,同時也實踐了基于深度學習的召回方法。在預估階段,較成熟的有大規模離線特征+LR、連續特征+GBDT,也實踐了NFM、DCN等深度學習預估模型。


基于上述的推薦流程,推薦的整體架構如下圖所示:
iCKew1MBkC1yZ9mH.jpg


  • OFFLINE:主要是離線處理流程,對數據進行收集,并從數據出發進行數據清洗、數據标注、特征工程、模型訓練、模型評估,最後生成離線特征、離線召回模型和離線排序模型;
  • NEARLINE:主要是對實時的數據流進行處理,通過獲取實時日志,對數據流進行統計、效果監控、反作弊處理、特征更新以及對模型的增量訓練,最終得到實時的召回模型和排序模型;
  • ONLINE:即引擎部分,對流量分流後進行召回、融合、排序,最終将推薦結果返回給應用端。


個性化推薦探索
推薦時效性
天下武功,唯快不破。美圖的用戶數量逐步增長,而每個用戶的興趣點随着場景、時間也在同步發生變化。平台上新的内容源源不斷,一個好的内容型産品往往不會錯過任何熱點。随着大環境的變化,推薦時效性顯得尤爲重要,對此推薦效果的提升也有很大優化空間。


在提升推薦時效性方面,我們做了以下幾個方面的嘗試:



   召回時效性
首先建立一個實時更新的相似視頻(I2I)索引;當用戶播放視頻或對其産生有效行爲後,利用此索引,得到對應視頻的相似視頻進行召回。同時通過收集并分析用戶的實時行爲,計算用戶對不同内容類型的實時偏好,并實時獲取用戶對應偏好類型的實時榜單内容, 從而獲得實時召回的結果。


在引擎部分會融合實時及非實時的召回,并進行預估排序,最終将推薦結果綜合呈現給用戶。


   預估時效性
爲了優化預估時效性,我們選擇了在線學習。如下圖所示,以訓練LR模型爲例,左上是LR模型的預估方程和損失函數,在複雜的線上環境中,樣本輸入是随機的,即今後計算的方向以及步長也是随機的,實現在線學習可以簡單采用在線梯度下降方式,但是選擇這種簡單的優化方式會造成模型更新的不穩定性和模型效用的不穩定性;同時簡單的梯度更新方式會使得模型從舊樣本學習到的有效信息被遺忘。
qyypPzfaF554PHf0.jpg

FTRL則是一種生成解析解的更新方式,詳見上圖左下的方程式,其中有四個項,第一個項保證參數随着梯度方向進行更新;第二個項保證模型的穩定性,使得每次更新的結果不會遠離之前的結果;第三、四個項是常見的L1和L2正則約束;如上圖右側所示,爲更新過程的僞代碼。


基于上述FTRL的在線學習方法,我們設計了實時特征與在線學習的流程與架構。 Arachnia收集到日志之後,FeatureServer通過Kafka組件獲取到實時日志,進行實時特征計算更新特征。TrainServer還會收集用戶不同行爲的日志,分正負樣本,得到原始樣本,再将原始樣本與FeatureServer進行交互,索引到對應的特征列表,拼裝成模型訓練可以直接應用樣本,供模型進行更新。


我們設計基于Parameter Server架構的模型更新,模型更新階段從Parameter Server獲取模型參數,對樣本進行預估,計算參數的更新,并将更新結果回流到Parameter Server中。由于在複雜的線上環境中,不同行爲的日志可能會産生不同程度的延遲,比如在短時間内都是正樣本或負樣本,這種情況下在線學習的穩定性會受到傷害。因此我們設計了Balance Cache,控制不同行爲日志的消費速度使得樣本的正負比例保持穩定。通過這樣的架構設計,模型更新及特征更新都實現了秒級别更新。


推薦冷啓動
冷啓動問題分爲用戶冷啓動和内容冷啓動。用戶冷啓動顧名思義就是指當新用戶來到平台時無相關的曆史行爲,而傳統的推薦算法都是采用基于行爲的模型,因此無法做出有效的推薦。同理,内容冷啓動是指當新内容産生時,它還未在平台上進行有效的流量驗證,新内容的精準分發也是一個值得探讨的問題


   用戶冷啓動
一個内容型平台的用戶冷啓動目标是将新增用戶轉化爲消費用戶,進而轉化爲留存用戶。爲了将新增用戶轉化成消費用戶,需要匹配該用戶的興趣類型,進而推薦相關的内容,且推薦的内容要具有吸引眼球的能力,使用戶能夠在該内容上進行消費。


而吸引用戶對内容進行消費的同時,要求推薦的内容具有一定的質量,能夠使得用戶在内容上進行互動并認可消費過的内容,從而轉化爲留存用戶。


對于用戶冷啓動問題,也需要在召回和預估兩個階段進行優化。分别爲冷啓動召回階段和冷啓動預估階段。


在召回階段,我們設計了多級别特征組合召回,用戶冷啓動從定義上來說缺失用戶的曆史行爲,但我們也總能通過産品機制調整、外部合作獲得用戶一定的基礎信息;同時結合用戶所處情境對這些特征進行組合,匹配不同特征組合的内容候選集得到初步有效的召回結果。


在預估階段,使用服務端日志、客戶端信息以及第三方數據做特征工程,提取用戶特征(比如性别、年齡、職業)、情境特征(比如時間、位置、網絡)和視頻特征(比如标簽、類型、音樂)。基于這些特征以及對應生成樣本再進行模型訓練,我們的模型訓練會預估三個目标,即點擊率、時長和留存率,并進行非線性的組合,對内容綜合排序,最終呈現給用戶。基于上述兩個階段的優化,新增用戶留存率有了大幅度的提升。


   内容冷啓動
内容冷啓動也是一個經典的E&E問題(Exploration & Exploitation),即對新内容和舊内容如何選擇與權衡的問題。在做精準推薦時,是對舊内容進行有效挖掘的過程,但對于新内容而言,如果未能利用有效的方式将其曝光,那麽我們的算法就無法挖掘到新的優質内容,無法形成一個健康的内容生态。


對于新内容而言,其轉化率、點擊率等效用函數的變化較不穩定,因此它的後驗方差會比較大;而對于舊内容,對它的評估是比較穩定的,其後驗方差比較低。換言之,對于新内容效用的預估偏差比較大,而對于舊内容的評估是比較穩定合理。針對這樣的新舊内容該如何去選擇?這就是經典的E&E問題、多臂老虎機問題(MAB)。



  • UCB:假設每個老虎機的中獎概率服從二項分布,在每次選擇老虎機時,對中獎概率進行假設檢驗并得到置信區間,然後選擇置信區間上界最高的一台老虎機;
  • Thompson采樣:假設每台老虎機的中獎概率都服從β分布,在選擇時對每台老虎機的中獎概率進行去拟合β分布,然後再從β分布中随機采樣一個點作爲此老虎機的預估分,最後選擇預估分最高的一台老虎機。


爲了解決内容冷啓動問題,可将平台流量分成三部分:随機Explore、個性化Explore和個性化Exploit。其中,最大的一部分是個性化Exploit,即通過各種推薦模型,對内容進行有效的精準推薦。随機Explore和個性化Explore則是針對新内容的探索。此處需要關注兩點:首先要根據場景和業務設計合理的流量比例;其次要結合業務目标對業務上的流量效用進行量化,如點擊率、播放完整度、時長等。 


當新内容産生時,經過MAB Score計算,再進行一定的過濾,當它進入到探索候選池裏,再進行随機召回,召回成功之後會有對應的排序和展示。當一個新内容得到曝光之後,需要收集它的用戶行爲反饋以更新MAB Score。過程中,會過濾曝光次數達到一定上限的内容(我們認爲它已經是舊内容),也會過濾MAB Score較低的内容,從而形成整個随機Explore的閉環。


個性化Explore相比于随機Explore在新内容産生時,會先利用視覺算法對内容進行分類,視覺分類就是把新内容進行基礎的特征提取,歸類到某個類目榜單裏。接着,結合視覺分類和MAB Score維護動态的類目榜單,最後再結合類目榜單和用戶實時偏好進行基于内容的召回。同樣的,在召回之後,将收集到的用戶的行爲反饋用于更新MAB Score和類目榜單。這就是基于内容召回的個性化Explore流程。


内容多樣性
多樣性、準确性以及新穎性是衡量推薦系統效果非常重要的三個指标。同時最大化這三個指标從而給用戶帶來驚喜,使得用戶在平台上留存,是推薦系統的一個終極目标。但在實際情況下,這三個指标往往需要權衡取舍,例如在大多數情況下,提升準确性的同時,推薦多樣性指标可能會降低。因此,我們将問題簡化,對多目标問題進行重新建模,在保證一定的多樣性和新穎性約束的前提下最大化推薦準确性。


那麽,如何保證推薦多樣性呢?首先要定義什麽内容是一樣的,從而知道什麽内容是不一樣的。我們可以通過運營對視頻打标簽、通過視覺算法進行視覺分類,而上述幾種方法都依賴先驗的類目體系,往往無法精确匹配用戶時刻變化的細粒度興趣點。一個UGC平台,其重要特性之一就是内容形态快速更新,有各種各樣的創意會發展成小衆類别,再從小衆類别迅速發展成一個新類别,那麽這種基于經驗知的有監督方法是無法及時響應變化的,因此考慮利用用戶行爲序列對内容聚類。


内容聚類
在基于用戶行爲序列的内容聚類中,假設用戶對于興趣點會産生其行爲序列,假設某個用戶喜歡小鮮肉和舞蹈,那麽基于這個興趣點,他便會觀看較多小鮮肉跳舞的視頻。這個問題可以類比文本領域的Topic Model問題,當作者寫文章時,需要先确定文章主題,再基于主題确定文章中使用到的詞。


而對用戶興趣進行建模,我們采用LDA的方法将用戶類比爲一篇文章,用戶行爲序列裏的内容類比爲文章裏的詞,那麽可以對内容直接利用LDA模型進行聚類,從而匹配到用戶興趣。基于這樣的假設,可以采用word2Vec對内容生成向量再進行聚類,也可以基于LDA的深化版本DSSM模型來對内容生成向量。如圖19右側所示,是DSSM方法的網絡結構圖。


展    望 
未來美圖希望能夠挖掘更多的場景,爲用戶提供更多的個性化服務,從而全面提升用戶的産品體驗。我們也希望能夠通過個性化的疊代與内容生态變化進行推演,從而更全面地優化内容生态,同時通過建設更深層次的模型進行精準推薦,從有監督的學習模型訓練向強化學習的方法轉變,進而預估推薦算法的期望收益,大幅度提升用戶體驗。


下有彩蛋
美圖互聯網技術沙龍第十期報名通道已經開啓。



主題是:經典視頻技術架構和優化案例


你能從中收獲什麽?

  • 深入了解視頻技術架構設計的考量點,期間經曆了哪些技術選型;

  • 各種優化策略,包括加載時間、開屏時間、成本等;
  • 如何從0到1打造直播答題系統。


除此之外你還能收獲到哪些?

  • 和其他技術專家面對面的交流;

  • 獲取一衆技術專家的成長經驗;
  • 和美圖核心技術團隊做深入溝通。


活動時間7月7日(周六),地點廈門。點擊下方“閱讀原文”,免費報名。




請長按右邊二維碼








公衆号ID
meitu_tech
adeT0E0TTjlLtjUE.jpg
回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|小黑屋|Comsenz Inc.

GMT+8, 2018-7-19 03:49 , Processed in 0.111877 second(s), 25 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表