快使用Ctrl+D收藏本站!如果本站的文章以及資源有幫助到您,希望您能贊助本站服務器費用,感謝您的支持!本站開放注冊,現邀請您一起分享技術心得!您可以-注冊-

【強化學習筆記】什么是強化學習

網絡技術 Julius_wen 479℃ 0評論

## 強化學習

“強化學習是機器學習大家族中的一大類, 使用強化學習能夠讓機器學著如何在環境中拿到高分, 表現出優秀的成績. 而這些成績背后卻是他所付出的辛苦勞動, 不斷的試錯, 不斷地嘗試, 累積經驗, 學習經驗.”

強化學習是一種從無到有的學習過程,強化學習算法有一個虛擬老師,會給機器人的行為打分,分數導向性??梢钥闯鲈趶娀瘜W習中, 一種行為的分數是十分重要的. 所以強化學習具有分數導向性. 我們換一個角度來思考.這種分數導向性好比我們在監督學習中的正確標簽.

?

監督學習

監督學習:已有數據,已有對應的正確標簽(人為對數據進行篩選設置)。

而強化學習在環境中嘗試,自行獲取”規律(經驗)”,通過學習到的規律,來選擇高分行為。

?

強化學習的分類

?

1.不理解環境的強化學習和理解當前環境的強化學習

<

p style=”background: #fafafa”>Model-free Model-based?

Model-free代表不理解當前環境,Model-based代表理解當前環境。

?

Model-free 的方法有很多, ?Q learning, Sarsa, Policy Gradients都是從環境中得到反饋然后從中學習. (類似于自動化系統中的PID閉環控制)

?

model-based RL 只是多了一道程序, 為真實世界建模, 也可以說他們都是 model-free 的強化學習, 只是 model-based 多出了一個虛擬環境, 我們不僅可以像 model-free 那樣在現實中玩耍,還能在游戲中玩耍, 而玩耍的方式也都是 model-free 中那些玩耍方式, 最終 model-based 還有一個殺手锏是 model-free 超級羨慕的. 那就是想象力.

?

2.基于價值和基于改了選擇

基于概率,所有動作都可能發生,只是概率不同罷了:Policy Gradients

基于價值,只會選擇價值高,得分高的動作:Q learning Sarsa

?

3.單步更新與回合更新

?

?Monte-carlo learning 和基礎版的 policy gradients
都是回合更新制, Qlearning, Sarsa, 升級版的 policy gradients 等都是單步更新制. 因為單步更新更有效率, 所以現在大多方法都是基于單步更新. 有的強化學習問題并不屬于回合問題.

?

### 4.在線學習與離線學習

在線學習:必須是本人在場,必須是本人自己玩,自己總結經驗

離線學習:可以從過往的歷史數據中積累經驗,可以是任何人的經驗,可以看別人玩。

?

最典型的在線學習就是 Sarsa , 還有一種優化 Sarsa 的算法, 叫做 Sarsa lambda, 最典型的離線學習就是 Q learning, 后來人也根據離線學習的屬性, 開發了更強大的算法, 比如讓計算機學會玩電動的 Deep-Q-Network.

轉載請注明:燕駿博客 » 【強化學習筆記】什么是強化學習

贊賞作者

微信贊賞支付寶贊賞

喜歡 (16)or分享 (0)

如果您喜歡本站文章,感覺本站的資源對您有幫助,請狠狠點擊下面

每累計贊助40元,即可讓本站按最低配置運行一個月,感謝您的支持!

發表我的評論
取消評論

表情

Hi,您需要填寫昵稱和郵箱!

  • 昵稱 (必填)
  • 郵箱 (必填)
  • 網址
上海时时乐走势图