網(wǎng)站首頁百科全書 >正文
1、阿爾法狗vs柯潔(阿爾法狗)
2、大家好,關于阿爾法狗vs柯潔,很多人還不知道阿爾法狗。現(xiàn)在讓我們來看看!
3、阿爾法狗是什么意思?圍棋實際上是一個圍棋人工智能程序,由谷歌DeepMind的大衛(wèi)西爾弗(David Silver)、艾皇嘉(Ai Huangjia)和達米絲哈薩比斯(Damis Hassabis)及其團隊開發(fā)。這個程序用“價值網(wǎng)絡”來計算形勢,用“策略網(wǎng)絡”來選擇下一步行動。
4、“深度學習”是指多層人工神經(jīng)網(wǎng)絡和訓練它的方法。一層神經(jīng)網(wǎng)絡以大量矩陣數(shù)作為輸入,用非線性激活方法加權(quán),然后生成另一個數(shù)據(jù)集作為輸出。就像生物神經(jīng)大腦的工作機制一樣。通過適當數(shù)量的矩陣,將多層組織鏈接在一起,形成一個神經(jīng)網(wǎng)絡“大腦”,進行精確復雜的處理,就像人識別物體和標記圖片一樣。
5、雖然神經(jīng)網(wǎng)絡幾十年前就存在了,但直到最近情況才變得清晰。這是因為他們需要大量的“訓練”才能找到矩陣中的值。對于早期的研究人員來說,獲得良好結(jié)果的最小訓練量遠遠超過了計算能力和可以提供的數(shù)據(jù)量。然而,近年來,一些擁有海量資源的團隊重新開始挖掘神經(jīng)網(wǎng)絡,即通過“大數(shù)據(jù)”技術(shù)進行高效訓練。
6、兩個大腦
7、AlphaGo就是通過兩個不同的神經(jīng)網(wǎng)絡“大腦”的合作來提高下棋水平。這些大腦是多層神經(jīng)網(wǎng)絡,其結(jié)構(gòu)與谷歌的圖像搜索引擎識別的大腦相似。他們從多層啟發(fā)式二維過濾器入手,處理圍棋棋盤的定位,就像圖像分類器網(wǎng)絡處理圖像一樣。過濾后,13個完全連接的神經(jīng)網(wǎng)絡層對他們看到的做出判斷。這些層可以被分類和邏輯推理。
8、這些網(wǎng)絡通過反復訓練來檢查結(jié)果,然后校對調(diào)整參數(shù),使接下來的執(zhí)行更好。這個處理器有許多隨機元件。我們無法確切知道網(wǎng)絡是如何“思考”的,但更多的訓練可以讓它進化到更好。
9、第一大腦3360移動拾音器。
10、AlphaGo的第一個神經(jīng)網(wǎng)絡大腦是一個“監(jiān)督學習的策略網(wǎng)絡”,觀察棋盤的布局,并試圖找到最佳的下一步。事實上,它預測了每一個合法的下一步的最佳概率,所以第一個猜測是概率最高的一個。你可以理解為“遲到的考生”。
11、(移動選擇器如何看到棋盤?數(shù)字表明最強的人類玩家可能會在哪里登陸。)
12、團隊通過玩上百萬的游戲來訓練大腦,KGS(戰(zhàn)斗平臺)中最強的人類對手。這是AlphaGo最像人類的部分。目標是學習那些頂級玩家精彩的卡牌技巧。不是為了贏,而是像人類大師一樣尋找下一步棋。AlphaGo國際象棋選擇器可以正確匹配57%的人類大師。(不符合不代表錯誤,而是人類自己犯的錯誤。)
13、更強的前進選擇器
14、AlphaGo系統(tǒng)實際上需要兩個額外的位選擇器大腦。一個是“加強學習的政策網(wǎng)絡”,由百萬附加模擬局完成。你可以稱之為更強。與基礎訓練相比,它只教會網(wǎng)絡模仿單個人類的動作。高級訓練會把每一局模擬棋都玩到底,并教會網(wǎng)絡下一局最有可能贏的棋。Sliver的團隊通過更強的走法選擇器總結(jié)出了一個百萬級的訓練棋類游戲,比他們之前的版本迭代性強很多。
15、光是用這個選位器就已經(jīng)是強大的對手了,可以達到業(yè)余棋手的水平,或者堪比之前最強的圍棋AI。這里的要點是這個下拉選擇器不會“讀取”。它只是檢查單個棋盤的位置,然后提出從該位置分析的移動。它不會模擬任何未來的動作。這證明了簡單深度神經(jīng)網(wǎng)絡學習的力量。
16、快速移動選擇器
17、當然,團隊并沒有就此止步。下面我會解釋如何賦予AI閱讀能力。要做到這一點,他們需要一個更快版本的晚期選擇器大腦。版本越強,耗時越長?!徊胶闷遄叩脡蚩?,但“閱讀結(jié)構(gòu)”需要檢查成千上萬種可能性后再做決定。
18、Silver團隊設置了一個簡單的選擇器來制作“快速閱讀rdqu”
19、第二個大腦:位置評估者
20、AlphaGo的第二個大腦是相對于后面的選擇器來回答另一個問題。它不是猜測具體的下一步,而是在給定棋子位置的情況下,預測每個棋手贏棋的可能性。這個“形勢評估者”就是文中提到的“價值網(wǎng)”,通過對全局的判斷來輔助后選人。這個判斷只是大概,但是對提高閱讀速度很有幫助。通過對“好”和“壞”的潛在未來情況進行分類,AlphaGo可以決定是否通過特殊的變體進行深度閱讀。如果情況評估者說這個特殊的變體不好,那么AI將跳過閱讀這條線上的任何更多移動。
21、(態(tài)勢評估員怎么看這個棋盤?深藍色表示下一步有利贏棋的位置。)
22、局勢評估員也是通過數(shù)百萬次國際象棋比賽訓練出來的。Silver團隊通過復制兩個AlphaGo的最強選擇器,精心選擇隨機樣本,創(chuàng)造了這些情況。在這里,AI drop selector在高效創(chuàng)建大規(guī)模數(shù)據(jù)集以訓練情況評估器方面非常有價值。這種走法選擇器讓每個人模擬多種下法的可能性,從任意給定的棋盤局面中猜測雙方大概的勝算概率。但是人類的棋局不夠多,這種訓練恐怕很難完成。
23、增加閱讀量
24、以下是秋天的三個版本。
(蒙特卡洛樹搜索算法)
如果擁有無限的計算能力,MCTS可以理論上去計算最佳落子通過探索每一局的可能步驟。但未來走法的搜索空間對于圍棋來說太大了(大到比我們認知宇宙里的粒子還多),實際上AI沒有辦法探索每一個可能的變種。MCTS做法比其他AI有多好的原因是在識別有利的變種,這樣可以跳過一些不利的。
Silver團隊讓AlphaGo裝上MCTS系統(tǒng)的模塊,這種框架讓設計者去嵌入不同的功能去評估變種。最后馬力全開的AlphaGo系統(tǒng)按如下方式使用了所有這些大腦。
1. 從當前的棋盤布局,選擇哪些下一步的可能性。他們用基礎的落子選擇器大腦(他們嘗試使用更強的版本,但事實上讓AlphaGo更弱,因為這沒有讓MCTS提供更廣闊的選擇空間)。它集中在“明顯最好”的落子而不是閱讀很多,而不是再去選擇也許對后來有利的下法。
2. 對于每一個可能的落子,評估質(zhì)量有兩種方式:要么用棋盤上局面評估器在落子后,要么運行更深入蒙特卡羅模擬器(滾動)去思考未來的落子,使用快速閱讀的落子選擇器去提高搜索速度。AlphaGo使用簡單參數(shù),“混合相關系數(shù)”,將每一個猜測取權(quán)重。最大馬力的AlphaGo使用 50/50的混合比,使用局面評估器和模擬化滾動去做平衡判斷。
隨著他們使用插件的不同,AlphaGo的能力變化和上述步驟的模擬。僅使用獨立大腦,AlphaGo跟最好的計算機圍棋AI差不多強,但當使用這些綜合手段,就可能到達職業(yè)人類選手水平。
(AlphaGo的能力變化與MCTS的插件是否使用有關。)
工程優(yōu)化:分布式計算,網(wǎng)絡計算機去提升MCTS速度,但這些都沒有改變基礎算法。這些算法部中分精確,部分近似。在特別情況下,AlphaGo通過更強的計算能力變的更強,但計算單元的提升率隨著性能變強而減緩。
優(yōu)勢和劣勢
我認為AlphaGo在小規(guī)模戰(zhàn)術(shù)上會非常厲害。它知道通過很多位置和類型找到人類最好的下法,所以不會在給定小范圍的戰(zhàn)術(shù)條件下犯明顯錯誤。
但是,AlphaGo有個弱點在全局判斷上。它看到棋盤式通過5*5金字塔似的過濾,這樣對于集成戰(zhàn)術(shù)小塊變成戰(zhàn)略整體上帶來麻煩,同樣道理,圖片分類神經(jīng)網(wǎng)絡往往對包含一個東西和另一個的搞不清。比如說圍棋在角落上一個定式造成一個墻或者引征,這會劇烈改變另一個角上的位置估值。
就像其他的基于MCTS的AI, AlphaGo對于需要很深入閱讀才能解決的大勢判斷上,還是麻煩重重的,比如說大龍生死劫。AlphaGo 對一些故意看起來正常的局也會失去判斷,天元開盤或者少見的定式,因為很多訓練是基于人類的棋局庫。
我還是很期待看到AlphaGo和李世石9段的對決!我預測是:如果李使用定式,就像跟其他職業(yè)棋手的對決,他可能會輸,但如果他讓AlphaGo陷入到不熟悉情形下,他可能就贏。
38、本文講解完畢,希望對大家有所幫助。
本文到此結(jié)束,希望對大家有所幫助。
版權(quán)說明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!
- 上一篇:小米手機實況模式怎么設置(小米手機有沒有實況模式)
- 下一篇:最后一頁
猜你喜歡:
- 2022-06-21小米手機實況模式怎么設置(小米手機有沒有實況模式)
- 2022-06-21插卡的ipad都有哪些版本(可以插卡的ipad是幾代)
- 2022-06-21小米云桌面?zhèn)浞萦惺裁从茫ㄐ∶鬃烂嬖苽浞萦杏脝幔?/a>
- 2022-06-21淘寶精選頁面在哪里點擊(淘寶精選頁面在哪)
- 2022-06-21空開c20能用多少千瓦(空開c20是什么意思)
- 2022-06-21充電器5v 20000ma什么意思(充電器5v500ma是什么意思)
- 2022-06-21c20空氣開關對應多少瓦(空氣開關c20是多少瓦)
最新文章:
- 2022-06-21小米手機實況模式怎么設置(小米手機有沒有實況模式)
- 2022-06-21插卡的ipad都有哪些版本(可以插卡的ipad是幾代)
- 2022-06-21小米云桌面?zhèn)浞萦惺裁从茫ㄐ∶鬃烂嬖苽浞萦杏脝幔?/a>
- 2022-06-21淘寶精選頁面在哪里點擊(淘寶精選頁面在哪)
- 2022-06-21空開c20能用多少千瓦(空開c20是什么意思)
- 2022-06-21充電器5v 20000ma什么意思(充電器5v500ma是什么意思)
- 2022-06-21c20空氣開關對應多少瓦(空氣開關c20是多少瓦)
- 2022-06-21筆記本電腦通電不開機是什么原因(筆記本電腦不通電開不了機是什么原因)
- 2022-06-21華為dig-tl10多少錢(digtl10華為是什么型號)
- 2022-06-21校園網(wǎng)是一種局域網(wǎng)是正確的嗎(校園網(wǎng)就是一個局域網(wǎng)嗎)
- 2022-06-21商品房沒有房產(chǎn)證允許買賣嗎(商品房沒有房產(chǎn)證可以賣嗎)
- 2022-06-21拿房產(chǎn)證要交錢嗎(請問拿房產(chǎn)證要交錢嗎)
- 2022-06-21筆記本電腦開機藍屏出現(xiàn)一堆英文(筆記本電腦開機藍屏出現(xiàn)一堆英文怎么解決)
- 2022-06-21驍龍855 plus和驍龍855有什么區(qū)別(驍龍855和驍龍855plus有什么區(qū)別)
- 2022-06-21住房公積金能轉(zhuǎn)移到異地嗎(住房公積金可以異地轉(zhuǎn)移嗎)
- 熱點推薦
- 熱評文章