咨詢電話
021-80392549
Minecraft可能聽起來不像是一個支持高級人工智能研究的重要工具。畢竟,教一臺機器玩一個十多年前發(fā)布的沙盒游戲哪有如此重要?但基于OpenAI最近的努力,一個訓練有素的Minecraft機器人與人工智能的進步比大多數(shù)人可能意識到的更有關系。
OpenAI一直專注于造福人類的人工智能(AI)和機器學習的進步。最近,該公司利用超過7萬小時的游戲視頻,成功地訓練了一個機器人玩Minecraft。這一成就遠遠超出了機器人玩游戲的范疇,它標志著使用觀察和模仿的先進機器學習向前邁出了一大步。
OpenAI的機器人是模仿學習(也稱為"監(jiān)督學習")的一個優(yōu)秀范例。與強化學習不同的是,學習代理在通過試驗和錯誤達到目標后會得到獎勵,而模仿學習則是通過觀察人類完成特定任務來訓練神經(jīng)網(wǎng)絡。在這種情況下,OpenAI利用現(xiàn)有的游戲視頻和教程,教他們的機器人執(zhí)行復雜的游戲序列,這需要典型的玩家花大約24000個單獨的動作來實現(xiàn)。
模仿學習需要對視頻輸入進行標記,以提供動作和觀察結果的背景。不幸的是,這種方法可能是高度勞動密集型的,導致可用的數(shù)據(jù)集有限。這種可用數(shù)據(jù)集的短缺最終限制了代理人通過觀察學習的能力。
OpenAI的研究團隊沒有通過廣泛的手工數(shù)據(jù)標記工作,而是使用了一種特定的方法,即視頻預訓練(VPT),以大大擴展可用的標記視頻的數(shù)量。研究人員最初捕獲了2000個小時的有注釋的Minecraft游戲,并使用它來訓練一個代理將特定的行動與屏幕上的特定結果聯(lián)系起來。然后,所產(chǎn)生的模型被用來為網(wǎng)上現(xiàn)成的70000小時之前沒有標簽的Minecraft內(nèi)容自動生成標簽,為Minecraft機器人提供了一個更大的數(shù)據(jù)集來審查和模仿。
整個練習證明了可用視頻庫的潛在價值,如YouTube,作為人工智能訓練資源。機器學習科學家可以利用現(xiàn)有的和適當標記的視頻來訓練人工智能進行特定的任務,從簡單的網(wǎng)絡導航到幫助用戶滿足現(xiàn)實生活中的物理需求。