籃球 足球 綜合
當前位置:首頁(yè) > 體育 > 電競

AI玩《超級馬力歐兄弟》:Claude模型操作最溜,推理模型表現不佳

時(shí)間:2025-03-04 16:22:18 來(lái)源:24直播網(wǎng)
加利福尼亞大學(xué)圣地亞哥分校的 Hao 人工智能實(shí)驗室(Hao AI Lab)上周五開(kāi)展了一項獨特的研究,將人工智能(AI)引入經(jīng)典游戲《超級馬力歐兄弟》中,以測試其性能表現。研究結果顯示,在參與測試的 AI 模型中,Anthropic 的 Claude 3.7 表現最為出色,緊隨其后的是 Claude 3.5。相比之下,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則表現不佳。

需要明確的是,此次實(shí)驗所使用的并非 1985 年最初發(fā)布的《超級馬力歐兄弟》版本。游戲運行在一個(gè)模擬器中,并通過(guò)一個(gè)名為 GamingAgent 的框架與 AI 進(jìn)行連接,從而讓 AI 能夠控制馬力歐。GamingAgent 由 Hao 人工智能實(shí)驗室自主研發(fā),其向 AI 提供基本指令,例如“如果附近有障礙物或敵人,向左移動(dòng)或跳躍以躲避”,同時(shí)還提供游戲內的截圖。隨后,AI 通過(guò)生成 Python 代碼的形式來(lái)操控馬力歐。

據實(shí)驗室介紹,該游戲環(huán)境迫使每個(gè) AI 模型“學(xué)習”如何規劃復雜的操作并制定游戲策略。有趣的是,實(shí)驗發(fā)現像 OpenAI 的 o1 這樣的推理模型(它們通過(guò)逐步思考問(wèn)題來(lái)得出解決方案)表現不如“非推理”模型,盡管它們在大多數基準測試中通常表現更強。研究人員指出,推理模型在實(shí)時(shí)游戲中表現不佳的主要原因之一是它們通常需要花費數秒時(shí)間來(lái)決定行動(dòng)。而在《超級馬力歐兄弟》中,時(shí)機至關(guān)重要,一秒鐘的差別可能意味著(zhù)安全跳過(guò)和墜落死亡的不同結果。

數十年來(lái),游戲一直是衡量 AI 性能的重要工具。然而,一些專(zhuān)家對將 AI 在游戲中的表現與技術(shù)進(jìn)步直接掛鉤的做法提出了質(zhì)疑。與現實(shí)世界相比,游戲往往是抽象且相對簡(jiǎn)單的,并且能夠為 AI 訓練提供理論上無(wú)限的數據。

IT之家注意到,最近一些引人注目的游戲基準測試結果引發(fā)了 OpenAI 研究科學(xué)家、創(chuàng )始成員安德烈?卡帕西(Andrej Karpathy)所說(shuō)的“評估危機”。他在 X 平臺上發(fā)表的一篇帖子中寫(xiě)道:“我目前真的不知道該關(guān)注哪些 AI 指標?!彼偨Y道:“我的反應是,我目前真的不知道這些模型到底有多好?!?/p>

熱門(mén)數據

更多

相關(guān)信息

相關(guān)集錦

熱門(mén)TAG

24直播網(wǎng)24小時(shí)為廣大球迷提供全面及時(shí)的賽事直播和資訊 完全綠色安全無(wú)插件,穩定安全的直播網(wǎng),每天收集最新的體育直播資訊,原創(chuàng )大數據足球籃球賽果預測,歷史戰績(jì),情報分析,24直播網(wǎng)所有直播信號均由用戶(hù)收集或從搜索引擎搜索整理獲得,所有內容均來(lái)自互聯(lián)網(wǎng),我們自身不提供任何直播信號和視頻內容 如有侵犯您的權益請通知我們,我們會(huì )第一時(shí)間處理。

Copyright ? 2021-2024 24直播網(wǎng). All Rights Reserved. 遼ICP備15005339號-4

日本一卡二卡三卡四卡无卡免费高_亚洲熟妇无码av在_国产精品无码一区免费看_人妻无码一区二区三区在线