
Šešiems dirbtinio intelekto modeliams buvo duoti tie patys duomenys – po 10 tūkstančių dolerių ir nurodyta prekiauti realiose kriptovaliutų rinkose be jokio žmogaus įsikišimo. Rezultatas? Po septyniolikos dienų keturi iš jų baigė pirmąjį tyrimo etapą patyrę iki 62 procentų nuostolių, o laimėtojo grąža siekė 22 procentus.
Lapkričio 3 dieną baigėsi pirmasis Alpha Arena turnyro sezonas, kurio tikslas buvo išbandyti didelio masto kalbos modelių galimybes kiekybinėje prekyboje kriptovaliutų rinkoje. Turnyrą organizavo Nof1, kuri save vadina pirmąja tyrimų laboratorija, orientuota į dirbtinį intelektą finansų rinkų kontekste.
Turnyre dalyvavo šeši dideli kalbų modeliai (LLM): OpenAi GPT-5, Google Gemini 2.5 Pro, Anthropic Claude Sonnet 4.5, Elon Musk xAI Grok 4, kinų DeepSeek v3.1 bei Alibaba Qwen3-Max.
Jis prasidėjo spalio 18 dieną. Kiekvienas modelis gavo identiškas užduotis ir įvesties duomenis, 10 tūkstančių dolerių pradinį kapitalą ir prisijungimą prie decentralizuotos biržos Hyperliquid.
Siekiant supaprastinti, Nof1 apribojo modeliams galimus veiksmus iki ilgųjų ir trumpųjų pozicijų atidarymo, palaikymo arba uždarymo. Instrumentų pasirinkimas buvo susiaurintas iki šešių populiarių kriptovaliutų Hyperliquid platformoje: BTC, ETH, SOL, BNB, DOGE ir XRP.
Tyrimo autoriai pabrėžė, kad kriptovaliutų rinką ir Hyperliquid pasirinko dėl trijų praktinių priežasčių: prieinamumas visą parą, kuris leido nuolat stebėti modelio elgseną, taip pat gausūs ir lengvai prieinami duomenys, palengvinantys analizę ir skaidrų auditą bei Hyperliquid greitis ir patikimumas bei platformos integravimo su LLM modeliais paprastumas.
Chat GPT-5 ir Gemini turnyrą pradėjo svyruodami ties savo starto tašku, tačiau vos po kelių dienų pradėjo patirti didelius nuostolius ir neatsigavo iki pat varžybų pabaigos. OpenAi GPT-5 kalbos modelis Alpha Arena teste buvo silpniausias. Iki lapkričio 3 dienos jam liko 3733 doleriai, palyginti su pradiniais 10000 dolerių, t.y. 62,7 procento nuostolis. Google Gemini modelio valdyto kapitalo vertė susitraukė 56,7 procento, o Grok iš xAI pirmąjį etapą baigė su 5469 dolerių depozitu.
Iš „vakarietiškų“ LLM modelių geriausiai pasirodė Claude Sonnet, praradęs tik 30,8 procento kapitalo. Dvi pirmąsias vietas užėmė kinų modeliai DeepSeek ir Qwen3-Max, kurie taip pat geriausiai pasirodė per visą bandymo laikotarpį.
Pabrėžtina, jog po dešimties konkurso dienų DeepSeek dominavo uždirbęs daugiau nei 13 tūkstančių dolerių. Qwen3-Max buvo nedaug atsilikęs, padvigubindamas savo pradinį kapitalą. Tačiau vėlesnis kriptovaliutų rinkos nuosmukis pakenkė galutiniams rezultatams.
Galiausiai pirmąjį Alpha Arena turnyro etapą laimėjo Kinijos bendrovei Alibaba priklausantis Qwen3-Max su 22,3 procento grąža, o DeepSeek depozitas siekė 10489 dolerius.
Turnyro organizatoriai pabrėžė, kad pirmasis gyvų varžybų sezonas per trumpą laiką turi ribotą statistinę galią, o ankstyvieji reitingai ateityje gali keistis. Nof1 ketina tęsti tyrimą ir paskelbė, kad netrukus prasidės kitas Alpha Arena 1.5 etapas.
„Mes pastebėjome nuolatinius modelių elgesio nukrypimus, kurie išliko laikui bėgant nepaisant daugybės raginimo (instrukcijos) iteracijų. Susiformavo kažkas panašaus į investavimo „asmenybę“. Mes sąmoningai pastatėme modelius į sudėtingą situaciją. LLM modeliai paprastai prastai apdoroja skaitmeninius laiko eilučių duomenis, ir tai buvo vienintelis kontekstas, kurį jiems suteikėme. Jiems taip pat buvo suteiktas ribota išteklių visuma ir gana siaura veiksmų erdvė. Kitą sezoną atliksime daug patobulinimų ir lygiagrečiai išbandysime daug skirtingų užduočių, taip pat kelis kiekvieno modelio egzempliorius“ – apibendrino Nof1 įkūrėjas Jay A. Zhang.
Lapkričio 3 dieną baigėsi pirmasis Alpha Arena turnyro sezonas, kurio tikslas buvo išbandyti didelio masto kalbos modelių galimybes kiekybinėje prekyboje kriptovaliutų rinkoje. Turnyrą organizavo Nof1, kuri save vadina pirmąja tyrimų laboratorija, orientuota į dirbtinį intelektą finansų rinkų kontekste.
Turnyre dalyvavo šeši dideli kalbų modeliai (LLM): OpenAi GPT-5, Google Gemini 2.5 Pro, Anthropic Claude Sonnet 4.5, Elon Musk xAI Grok 4, kinų DeepSeek v3.1 bei Alibaba Qwen3-Max.
Jis prasidėjo spalio 18 dieną. Kiekvienas modelis gavo identiškas užduotis ir įvesties duomenis, 10 tūkstančių dolerių pradinį kapitalą ir prisijungimą prie decentralizuotos biržos Hyperliquid.
Siekiant supaprastinti, Nof1 apribojo modeliams galimus veiksmus iki ilgųjų ir trumpųjų pozicijų atidarymo, palaikymo arba uždarymo. Instrumentų pasirinkimas buvo susiaurintas iki šešių populiarių kriptovaliutų Hyperliquid platformoje: BTC, ETH, SOL, BNB, DOGE ir XRP.
Tyrimo autoriai pabrėžė, kad kriptovaliutų rinką ir Hyperliquid pasirinko dėl trijų praktinių priežasčių: prieinamumas visą parą, kuris leido nuolat stebėti modelio elgseną, taip pat gausūs ir lengvai prieinami duomenys, palengvinantys analizę ir skaidrų auditą bei Hyperliquid greitis ir patikimumas bei platformos integravimo su LLM modeliais paprastumas.
Chat GPT-5 ir Gemini turnyrą pradėjo svyruodami ties savo starto tašku, tačiau vos po kelių dienų pradėjo patirti didelius nuostolius ir neatsigavo iki pat varžybų pabaigos. OpenAi GPT-5 kalbos modelis Alpha Arena teste buvo silpniausias. Iki lapkričio 3 dienos jam liko 3733 doleriai, palyginti su pradiniais 10000 dolerių, t.y. 62,7 procento nuostolis. Google Gemini modelio valdyto kapitalo vertė susitraukė 56,7 procento, o Grok iš xAI pirmąjį etapą baigė su 5469 dolerių depozitu.
Iš „vakarietiškų“ LLM modelių geriausiai pasirodė Claude Sonnet, praradęs tik 30,8 procento kapitalo. Dvi pirmąsias vietas užėmė kinų modeliai DeepSeek ir Qwen3-Max, kurie taip pat geriausiai pasirodė per visą bandymo laikotarpį.
Pabrėžtina, jog po dešimties konkurso dienų DeepSeek dominavo uždirbęs daugiau nei 13 tūkstančių dolerių. Qwen3-Max buvo nedaug atsilikęs, padvigubindamas savo pradinį kapitalą. Tačiau vėlesnis kriptovaliutų rinkos nuosmukis pakenkė galutiniams rezultatams.
Galiausiai pirmąjį Alpha Arena turnyro etapą laimėjo Kinijos bendrovei Alibaba priklausantis Qwen3-Max su 22,3 procento grąža, o DeepSeek depozitas siekė 10489 dolerius.
Turnyro organizatoriai pabrėžė, kad pirmasis gyvų varžybų sezonas per trumpą laiką turi ribotą statistinę galią, o ankstyvieji reitingai ateityje gali keistis. Nof1 ketina tęsti tyrimą ir paskelbė, kad netrukus prasidės kitas Alpha Arena 1.5 etapas.
„Mes pastebėjome nuolatinius modelių elgesio nukrypimus, kurie išliko laikui bėgant nepaisant daugybės raginimo (instrukcijos) iteracijų. Susiformavo kažkas panašaus į investavimo „asmenybę“. Mes sąmoningai pastatėme modelius į sudėtingą situaciją. LLM modeliai paprastai prastai apdoroja skaitmeninius laiko eilučių duomenis, ir tai buvo vienintelis kontekstas, kurį jiems suteikėme. Jiems taip pat buvo suteiktas ribota išteklių visuma ir gana siaura veiksmų erdvė. Kitą sezoną atliksime daug patobulinimų ir lygiagrečiai išbandysime daug skirtingų užduočių, taip pat kelis kiekvieno modelio egzempliorius“ – apibendrino Nof1 įkūrėjas Jay A. Zhang.

versija spausdinimui