Kai Silicon Valley pasijuto pečiuose kvėpavimą
Sausio pabaigoje technologijų pasaulis gavo gerą šaltą dušą. Kinų startuolis DeepSeek išleido savo naujausią kalbos modelį – ir per kelias dienas jis ne tik atsidūrė App Store viršuje, bet ir privertė NVIDIA akcijas kristi beveik 17 procentų per vieną dieną. Tai buvo didžiausias vienos dienos nuosmukis per visą bendrovės istoriją – išgaravo apie 600 milijardų dolerių rinkos vertės. Tokio efekto neturėjo nei vienas AI produkto pristatymas per pastaruosius kelerius metus.
Bet kas iš tikrųjų yra DeepSeek? Kodėl jis sukėlė tokią paniką tarp investuotojų ir tokį susijaudinimą tarp technologijų entuziastų? Ir ar tai tikrai revoliucija, ar tiesiog gerai suvaidinta rinkodaros akcija? Pabandykime išnarplioti.
DeepSeek: ne iš niekur atsiradęs projektas
Pirmiausia reikia suprasti, kad DeepSeek nėra kažkoks atsitiktinis garažo projektas. Jį sukūrė Kinijos kiekybinio investavimo fondas High-Flyer, įkurtas Liang Wenfeng – matematiko ir verslininko, kuris anksčiau užsiiminėjo algoritmais finansų rinkose. Fondas nusprendė, kad AI yra kita didelė banga, ir investavo rimtai – tiek pinigų, tiek žmogiškojo kapitalo prasme.
Pirmieji DeepSeek modeliai pasirodė dar 2023 metais, tačiau pasaulio dėmesio nesulaukė. Viskas pasikeitė, kai kompanija pristatė DeepSeek-V3 ir ypač DeepSeek-R1 – modelį, kuris pagal daugelį testų lenkia arba bent jau prilygsta OpenAI GPT-4o ir Anthropic Claude 3.5 Sonnet. Tai savaime jau būtų įspūdinga. Bet tikroji bomba buvo kaina ir resursai, kurių prireikė šiems modeliams sukurti.
DeepSeek teigia, kad V3 modelio treniravimas kainavo apie 5,6 milijono dolerių. Palyginimui – OpenAI GPT-4 treniravimas, pasak įvairių skaičiavimų, kainavo šimtus milijonų. Meta Llama 3 – taip pat ne pigus malonumas. Jei šie skaičiai teisingi, tai reiškia, kad DeepSeek padarė tai, ką daugelis laikė neįmanoma: pasiekė pasaulinę AI kokybę už dalį įprastos kainos.
Techninė magija: kaip jiems pavyko?
Čia prasideda įdomiausia dalis. DeepSeek naudoja keletą techninių sprendimų, kurie kartu duoda tokį efektą – ir kiekvienas iš jų yra vertas atskiro pokalbio.
Pirmasis – Mixture of Experts (MoE) architektūra. Tradiciniai kalbos modeliai, kai generuoja tekstą, naudoja visus savo parametrus kiekvienam žodžiui. DeepSeek veikia kitaip: modelis turi daug specializuotų „ekspertų” posistemių, bet kiekvienai užduočiai aktyvuoja tik dalį jų. Tai reiškia, kad modelis gali būti milžiniškas teoriškai, bet efektyvus praktiškai – nes niekada neveikia visa savo galia vienu metu.
Antrasis triukas – Multi-Head Latent Attention (MLA). Tai DeepSeek sukurtas mechanizmas, leidžiantis modeliui efektyviau apdoroti ilgus tekstus. Tradiciniai attention mechanizmai reikalauja daug atminties – ypač kai kontekstas ilgas. MLA šią problemą sprendžia suglaudinant informaciją, ko pasekoje modelis gali dirbti su ilgesniais tekstais naudodamas mažiau resursų.
Trečias elementas – reinforcement learning iš paties modelio. DeepSeek-R1 buvo apmokytas taip, kad modelis pats sau generuodavo treniravimo duomenis per samprotavimo procesą. Tai reiškia, kad jis išmoko „mąstyti žingsnis po žingsnio” be masyvaus žmogaus anotuotų duomenų kiekio – kas tradiciškai yra vienas brangiausių AI kūrimo elementų.
Visa tai kartu leidžia pasiekti aukštą kokybę su mažiau GPU valandų. O kadangi GPU valandos – tai pinigai, rezultatas ir yra tas stulbinantis kainos skirtumas.
Atviro kodo korta: kodėl tai keičia žaidimo taisykles
Vienas iš dalykų, kuris labiausiai išskirtina DeepSeek iš konkurentų – jų požiūris į atvirą kodą. Modeliai yra prieinami per Hugging Face platformą, o tai reiškia, kad bet kas – nuo universiteto studento iki didelės korporacijos – gali juos parsisiųsti, modifikuoti ir naudoti savo serveriuose.
Tai fundamentaliai skiriasi nuo OpenAI ar Anthropic požiūrio. GPT-4 ar Claude – tai „juodosios dėžės”: tu gali naudoti API, bet nežinai, kas viduje, ir negali nieko keisti. DeepSeek sako: imk, naudok, tobulink.
Praktinės pasekmės yra didelės:
- Privatumas: galite paleisti modelį savo serveryje – jokie duomenys nekeliauja į išorę. Tai svarbu tiek verslo, tiek asmeniniu lygiu.
- Kaina: nereikia mokėti už API skambučius. Jei turite pakankamai serverio resursų, modelis veikia nemokamai.
- Pritaikymas: galite fine-tuninti modelį savo specifiniams poreikiams – pavyzdžiui, apmokyti jį savo įmonės dokumentais ar specifine kalba.
- Nepriklausomybė: jūsų sistema nepriklauso nuo vieno tiekėjo sprendimų ar kainų pokyčių.
Būtent dėl šios priežasties daugelis kūrėjų ir technologijų bendruomenė reagavo su tokiu entuziazmu. Tai ne tik geras modelis – tai geras modelis, kurį galima liesti ir keisti.
Geopolitika kambaryje: ar galima pasitikėti kinų AI?
Čia reikia būti sąžiningais – ši tema negali būti ignoruojama. DeepSeek yra kinų kompanija, veikianti pagal Kinijos įstatymus. O Kinijos įstatymai reikalauja, kad kompanijos bendradarbiautų su valdžios institucijomis, kai to prašoma. Tai ne paranojiška teorija – tai tiesiog faktas.
Jau per pirmąsias dienas po išleidimo saugumo tyrėjai pastebėjo keletą dalykų. Pirma, modelis atsisako atsakyti į tam tikrus klausimus apie Tibetą, Taivano statusą ar Tiananmenio aikštės įvykius – tai yra cenzūra, integruota į modelio elgseną. Antra, kai kurie tyrėjai aptiko kodo fragmentų, kurie potencialiai galėjo siųsti duomenis į Kinijos serverius – nors DeepSeek tai neigė ir vėliau šis kodas buvo pašalintas.
Ką tai reiškia praktiškai? Keletas rekomendacijų:
- Jei naudojate DeepSeek per jų oficialų API ar programėlę – laikykite, kad jūsų duomenys nėra privatūs. Tai taikoma bet kokiam cloud-based AI, bet su DeepSeek rizika yra specifiškai geopolitinė.
- Jei naudojate atvirojo kodo versiją savo serveryje – situacija geresnė, bet vis tiek rekomenduojama peržiūrėti kodą arba naudoti patikrintus trečiųjų šalių variantus.
- Jautriems verslo duomenims ar asmeninei informacijai – geriau rinktis alternatyvas, kurių jurisdikcija jums priimtinesnė.
- Akademiniams tyrimams, kūrybiniams projektams ar bendram naudojimui – rizika yra žymiai mažesnė ir gali būti priimtina.
Tai nėra raginimai boikotuoti – tai tiesiog sveiko proto informacija, kurią reikia turėti priimant sprendimus.
Ką tai reiškia AI pramonei ir visiems kitiems
DeepSeek sukrėtimas atskleidė keletą nepatogių tiesų apie AI pramonę, kurias daugelis norėjo ignoruoti.
Pirmiausia – hardware monopolio mitas. Viena iš pagrindinių priežasčių, kodėl NVIDIA akcijos krito taip drastiškai, yra ta, kad rinkos logika buvo paprasta: daugiau AI = daugiau GPU = daugiau pinigų NVIDIA. DeepSeek parodė, kad ši lygtis nėra tokia tiesioginė. Jei galima pasiekti tą pačią kokybę su mažiau GPU, tai reiškia, kad poreikis brangiems procesoriams nėra toks neišvengiamas, kaip manyta.
Antra – kapitalo pranašumo ribos. OpenAI, Anthropic, Google – visos šios kompanijos surinko milijardus dolerių investicijų. Buvo manoma, kad tokia kapitalinė galia sukuria neįveikiamą pranašumą. DeepSeek parodė, kad protingas inžinerinis sprendimas gali kompensuoti dalį šio pranašumo. Tai nereiškia, kad pinigai nesvarbūs – bet jie nėra vienintelis veiksnys.
Trečia – demokratizacijos klausimas. Jei kokybiški AI modeliai tampa pigūs arba nemokami, tai keičia galimybių kraštovaizdį. Mažos kompanijos, startuoliai, akademikai, besivystančių šalių kūrėjai – visi jie gauna prieigą prie įrankių, kurie anksčiau buvo prieinami tik didelėms korporacijoms. Tai gali būti vienas svarbiausių DeepSeek efektų ilgalaikėje perspektyvoje.
Kaip išbandyti ir ar verta?
Jei norite pačiupinėti DeepSeek, turite keletą galimybių – ir jos skiriasi tiek patogumu, tiek privatumo lygiu.
Paprasčiausias būdas – tiesiog eiti į chat.deepseek.com ir pradėti pokalbį. Sąsaja primena ChatGPT, viskas intuityviai suprantama. Čia galite greitai pajusti modelio galimybes – ypač R1 versijos samprotavimo gebėjimus, kurie yra tikrai įspūdingi. Modelis „mąsto garsiai” – matote jo samprotavimo eigą prieš galutinį atsakymą. Tai ir naudinga, ir tiesiog įdomu stebėti.
Privatesnė alternatyva – naudoti DeepSeek per trečiųjų šalių platformas. Perplexity AI, OpenRouter ar net Ollama (jei norite paleisti lokaliai) leidžia naudoti DeepSeek modelius be tiesioginio ryšio su kinų serveriais. Ollama yra ypač rekomenduotina tiems, kurie turi pakankamai galingą kompiuterį – galite paleisti sumažintą modelio versiją visiškai lokaliai, be interneto ryšio.
Kūrėjams – DeepSeek API yra žymiai pigesnė nei OpenAI. Jei kuriate aplikaciją ir norite eksperimentuoti, tai gali būti ekonomiškai prasminga. Tik vėlgi – duomenų privatumo klausimas lieka atviras.
Praktinis patarimas: išbandykite DeepSeek-R1 su kokia nors sudėtinga matematine ar logine problema. Tai yra jo stiprioji pusė – ir skirtumas nuo įprastų chatbotų yra akivaizdus. Matydami, kaip modelis žingsnis po žingsnio eina per problemą, suprasite, kodėl žmonės taip susijaudino.
Dirbtinis intelektas nebėra tik Vakarų reikalas
DeepSeek istorija yra didesnio pasakojimo dalis. Ji rodo, kad AI lenktynės nebėra vienašališkos – ir tai keičia viską: geopolitiką, verslo strategijas, reguliavimo diskusijas ir paprastų žmonių galimybes.
Kalbant apie tai, kas laukia toliau – tikėtina, kad DeepSeek efektas paspartins kelias tendencijas. OpenAI, Anthropic ir Google bus spaudžiami mažinti kainas ir galbūt atverti daugiau savo modelių. Investicijos į efektyvesnę AI architektūrą, o ne tik į didesnį skaičiavimo galią, greičiausiai augs. Ir greičiausiai pamatysime daugiau tokių staigmenų iš netikėtų vietų – Korėjos, Indijos, Europos.
Tuo tarpu vartotojams tai yra gera žinia: konkurencija reiškia geresnius produktus ir mažesnes kainas. DeepSeek gali būti ne tobulas ir ne visiškai be problemų – bet jo pasirodymas priminė visai pramonei, kad nėra neliečiamų lyderių. O tai, kaip žinome iš technologijų istorijos, paprastai baigiasi gerai tiems, kurie naudoja produktus, o ne tiems, kurie juos parduoda.





