Üstəlik, bu qədər güclü bir alət olmasına baxmayaraq, DeepSeek-R1 böyük ölçüdə açıq mənbəli şəkildə yayımlandı. Yəni istənilən şəxs modelin kodlarına çıxış əldə edə və bu kodlardan istifadə edərək böyük dil modelini (LLM) fərdiləşdirə bilər. Lakin təlim məlumatları patentlə qorunur.
Digər tərəfdən, OpenAI o1 modelini qapalı şəkildə bazara çıxarmış və hazırda onu istifadəçilərə aylıq 200 dollarlıq abunə paketi ilə təqdim edir.
Eyni zamanda, mütəxəssislər Çinin ABŞ-ın ixrac nəzarəti və çip satışına tətbiq etdiyi qadağalara baxmayaraq bu qədər qısa müddətdə belə güclü bir model hazırlaya bilməsini müzakirə edirlər.
R1-in Sirri Nədir?
Süni intellekt icması R1-in OpenAI-ın o1 modeli ilə bir çox mühüm meyarlarda bərabər səviyyədə olduğunu, hətta bəzi göstəricilərdə onu üstələdiyini, lakin xeyli aşağı maliyyətlə hazırlandığını bildirir.
Emori Universitetində informasiya sistemləri üzrə professor olan Hançenq Cao MIT Technology Review jurnalına verdiyi müsahibədə “Bu, xüsusilə Qlobal Cənubda məhdud resurslara malik tədqiqatçılar və inkişafçılar üçün böyük bir bərabərləşdirici irəliləyiş ola bilər” deyə vurğulayıb.
DeepSeek-in uğuru, Çin süni intellekt şirkətlərinin ABŞ-ın qabaqcıl çiplər üzərində artan ixrac nəzarəti səbəbilə üzləşdiyi məhdudiyyətlər fonunda daha da diqqətçəkən hala gəlir.
R1-in və son Huawei 5G telefon modellərinin bazara çıxarılması ABŞ-ın ixrac nəzarətlərinin nəzərdə tutulduğu kimi işləmədiyi barədə şübhələr yaradır. Çünki sanksiyalar Çinin texnoloji imkanlarını zəiflətmək əvəzinə, onun səmərəliliyə fokuslanmasına, resurslarını birləşdirərək DeepSeek kimi laboratoriyalar yaratmasına şərait yarada bilər.
Yenilikçi Yanaşmalar Tətbiq Edildi
MIT Technology Review-a danışan DeepSeek əməkdaşı və Northwestern Universitetində kompüter elmləri üzrə doktorant olan Zihan Vanq, Çinin tətbiq edilən sanksiyalara qarşı innovativ üsullara əl atmaq məcburiyyətində qaldığını bildirir.
Buna uyğun olaraq DeepSeek, R1 modelini hazırlamaq üçün təlim prosesini yenidən qurmaq məcburiyyətində qalıb. Bunun əsas səbəbi, çip istehsalçısı Nvidia-nın Çin bazarında satmağa icazə verilən çiplərinin performansının, şirkətin ən güclü məhsullarına nisbətən iki dəfə zəif olmasıdır. Bu məhdudiyyət səbəbilə Çin, Nvidia-dan əldə etdiyi qrafik prosessorlarının (GPU) üzərindəki yükü azaltmaq üçün təlim prosesini optimallaşdırmalı olub.
Başqa sözlə, ABŞ-ın ixrac nəzarətləri R1 tərtibatçılarını hesablama gücündəki çatışmazlıqları kompensasiya etmək üçün daha ağıllı və daha enerji səmərəli alqoritmalar hazırlamağa məcbur etdi. ChatGPT-nin təlim verilərinin işlənməsi üçün təxminən 10.000 Nvidia GPU-ya ehtiyac duyulduğu halda, DeepSeek mühəndisləri cəmi 2.000 GPU ilə oxşar nəticələr əldə etdiklərini iddia edirlər.
Tədqiqatçılar DeepSeek R1-i xüsusilə riyaziyyat və proqramlaşdırma sahəsində mürəkkəb məntiqi tapşırıqları yerinə yetirmək bacarığı ilə tərifləyirlər. Model, o1 tərəfindən istifadə edilən “zəncirvari düşüncə” (Chain of Thought) yanaşmasına bənzər bir üsuldan istifadə edir ki, bu da sorğuları addım-addım işləyərək problemləri həll etməyə imkan yaradır.
Microsoftun AI Frontiers araşdırma laboratoriyasının baş tədqiqatçısı Dimitris Papailiopoulos, R1-də onu ən çox təəccübləndirən məqamın "mühəndislikdəki sadəlik" olduğunu bildirir:
"DeepSeek, hər bir məntiqi addımı geniş izah etmək əvəzinə, birbaşa düzgün cavabı hədəflədi və yüksək effektivliyi qoruyaraq hesablama vaxtını əhəmiyyətli dərəcədə azaltdı."
Proqramın Ardındakı Dahilik: Lyanq Venfenq
Çinin Hanqjou şəhərində yerləşən DeepSeek, 2023-cü ilin iyul ayında Zhejiang Universitetinin məzunu, informasiya və elektronika mühəndisliyi sahəsində ixtisaslaşmış Lyanq Venfenq tərəfindən təsis edilib. Lyanq, 2015-ci ildə qurduğu High-Flyer adlı fondun inkubasiya proqramına daxil olub. O, süni intellekt sahəsindəki digər qabaqcıl mütəxəssislər kimi, müxtəlif tapşırıqları yerinə yetirə bilən, hətta insanları üstələyə biləcək “Süni Ümumi Zəka” (AGI – Artificial General Intelligence) səviyyəsinə çatmağı hədəfləyir.
Bundan əlavə, ABŞ-ın gözlənilən sanksiyalarından çox əvvəl Lyanq Nvidia A100 çiplərindən mühüm bir ehtiyat toplamışdı. Hazırda bu çiplərin Çinə ixracı qadağan olunsa da, o, zamanında böyük bir alış həyata keçirib. Çin mətbuatı 36Kr-ın məlumatına görə, şirkətin anbarlarında 10.000-dən çox bu cür çip var. Bəzi mənbələr isə bu sayın 50.000-ə çatdığını iddia edir.
Süni intellekt təlimi üçün bu çip ehtiyatının əhəmiyyətini anlayan Lyanq Venfenq, DeepSeek-i təsis etdi və modellərini inkişaf etdirmək üçün bu çipləri aşağı gücə malik çiplərlə birlikdə istifadə etməyə başladı.
Çinin süni intellekt sektorunda Alibaba və ByteDance kimi texnologiya nəhəngləri, eləcə də zəngin investorlar tərəfindən dəstəklənən bir neçə iri startup üstünlük təşkil edir. Bu isə DeepSeek kimi müstəqil şirkətlərin olduqca nadir rast gəlinən hallardan biri olduğunu göstərir.
Keçmiş DeepSeek əməkdaşı Zihan Vanq, MIT Technology Review-a verdiyi müsahibədə DeepSeek-də çalışarkən geniş hesablama resurslarına çıxış əldə etdiyini və sınaqlar aparmaqda tam sərbəst olduğunu bildirib. O, bu şəraiti “istənilən şirkətdə çox az yeni məzunun əldə edə biləcəyi bir lüks” kimi dəyərləndirib.
Lyanq isə iyul 2024-cü ildə Çin media qurumu 36Kr-ə verdiyi müsahibədə belə demişdi:
"Çinli şirkətlərin çip sanksiyalarına əlavə olaraq qarşılaşdığı digər əsas çətinlik, süni intellekt mühəndisliyi texnikalarının daha az səmərəli olmasıdır."
"Biz eyni nəticələri əldə etmək üçün iki qat daha çox hesablama gücü sərf etməliyik. Bu, verilənlərin effektivliyindəki boşluqlarla birləşdikdə, dörd qat daha çox hesablama gücünə ehtiyac duyulması demək ola bilər. Məqsədimiz bu boşluqları daim aradan qaldırmaqdır."
Lakin DeepSeek, dəqiqlikdən ciddi şəkildə ödün vermədən yaddaş istifadəsini azaltmağın və hesablama prosesini sürətləndirməyin yollarını tapdı. Zihan Vanq bu yanaşmanı belə izah edir:
"Komanda, hardware məhdudiyyətlərini innovasiya üçün fürsətə çevirməyi sevir."
Carnegie Endowment for International Peace institutunun süni intellekt üzrə tədqiqatçısı Matt Şihan, ABŞ-ın ixrac nəzarətlərinin Çinli şirkətləri məhdud hesablama resursları ilə daha səmərəli işləmək məcburiyyətində qoyduğunu vurğulayır:
"Gələcəkdə, ehtimal ki, məhdud hesablama gücünə qarşı daha çox əməkdaşlıq və həll yolları görəcəyik."
Digər Süni İntellekt Alətlərini Həqiqətən Geridə Qoydu Mu?
Müstəqil tədqiqatçıların müqayisəli testlərində DeepSeek-in ilk modellərindən biri olan DeepSeek-V3, OpenAI-nin GPT-4o və Anthropic-in Claude Sonnet 3.5 modelləri ilə eyni səviyyədə performans göstərmişdi. Bununla yanaşı, Meta-nın Llama 3.1 və Alibaba-nın Qwen2.5 modellərini problem həlli, proqramlaşdırma və riyazi tapşırıqlar sahəsində üstələmişdi.
LiveScience-ın məlumatına görə, 20 yanvar tarixində yayımlanan DeepSeek R1, eyni testlərin əksəriyyətində OpenAI-nin ən son modeli o1-i də qabaqlayıb. Digər modellərin yüksək maliyyətinə qarşı çox daha aşağı xərclə əldə edilən bu uğur, DeepSeek R1-in yarı açıq mənbəli olması və çox daha az GPU üzərində öyrədilməsi səbəbilə süni intellekt mütəxəssislərini heyrətə salıb.
OpenAI-nin strateji tərəfdaşı Microsoft-un CEO-su Satya Nadella, 22 yanvar tarixində Dünya İqtisadi Forumu çərçivəsində verdiyi açıqlamada:
"Çində baş verən inkişafları çox, amma çox ciddiyə almalıyıq." – deyə vurğulayıb.
Lakin bu yeni modelin nə qədərinin real elmi və texniki tətbiqlərə çevriləcəyi, yoxsa DeepSeek-in modelini yalnız müqayisəli testlərdə üstün nəticə göstərməsi üçün xüsusi olaraq optimallaşdırıb-optimallaşdırmadığı hələ ki dəqiq bilinmir.
Elmi dairələr və süni intellekt sahəsinə sərmayə qoyan investorlar bu inkişafları yaxından izləyir.
Mənbə : keçid
Publisist.az saytı müəllifin subyektiv təxəyyülü fonunda cəmiyyətin aktual problemlərinə toxunur