Kineska tvrtka za umjetnu inteligenciju (AI) DeepSeek izazvala je šok u tehnološkoj zajednici lansiranjem iznimno učinkovitih modela AI koji se mogu natjecati s vrhunskim proizvodima američkih tvrtki kao što su OpenAI i Anthropic.
DeepSeekov “rezonirajući” R1 model, objavljen prošli tjedan, izazvao je uzbuđenje među istraživačima, šok među investitorima i reakcije AI teškaša. Tvrtka je 28. siječnja objavila model koji može raditi sa slikama kao i s tekstom.
Dakle, što je DeepSeek učinio i kako je to učinio?
U prosincu je DeepSeek objavio svoj V3 model. Ovo je vrlo moćan “standardni” veliki jezični model koji radi na sličnoj razini kao OpenAI-jev GPT-4o i Anthropicov Claude 3.5.
Iako su ovi modeli skloni pogreškama i ponekad izmišljaju vlastite činjenice, mogu obavljati zadatke poput odgovaranja na pitanja, pisanja eseja i generiranja računalnog koda. Na nekim testovima rješavanja problema i matematičkog zaključivanja postižu bolje rezultate od prosječnog čovjeka.
V3 je osposobljen uz prijavljenu cijenu od oko 5,58 milijuna američkih dolara. To je dramatično jeftinije od GPT-4, na primjer, čiji razvoj košta više od 100 milijuna USD.
DeepSeek također tvrdi da je trenirao V3 koristeći oko 2000 specijaliziranih računalnih čipova, posebno H800 GPU-a koje je izradila NVIDIA. To je opet puno manje od drugih tvrtki, koje su možda koristile do 16.000 snažnijih H100 čipova.
20. siječnja DeepSeek je objavio još jedan model, nazvan R1. Ovo je takozvani model “rezoniranja”, koji pokušava proći kroz složene probleme korak po korak. Čini se da su ti modeli bolji u mnogim zadacima koji zahtijevaju kontekst i imaju više međusobno povezanih dijelova, kao što su razumijevanje pročitanog i strateško planiranje.
Model R1 je prilagođena verzija V3, modificirana tehnikom koja se zove učenje s pojačanjem. Čini se da R1 radi na sličnoj razini kao OpenAI o1, koji je objavljen prošle godine.
DeepSeek je također koristio istu tehniku za izradu “racionalnih” verzija malih modela otvorenog koda koji se mogu izvoditi na kućnim računalima.
Ovo je izdanje potaknulo veliki val interesa za DeepSeek, povećavši popularnost njegove chatbot aplikacije pokretane V3 i potaknuvši veliki pad cijena tehnoloških dionica dok investitori ponovno procjenjuju AI industriju.
Kako je DeepSeek to uspio?
Proboj DeepSeek-a bio je u postizanju veće učinkovitosti: postizanje dobrih rezultata s manje resursa. Konkretno, programeri DeepSeek-a su bili pioniri u dvije tehnike koje bi istraživači umjetne inteligencije mogli usvojiti u širem smislu.
Prvi je povezan s matematičkom idejom zvanom “sparsity”. Modeli umjetne inteligencije imaju mnogo parametara koji određuju njihove odgovore na ulaze (V3 ima oko 671 milijardu), ali samo mali dio tih parametara koristi se za bilo koji unos.
Međutim, nije lako predvidjeti koji će parametri biti potrebni. DeepSeek je upotrijebio novu tehniku da to učini, a zatim je trenirao samo te parametre. Kao rezultat toga, njegovi modeli zahtijevaju puno manje obuke nego konvencionalni pristup.
Drugi trik je povezan s načinom na koji V3 pohranjuje informacije u memoriju računala. DeepSeek je pronašao pametan način komprimiranja relevantnih podataka, tako da ih je lakše pohraniti i brzo im pristupiti.
Izvor: Science Alert
Komentari