Dok umjetna inteligencija (AI) doseže vrhunac svoje popularnosti, istraživači su upozorili da bi industriji moglo ponestati podataka za obuku – goriva koje pokreće moćne AI sustave.
To bi moglo usporiti rast modela umjetne inteligencije, posebno velikih jezičnih modela, a moglo bi čak i promijeniti putanju revolucije umjetne inteligencije.
Ali zašto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na webu? I postoji li način da se riješi rizik?
Zašto su podaci visoke kvalitete važni za AI?
Potrebno nam je puno podataka za treniranje moćnih, točnih i visokokvalitetnih AI algoritama. Na primjer, ChatGPT je treniran na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi riječi.
Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih AI aplikacija za generiranje slika kao što su DALL-E, Lensa i Midjourney) obučen je na skupu podataka LIAON-5B koji se sastoji od 5,8 milijardi parova slika-tekst. Ako se algoritam obučava na nedovoljnoj količini podataka, proizvodit će netočne ili nekvalitetne rezultate.
Kvaliteta podataka o obuci također je važna. Lako je pronaći podatke niske kvalitete kao što su objave na društvenim mrežama ili mutne fotografije, ali oni nisu dovoljni za treniranje visokoučinkovitih AI modela.
Tekst preuzet s platformi društvenih medija može biti pristran ili s predrasudama, ili može uključivati dezinformacije ili nezakonit sadržaj koji bi model mogao replicirati. Na primjer, kada je Microsoft pokušao istrenirati svog AI bota koristeći sadržaj Twittera, naučio je proizvoditi rasističke i mizogine rezultate.
Zbog toga programeri umjetne inteligencije traže sadržaj visoke kvalitete kao što su tekstovi iz knjiga, online članci, znanstveni radovi, Wikipedia i određeni filtrirani web sadržaj. Google pomoćnik obučen je na 11.000 ljubavnih romana preuzetih sa stranice za samoizdavanje Smashwords kako bi bio razgovorljiviji.
Imamo li dovoljno podataka?
Industrija umjetne inteligencije obučava sustave umjetne inteligencije na sve većim skupovima podataka, zbog čega sada imamo modele visokih performansi kao što su ChatGPT ili DALL-E 3. Istodobno, istraživanja pokazuju da online zalihe podataka rastu puno sporije od korištenih skupova podataka trenirati AI.
U radu objavljenom prošle godine, skupina istraživača predvidjela je da ćemo ostati bez visokokvalitetnih tekstualnih podataka prije 2026. ako se trenutni trendovi obuke umjetne inteligencije nastave. Također su procijenili da će jezični podaci niske kvalitete biti iscrpljeni negdje između 2030. i 2050., a slikovni podaci niske kvalitete između 2030. i 2060.
AI bi mogao pridonijeti do 15,7 trilijuna američkih dolara svjetskom gospodarstvu do 2030., prema računovodstvenoj i konzultantskoj grupi PwC. Ali ponestanak upotrebljivih podataka mogao bi usporiti njegov razvoj.
Trebamo li biti zabrinuti?
Iako bi gore navedene točke mogle alarmirati neke ljubitelje umjetne inteligencije, situacija možda i nije tako loša kao što se čini. Postoje mnoge nepoznanice o tome kako će se modeli umjetne inteligencije razvijati u budućnosti, kao i nekoliko načina za rješavanje rizika od nedostatka podataka.
Jedna je prilika za programere umjetne inteligencije da poboljšaju algoritme kako bi učinkovitije koristili podatke koje već imaju.
Vjerojatno će u nadolazećim godinama moći trenirati visokoučinkovite AI sustave koristeći manje podataka, a vjerojatno i manje računalne snage. To bi također pomoglo u smanjenju ugljičnog otiska umjetne inteligencije.
Druga je mogućnost korištenje umjetne inteligencije za stvaranje sintetičkih podataka za obuku sustava. Drugim riječima, programeri mogu jednostavno generirati podatke koji su im potrebni, odabrani tako da odgovaraju njihovom određenom modelu umjetne inteligencije.
Nekoliko projekata već koristi sintetički sadržaj, često potječu iz usluga za generiranje podataka kao što je Mostly AI. To će u budućnosti postati sve češće.
Programeri također traže sadržaje izvan besplatnog online prostora, poput onih velikih izdavača i izvanmrežnih repozitorija. Razmislite o milijunima tekstova objavljenih prije interneta. Budući da su dostupni digitalno, mogli bi pružiti novi izvor podataka za projekte umjetne inteligencije.
News Corp, jedan od najvećih svjetskih vlasnika sadržaja vijesti (koji ima veliki dio svog sadržaja iza paywalla) nedavno je rekao da pregovara o ugovorima o sadržaju s programerima umjetne inteligencije. Takvi dogovori prisilili bi tvrtke AI-ja da plaćaju podatke o obuci – dok su ih do sada uglavnom besplatno crpili s interneta.
Kreatori sadržaja prosvjedovali su protiv neovlaštenog korištenja njihovog sadržaja za treniranje AI modela, a neki su tužili tvrtke kao što su Microsoft, OpenAI i Stability AI. Plaćanje za njihov rad može pomoći u ponovnom uspostavljanju neravnoteže moći koja postoji između kreativaca i AI tvrtki.
Izvor: Science Alert
Komentari