OpenAI, istraživačka kompanija koja provodi istraživanja o umjetničkoj inteligenciji, je uspjela istrenirati par neutralnih mreža da riješe Rubikovu kocku koristeći robotsku ruku.
U članku u kojem su se pohvalili uspjehom, OpenAI su rekli da su se neutralne mreže trenirale u simulacijama, oslanjajući se na OpenAIFive kod spojen sa automatskim domenom randomizacije (Automatic Domain Randomization – ADR), što je nova tehnika koju je kompanija razvila.
OpenAI radi na projektu od proljeća 2017. godine
„Ljudske ruke nam dopuštaju da riješavamo širok raspon zadataka. U posljednjih 60 godina robotike, teški zadaci, koje su ljudi riješavali pomoću svojih ruku, su zahtjevali dizajniranje robota za svaki zadatak. Kao alternativu, ljudi su proveli mnogo decenija pokušavajući koristiti hardver robota za generalnu upotrebu, ali sa ograničenim uspjehom zbog njihove visokostepene slobode,“ napisao je OpenAI. „Specifično, hardver koji koristimo ovdje nije nov – robotska ruka koju koristimo je tu već posljednjih 15 godina – ali softverski pristup jeste novi.“
OpenAI pokušava od proljeća 2017. godine da istrenira čovjekoliku robotsku ruku da riješi Rubikovu kocku, shvatajući da će ako istreniraju robotsku ruku da riješi nešto složeno poput Rubikove kocke moći napraviti put ka treniranju robota za sve namjene. Firma je bila u mogućnosti da riješi kocku u simulaciji održanoj u julu 2017. godine, ali već u julu prošle godine robotska ruka se mogla pomjerati samo u blokovima.
Sada su ipak uspjeli stići do cilja.
„Riješavanje Rubikove kocke pomoću jedne ruke je težak zadatak čak i za ljude, te je djeci potrebno nekoliko godina da steknu spretnost kako bi se usavršili. Naš robot još uvijek nema perfektnu tehniku, s obzirom da riješava Rubikovu kocku 60% vremena (a samo 20% vremena na maksimalno teškim slučajevima),“ napisao je OpenAI u članku.
OpenAI je pomiješao staro sa novim kako bi istrenirao robotsku ruku u simulaciji
Pa kako je OpenAI uspio?
Kompanija je rekla da su istrenirali neutralne mreže koristeći nagrađivano učenje i Kociembove algoritme dok je randomizacija domene dopustila mrežama da treniraju u simulaciji i onda to prebace na robotsku ruku.
Da bi se prevladao izazov stvaranja okruženja koja su bila dovoljno raznolika u simulaciji, koristili su svoju novu ADR metodu. S njom se u simulaciji kontinuirano razvijaju progresivno sve teža okruženja. To je omogućilo prijenos neuronskih mreža naučenih u simulaciji na robotsku ruku u stvarnom svijetu.
„Pomoću ADR-a u mogućnosti smo osposobiti neuronske mreže u simulaciji koja može riješiti Rubikovu kocku u stvarnoj ruci robota. To je zato što ADR izlaže mrežu beskonačnim varijantama slučajnih simulacija. Upravo je to izlaganje složenosti tokom obuke pripremilo mrežu za prijenos iz simulacije u stvarni svijet, jer se mreža morala naučiti brzom identificiranju i prilagođivanju bilo kojem fizičkom svijetu s kojim je suočena.“
Originalan članak možete pročitati na linku.