Generatyvusis dirbtinis intelektas kaip žmogaus koduotojų pakaitalas atliekant didelės apimties sudėtingą teksto analizę: nauji įrodymai iš didelių kalbų modelių

Istoriškai ekonomistų duomenų analizės įgūdžiai buvo sutelkti į struktūrizuotus lentelių duomenis. Tačiau sparčiai plečiantis skaitmeninimui, tekstiniai duomenys tapo vertingu šaltiniu tiriant reiškinius, kuriuos dažnai sunku išspręsti taikant tradicinius kiekybinius metodus (Gentzkow ir kt., 2019). Pavyzdžiui, teksto analizė leido tyrėjams tyrinėti daugybę temų, įskaitant centrinio banko komunikacijos ir politikos pranešimų analizę makroekonominėms įžvalgoms gauti (pvz., Demirel 2012), įmonių infliacijos lūkesčių tyrimą (pvz., Thwaites 2022), emocinio užkrato socialinėje žiniasklaidoje tyrimą. (pvz., Kramer ir kt. 2014), nagrinėjant lyčių stereotipus filmuose (pvz., Gálvez ir kt. al., 2018), ir vertinant žiniasklaidos nušvietimą politiniams rezultatams (pvz., Caprini 2023) ir akcijų rinkos elgsenai (pvz., Dougal ir kt., 2012).

Nepaisant didžiulio potencialo, didelio masto teksto analizė kelia didelių iššūkių (Barberá ir kt., 2021). Kaip pažymi Ashas ir Hansenas (2023), ekonomistai dažniausiai rėmėsi trimis pagrindiniais metodais, kad tai išspręstų: (1) rankinis kodavimas, atliktas užsakomųjų programuotojų, (2) žodynais pagrįsti metodai ir (3) prižiūrimi mašininio mokymosi modeliai. Tačiau kiekvienas iš jų turi reikšmingų apribojimų. Užsakomasis rankinis kodavimas yra brangus, reikalauja daug laiko ir dažnai priklauso nuo programuotojų, neturinčių konkrečios srities patirties. Žodynais pagrįsti metodai nesugeba užfiksuoti kontekstinių niuansų, todėl atsiranda netikslumų. Tuo tarpu prižiūrimas mašininis mokymasis reikalauja didelių techninių įgūdžių ir didelių, pažymėtų duomenų rinkinių – išteklių, kurie ne visada yra lengvai prieinami (Gilardi ir kt., 2023, Rathje ir kt., 2024).

Generatyvieji didelių kalbų modeliai (LLM) yra perspektyvi alternatyva didelės apimties teksto analizei. Skirtingai nuo tradicinių prižiūrimų mokymosi metodų, dabartiniai LLM laikomi puikiai tinkančiais sudėtingoms teksto analizės užduotims atlikti nereikalaujant konkrečioms užduotims skirto mokymo, o tai veiksmingai veikia kaip „nulinis besimokantysis“ (Kojima ir kt., 2022). Neseniai paskelbtame dokumente (Bermejo ir kt., 2024a) mes palyginome keletą pažangiausių LLM su skatinamais koduotojais, atliekančiais sudėtingas teksto analizės užduotis. Rezultatai atskleidžia, kad šiuolaikinės LLM suteikia ekonomistams ekonomiškai efektyvų ir prieinamą pažangios teksto analizės sprendimą, žymiai sumažinant programavimo patirties ar didelių pažymėtų duomenų rinkinių poreikį.

Turinys;

Sąranka

Tyrime nagrinėjamas 210 Ispanijos naujienų straipsnių korpusas, apimantis visos šalies fiskalinio konsolidavimo programą, paveikusią daugiau nei 3000 savivaldybių (žr. Bermejo ir kt., 2024b). Šis korpusas ypač tinka kontekstiniam supratimui patikrinti, nes straipsniuose pateikiami sudėtingi politiniai ir ekonominiai naratyvai, reikalaujantys gilių žinių apie vietos valdžios struktūras, politinius veikėjus ir politikos pasekmes. Be to, straipsniuose dažnai pateikiamos sudėtingos diskusijos apie fiskalinę politiką, politinę kritiką ir institucinius santykius, kurias būtų sunku išanalizuoti naudojant paprastą raktinių žodžių atitiktį arba paviršutinišką skaitymą.

Buvo pasirinktas bendras penkių vis sudėtingesnių užduočių rinkinys, kuris bus įvertintas taikant skirtingas kodavimo strategijas visuose naujienų straipsniuose, kiekvienai užduočiai reikia laipsniškai gilesnės kontekstinės analizės. Užduotys yra tokios:

T1: nustatykite visas straipsnyje minimas savivaldybes, naudodami žymeklio našumą, išmatuotą pagal makrovidutinį F1 balą (metriką, subalansuojančią teisingas ir praleistas išvadas).
T2: nustatykite bendrą paminėtų savivaldybių skaičių, o žymeklio našumas išmatuotas pagal vidutinę absoliučią paklaidą (mažesnės vertės rodo geresnį našumą).
T3: nustatykite, ar savivaldybės valdžia yra kritikuojama, žymeklio veikimą matuojant tikslumu.
T4: nustatykite, kas kritikuoja, o žymeklio našumas matuojamas tikslumu (leidžiama naudoti kelias teisingas etiketes).
T5: nustatykite, kas yra kritikuojamas, o žymeklio našumas matuojamas tikslumu (leidžiama naudoti kelias teisingas etiketes).

Šios užduotys buvo atliktos pagal tris skirtingas kodavimo strategijas:

Aukštos kvalifikacijos žmonių koduotojai (auksinio standarto etiketės). Auksinio standarto etiketės buvo sukurtos griežtu procesu, kuriame dalyvavo aukštos kvalifikacijos programuotojai (autoriai ir apmokytas tyrimų asistentas). Šis procesas apėmė kelis etikečių ženklinimo etapus ir svarstymus, kad būtų pasiektas sutarimas, todėl buvo pasiektas didelis tarpkoduotojų susitarimų skaičius. Susitarimas buvo matuojamas kaip atitikimo žymų dalis tarp pirmojo ir antrojo kodavimo etapų, pasiekiančių > 80 % visose užduotyse ir viršijančios 70 % susitarimo slenkstį, kuris literatūroje paprastai laikomas priimtinu (Graham ir kt., 2012). Šios etiketės yra etalonas, pagal kurį vertinamos kitos kodavimo strategijos (Song ir kt., 2020). Iš esmės jie atspindi „teisingus“ atsakymus, kuriuos turėtų atkartoti kitos strategijos.
LLM kaip koduotojai. Keturi pirmaujantys LLM – GPT-3.5-turbo, GPT-4-turbo, Claude 3 Opus ir Claude 3.5 Sonnet – buvo išbandyti naudojant nulinio mokymosi metodą. Kiekvienas modelis kiekvieną straipsnį analizavo du kartus, kad įvertintų užduočių našumą ir nuoseklumą.
Užsakomieji žmogiškieji programuotojai. Universiteto studentai iš ESADE, Ispanijoje esančio universiteto, buvo įdarbinti kaip užsakomieji programuotojai. Šie studentai, pirmiausia Ispanijos piliečiai, turintys atitinkamų kalbinių ir kultūrinių žinių, dalyvavo skatinamajame internetiniame tyrime. Kiekvienas studentas užkodavo tris straipsnius su kokybės kontrolėmis ir dėmesio patikra, kad būtų užtikrintas duomenų patikimumas. Galutinę imtį sudarė 146 dalyviai. Šis metodas atspindi įprastą mokslinių tyrimų praktiką, kai universitetų studentai arba laikini darbuotojai įdarbinami kodavimo užduotims atlikti.

Pagrindinės išvados

Kodavimo strategijų našumas

1 paveiksle pavaizduotas užsakomųjų žmogaus programuotojų ir LLM darbas atliekant visas užduotis. Paskutiniame skydelyje („Viskas teisinga“) rodoma naujienų straipsnių, kuriuose skirtingi programuotojai sėkmingai atliko visas penkias užduotis, dalis.

1 pav Bendras našumas, visos užduotys ir kodavimo strategijos

Vizualinis 1 paveikslo patikrinimas rodo, kad visos LLM visose užduotyse pranoksta išorinius programuotojus. Nors GPT-3.5-turbo (seniausias ir mažiausiai pažengęs LLM išbandytas) pranoksta žmogaus kodavimo įrenginius, jis atsilieka nuo kitų LLM modelių. Tarp lyginamų modelių Claude 3.5 Sonnet ir GPT-4-turbo (pažangiausias) pasiekia aukščiausius bendrus balus. Šis rezultatas rodo, kad LLM ir toliau augant galingesniems, našumo atotrūkis tarp jų ir užsakomųjų programuotojų greičiausiai didės.

LLM našumo pranašumas galioja net tada, kai atsižvelgiama į užduoties sunkumus. 2 paveiksle parodyta, kad moderniausi LLM paprastai lenkia užsakomuosius programuotojus atliekant sudėtingesnes užduotis, kai užduotis laikoma sudėtinga, jei bent du autoriai iš pradžių nesutarė dėl teisingo atsakymo kurdami auksinio standarto etiketes.

2 pav Našumas pagal straipsnio sunkumą, atliekant užduotis ir kodavimo strategijas

Kiti atradimai

Yra žinoma, kad teksto ilgis turi įtakos tiek LLM, tiek žmogaus koduotojų našumui. Naujienų straipsnių klasifikavimas į „ilgus“ arba „įprastus“ pagal žodžių skaičių atskleidė, kad ilgesni straipsniai kelia didesnių iššūkių tiek LLM, tiek užsakomiesiems programuotojams, o ilgesnių tekstų našumas paprastai mažėja. Pažymėtina, kad LLM pranoksta ilgesnių straipsnių programuotojus ir netgi pasiekia geresnį ilgų tekstų našumą nei užsakomi programuotojai trumpesniuose straipsniuose.
Siekiant patikrinti, ar užsakomieji žmogaus programuotojai teisingai atliko užduotis ir laikėsi tyrimo reikalavimų, buvo atlikti permutacijos testai užduotėms nuo T1 iki T5. Šie testai nustatė, ar jų našumas gerokai viršijo atsitiktinę galimybę. Rezultatai patvirtino, kad programuotojai pateikė prasmingus, o ne atsitiktinius atsakymus.

Kaina ir įgyvendinimo pranašumai

LLM išlaidų pranašumai yra reikšmingi. Visų užduočių vykdymas visame korpuse kainavo tik 0,20 USD naudojant GPT-3.5-turbo, 3,46 USD su GPT-4, 8,53 USD su Claude 3 Opus ir 2,28 USD su Claude 3.5 Sonnetu. Kiekvienu atveju visas atsakymų rinkinys buvo pateiktas per kelias minutes. Priešingai, užsakomasis žmogaus kodavimo metodas pareikalavo didelių investicijų: internetinės anketos sukūrimas, 146 dalyvių įdarbinimas ir valdymas bei viso duomenų rinkimo proceso koordinavimas, o tai pareikalavo didelių laiko ir logistinių išlaidų. Duomenų rinkimas iš visų dalyvių užtruko apie 98 dienas. Be išlaidų ir laiko taupymo, LLM taip pat užtikrina veiklos paprastumą per paprastus API iškvietimus, todėl nebereikia pažangių programavimo žinių ar žmonių pažymėtų mokymo duomenų.

Pasekmės

Mūsų tyrime pabrėžiamas augantis šiuolaikinių generatyvių LLM, kaip galingų, ekonomiškų didelio masto teksto analizės įrankių, potencialas. Rezultatai rodo, kad LLM nuolat lenkia užsakomuosius programuotojus atliekant įvairias užduotis. Šios išvados pabrėžia reikšmingus LLM panaudojimo teksto analizei pranašumus, o tai rodo, kad dabartinės natūralios kalbos apdorojimo technologijos pasiekė tašką, kai mokslininkai ir praktikai, nepaisant techninių žinių, gali sklandžiai įtraukti pažangius teksto analizės metodus į savo darbą. Be to, toliau tobulėjant naujesnėms LLM kartoms, gali padidėti atotrūkis tarp žmogaus koduotojų ir šių modelių, todėl LLM tampa vis vertingesniu ištekliu ekonomistams.

Nuorodos

Ash, E ir S Hansen (2023), „Teksto algoritmai ekonomikoje“, Ekonomikos metinė apžvalga 15: 659–688.

Barberá, P, A Boydstun, S Linn, R McMahon ir J Nagler (2021), „Automatizuota naujienų straipsnių tekstinė klasifikacija: praktinis vadovas“, Politinė analizė 29(1): 1942.

Bermejo, V, A Gago, R Gálvez ir N Harari (2024a), „LLM viršija užsakomuosius programuotojus sudėtingos tekstinės analizės srityje“, kurį galima rasti SSRN.

Bermejo, V, A Gago, J Abad ir F Carozzi (2024b), „Blaming Your Prececessor: Government Turnover and External Financial Assistance“, pasiekiama SSRN.

Caprini, G (2023), „Ar kandidatų parodymas žiniasklaidoje turi įtakos balsų dalims? Įrodymai iš popiežiaus naujienų“, Viešosios ekonomikos žurnalas 220, 104847.

Demirel, U (2021), „Trumpalaikis mokesčių pokyčių poveikis: valstybės priklausomybės vaidmuo“, Monetarinės ekonomikos žurnalas 117: 918–934.

Dougal, C, J Engelberg, D Garcia ir C Parsons (2012), „Žurnalistai ir akcijų rinka“, Finansų studijų apžvalga 25(3): 639–679.

Gálvez, R, V Tiffenberg ir E Altszyler (2018), „Stereotipinių asociacijų tarp lyties ir intelektinių gebėjimų kiekybinis įvertinimas filmuose“, VoxEU.org, balandžio 1 d.

Gentzkow, M, B Kelly ir M Taddy (2019), „Tekstas kaip duomenys“, Ekonomikos žurnalas 57(3): 535-574.

Gilardi, F, M Alizadeh ir M Kubli (2023), „ChatGPT lenkia minios darbuotojus atliekant teksto komentarų užduotis“, Nacionalinės mokslų akademijos darbai 120(30), e2305016120.

Graham, M, A Milanowski ir J Miller (2012), „Mokytojų ir vadovų veiklos įvertinimų vertinimas ir skatinimas“, (Sl): ERIC Clearinghouse. Elektroninis šaltinis.

Kojima, T, S Gu, M Reid, Y Matsuo ir Y Iwasawa (2022), „Didelių kalbų modeliai yra nuliniai, Neuroninės informacijos apdorojimo sistemų pažangat. 35, Curran Associates.

Kramer, A, J Guillory ir J Hancock (2014), „Eksperimentiniai didžiulio masto emocinio užkrato per socialinius tinklus įrodymai“, Nacionalinės mokslų akademijos darbai 111(24): 8788–8790.

Rathje, S, D Mirea, I Sucholutsky, R Marjieh, C Robertson ir JJ Van Bavel, „GPT yra veiksminga daugiakalbio psichologinio teksto analizės priemonė“, Nacionalinės mokslų akademijos darbai 121(34): e2308950121.

Song, H, P Tolochko, JM Eberl, O Eisele, E Greussing, T Heidenreich, F Lind, S Galyga ir H Boomgaarden (2020), „In Validations We Trust? Netobulų žmonių komentarų, kaip auksinio standarto, įtaka automatizuotos turinio analizės patvirtinimo kokybei. Politinė komunikacija 37(4): 550–572.

Thwaites, G, I Yotzov, O Ozturk, P Mizen, P Bunn, N Bloom ir L Anayi (2022), „Firm inflation expectations in kvantitative and text data“, VoxEU.org, gruodžio 8 d.

Source link

Sąranka

Pagrindinės išvados

Kodavimo strategijų našumas

Kiti atradimai

Kaina ir įgyvendinimo pranašumai

Pasekmės

Nuorodos

Susijusios naujienos

Fiskalinių taisyklių laikymasis ir valstybės skolinimosi išlaidos: keletas įrodymų iš euro zonos

From Post-Brexit Stabilisation to Strategic Partnership

Europa kenčia ne tiek nuo santaupų „bėgimo“, kiek dėl nepakankamo paskirstymo akcijoms.

Europe’s Call for Greater Independence