Moni kielimallin käyttäjä on varmasti huomannut mallien taipumuksen olla hyvin samaa mieltä käyttäjän kanssa. Minkä tahansa kysymyksen jälkeen kielimalli kehuu kysymystäsi tai huomiokykyäsi. Tähän kielimallien taipumukseen miellyttää ihmisiä käytetään termiä "sycophancy" (suomeksi imartelu). Käytännössä se siis tarkoittaa sitä, että kielimalli saattaa olla käyttäjän kanssa samaa mieltä silloinkin kun käyttäjä antaa virheellistä tietoa. (1) Miksi kielimallit käyttäytyvät näin?
Imartelu on seurausta koulutusprosessista, jossa mallin toimintaa ohjataan ihmisille miellyttävämmäksi (Reinforcement Learning from Human Feedback tai RLHF). (1) Prosessissa oikeat ihmiset antavat pisteitä mallin vastauksista ja mallia "palkitaan" oikeista vastauksista. Tämä prosessi tekee kielimallin vastauksista ihmisille miellyttävämpiä. Toisaalta, koska ihmiset antavat alitajuisesti parempia pisteitä vastauksille jotka vahvistavat heidän omia arvojaan, malli oppii miellyttämään ihmisiä. Kielimallin imartelusta johtuvat virheet voidaan jakaa neljään kategoriaan: virheellinen arviointi, liian helppo mielen muuttaminen, virheelliset vastaukset, ja käyttäjän virheiden toistaminen. (1)
Näiden virheiden vaikutuksia voidaan vähentää huomioimalla ne kielimalleja käytettäessä. Käytän esimerkkeinä ohjelmistokehityksen tilanteita, sillä kyseiset virhetilanteet ovat minulle hyvin tuttuja:
- Virheellisen arvioinnin välttäminen: Kun pyydät kielimallia arvioimaan koodia, voit antaa syntipukiksi jonkun toisen. kerro koodin olevan työkaverisi tekemä, ja se pitäisi arvioida. Näin saat suorempaa palautetta.
- Helpon mielen muuttamisen ja puolueellisten vastausten välttäminen: Oman mielipiteen paljastaminen saattaa ohjata mallin vastausta. Kielimallilta kannattaa kysyä lähestymistavan hyviä ja huonoja puolia sen sijaan että ehdottaa suoraan lähestymistapaa.
- Virheiden toistamisen välttäminen: Tämä on ohjelmistokehityksessä hankalaa. Kun kielimalli toistaa näkemiään virheitä, huonojen käytännöt leviävät helposti koodikantaan. Tämän hallitsemiseen tarvitaan päteviä kehittäjiä.
Yhteenvetona voidaan todeta, että vaikka kielimalleilla on taipumus imarteluun, sen vaikutuksia voidaan lieventää. Yllä esitettyjen tekniikoiden avulla vuorovaikutusta voidaan ohjata kohti objektiivisempia ja totuudenmukaisempia tuloksia. Jatkossa kielimallien kehittäjät ovat motivoituneita laskemaan mallien taipumusta imarteluun. Esimerkiksi OpenAI lisäsi GPT-5 mallin koulutukseen vaiheita, jotka vähentävät mallin tätä ominaisuutta. (2)
Linkit:
- Towards Understanding Sycophancy in Language Models (https://openreview.net/forum?id=tvhaxkMKAn)
- GPT-5 System Card (https://openai.com/index/gpt-5-system-card/)







