Kodsnack 554 - Kontroll på båda sidor av språkmodellen, med Daniel Mauno Pettersson

2023-11-28 05:26

Ladda ner (mp3) Öppna länkar i nya flikar

Fredrik får besök av Daniel Mauno Pettersson och de diskuterar vad och hur man kan bygga på språkmodeller. Gränssnittstester, till exempel, som Daniel och hans företag ägnar sig åt.

Vi är i generativ AI:s absoluta barndom, det finns långt mycket fler saker vi inte vet om vad som kommer att hända än vad vi vet kan hända eller faktiskt har hänt.

Varför vill man kombinera AI och testning? Eller omvänt: varför har inte mer hänt kring testning? Varför skriver vi tester på ungefär samma sätt, och ofta från grunden för varje projekt trots att så mycket egentligen är lika? Testning av gränssnitt är också ett sammanhang där man faktiskt kan göra det till en styrka att generativ AI inte ger exakt samma resultat varje gång - istället får du över tid en variation på testerna som kan upptäcka nya saker. (Givetvis med utförlig loggning av vad som gjorts, hur och när.)

Ska man skriva något som är helt deterministiskt och alltid ger samma resultat så finns det redan bra verktyg.

Hur vidareutvecklar man något som inte är deterministiskt? Hur vet man att ens justeringar faktiskt gör saker bättre? Här finns utrymme för väldigt många bättre verktyg!

Man behöver ha kontroll på båda sidor av språkmodellen - man måste ju kunna analysera och försöka justera efter resultaten.

Ett stort tack till Cloudnet som sponsrar vår VPS!

Har du kommentarer, frågor eller tips? Vi är @kodsnack, @thieta, @krig, och @bjoreman på Mastodon, har en sida på Facebook och epostas på info@kodsnack.se om du vill skriva längre. Vi läser allt som skickas.

Gillar du Kodsnack får du hemskt gärna recensera oss i iTunes! Du kan också stödja podden genom att ge oss en kaffe (eller två!) på Ko-fi, eller handla något i vår butik.

Länkar

Daniel
Billogram
Dooer
Memmo
QA.tech
Cypress
Playwright
Acceptanskriterier
Function calling
CI - continuous integration
552 - “förra avsnittet”
False positives
False negatives
Superagent - bygger autonoma agenter
Super agent - blockerar cookiepopuper
Langchain
Portkey - frågar flera språkmodeller
“GPT:er” - egna specialversioner av Chatgpt
I am rich-appen

Titlar

AI-baserad testning
Hela vägen upp i trappan
Den som råkar kunna lite programmering
Vår tids stora skifte
Generera tester
En helt ny typ av testning
Börja testa allt
Allt som är normalflöden
Deterministiskt tänk på något som inte är deterministiskt
En kedja av prompts
Kontroll på båda sidor av språkmodellen
Man vet ingenting om väldigt många saker