Google har släppt Gemini 2.5 Computer Use en AI-modell som kan navigera, klicka och fylla i formulär precis som en människa gör. Det här är inte bara en vanlig AI som svarar på frågor, utan en som faktiskt kan ta kontroll över webbläsaren och utföra uppgifter åt dig genom att interagera med användargränssnitt på egen hand.
Modellen är byggd på Gemini 2.5 Pro:s visuella förståelse och resonemang, och är specialiserad för att styra agenter som kan interagera med webbsidor och appar. Den kan klicka på knappar, skriva text, scrolla, navigera mellan sidor och till och med manipulera komplexa element som dropdowns och filter.
Vad kan den göra konkret?
- Fylla i och skicka online-formulär
- Navigera mellan webbsidor genom att klicka på länkar
- Dra och släppa objekt (som att organisera digitala anteckningar)
- Manipulera dropdown-menyer och filter
- Scrolla och zooma på sidor
Den här tekniken öppnar dörren för helt automatiserade assistenter som kan hantera allt från bokningar till shopping utan att du behöver lyfta ett finger.
Google har redan börjat använda denna AI-modell i olika testsammanhang:
UI-testning, vilket kan göra mjukvaruutveckling avsevärt snabbare.
Project Mariner.
Firebase Testing Agent.
Vissa agentuella funktioner i AI-läge i Sök.
