Skip to content
PROSJEKT 04 / 11

Autoonyx

AI-dokumentautomasjon — OCR, lokal LLM, Nextcloud, kalender.

→ Personlig innboks på autopilot i 18 måneder.

  • LLM
  • Selvhostet
  • Automasjon

En personlig dokumentautomasjons-rigg som har kjørt uovervåket i bakgrunnen i over et år. Bygget opprinnelig fordi håndteringen av innkommende PDF-er — kvitteringer, fakturaer, offentlig korrespondanse, årsoppgjør — spiste en time i uken og ga ingenting tilbake.

Pipelinen

┌─[ 00 INNBOKS ]───────────────────────────────────────┐
│ > vedlegg · kvitteringer · fakturaer · skanninger    │
└─────────────────────────┬────────────────────────────┘
                          ▼
┌─[ 01 OCR ]───────────────────────────────────────────┐
│                                                      │
│   pdf / bilde ──> tesseract ──> rå tekst             │
│                                                      │
└─────────────────────────┬────────────────────────────┘
                          ▼
┌─[ 02 KLASSIFISÉR ]───────────────────────────────────┐
│                                                      │
│   lokal LLM ──> intensjon ──> feltuttrekking         │
│                                                      │
└─────────────────────────┬────────────────────────────┘
                          ▼
┌─[ 03 RUT ]───────────────────────────────────────────┐
│   ──> nextcloud   (sortert på kategori + år)         │
│   ──> kalender    (frister, påminnelser)             │
│   ──> regnskap    (CSV-rad, dobbel bokføring)        │
│   ──> innboks     (kun hvis mennesket må vurdere)    │
└──────────────────────────────────────────────────────┘
Personlig innboks på autopilot i 18 måneder: dokumenter leser seg selv, arkiverer seg selv, og booker møtene.

Alt unntatt siste steg er automatisk. «Menneske må vurdere»-innboksen får ~3 saker i måneden — en sunn fall-gjennom-rate, ikke en 90 % bom.

Hva som er lokalt vs. ikke

Alt sammen er lokalt. Tesseract på maskinen, Ollama med en 7B-klasse modell for klassifisering, en litt større modell for uttrekking der strukturert output betyr noe. Ingen dokumenter forlater hjemmenettverket. Det var hele poenget — alternativet var å laste opp husholdnings-PII til en tredjepart.

Avveiingen er at klassifiseringskvaliteten er god-nok heller enn state-of-the-art, og noen dokumenttyper (håndskrevne notater, lavoppløselige fakser — ja, fakser) trenger fortsatt menneske-innboksen. Lever med det.

Stack

  • Watch-and-process-daemon i Python, systemd-administrert
  • Tesseract OCR med norsk + engelsk språkpakker
  • Ollama for LLM-hoppet, byttbar per oppgave
  • Nextcloud for arkivering, med WebDAV skrive-stier
  • En liten SQLite-regnskap som alt finansielt flyter gjennom
  • Caldav for kalender-pushes; iCal-feed for tilbake-lesing

Status: personlig verktøy, kontinuerlig. Repoet er ikke offentlig — prompt-malene har mange husholdningsspesifikker. Mønsteret er generaliserbart, hyggelig å snakke gjennom.

← tilbake til arbeid

esc
naviger åpne esc lukk